El Hub de Hugging Face para Galerías, Bibliotecas, Archivos y Museos

'Hugging Face Hub for Galleries, Libraries, Archives, and Museums'

El Hub de Hugging Face para galerías, bibliotecas, archivos y museos

¿Qué es el Hub de Hugging Face?

Hugging Face tiene como objetivo hacer que el aprendizaje automático de alta calidad sea accesible para todos. Este objetivo se persigue de diversas formas, incluyendo el desarrollo de bibliotecas de código abierto como la ampliamente utilizada biblioteca Transformers, ofreciendo cursos gratuitos y proporcionando el Hub de Hugging Face.

El Hub de Hugging Face es un repositorio central donde las personas pueden compartir y acceder a modelos de aprendizaje automático, conjuntos de datos y demos. El Hub aloja más de 190,000 modelos de aprendizaje automático, 33,000 conjuntos de datos y más de 100,000 aplicaciones y demos de aprendizaje automático. Estos modelos abarcan una amplia gama de tareas, desde modelos de lenguaje pre-entrenados, modelos de clasificación de texto, imagen y audio, modelos de detección de objetos, hasta una amplia gama de modelos generativos.

Los modelos, conjuntos de datos y demos alojados en el Hub abarcan una amplia gama de dominios e idiomas, con esfuerzos regulares de la comunidad para ampliar el alcance de lo que está disponible a través del Hub. Esta publicación de blog tiene la intención de ofrecer a las personas que trabajan en o con el sector de galerías, bibliotecas, archivos y museos (GLAM) la comprensión de cómo pueden usar y contribuir al Hub de Hugging Face.

¡Puedes leer toda la publicación o saltar a las secciones más relevantes!

  • Si no sabes qué es el Hub, empieza por: ¿Qué es el Hub de Hugging Face?
  • Si quieres saber cómo puedes encontrar modelos de aprendizaje automático en el Hub, empieza por: ¿Cómo puedes usar el Hub de Hugging Face: encontrar modelos relevantes en el Hub?
  • Si quieres saber cómo puedes compartir conjuntos de datos GLAM en el Hub, empieza por: Recorrido: Agregar un conjunto de datos GLAM al Hub.
  • Si quieres ver algunos ejemplos, echa un vistazo a: Ejemplos de uso del Hub de Hugging Face

¿Qué puedes encontrar en el Hub de Hugging Face?

Modelos

El Hub de Hugging Face proporciona acceso a modelos de aprendizaje automático que cubren diversas tareas y dominios. Muchas bibliotecas de aprendizaje automático tienen integraciones con el Hub de Hugging Face, lo que te permite usar o compartir directamente modelos en el Hub a través de estas bibliotecas.

Conjuntos de datos

El Hub de Hugging Face aloja más de 30,000 conjuntos de datos. Estos conjuntos de datos abarcan una variedad de dominios y modalidades, incluyendo texto, imagen, audio y conjuntos de datos multimodales. Estos conjuntos de datos son valiosos para entrenar y evaluar modelos de aprendizaje automático.

Espacios

Hugging Face Spaces es una plataforma que te permite alojar demos y aplicaciones de aprendizaje automático. Estos espacios van desde demos simples que te permiten explorar las predicciones realizadas por un modelo de aprendizaje automático hasta aplicaciones más complejas.

Los espacios facilitan el alojamiento y la accesibilidad de tu aplicación para que otros la puedan utilizar. Puedes utilizar los espacios para alojar aplicaciones de Gradio y Streamlit, o puedes utilizar los espacios para imágenes personalizadas de Docker. El uso combinado de Gradio y Spaces a menudo significa que puedes tener una aplicación creada y alojada con acceso para que otros la utilicen en cuestión de minutos. Puedes utilizar los espacios para alojar una imagen de Docker si deseas tener un control completo sobre tu aplicación. También hay plantillas de Docker que te brindan acceso rápido a una versión alojada de muchas herramientas populares, incluyendo las herramientas de anotaciones Argailla y Label Studio.

¿Cómo puedes usar el Hub de Hugging Face: encontrar modelos relevantes en el Hub?

Hay muchos casos de uso potenciales en el sector GLAM donde los modelos de aprendizaje automático pueden ser útiles. Mientras que algunas instituciones pueden tener los recursos necesarios para entrenar modelos de aprendizaje automático desde cero, puedes utilizar el Hub para encontrar modelos compartidos abiertamente que ya hagan lo que deseas o estén muy cerca de tu objetivo.

Como ejemplo, si estás trabajando con una colección de documentos noruegos digitalizados con metadatos mínimos. Una forma de comprender mejor lo que hay en la colección es utilizar un modelo de Reconocimiento de Entidades Nombradas (NER). Este modelo extrae entidades de un texto, por ejemplo, identificando las ubicaciones mencionadas en un texto. Saber qué entidades se encuentran en un texto puede ser una forma valiosa de comprender mejor de qué trata un documento.

Podemos encontrar modelos de NER en el Hub filtrando los modelos por tarea. En este caso, elegimos token-classification, que es la tarea que incluye modelos de reconocimiento de entidades nombradas. Este filtro devuelve modelos etiquetados como haciendo token-classification. Dado que estamos trabajando con documentos noruegos, también podemos filtrar por idioma; esto nos lleva a un conjunto más pequeño de modelos que queremos explorar. Muchos de estos modelos también contendrán un widget de modelo, lo que nos permite probar el modelo.

Un widget de modelo puede mostrar rápidamente qué tan bien un modelo probablemente funcionará con nuestros datos. Una vez que hayas encontrado un modelo que te interese, el Hub proporciona diferentes formas de usar esa herramienta. Si ya estás familiarizado con la biblioteca Transformers, puedes hacer clic en el botón “usar en Transformers” para obtener un pop-up que muestra cómo cargar el modelo en Transformers.

Si prefieres usar un modelo a través de una API, al hacer clic en el botón “deploy” en un repositorio de modelos, obtendrás varias opciones para alojar el modelo detrás de una API. Esto puede ser especialmente útil si deseas probar un modelo en una mayor cantidad de datos pero necesitas la infraestructura para ejecutar modelos localmente.

Un enfoque similar también se puede utilizar para encontrar modelos y conjuntos de datos relevantes en el Hub de Hugging Face.

Recorrido: ¿Cómo puedes agregar un conjunto de datos GLAM al Hub?

Podemos hacer que los conjuntos de datos estén disponibles a través del Hub de Hugging Face de varias formas. Haré un recorrido por un ejemplo de cómo agregar un conjunto de datos CSV al Hub de Hugging Face.

Descripción general del proceso de carga de un conjunto de datos en el Hub a través de la interfaz del navegador

Para nuestro ejemplo, trabajaremos para hacer que el conjunto de entrenamiento “On the Books” esté disponible a través del Hub. Este conjunto de datos consta de un archivo CSV que contiene datos que se pueden utilizar para entrenar un modelo de clasificación de texto. Dado que el formato CSV es uno de los formatos admitidos para cargar datos en el Hub de Hugging Face, podemos compartir este conjunto de datos directamente en el Hub sin necesidad de escribir ningún código.

Crear un nuevo repositorio de conjuntos de datos

El primer paso para cargar un conjunto de datos en el Hub es crear un nuevo repositorio de conjuntos de datos. Esto se puede hacer haciendo clic en el botón “Nuevo conjunto de datos” en el menú desplegable en la esquina superior derecha del Hub de Hugging Face.

Una vez que hayas hecho esto, puedes elegir un nombre para tu nuevo repositorio de conjuntos de datos. También puedes crear el conjunto de datos bajo un propietario diferente, es decir, una organización, y especificar opcionalmente una licencia.

Cargar archivos

Una vez que hayas creado un repositorio de conjuntos de datos, deberás cargar los archivos de datos. Puedes hacer esto haciendo clic en “Agregar archivo” en la pestaña “Archivos” del repositorio de conjuntos de datos.

Ahora puedes seleccionar los datos que deseas cargar en el Hub.

Puedes cargar un solo archivo o varios archivos utilizando la interfaz de carga. Una vez que hayas cargado tu archivo, debes confirmar tus cambios para finalizar la carga.

Agregar metadatos

Es importante agregar metadatos a tu repositorio de conjuntos de datos para que tu conjunto de datos sea más descubrible y útil para los demás. Esto permitirá que otros encuentren tu conjunto de datos y comprendan lo que contiene.

Puedes editar los metadatos utilizando el editor “Metadata UI”. Esto te permite especificar la licencia, el idioma, las etiquetas, etc., para el conjunto de datos.

También es muy útil describir en más detalle qué es tu conjunto de datos, cómo y por qué se construyó, y sus fortalezas y debilidades. Esto se puede hacer en un repositorio de conjuntos de datos completando el archivo “README.md”. Este archivo servirá como una tarjeta de conjunto de datos para tu conjunto de datos. Una tarjeta de conjunto de datos es una forma semi-estructurada de documentación para conjuntos de datos de aprendizaje automático que tiene como objetivo garantizar que los conjuntos de datos estén suficientemente bien documentados. Al editar el archivo “README.md”, se te dará la opción de importar una plantilla de tarjeta de conjunto de datos. Esta plantilla te proporcionará indicaciones útiles sobre qué es útil incluir en una tarjeta de conjunto de datos.

Consejo: Escribir una buena tarjeta de conjunto de datos puede ser mucho trabajo. Sin embargo, no es necesario hacer todo este trabajo de una sola vez, y debido a que las personas pueden hacer preguntas o hacer sugerencias para los conjuntos de datos alojados en el Hub, el proceso de documentar conjuntos de datos puede ser una actividad colectiva.

Vista previa de los conjuntos de datos

Una vez que hemos subido nuestro conjunto de datos al Hub, obtendremos una vista previa del conjunto de datos. La vista previa del conjunto de datos puede ser una forma beneficiosa de comprender mejor el conjunto de datos.

Otras formas de compartir conjuntos de datos

Puedes utilizar muchos otros enfoques para compartir conjuntos de datos en el Hub. La documentación de los conjuntos de datos te ayudará a comprender mejor cuál funcionará mejor para tu caso de uso particular.

¿Por qué podrían querer utilizar el Hub de Hugging Face las galerías, bibliotecas, archivos y museos?

Existen muchas razones diferentes por las que las instituciones desean contribuir al Hub de Hugging Face:

  • Exposición a una nueva audiencia: el Hub se ha convertido en un destino central para las personas que trabajan en aprendizaje automático, IA y campos relacionados. Compartir en el Hub ayudará a exponer tus colecciones y trabajos a esta audiencia. Esto también abre la oportunidad de colaborar más con esta audiencia.

  • Comunidad: El Hub tiene muchas características orientadas a la comunidad, lo que permite a los usuarios y posibles usuarios de tu material hacer preguntas e interactuar con los materiales que compartas a través del Hub. Compartir modelos entrenados y conjuntos de datos de aprendizaje automático también permite a las personas construir sobre el trabajo de los demás y reduce la barrera para utilizar el aprendizaje automático en el sector.

  • Diversidad de datos de entrenamiento: Una de las barreras para que GLAM utilice el aprendizaje automático es la disponibilidad de datos relevantes para el entrenamiento y la evaluación de modelos de aprendizaje automático. Los modelos de aprendizaje automático que funcionan bien en los conjuntos de datos de referencia pueden no funcionar tan bien en los datos de las organizaciones GLAM. Construir una comunidad para compartir conjuntos de datos específicos del dominio garantizará que el aprendizaje automático se pueda perseguir de manera más efectiva en el sector GLAM.

  • Cambio climático: El entrenamiento de modelos de aprendizaje automático produce una huella de carbono. El tamaño de esta huella depende de varios factores. Una forma en que podemos reducir colectivamente esta huella es compartir modelos entrenados con la comunidad para que las personas no estén duplicando los mismos modelos (y generando más emisiones de carbono en el proceso).

Ejemplos de uso del Hub de Hugging Face

Individuos y organizaciones ya utilizan el Hub de Hugging Face para compartir modelos de aprendizaje automático, conjuntos de datos y demos relacionados con el sector GLAM.

BigLAM

Una iniciativa desarrollada a partir del proyecto BigScience se centra en hacer que los conjuntos de datos de GLAM con relevancia para el aprendizaje automático sean más accesibles. Hasta ahora, BigLAM ha puesto a disposición más de 30 conjuntos de datos relacionados con GLAM a través del Hub de Hugging Face.

Nasjonalbiblioteket AI Lab

El laboratorio de IA de la Biblioteca Nacional de Noruega es un usuario muy activo del Hub de Hugging Face, con ~120 modelos, 23 conjuntos de datos y seis demos de aprendizaje automático compartidos públicamente. Estos modelos incluyen modelos de lenguaje entrenados en textos noruegos de la Biblioteca Nacional de Noruega y modelos de Whisper (de texto a voz) entrenados en lenguas sami.

Institución Smithsonian

El Smithsonian compartió una aplicación alojada en Hugging Face Spaces, que demuestra dos modelos de aprendizaje automático entrenados para identificar especies de peces del Amazonas. Este proyecto tiene como objetivo capacitar a las comunidades con herramientas que permitan una medición más precisa del número de especies de peces en el Amazonas. Al hacer herramientas como esta disponibles a través de una demostración de Spaces, se reduce aún más la barrera para las personas que deseen utilizar estas herramientas.

Fuente

Funciones del Hub para galerías, bibliotecas, archivos y museos

El Hub admite muchas funciones que ayudan a que el aprendizaje automático sea más accesible. Algunas características que pueden ser particularmente útiles para las instituciones GLAM incluyen:

  • Organizaciones: puedes crear una organización en el Hub. Esto te permite crear un lugar para compartir los artefactos de tu organización.
  • Generación de DOI: Un DOI (Identificador de Objeto Digital) es un identificador digital persistente para un objeto. Los DOIs se han vuelto esenciales para crear identificadores persistentes para publicaciones, conjuntos de datos y software. A menudo, se requiere un identificador persistente en revistas, conferencias o financiadores de investigadores al hacer referencia a resultados académicos. El Hub de Hugging Face admite la emisión de DOIs para modelos, conjuntos de datos y demos compartidos en el Hub.
  • Seguimiento de uso: puedes ver estadísticas de descarga de conjuntos de datos y modelos alojados en el Hub mensualmente o ver el número total de descargas en todo momento. Estas estadísticas pueden ser una forma valiosa para que las instituciones demuestren su impacto.
  • Compartir conjuntos de datos basados en scripts: si ya tienes un conjunto de datos alojado en algún lugar, aún puedes proporcionar acceso a ellos a través del Hub de Hugging Face utilizando un script de carga de conjunto de datos.
  • Control de acceso a modelos y conjuntos de datos: hay circunstancias en las que deseas tener más control sobre quién accede a modelos y conjuntos de datos. El Hub de Hugging Face admite el control de acceso a modelos y conjuntos de datos, lo que te permite agregar controles de acceso.

¿Cómo puedo obtener ayuda usando el Hub?

La documentación del Hub profundiza en más detalles sobre las diversas características del Hugging Face Hub. También puedes encontrar más información sobre cómo compartir conjuntos de datos en el Hub e información sobre cómo compartir modelos Transformers en el Hub.

Si necesitas ayuda mientras usas el Hugging Face Hub, hay varias opciones que puedes explorar. Puedes buscar ayuda utilizando el foro de discusión o a través de Discord.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores desarrollaron un novedoso método de IA sin marcadores para rastrear las posturas de las aves en 3D utilizando grabaciones de video.

Rastrear el comportamiento, la mirada y los movimientos detallados de animales y aves ha sido una tarea desafiante pa...

Inteligencia Artificial

Investigadores de Stanford presentan Spellburst un entorno de codificación creativa impulsado por un modelo de lenguaje grande (LLM).

Mientras crean impresionantes obras de arte digitales, los artistas generativos a menudo se enfrentan a las complejid...

Inteligencia Artificial

Asistentes de correo electrónico AI más valorados (noviembre de 2023)

Translate this html (keep the html code in the result) to Spanish: Los asistentes de correo electrónico de inteligenc...

Ciencias de la Computación

Europa avanza en la regulación de la IA, desafiando el poder de los gigantes tecnológicos.

Bruselas presentó un nuevo desafío antimonopolio contra Google el mismo día en que los legisladores europeos votaron ...

Inteligencia Artificial

Investigadores de Apple proponen un nuevo modelo de descomposición de tensores para el filtrado colaborativo con retroalimentación implícita

La capacidad para inferir las preferencias del usuario a partir de comportamientos pasados es crucial para ofrecer su...