AI2 presenta Dolma un corpus de 3 billones de tokens que pionera la transparencia en la investigación de modelos de lenguaje

AI2 presenta Dolma, un corpus de 3 billones de tokens que pionera la transparencia en la investigación de modelos de lenguaje.

La transparencia y apertura en la investigación de modelos de lenguaje han sido temas controvertidos desde hace mucho tiempo. La presencia de conjuntos de datos cerrados, metodologías secretas y supervisión limitada han actuado como barreras para el avance del campo. Reconociendo estos desafíos, el Instituto Allen de Inteligencia Artificial (AI2) ha presentado una solución innovadora: el conjunto de datos Dolma, un corpus expansivo que comprende asombrosos 3 billones de tokens. ¿El objetivo? Iniciar una nueva era de colaboración, transparencia y progreso compartido en la investigación de modelos de lenguaje.

En el campo en constante evolución del desarrollo de modelos de lenguaje, la ambigüedad que rodea a los conjuntos de datos y metodologías utilizadas por gigantes de la industria como OpenAI y Meta ha arrojado una sombra sobre el progreso. Esta opacidad no solo dificulta la capacidad de los investigadores externos para analizar críticamente, replicar y mejorar los modelos existentes, sino que también suprime el crecimiento general del campo. Dolma, la idea original de AI2, emerge como un faro de apertura en un panorama envuelto en secreto. Con un conjunto de datos que abarca contenido web, literatura académica, código y más, Dolma se esfuerza por empoderar a la comunidad de investigación otorgándoles las herramientas para construir, descomponer y optimizar sus modelos de lenguaje de forma independiente.

En el corazón de la creación de Dolma se encuentran un conjunto de principios fundamentales. Uno de los principales es la apertura, un principio que AI2 defiende para erradicar las barreras asociadas con el acceso restringido a corpus de preentrenamiento. Este enfoque fomenta el desarrollo de iteraciones mejoradas del conjunto de datos y promueve un riguroso examen de la relación entre los datos y los modelos en los que se basan. Además, el diseño de Dolma enfatiza la representatividad, reflejando conjuntos de datos de modelos de lenguaje establecidos para garantizar capacidades y comportamientos comparables. El tamaño también es una consideración relevante, con AI2 adentrándose en la interacción dinámica entre las dimensiones de los modelos y los conjuntos de datos. Mejorando aún más el enfoque se encuentran los principios de reproducibilidad y mitigación de riesgos, respaldados por metodologías transparentes y un compromiso de minimizar el daño a las personas.

El origen de Dolma es un meticuloso proceso de procesamiento de datos. Compuesto por operaciones específicas de origen y agnósticas al origen, esta canalización transforma los datos en bruto en documentos de texto limpios y sin adornos. Los pasos intrincados comprenden tareas como la identificación de idioma, la curación de datos web de Common Crawl, filtros de calidad, eliminación de duplicados y estrategias de mitigación de riesgos. La inclusión de subconjuntos de código y fuentes diversas, incluyendo manuscritos científicos, Wikipedia y Project Gutenberg, eleva la exhaustividad de Dolma a nuevas alturas.

Ilustración que representa diferentes grados de transparencia del conjunto de datos

En general, la introducción de Dolma representa un gran avance hacia la transparencia y la sinergia colaborativa en la investigación de modelos de lenguaje. Enfrentando el problema de los conjuntos de datos ocultos de frente, el compromiso de AI2 con el acceso abierto y la documentación meticulosa establece un precedente transformador. La metodología propuesta, Dolma, se presenta como un valioso repositorio de contenido curado, listo para convertirse en un recurso fundamental para investigadores de todo el mundo. Desmantela el paradigma de secreto que rodea a los principales actores de la industria, reemplazándolo con un marco novedoso que defiende el avance colectivo y una comprensión más profunda del campo. A medida que la disciplina del procesamiento de lenguaje natural traza nuevos horizontes, se anticipa que los efectos de onda del impacto de Dolma se extenderán mucho más allá de este conjunto de datos, fomentando una cultura de conocimiento compartido, catalizando la innovación y fomentando el desarrollo responsable de la inteligencia artificial.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de Microsoft presentan Hydra-RLHF Una solución eficiente en memoria para el aprendizaje por refuerzo con retroalimentación humana

Desde que se hicieron conocidos, los modelos familiares ChatGPT, GPT-4 y Llama-2 han conquistado a los usuarios con s...

Inteligencia Artificial

Investigadores de Microsoft Research y Georgia Tech revelan los límites estadísticos de las alucinaciones en los modelos de lenguaje

Un problema clave que ha surgido recientemente en los Modelos de Lenguaje es la alta tasa a la que proporcionan infor...

Inteligencia Artificial

Prediciendo Touchdowns de Futbol Americano con Aprendizaje Automático

Fútbol. Un pasatiempo estadounidense que une a los fans en toda la nación. Con un promedio de 16.7 millones de espect...

Inteligencia Artificial

Más desarrolladores están utilizando el lenguaje Rust

La encuesta Estado de Rust 2022 publicada a principios de este mes encontró a más desarrolladores utilizando el lengu...

Inteligencia Artificial

Utilizando el lenguaje para dar a los robots una mejor comprensión del mundo abierto

El método de Campos de Características para la Manipulación Robótica ayuda a los robots a identificar objetos cercano...