Línea Open-Sources ‘japanese-large-lm’ Un modelo de lenguaje japonés con 3.6 mil millones de parámetros

Open-Sources 'japanese-large-lm' A Japanese language model with 3.6 billion parameters

Desde noviembre de 2020, LINE se ha embarcado en un viaje transformador de investigación y desarrollo para crear y aprovechar el poder de un modelo de lenguaje a gran escala avanzado diseñado específicamente para el idioma japonés. Como hito significativo en este viaje, la unidad de desarrollo de modelos de lenguaje masivos de LINE ha anunciado el lanzamiento de sus modelos de lenguaje japonés, “Japanese-large-lm”, como software de código abierto (OSS). Este lanzamiento está destinado a tener un impacto significativo tanto en la comunidad de investigación como en las empresas que buscan aprovechar los modelos de lenguaje de vanguardia.

Estos modelos de lenguaje vienen en dos variantes: el modelo de 3.6 mil millones (3.6B) de parámetros y el modelo de 1.7 mil millones (1.7B) de parámetros, llamados adecuadamente modelo 3.6B y modelo 1.7B. Al presentar estos modelos y compartir sus conocimientos exhaustivos sobre la construcción de modelos de lenguaje, LINE tiene como objetivo brindar una visión de las complejidades de su enfoque y contribuir al avance del campo.

Los modelos de 1.7B y 3.6B son accesibles a través de HuggingFace Hub (modelo 1.7B, modelo 3.6B), lo que permite una integración perfecta en varios proyectos a través de la popular biblioteca transformers. La licencia de estos modelos bajo la Licencia Apache 2.0 garantiza que una amplia gama de usuarios, incluidos investigadores y entidades comerciales, puedan aprovechar sus capacidades para diversas aplicaciones.

Una piedra angular en el desarrollo de cualquier modelo de lenguaje de alto rendimiento radica en utilizar un conjunto de datos de entrenamiento extenso y de alta calidad. LINE aprovechó su corpus web japonés propietario, un repositorio enriquecido con diversos datos textuales para lograr esto. Sin embargo, el desafío que plantea el contenido derivado de la web es su ruido inherente, que incluye código fuente y oraciones no japonesas. La respuesta de LINE fue emplear procesos de filtrado meticulosos impulsados por la biblioteca OSS HojiChar. Estos procesos fueron fundamentales para destilar un conjunto de datos de alta calidad a gran escala, que constituye la base de la solidez de los modelos.

La eficiencia en el entrenamiento del modelo fue una consideración clave, y LINE estuvo a la altura de la ocasión al implementar técnicas innovadoras como la Paralelismo 3D y la Verificación de Activación. Estos avances facilitaron la asimilación eficiente de datos voluminosos, empujando efectivamente los límites de la capacidad computacional. Asombrosamente, el modelo de 1.7B se desarrolló utilizando solo 4000 horas de GPU en una GPU A100 80GB, lo cual es un testimonio de la eficacia de su enfoque de aprendizaje.

Es importante destacar que la trayectoria de desarrollo de este modelo de lenguaje japonés divergió de la de HyperCLOVA. Construido a lo largo de una línea de desarrollo distinta, supervisada meticulosamente por la unidad de desarrollo de modelos de lenguaje masivos dedicada de LINE, este modelo es un testimonio del compromiso de LINE de crear modelos pre-entrenados excepcionales para el idioma japonés. Su objetivo general sigue siendo el mismo: integrar conocimientos y lecciones de su amplia experiencia con modelos de lenguaje a gran escala.

LINE profundizó en las puntuaciones de perplejidad (PPL) y las tasas de precisión para tareas de preguntas y respuestas y comprensión de lectura para evaluar la eficacia de los modelos. PPL proporciona información sobre las capacidades predictivas del modelo, mientras que las tasas de precisión ofrecen medidas de rendimiento tangibles. Los resultados fueron prometedores, con los modelos de LINE mostrando un rendimiento competitivo en diversas tareas, rivalizando con modelos establecidos en el campo.

La base de su éxito fue una serie de valiosos consejos para el entrenamiento efectivo de modelos de lenguaje a gran escala. Estos incluyen consideraciones para el ajuste fino, el hiperparámetro beta2 de Adam, las tasas de aprendizaje óptimas y la aplicación de un programador de tasas de aprendizaje juicioso. Al profundizar en estas complejidades técnicas, LINE ha desarrollado modelos potentes y ha compartido conocimientos que benefician a la comunidad en general.

En conclusión, el lanzamiento de los modelos de lenguaje japonés de 1.7B y 3.6B por parte de LINE marca un avance significativo en el procesamiento del lenguaje natural. Su compromiso de lanzar modelos ajustados en el futuro subraya su dedicación para mejorar las capacidades de los modelos de lenguaje. A medida que LINE continúa avanzando, la comunidad global espera con ansias el impacto duradero de sus contribuciones en curso.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce Objaverse-XL Un conjunto de datos abierto de más de 10 millones de objetos en 3D.

Un avance reciente en IA ha sido la importancia de la escala para impulsar los avances en varios dominios. Los modelo...

Inteligencia Artificial

Samet honrado con el Premio ACM SIGSPATIAL al Impacto de por Vida

Hanan Samet fue honrado con el Premio Inaugural al Impacto de toda la Vida de ACM's Special Interest Group on Spatial...

Inteligencia Artificial

IA en movimiento

Si 2023 fue el año de los LLM (modelos de lenguaje grandes), entonces 2024 será el año de los LMM (modelos multimodal...

Inteligencia Artificial

Modelos Generales del Mundo Investigación en IA de Pasarela Iniciando un Nuevo Esfuerzo de Investigación a Largo Plazo

Un modelo mundial es un sistema de IA que tiene como objetivo construir una comprensión interna de un entorno y utili...

Inteligencia Artificial

Conoce al Omnívoro Diseñador Industrial combina el Arte y el OpenUSD para crear Activos 3D para el Entrenamiento de IA

Nota del editor: esta publicación es parte de nuestra serie Conoce al Omnivore, que presenta a creadores y desarrolla...