Investigadores de Inception, MBZUAI y Cerebras lanzan en código abierto ‘Jais’ el modelo de lenguaje árabe más avanzado del mundo

Investigadores lanzan en código abierto 'Jais', el modelo de lenguaje árabe más avanzado del mundo.

Los grandes modelos de lenguaje como GPT-3 y su impacto en varios aspectos de la sociedad son objeto de un gran interés y debate. Los grandes modelos de lenguaje han avanzado significativamente en el campo del procesamiento del lenguaje natural (NLP, por sus siglas en inglés). Han mejorado la precisión de varias tareas relacionadas con el lenguaje, incluyendo la traducción, el análisis de sentimientos, la resumen y la pregunta-respuesta. Los chatbots y asistentes virtuales impulsados por grandes modelos de lenguaje se están volviendo más sofisticados y capaces de manejar conversaciones complejas. Se utilizan en el soporte al cliente, servicios de chat en línea e incluso como compañía para algunos usuarios.

La construcción de grandes modelos de lenguaje en árabe (LLMs, por sus siglas en inglés) presenta desafíos únicos debido a las características del idioma árabe y la diversidad de sus dialectos. Al igual que los grandes modelos de lenguaje en otros idiomas, los LLMs en árabe pueden heredar sesgos de los datos de entrenamiento. Abordar estos sesgos y garantizar el uso responsable de la IA en contextos árabes es una preocupación constante.

Investigadores de Inception, Cerebras y la Universidad de Inteligencia Artificial Mohamed bin Zayed (EAU) presentaron Jais y Jais-chat, un nuevo modelo de lenguaje basado en el árabe. Su modelo se basa en la arquitectura de entrenamiento generativo GPT-3 y utiliza solo 13B parámetros.

Su principal desafío fue obtener datos en árabe de alta calidad para entrenar el modelo. En comparación con los datos en inglés, que tienen corpora de hasta dos billones de tokens, los corpora en árabe eran significativamente más pequeños. Los corpora son grandes colecciones estructuradas de textos utilizados en lingüística, procesamiento del lenguaje natural (NLP) y análisis de texto para investigación y entrenamiento de modelos de lenguaje. Los corpora sirven como recursos valiosos para el estudio de patrones de lenguaje, semántica, gramática y más.

Resolvieron esto entrenando modelos bilingües, utilizando datos limitados de preentrenamiento en árabe y abundantes datos de preentrenamiento en inglés. Preentrenaron Jais con 395 billones de tokens, incluyendo 72 billones de tokens en árabe y 232 billones de tokens en inglés. Desarrollaron un pipeline especializado de procesamiento de texto árabe que incluye una exhaustiva filtración y limpieza de datos para producir datos en árabe de alta calidad.

Indican que las capacidades de preentrenamiento y ajuste fino de su modelo superan a todos los modelos árabes de código abierto conocidos y son comparables a los modelos en inglés de última generación entrenados en conjuntos de datos más grandes. Dado los problemas de seguridad inherentes a los LLMs, lo ajustaron aún más con instrucciones orientadas a la seguridad. Agregaron protecciones adicionales en forma de indicaciones de seguridad, filtrado basado en palabras clave y clasificadores externos.

Aseguran que Jais representa una evolución y expansión importantes del panorama del NLP y la IA en el Medio Oriente. Avanza en la comprensión y generación del idioma árabe, dotando a los actores locales con opciones de implementación soberanas y privadas y fomentando un ecosistema vibrante de aplicaciones e innovación; este trabajo respalda una iniciativa estratégica más amplia de transformación digital e IA para inaugurar una era abierta, más inclusiva desde el punto de vista lingüístico y consciente de la cultura.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Explorando NLP - Iniciando NLP (Paso #3)

Aquí hay algunos conceptos que revisé durante la semana, especialmente sobre incrustaciones de palabras. Hice algunas...

Ciencia de Datos

Los modelos de lenguaje grandes tienen sesgos. ¿Puede la lógica ayudar a salvarlos?

Investigadores del MIT entrenaron modelos de lenguaje conscientes de la lógica para reducir estereotipos dañinos como...

Inteligencia Artificial

¿Puede (Muy) Simple Matemáticas Informar RLHF Para Modelos de Lenguaje Grandes LLMs? ¡Este artículo de IA dice que sí!

Incorporar la entrada humana es un componente clave de las recientes mejoras impresionantes en las capacidades de los...

Inteligencia Artificial

Este boletín de inteligencia artificial es todo lo que necesitas #62

Esta semana hemos estado observando el desarrollo de modelos de codificación en META, así como las nuevas capacidades...