¡Otro modelo de lenguaje grande! Conoce a IGEL Una familia de modelos de lenguaje alemanes afinados para instrucciones

¡IGEL, otra familia de modelos de lenguaje alemanes afinados para instrucciones!

IGEL es el Modelo de Lenguaje Grande para Texto en Alemán ajustado a Instrucciones. La versión 001 de IGEL (Instruct-igel-001) es una prueba de concepto primitiva destinada a determinar si es factible construir un modelo ajustado a instrucciones en alemán a partir de una combinación de modelos de código abierto existentes y un conjunto de datos de instrucciones traducidas al alemán.

La primera versión de IGEL se basó en BigScience BLOOM, que Malte Ostendorff localizó al alemán. IGEL está diseñado para realizar diversas tareas relacionadas con la comprensión del lenguaje natural, incluido el análisis de sentimientos, la traducción de idiomas y la respuesta a preguntas, con alta precisión y confiabilidad en cada área.

El equipo quería experimentar qué tan bien funcionan los LLM en tareas de modelado basadas en instrucciones en alemán. Lograron esto utilizando un modelo BLOOM pre-entrenado personalizado (6B) y ajustándolo finamente utilizando un conjunto de datos basado en instrucciones traducidas. Para construir el conjunto de datos, se utilizó un enfoque llamado traducción automática para transformar las instrucciones en inglés al alemán. Aunque había una mayor probabilidad de que ocurrieran errores de traducción debido a esta estrategia, su objetivo era determinar si el modelo aún podía aprender a producir respuestas instructivas.

LoRA-tuned BLOOM-CLP Deutsch (6.4B parámetros) con pesos fusionados para su uso con Hugging Face Transformers es lo que los usuarios encontrarán en Instruct-igel-001. Antes de entrenar instruct-igel-001 con conjuntos de datos de instrucciones traducidas ingenuas, no se prestó mucha atención a la limpieza, filtrado o post-procesamiento de los datos.

El equipo mencionó que la alucinación, la toxicidad y la estereotipación son solo algunos de los problemas que tiene instruct-igel-001, todos ellos comunes en modelos de lenguaje. Planean terminar de desarrollar el modelo de chat para crear una interfaz conversacional. Esto mejorará la calidad de los datos de formas que van más allá de la metodología tradicional de solicitud y respuesta.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Línea Open-Sources ‘japanese-large-lm’ Un modelo de lenguaje japonés con 3.6 mil millones de parámetros

Desde noviembre de 2020, LINE se ha embarcado en un viaje transformador de investigación y desarrollo para crear y ap...

Inteligencia Artificial

El Bucle de Retroalimentación de la IA Manteniendo la Calidad de Producción del Modelo en la Era del Contenido Generado por IA

Explora cómo el bucle de retroalimentación de IA puede ayudar a mantener la calidad del modelo, mejorar la eficiencia...

Inteligencia Artificial

Construye y entrena modelos de visión por computadora para detectar posiciones de autos en imágenes utilizando Amazon SageMaker y Amazon Rekognition

La visión por computadora (CV) es una de las aplicaciones más comunes del aprendizaje automático (ML) y el aprendizaj...

Inteligencia Artificial

Comenzando con la IA

Aquí estoy asumiendo que has leído mi artículo anterior sobre Cómo aprender IA. Como recordatorio, recomiendo encarec...

Inteligencia Artificial

El año en que la inteligencia artificial se comió internet

Llamemos al 2023 el año en que muchos aprendimos a comunicarnos, crear, engañar y colaborar con robots.