¡Otro modelo de lenguaje grande! Conoce a IGEL Una familia de modelos de lenguaje alemanes afinados para instrucciones

¡IGEL, otra familia de modelos de lenguaje alemanes afinados para instrucciones!

IGEL es el Modelo de Lenguaje Grande para Texto en Alemán ajustado a Instrucciones. La versión 001 de IGEL (Instruct-igel-001) es una prueba de concepto primitiva destinada a determinar si es factible construir un modelo ajustado a instrucciones en alemán a partir de una combinación de modelos de código abierto existentes y un conjunto de datos de instrucciones traducidas al alemán.

La primera versión de IGEL se basó en BigScience BLOOM, que Malte Ostendorff localizó al alemán. IGEL está diseñado para realizar diversas tareas relacionadas con la comprensión del lenguaje natural, incluido el análisis de sentimientos, la traducción de idiomas y la respuesta a preguntas, con alta precisión y confiabilidad en cada área.

El equipo quería experimentar qué tan bien funcionan los LLM en tareas de modelado basadas en instrucciones en alemán. Lograron esto utilizando un modelo BLOOM pre-entrenado personalizado (6B) y ajustándolo finamente utilizando un conjunto de datos basado en instrucciones traducidas. Para construir el conjunto de datos, se utilizó un enfoque llamado traducción automática para transformar las instrucciones en inglés al alemán. Aunque había una mayor probabilidad de que ocurrieran errores de traducción debido a esta estrategia, su objetivo era determinar si el modelo aún podía aprender a producir respuestas instructivas.

LoRA-tuned BLOOM-CLP Deutsch (6.4B parámetros) con pesos fusionados para su uso con Hugging Face Transformers es lo que los usuarios encontrarán en Instruct-igel-001. Antes de entrenar instruct-igel-001 con conjuntos de datos de instrucciones traducidas ingenuas, no se prestó mucha atención a la limpieza, filtrado o post-procesamiento de los datos.

El equipo mencionó que la alucinación, la toxicidad y la estereotipación son solo algunos de los problemas que tiene instruct-igel-001, todos ellos comunes en modelos de lenguaje. Planean terminar de desarrollar el modelo de chat para crear una interfaz conversacional. Esto mejorará la calidad de los datos de formas que van más allá de la metodología tradicional de solicitud y respuesta.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

¡Otro modelo de lenguaje grande! Conoce a IGEL Una familia de modelos de lenguaje alemanes afinados para instrucciones

Was this article helpful?

xAI de Elon Musk entrenado con el Feed de Twitter

Reimaginando el Motor de Recomendaciones

Inteligencia Artificial

Línea Open-Sources ‘japanese-large-lm’ Un modelo de lenguaje japonés con 3.6 mil millones de parámetros

El Bucle de Retroalimentación de la IA Manteniendo la Calidad de Producción del Modelo en la Era del Contenido Generado por IA

Construye y entrena modelos de visión por computadora para detectar posiciones de autos en imágenes utilizando Amazon SageMaker y Amazon Rekognition

Comenzando con la IA

Este artículo de IA propone Retentive Networks (RetNet) como una arquitectura base para modelos de lenguaje grandes logrando paralelismo de entrenamiento, inferencia de bajo costo y buen rendimiento

El año en que la inteligencia artificial se comió internet