¡Otro modelo de lenguaje grande! Conoce a IGEL Una familia de modelos de lenguaje alemanes afinados para instrucciones

¡IGEL, otra familia de modelos de lenguaje alemanes afinados para instrucciones!

IGEL es el Modelo de Lenguaje Grande para Texto en Alemán ajustado a Instrucciones. La versión 001 de IGEL (Instruct-igel-001) es una prueba de concepto primitiva destinada a determinar si es factible construir un modelo ajustado a instrucciones en alemán a partir de una combinación de modelos de código abierto existentes y un conjunto de datos de instrucciones traducidas al alemán.

La primera versión de IGEL se basó en BigScience BLOOM, que Malte Ostendorff localizó al alemán. IGEL está diseñado para realizar diversas tareas relacionadas con la comprensión del lenguaje natural, incluido el análisis de sentimientos, la traducción de idiomas y la respuesta a preguntas, con alta precisión y confiabilidad en cada área.

El equipo quería experimentar qué tan bien funcionan los LLM en tareas de modelado basadas en instrucciones en alemán. Lograron esto utilizando un modelo BLOOM pre-entrenado personalizado (6B) y ajustándolo finamente utilizando un conjunto de datos basado en instrucciones traducidas. Para construir el conjunto de datos, se utilizó un enfoque llamado traducción automática para transformar las instrucciones en inglés al alemán. Aunque había una mayor probabilidad de que ocurrieran errores de traducción debido a esta estrategia, su objetivo era determinar si el modelo aún podía aprender a producir respuestas instructivas.

LoRA-tuned BLOOM-CLP Deutsch (6.4B parámetros) con pesos fusionados para su uso con Hugging Face Transformers es lo que los usuarios encontrarán en Instruct-igel-001. Antes de entrenar instruct-igel-001 con conjuntos de datos de instrucciones traducidas ingenuas, no se prestó mucha atención a la limpieza, filtrado o post-procesamiento de los datos.

El equipo mencionó que la alucinación, la toxicidad y la estereotipación son solo algunos de los problemas que tiene instruct-igel-001, todos ellos comunes en modelos de lenguaje. Planean terminar de desarrollar el modelo de chat para crear una interfaz conversacional. Esto mejorará la calidad de los datos de formas que van más allá de la metodología tradicional de solicitud y respuesta.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Aprendizaje Automático

Red Cat y Athena AI crean drones militares inteligentes con visión nocturna.

Red Cat Holdings, Inc., una empresa líder en tecnología militar, ha logrado un hito en su colaboración con Athena AI....

Inteligencia Artificial

Utilizando el lenguaje para dar a los robots una mejor comprensión del mundo abierto

El método de Campos de Características para la Manipulación Robótica ayuda a los robots a identificar objetos cercano...

Inteligencia Artificial

GenAIOps Evolucionando el marco de MLOps

Allá por 2019, publiqué un blog en LinkedIn titulado Por qué necesitas ML Ops para una innovación exitosa. Avanzamos ...

Inteligencia Artificial

Conoce DenseDiffusion una técnica de IA sin entrenamiento para abordar subtítulos densos y manipulación de diseño en la generación de texto a imagen

Los avances recientes en los modelos de texto a imagen han llevado a sistemas sofisticados capaces de generar imágene...

Inteligencia Artificial

Potenciando la fiabilidad del aprendizaje automático Cómo la atipicidad mejora el rendimiento del modelo y la cuantificación de la incertidumbre

Un objeto se considera típico si se asemeja a otros elementos de su categoría. Por ejemplo, un pingüino es un ave inu...

Investigación

La Administración de Biden selecciona al presidente de Google para el esfuerzo de investigación de chips.

La Casa Blanca eligió al presidente de Alphabet, John Hennessy, y a otros cuatro expertos de la industria tecnológica...