Este documento de IA evalúa la capacidad de los LLM para adaptarse a nuevas variantes de tareas existentes

Este documento evalúa cómo los LLM se adaptan a tareas nuevas

El rendimiento notable de los modelos de lenguaje (ML) sugiere que la predicción de la siguiente palabra a gran escala podría destilar eficazmente el conocimiento de los corpus de texto en agentes interactivos. Los ML han logrado resultados impresionantes en varios bancos de pruebas de procesamiento de lenguaje natural, superando a los métodos de vanguardia e incluso superando a los humanos en tareas que requieren razonamiento complejo. Sin embargo, es crucial determinar si su éxito se debe a habilidades de razonamiento generales para las tareas o al reconocimiento y recuerdo de tareas específicas encontradas durante el preentrenamiento.

La investigación anterior se ha centrado principalmente en la generalización a nivel de instancia, que puede complicarse debido a problemas de contaminación de datos. En este estudio, los investigadores investigan la generalización de los ML a nuevas variantes de tareas mediante la alteración de las condiciones o reglas bajo las cuales se realizan las tareas con buen desempeño. El procedimiento de razonamiento general para estas tareas permanece sin cambios, pero las asignaciones de entrada y salida específicas se modifican. Estas nuevas tareas, denominadas tareas contrafactuales, se desvían de las condiciones predeterminadas y miden la generalización a nivel de tarea del modelo.

Los investigadores proponen una serie de 11 tareas de evaluación contrafactuales que abarcan múltiples categorías y dominios. Estas tareas incluyen razonamiento deductivo, generación de código, dibujo y razonamiento espacial. Si bien el procedimiento de razonamiento es consistente en las tareas originales y sus variantes contrafactuales, las asignaciones de entrada y salida son diferentes. Esta evaluación tiene como objetivo evaluar la flexibilidad de los ML para adaptarse a nuevas variantes de tareas.

Se evalúa el rendimiento de GPT-4, GPT-3.5, Claude y PaLM-2 tanto en las condiciones predeterminadas como contrafactuales de las tareas. Los resultados indican que si bien los ML muestran un rendimiento contrafactual por encima de lo aleatorio, su rendimiento disminuye constantemente en comparación con la configuración predeterminada; esto sugiere que el éxito de los modelos en estas tareas se puede atribuir en parte a comportamientos específicos de las condiciones predeterminadas en lugar de habilidades abstractas y generalizables de razonamiento.

Los hallazgos también revelan relaciones emocionantes entre el comportamiento del modelo en las tareas predeterminadas y contrafactuales. Se observan correlaciones entre el rendimiento predeterminado y contrafactual, la efectividad de la generación de pensamiento en cadena sin entrenamiento previo y las interacciones entre los efectos de frecuencia a nivel de tarea e instancia. En general, las ligeras variaciones en las instanciaciones predeterminadas de las tareas presentan desafíos para los ML, lo que indica que el éxito de los modelos existentes no debe atribuirse únicamente a su capacidad general para la tarea objetivo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Google IA presenta Mirasol3B un modelo autoregresivo multimodal para el aprendizaje a través de modalidades de audio, video y texto

En el amplio campo del aprendizaje automático, decodificar las complejidades incrustadas en diversas modalidades, com...

Inteligencia Artificial

Un nuevo estudio de IA desvela los secretos de las baterías de ion de litio a través de la visión por computadora

Miles de partículas minúsculas empaquetadas densamente en los electrodos de las baterías de iones de litio recargable...

Inteligencia Artificial

Dentro de XGen-Imagen-1 Cómo Salesforce Research construyó, entrenó y evaluó un modelo masivo de texto a imagen.

Salesforce ha sido uno de los laboratorios de investigación más activos en la nueva ola de modelos base. En los últim...

Inteligencia Artificial

La Carrera para Regular la Inteligencia Artificial

Por qué Europa tiene ventaja sobre América y China.

Inteligencia Artificial

Regs necesarias para la IA de alto riesgo, dice ACM Es el Viejo Oeste

El documento de ACM recomienda que se establezcan nuevas leyes para limitar el uso de IA generativa en ciertas situac...