¿Te sientes arriesgado al entrenar tu modelo de lenguaje con datos restringidos? Conoce a SILO Un nuevo modelo de lenguaje que gestiona los compromisos entre riesgo y rendimiento durante la inferencia.

SILO es un modelo de lenguaje que equilibra riesgo y rendimiento durante la inferencia, incluso cuando se entrena con datos restringidos.

I had trouble accessing your link so I’m going to try to continue without it.

Se han planteado preocupaciones legales sobre los modelos de lenguaje masivo (LM) debido a que a menudo se entrenan con contenido con derechos de autor. El compromiso inherente entre el riesgo legal y el rendimiento del modelo está en el centro de este tema. El uso exclusivo de datos con licencia permisiva o disponibles públicamente para el entrenamiento tiene un impacto negativo severo en la precisión. Dado que los corpus de LM comunes abarcan una amplia gama de problemas, esta restricción se debe a la rareza de los datos permisivos y su estrecha relación con fuentes como libros con derechos de autor expirados, registros gubernamentales y código con licencia permisiva.

Un nuevo estudio realizado por la Universidad de Washington, UC Berkeley y el Instituto Allen de IA muestra que dividir los datos de entrenamiento en subconjuntos paramétricos y no paramétricos mejora el equilibrio entre el riesgo y el rendimiento. El equipo entrena los parámetros del LM con datos de bajo riesgo y los alimenta en un componente no paramétrico (un almacén de datos) que solo se utiliza durante la inferencia. Los datos de alto riesgo se pueden recuperar de los almacenes de datos no paramétricos para mejorar las predicciones del modelo fuera de la fase de entrenamiento. Los desarrolladores del modelo pueden eliminar por completo sus datos del almacén de datos hasta el nivel de ejemplos individuales, y el almacén de datos se puede actualizar fácilmente en cualquier momento. Este método también asigna crédito a los contribuyentes de datos atribuyendo las predicciones del modelo hasta el nivel de la oración. Gracias a estas características actualizadas, el modelo ahora puede alinearse de manera más precisa con diversas restricciones de uso de datos. Los modelos paramétricos, por otro lado, hacen imposible deshacerse de los datos de alto riesgo una vez que se completa el entrenamiento, y también es difícil atribuir datos a gran escala.

Desarrollaron SILO, un nuevo modelo de lenguaje no paramétrico para implementar su sugerencia. OPEN LICENSE CORPUS (OLC) – un nuevo corpus de preentrenamiento para el componente paramétrico de SILO es rico en diversos dominios. Su distribución está fuertemente sesgada hacia el código y el texto gubernamental, lo que lo hace diferente de otros corpus de preentrenamiento. Debido a esto, ahora enfrentan el problema extremo de generalización de dominio al intentar generalizar un modelo entrenado en dominios muy estrechos. Se entrenan tres LMs de 1.3 mil millones de parámetros en diferentes subconjuntos de OLC, y luego se construye un almacén de datos en tiempo de prueba que puede incorporar datos de alto riesgo, y se recuperan y utilizan sus contenidos en la inferencia. Se contrasta un enfoque de recuperación en contexto (RIC-LM) que recupera bloques de texto y los alimenta al LM paramétrico en contexto con un enfoque de vecinos más cercanos (kNN-LM) que emplea una función de predicción de siguiente token no paramétrica.

La perplejidad en el modelado del lenguaje se mide en 14 dominios, incluidos datos dentro del dominio y específicos de OLC. Aquí, los investigadores evalúan SILO frente a Pythia, un LM paramétrico que comparte algunas características con SILO pero que se desarrolló principalmente para su uso con datos de alto riesgo. Primero confirman la dificultad de generalizar dominios extremadamente al demostrar que SILO solo paramétrico tiene un rendimiento competitivo en los dominios cubiertos por OLC, pero un rendimiento deficiente fuera del dominio. Sin embargo, este problema se resuelve al complementar SILO con un almacén de datos en tiempo de inferencia. Si bien tanto kNN-LM como RIC-LM aumentan considerablemente el rendimiento fuera del dominio, los resultados muestran que kNN-LM generaliza mejor, lo que permite que SILO cierre la brecha con la línea de base de Pythia en un promedio del 90% en todos los dominios. El análisis revela que la predicción de siguiente token no paramétrica en kNN-LM es resistente al cambio de dominio y que kNN-LM se beneficia enormemente de hacer crecer el almacén de datos.

En general, este trabajo indica que expandir el tamaño del almacén de datos y mejorar aún más el modelo no paramétrico probablemente pueda cerrar las brechas restantes en los pocos dominios donde SILO aún no ha alcanzado los niveles de rendimiento de Pythia.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Principales herramientas para simplificar y estandarizar el aprendizaje automático

La inteligencia artificial y el aprendizaje automático son dos líderes innovadores a medida que el mundo se beneficia...

Inteligencia Artificial

Capturando Carbono

¿Pueden las tecnologías de captura de carbono aliviar el impacto del cambio climático?

Inteligencia Artificial

Por qué la NASA está enviando secretos nacionales a la Luna

NASA trabajará con la startup Lonestar y la Isla de Man para enviar una carga de datos a la Luna el próximo febrero, ...

Noticias de Inteligencia Artificial

AI Ahora en el Aire Conoce a Ashley, el Primer Bot de DJ del Mundo.

Live 95.5, una popular estación de radio con sede en Portland, Oregón, ha dado un paso audaz hacia el futuro al prese...