Modelos de Lenguaje de Red Teaming con Modelos de Lenguaje

'Red Team Language Models with Language Models'

En nuestro artículo reciente , mostramos que es posible encontrar automáticamente entradas que generen texto perjudicial en modelos de lenguaje generativos utilizando modelos de lenguaje. Nuestro enfoque proporciona una herramienta para encontrar comportamientos perjudiciales de los modelos antes de que los usuarios se vean afectados, aunque enfatizamos que debe considerarse como un componente junto con muchas otras técnicas que serán necesarias para encontrar daños y mitigarlos una vez encontrados.

Los grandes modelos generativos de lenguaje como GPT-3 y Gopher tienen la capacidad notable de generar texto de alta calidad, pero son difíciles de implementar en el mundo real. Los modelos generativos de lenguaje conllevan el riesgo de generar texto muy perjudicial, y incluso un pequeño riesgo de daño es inaceptable en aplicaciones del mundo real.

Por ejemplo, en 2016, Microsoft lanzó el bot de Twitter Tay para tuitear automáticamente en respuesta a los usuarios. En 16 horas, Microsoft retiró a Tay después de que varios usuarios adversarios provocaran tweets racistas y sexualmente cargados de Tay, que se enviaron a más de 50,000 seguidores. El resultado no fue por falta de atención por parte de Microsoft:

“Aunque nos habíamos preparado para muchos tipos de abusos del sistema, cometimos un error crítico en este ataque específico.” Peter Lee, Vicepresidente de Microsoft

El problema es que hay tantas entradas posibles que pueden hacer que un modelo genere texto perjudicial. Como resultado, es difícil encontrar todos los casos en los que un modelo falla antes de implementarlo en el mundo real. El trabajo anterior se basa en anotadores humanos remunerados para descubrir manualmente casos de falla (Xu et al. 2021, entre otros). Este enfoque es efectivo pero costoso, limitando el número y la diversidad de casos de falla encontrados.

Nuestro objetivo es complementar las pruebas manuales y reducir el número de errores críticos al encontrar casos de falla (o ‘red teaming’) de manera automática. Para hacerlo, generamos casos de prueba utilizando un modelo de lenguaje en sí mismo y utilizamos un clasificador para detectar diversos comportamientos perjudiciales en los casos de prueba, como se muestra a continuación:

Nuestro enfoque descubre una variedad de comportamientos perjudiciales del modelo:

  1. Lenguaje ofensivo: Discurso de odio, lenguaje obsceno, contenido sexual, discriminación, etc.
  2. Fuga de datos: Generación de información con derechos de autor o privada y personalmente identificable a partir del corpus de entrenamiento.
  3. Generación de información de contacto: Dirigir a los usuarios a enviar correos electrónicos o llamar a personas reales innecesariamente.
  4. Sesgo distribucional: Hablar sobre algunos grupos de personas de manera injusta y diferente a otros grupos, en promedio, en un gran número de salidas.
  5. Daños en la conversación: Lenguaje ofensivo que ocurre en el contexto de un diálogo largo, por ejemplo.

Para generar casos de prueba con modelos de lenguaje, exploramos una variedad de métodos, desde generación basada en indicaciones y aprendizaje de pocos ejemplos hasta ajuste fino supervisado y aprendizaje por refuerzo. Algunos métodos generan casos de prueba más diversos, mientras que otros generan casos de prueba más difíciles para el modelo objetivo. En conjunto, los métodos que proponemos son útiles para obtener una alta cobertura de pruebas y también para modelar casos adversarios.

Una vez que encontramos casos de falla, se vuelve más fácil corregir el comportamiento perjudicial del modelo mediante:

  1. Colocar en una lista negra ciertas frases que ocurren con frecuencia en salidas perjudiciales, evitando que el modelo genere salidas que contengan frases de alto riesgo.
  2. Encontrar datos de entrenamiento ofensivos citados por el modelo, para eliminar esos datos al entrenar futuras iteraciones del modelo.
  3. Aumentar la indicación del modelo (texto de condicionamiento) con un ejemplo del comportamiento deseado para un cierto tipo de entrada, como se muestra en nuestro trabajo reciente.
  4. Entrenar al modelo para minimizar la probabilidad de su salida original y perjudicial para una determinada entrada de prueba.

En general, los modelos de lenguaje son una herramienta altamente efectiva para descubrir cuando los modelos de lenguaje se comportan de diversas formas indeseables. En nuestro trabajo actual, nos enfocamos en los daños causados por el ‘red teaming’ que los modelos de lenguaje actuales cometen. En el futuro, nuestro enfoque también se puede utilizar para descubrir de manera preventiva otros daños hipotéticos de los sistemas avanzados de aprendizaje automático, por ejemplo, debido a una falta de alineación interna o fallas en la robustez objetivo. Este enfoque es solo un componente del desarrollo responsable de modelos de lenguaje: consideramos el ‘red teaming’ como una herramienta que se debe utilizar junto con muchas otras, tanto para encontrar daños en los modelos de lenguaje como para mitigarlos. Consulte la Sección 7.3 de Rae et al. 2021 para obtener una discusión más amplia sobre otros trabajos necesarios para la seguridad de los modelos de lenguaje.

Para obtener más detalles sobre nuestro enfoque y resultados, así como las consecuencias más amplias de nuestros hallazgos, lee nuestro documento de prueba de ataque aquí.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce a BLIVA un modelo de lenguaje multimodal grande para manejar mejor preguntas visuales ricas en texto

Recientemente, los Modelos de Lenguaje Grande (LLMs) han desempeñado un papel crucial en el campo de la comprensión d...

Inteligencia Artificial

Perro robot establece récord mundial de velocidad

El Instituto Avanzado de Ciencia y Tecnología de Corea ha recibido reconocimiento del Guinness World Records por su i...

Inteligencia Artificial

Conoce a PoisonGPT Un método de IA para introducir un modelo malicioso en una cadena de suministro de LLM de otra manera confiable

En medio de todo el revuelo en torno a la inteligencia artificial, las empresas están comenzando a darse cuenta de la...

Inteligencia Artificial

La Huella de Carbono de la Inteligencia Artificial

Buscando formas de reducir la emisión de gases de efecto invernadero atribuibles al uso de la inteligencia artificial...

Inteligencia Artificial

Hacia la IA generativa para la arquitectura del modelo

La revolución del transformador La atención es todo lo que necesitas ha tenido un profundo efecto en el diseño de las...