Una nueva investigación de IA de CMU propone un método de ataque simple y efectivo que hace que los modelos de lenguaje alineados generen comportamientos objetables.

Investigación de IA propone método de ataque efectivo en modelos de lenguaje alineados.

Los modelos de lenguaje grandes (LLM) como ChatGPT, Bard AI y Llama-2 pueden generar contenido indeseable y ofensivo. Imagina a alguien pidiéndole a ChatGPT una guía para manipular elecciones o un examen. Obtener una respuesta para este tipo de preguntas de los LLM sería inapropiado. Investigadores de la Universidad Carnegie Mellon, el Centro para la Inteligencia Artificial y el Centro Bosch para la Inteligencia Artificial han desarrollado una solución para esto, alineando esos modelos para evitar generaciones indeseables. 

Los investigadores encontraron un enfoque para resolverlo. Cuando un LLM se expone a una amplia gama de consultas objetables, el modelo produce una respuesta afirmativa en lugar de simplemente negar la respuesta. Su enfoque implica producir sufijos adversarios mediante técnicas de búsqueda codiciosa y basada en gradientes. El uso de este enfoque mejora los métodos de generación automática de indicaciones anteriores.

Las indicaciones que dan lugar a que los LLM generen contenido ofensivo se llaman “jailbreaks”. Estos “jailbreaks” se generan a través de ingenio humano, estableciendo escenarios que llevan a los modelos por mal camino en lugar de utilizar métodos automatizados, y requieren esfuerzo manual. A diferencia de los modelos de imágenes, los LLM operan con entradas de tokens discretos, lo que limita la entrada efectiva. Esto resulta ser computacionalmente difícil.

Los investigadores proponen una nueva clase de ataques adversarios que pueden producir contenido objetable. Dada una consulta dañina del usuario, los investigadores añaden un sufijo adversario para que la consulta original del usuario quede intacta. El sufijo adversario se elige en función de las respuestas afirmativas iniciales, combinando técnicas de optimización codiciosa y basada en gradientes, y ataques multiindicación y multimodelo robustos. 

Para generar sufijos de ataque fiables, los investigadores tuvieron que crear un ataque que funcionara no solo para una única indicación para un solo modelo, sino para múltiples indicaciones en múltiples modelos. Los investigadores utilizaron un método basado en gradientes codicioso para buscar una única cadena de sufijo que pudiera inyectar un comportamiento negativo en múltiples indicaciones del usuario. Los investigadores implementaron esta técnica mediante ataques a Claude; encontraron que el modelo producía resultados deseables y tenía el potencial de reducir los ataques automatizados. 

Los investigadores afirman que el trabajo futuro consiste en proporcionar estos ataques, para que los modelos puedan ajustarse para evitar respuestas indeseables. La metodología de entrenamiento adversario se ha demostrado empíricamente como un medio eficiente para entrenar cualquier modelo, ya que implica de forma iterativa una respuesta correcta a la consulta potencialmente dañina. 

Su trabajo contenía material que podría permitir a otros generar contenido perjudicial. A pesar del riesgo involucrado, su trabajo es importante para presentar las técnicas de diversos modelos de lenguaje para evitar la generación de contenido dañino. El daño incremental directo causado por la liberación de sus ataques es mínimo en las etapas iniciales. Su investigación puede ayudar a aclarar los peligros que los ataques automatizados plantean para los modelos de lenguaje grandes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Aprendizaje Automático

Red Cat y Athena AI crean drones militares inteligentes con visión nocturna.

Red Cat Holdings, Inc., una empresa líder en tecnología militar, ha logrado un hito en su colaboración con Athena AI....

Inteligencia Artificial

Investigadores de China proponen iTransformer Repensando la arquitectura Transformer para una mejora en la previsión de series temporales

El Transformer se ha convertido en el modelo básico que se adhiere a la regla de escalado después de alcanzar un gran...

Aprendizaje Automático

Escribir canciones con GPT-4 Parte 3, Melodías

Cómo usar ChatGPT con GPT-4 de OpenAI para escribir melodías para nuevas canciones utilizando tablaturas de guitarra ...

Ciencias de la Computación

Matthew Kearney Trayendo la inteligencia artificial y la filosofía al diálogo.

La doble especialización en informática y filosofía tiene como objetivo avanzar en el campo de la ética de la intelig...

Inteligencia Artificial

Un 'mapa' más preciso de las luces que ves cuando cierras los ojos puede mejorar los resultados de los 'ojos biónicos'.

Un método de mapeo de fosfenos desarrollado por investigadores de la Universidad de Monash en Australia podría ayudar...

Inteligencia Artificial

Meet TableGPT Un marco unificado ajustado que permite a los LLM comprender y operar en tablas utilizando comandos funcionales externos

Las tablas se utilizan con frecuencia para representar el vasto y complejo mundo de los datos y sirven como base para...