Un grupo de investigación de CMU, AI2 y la Universidad de Washington presenta NLPositionality un marco de inteligencia artificial para caracterizar sesgos de diseño y cuantificar la posicionamiento de conjuntos de datos y modelos de procesamiento del lenguaje natural (NLP).

Un grupo de investigación presenta NLPositionality, un marco de IA para caracterizar sesgos de diseño y cuantificar el posicionamiento de conjuntos de datos y modelos de procesamiento del lenguaje natural (NLP).

La posición de los investigadores, sus perspectivas formadas por su propia experiencia, identidad, cultura y antecedentes, influye en sus decisiones de diseño al desarrollar conjuntos de datos y modelos de PLN.

Las elecciones de diseño latentes y la posición del investigador son dos fuentes de sesgo de diseño en la producción de conjuntos de datos y modelos. Esto conduce a discrepancias en el funcionamiento de los conjuntos de datos y modelos para diferentes poblaciones. Sin embargo, al imponer los estándares de un grupo al resto del mundo, pueden ayudar a mantener las desigualdades sistémicas. La dificultad surge debido a la gran variedad de decisiones de diseño que deben tomarse, y solo un subconjunto de estas decisiones puede registrarse al construir conjuntos de datos y modelos. Además, muchos modelos ampliamente utilizados en producción no se exponen fuera de las APIs, lo que dificulta caracterizar los sesgos de diseño directamente.

Investigaciones recientes de la Universidad de Washington, la Universidad Carnegie Mellon y el Instituto Allen para la IA presentan NLPositionality, un paradigma para describir la posicionabilidad y los sesgos de diseño de los conjuntos de datos y modelos de procesamiento de lenguaje natural (PLN). Los investigadores reclutan una comunidad global de voluntarios de diversos orígenes culturales y lingüísticos para anotar una muestra del conjunto de datos. A continuación, miden los sesgos en el diseño al contrastar diferentes identidades y contextos para ver cuáles están más en línea con las etiquetas originales del conjunto de datos o las predicciones del modelo.

NLPositionality tiene tres beneficios sobre otros métodos (como la contratación de multitudes remuneradas o experimentos en laboratorio):

  1. En comparación con otras plataformas de contratación de multitudes y estudios de laboratorio convencionales, LabintheWild tiene una población de participantes más diversa.
  2. En lugar de depender de la remuneración monetaria, este método se basa en el deseo intrínseco de los participantes de crecer expandiendo su autoconciencia. Las posibilidades de aprendizaje para los participantes aumentan, y la calidad de los datos mejora en comparación con las plataformas de contratación de multitudes remuneradas. Por lo tanto, a diferencia de los estudios pagados únicos como los que se encuentran en otras investigaciones, esta plataforma puede recopilar libremente nuevas anotaciones y reflejar observaciones más recientes de los sesgos de diseño durante períodos prolongados.
  3. Este método no requiere que se apliquen etiquetas o predicciones preexistentes a ningún conjunto de datos o modelo posteriormente.

Los investigadores utilizan NLPositionality en dos ejemplos de tareas de PLN conocidas por tener sesgos en su diseño: aceptabilidad social y detección de discurso de odio. Observan modelos de lenguaje grandes específicos de la tarea y generales (es decir, GPT-4) y los conjuntos de datos y modelos supervisados asociados. En promedio, 1,096 anotadores de 87 países han contribuido con 38 anotaciones al día para un total de 16,299 anotaciones hasta el 25 de mayo de 2023. El equipo encontró que los millennials blancos con educación universitaria de países de habla inglesa, un subconjunto de las poblaciones “WEIRD” (occidentales, educadas, industrializadas, ricas, democráticas), son los más adecuados para los conjuntos de datos y modelos que examinan. La importancia de recopilar datos y anotaciones de una amplia variedad de fuentes también se destaca mediante su observación de que los conjuntos de datos muestran altos niveles de alineación con sus anotadores originales. Sus hallazgos indican la necesidad de expandir la investigación de PLN para incluir modelos y conjuntos de datos más diversos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Aprendizaje Automático de Grafos @ ICML 2023

Magníficas playas y paisajes tropicales de Hawái 🌴 no impidieron que valientes científicos asistieran a la Conferenci...

Inteligencia Artificial

La manía de la IA ¿Se dirige hacia una burbuja a punto de estallar?

El mundo de la inteligencia artificial (IA) experimentó un gran aumento de interés por parte de los inversores de cap...

Noticias de Inteligencia Artificial

Después de Amazon, una ambición por acelerar la fabricación estadounidense.

Jeff Wilke SM '93, ex CEO del negocio de Consumidores Mundiales de Amazon, lleva su estrategia de LGO a su nueva misi...

Ciencia de Datos

El modelo de inteligencia artificial de NVIDIA para salvar la Tierra, obtiene financiamiento de la NASA.

Es impresionante ver las lluvias de meteoros iluminar el cielo nocturno. Sin embargo, la amenaza de objetos celestes ...

Inteligencia Artificial

Microsoft lanza TypeChat una biblioteca de IA que facilita la creación de interfaces de lenguaje natural utilizando tipos.

La biblioteca TypeChat de Microsoft es un intento de facilitar la creación de interfaces de lenguaje natural basadas ...

Inteligencia Artificial

Algoritmo para la detección y movimiento robótico

Investigadores de la Universidad de California, Los Ángeles formularon un algoritmo que mejora las habilidades de nav...