AI Sesgo Desafíos y Soluciones

'AI Sesgo Desafíos y Soluciones'

Cuando se alimenta a los modelos de IA con datos de entrenamiento que contienen sesgos, los resultados también serán sesgados. ¶ Crédito: thenextweb.com

El sesgo en la inteligencia artificial (IA) no es un problema nuevo. En 1988, la Comisión para la Igualdad Racial del Reino Unido (ahora la Comisión para la Igualdad y los Derechos Humanos) descubrió que la Escuela de Medicina St. George en Londres había discriminado por motivos raciales y sexuales “a través de la operación de un programa informático entre 1982 y 1986”. El algoritmo, diseñado para automatizar el proceso de admisiones, asignaba pesos negativos a los “nombres no caucásicos” y a los de las solicitantes femeninas.

Durante décadas, el sesgo de la IA fue principalmente un problema técnico difícil discutido por investigadores y desarrolladores. Ahora, gracias en parte a la asombrosa adopción popular de la IA generativa, las conversaciones sobre el sesgo se han trasladado al ámbito público. La arena está animada, por decir lo menos: se están recopilando enormes volúmenes de datos para entrenar modelos, algunas tecnologías son de código abierto, otras son cajas negras, y las divisiones sociales y las volátiles “guerras culturales” añaden tensiones al diálogo.

Los formuladores de políticas han comenzado a tomar medidas, y aspectos de la propuesta Ley de IA de la Unión Europea, como la transparencia y la explicabilidad, es probable que tengan un impacto en el sesgo, y en los Estados Unidos, el Instituto Nacional de Estándares y Tecnología ha publicado su “primer paso en la hoja de ruta para desarrollar una orientación socio-técnica detallada para identificar y manejar el sesgo de la IA”.

Sin embargo, aún no existen estándares universales para abordar el sesgo de la IA.

Incorporado desde el principio

El sesgo en la IA es “el sesgo humano que está incorporado en los algoritmos, los sistemas de aprendizaje automático y los sistemas computacionales”, explica Yeshimabeit Milner, fundadora y directora ejecutiva de Data for Black Lives (D4BL), que se describe a sí misma como “un movimiento de activistas, organizadores y científicos comprometidos con la misión de utilizar datos para crear cambios concretos y medibles en las vidas de las personas negras”. Cuando se alimenta a los modelos de IA con datos de entrenamiento que contienen sesgos, los resultados también serán sesgados. Según Milner, “usando el viejo adagio de la informática: lo que entra basura, lo que sale basura”.

Milner dice que el sesgo no se trata solo de percepciones, sino también de narrativas que se arraigan en las políticas y luego “se incorporan al código”. Señala cómo el uso de los códigos postales de EE.UU. en la calificación crediticia impulsada por el aprendizaje automático, introducida por FICO en 1989, ha perjudicado a las comunidades negras. Si bien la calificación crediticia no tiene una variable para la raza, el sistema de códigos postales puede sustituir a la raza, ya que refleja las políticas de discriminación y segregación de la década de 1930, explica Milner. “Los códigos postales se han convertido en un sustituto de la raza. Si le preguntas a alguien dónde vive, por su código postal, puedes predecir más allá de toda duda razonable de qué raza es”.

Sanmay Das es codirector del Centro para el Avance de la Asociación Humanomáquina en la Universidad George Mason y presidente del Grupo de Interés Especial en Inteligencia Artificial de la ACM (SIGAI de la ACM). Al igual que Milner, Das destaca la calificación crediticia basada en el aprendizaje automático como ejemplo de los peligros del sesgo, y añade que a medida que la IA se incorpora cada vez más a la sociedad, las lagunas en los datos contribuyen al problema. Estas lagunas ocurren cuando grupos de personas, a menudo de comunidades marginadas, han sido descuidados o excluidos durante los procesos de recopilación de datos, o cuando simplemente no existen datos sobre grupos específicos. Los modelos entrenados con dichos datos es probable que produzcan resultados sesgados o distorsionados como resultado.

Das dice que los investigadores de IA no son “tan buenos” como los científicos sociales para pensar en las muestras, y a menudo recurren a la extracción de datos web por velocidad y conveniencia. “Si voy y obtengo todo lo que está sucediendo en la web para entrenar un chatbot, obtendré algo que es muy diferente de la sociedad humana en su conjunto”. El contenido en inglés o generado en lo que Das llama “salas de chat tóxicas” es probable que esté sobrerrepresentado debido al gran volumen de cada uno en línea, explica.

Phoenix Perry, artista e investigadora de IA en el Instituto de Computación Creativa de la Universidad College London del Reino Unido, compara el sesgo con preparar una comida con “ingredientes contaminados”, en este caso, datos, cargados con sesgos prevalentes en línea, como el racismo, el sexismo y la transfobia. “Si los datos o los ‘ingredientes’ están defectuosos, no importa cuánta destreza computacional o aprendizaje automático avanzado se aplique, no se podrá rectificar el producto resultante. Este resultado contaminado refleja sesgos perjudiciales en la sociedad y perpetúa su existencia”, dice Perry.

Incluso si los datos de entrenamiento no están sesgados, pueden surgir problemas debido a los sesgos propios de los entrenadores de modelos, un problema que se ve exacerbado por el menor porcentaje de mujeres que hombres que trabajan en IA, según Arisa Ema del Instituto para Futuras Iniciativas de la Universidad de Tokio y el Centro RIKEN para el Proyecto de Inteligencia Avanzada. “Este sesgo en nuestra estructura social ya crea un sesgo en la comunidad de diseñadores y en la selección de algoritmos y datos”.

Buenos datos y enfoque de base

Si el sesgo está “incorporado”, ¿cómo se puede combatir?

Algunas soluciones adoptan un enfoque centrado en el sector. El equipo del proyecto STANDING Together, liderado por investigadores de la Trust del NHS de la Universidad de Birmingham y la Universidad de Birmingham del Reino Unido, está desarrollando estándares para conjuntos de datos diversos para la atención médica de IA que representen mejor a la sociedad.

En un contexto legal, en la conferencia FAccT 2022 de ACM, un equipo del Centro de Investigación y Tecnología de Hellas (CERTH) en Grecia, el Centro de Derecho de IT y PI en Bélgica y los especialistas en IA ética de Trilateral Research con sede en el Reino Unido, presentaron un nuevo enfoque para la IA de conciencia de equidad para mitigar el sesgo algorítmico en la aplicación de la ley. Los investigadores utilizaron muestras generadas sintéticamente para crear conjuntos de datos “más equilibrados” que mitigaron instancias de sesgo, en relación con la raza, que identificaron durante el análisis de los datos existentes.

Para Milner, las soluciones radican en la participación de la comunidad y en replantear la recopilación de datos, áreas en las que D4BL tiene experiencia en instigar cambios. Durante la pandemia, el equipo lideró la demanda de liberar datos a nivel estatal por raza para investigar el impacto desproporcionado de COVID-19 en las personas negras y trabajó con científicos de datos voluntarios para construir la base de código para hacerlo. “Cada portal de datos abiertos que publicó datos de COVID-19 proporcionó automáticamente actualizaciones en tiempo real sobre las tasas de muerte e infección de las comunidades negras por estado; eso fue una herramienta realmente poderosa”, dice.

Milner es optimista sobre el potencial de la IA para lograr “tremendos avances”. Sin embargo, para que todos se beneficien, el poder de los datos debe ser devuelto “a manos de las personas”, dice. Las conversaciones sobre IA tienden a ser elitistas, dice; las soluciones implican involucrar a organizaciones de base y “cambiar el elenco de personajes” que toman decisiones. “Se trata de llevar a las personas a la mesa, literalmente, construyendo un movimiento de científicos activistas, comunidades negras y la comunidad científica”, dice Milner.

Como artista, Perry aporta una perspectiva novedosa, abogando por el uso de conjuntos de datos a pequeña escala para combatir el sesgo y facilitar una mayor influencia humana en la IA generativa, especialmente en contextos creativos. “La ventaja única de estos conjuntos de datos es su naturaleza altamente personalizada”, dice Perry, quien también respalda la regulación formal para frenar el uso de sesgos “para explotar o introducir sesgos en conjuntos de datos con fines de lucro, una práctica ya evidente en las redes sociales”.

El fundador y CEO de Stability AI, Emad Mostaque, también ha señalado las ventajas de los conjuntos de datos más pequeños. Hablando recientemente en el programa de la BBC “Sunday with Laura Kuenssberg”, Mostaque dijo: “No utilicen todo Internet rastreado, utilicen conjuntos de datos nacionales altamente curados y que reflejen la diversidad de la humanidad en lugar de Internet occidental como lo vemos. Estos modelos tienen más probabilidades de ser estables; tienen más probabilidades de estar alineados con los humanos”.

Das está de acuerdo con Perry en que es hora de regular. “Las empresas tienen que enfrentar algún tipo de escrutinio sobre las cosas que están haciendo y lanzando al mundo”, dice, señalando los sistemas regulatorios existentes en el desarrollo de medicamentos y la ingeniería genética como ejemplos. “Tenemos que pensar en tener un aparato que tenga cierta autoridad; que pueda incentivar salvaguardias adecuadas”.

Es probable que haya nuevos enfoques para la recopilación de datos y el entrenamiento de modelos, y una mayor regulación del sesgo de IA; si los desarrolladores y los responsables de la formulación de políticas se mantendrán al ritmo de los avances es menos seguro.

Karen Emslie es una periodista y ensayista independiente con ubicación flexible.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El mito de la IA de 'código abierto

Un nuevo análisis muestra que las herramientas de IA de código abierto, como Llama 2, siguen siendo controladas por g...

Inteligencia Artificial

Conoce 3D-VisTA Un Transformer pre-entrenado para alineación de visión 3D y texto que puede adaptarse fácilmente a diversas tareas posteriores.

En el dinámico panorama de la Inteligencia Artificial, los avances están remodelando los límites de lo posible. La fu...

Inteligencia Artificial

NVIDIA DGX Cloud ahora disponible para impulsar el entrenamiento de IA generativa

NVIDIA DGX Cloud — que ofrece herramientas que pueden convertir casi cualquier empresa en una empresa de IA — ahora e...

Inteligencia Artificial

Abogado penalista advierte que la IA podría hacer que los tribunales duden de sus propios ojos

El gobierno federal de Australia está considerando nuevas regulaciones para la tecnología de inteligencia artificial.

Inteligencia Artificial

Una guía para principiantes sobre LLMOps para ingeniería de aprendizaje automático

Introducción El lanzamiento de ChatGPT de OpenAI ha generado mucho interés en los grandes modelos de lenguaje (LLMs, ...