Creando Inteligencia Artificial de Preservación de Privacidad con Substra

Creando IA de Privacidad con Substra

Con el reciente auge de las técnicas generativas, el aprendizaje automático se encuentra en un punto increíblemente emocionante de su historia. Los modelos que impulsan este avance requieren aún más datos para producir resultados impactantes, por lo que cada vez es más importante explorar nuevos métodos para recopilar datos de manera ética, al tiempo que se garantiza la privacidad y seguridad de los datos como una prioridad principal.

En muchos ámbitos que tratan información sensible, como la atención médica, a menudo no hay suficientes datos de alta calidad accesibles para entrenar estos modelos hambrientos de datos. Los conjuntos de datos están aislados en diferentes centros académicos e instituciones médicas y resulta difícil compartirlos abiertamente debido a preocupaciones de privacidad sobre la información de los pacientes y propietaria. Las regulaciones que protegen los datos de los pacientes, como HIPAA, son esenciales para salvaguardar la información de salud privada de las personas, pero pueden limitar el progreso de la investigación en aprendizaje automático, ya que los científicos de datos no pueden acceder al volumen de datos necesario para entrenar efectivamente sus modelos. Las tecnologías que trabajan junto con las regulaciones existentes al proteger proactivamente los datos de los pacientes serán cruciales para desbloquear estos silos y acelerar el ritmo de la investigación y la implementación del aprendizaje automático en estos ámbitos.

Aquí es donde entra en juego el Aprendizaje Federado. ¡Echa un vistazo al espacio que hemos creado con Substra para obtener más información!

¿Qué es el Aprendizaje Federado?

El aprendizaje federado (FL) es una técnica de aprendizaje automático descentralizada que te permite entrenar modelos utilizando varios proveedores de datos. En lugar de recopilar datos de todas las fuentes en un solo servidor, los datos pueden permanecer en un servidor local y solo los pesos del modelo resultante viajan entre los servidores.

Dado que los datos nunca abandonan su origen, el aprendizaje federado es naturalmente un enfoque centrado en la privacidad. Esta técnica no solo mejora la seguridad y privacidad de los datos, sino que también permite a los científicos de datos construir modelos mejores utilizando datos de diferentes fuentes, aumentando la robustez y proporcionando una mejor representación en comparación con los modelos entrenados con datos de una sola fuente. Esto es valioso no solo debido al aumento en la cantidad de datos, sino también para reducir el riesgo de sesgos debido a variaciones del conjunto de datos subyacente, como diferencias menores causadas por las técnicas y equipos de captura de datos, o diferencias en la distribución demográfica de la población de pacientes. Con múltiples fuentes de datos, podemos construir modelos más generalizables que finalmente tienen un mejor rendimiento en entornos del mundo real. Para obtener más información sobre el aprendizaje federado, recomendamos echar un vistazo a este cómic explicativo de Google.

Substra es un marco de aprendizaje federado de código abierto diseñado para entornos de producción del mundo real. Aunque el aprendizaje federado es un campo relativamente nuevo y solo se ha afianzado en la última década, ya ha permitido que la investigación en aprendizaje automático avance de maneras antes inimaginables. Por ejemplo, 10 compañías de biotecnología competidoras que tradicionalmente nunca compartirían datos entre sí establecieron una colaboración en el proyecto MELLODDY al compartir la mayor colección del mundo de pequeñas moléculas con actividad bioquímica o celular conocida. Esto permitió que todas las compañías involucradas construyeran modelos predictivos más precisos para el descubrimiento de medicamentos, un hito importante en la investigación médica.

Substra x HF

La investigación sobre las capacidades del aprendizaje federado está creciendo rápidamente, pero la mayoría de los trabajos recientes se han limitado a entornos simulados. Los ejemplos e implementaciones del mundo real aún siguen siendo limitados debido a la dificultad de implementar y diseñar redes federadas. Como plataforma líder de código abierto para la implementación de aprendizaje federado, Substra ha sido probada en muchos entornos de seguridad complejos e infraestructuras de TI, y ha permitido avances médicos en la investigación del cáncer de mama.

Hugging Face colaboró con los responsables de Substra para crear este espacio, que tiene como objetivo dar una idea de los desafíos del mundo real a los que se enfrentan los investigadores y científicos, principalmente, la falta de datos centralizados de alta calidad que estén “listos para la IA”. Al poder controlar la distribución de estas muestras, podrás ver cómo reacciona un modelo simple a los cambios en los datos. Luego puedes examinar cómo un modelo entrenado con aprendizaje federado casi siempre tiene un mejor rendimiento en los datos de validación en comparación con los modelos entrenados con datos de una sola fuente.

Conclusión

Aunque el aprendizaje federado ha liderado la carga, existen varias tecnologías de mejora de la privacidad (PET, por sus siglas en inglés) como los enclaves seguros y la computación multipartita que están permitiendo resultados similares y se pueden combinar con la federación para crear entornos de preservación de la privacidad en capas múltiples. Puedes obtener más información aquí si te interesa cómo estas tecnologías están permitiendo colaboraciones en medicina.

Independientemente de los métodos utilizados, es importante tener en cuenta que la privacidad de los datos es un derecho para todos nosotros. Es fundamental que avancemos en este auge de la IA teniendo en cuenta la privacidad y la ética.

Si quieres jugar con Substra e implementar el aprendizaje federado en un proyecto, puedes consultar la documentación aquí.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Google Research presenta SPAE un AutoEncoder para generación multimodal con Modelos de Lenguaje (LLMs) grandes congelados.

Los Modelos de Lenguaje Grande (LLMs por sus siglas en inglés) han ganado rápidamente una enorme popularidad debido a...

Inteligencia Artificial

Conoce a GPS-Gaussian Un nuevo enfoque de inteligencia artificial para sintetizar nuevas perspectivas de un personaje de forma en tiempo real.

Una función esencial de los sistemas de cámaras de múltiples vistas es la síntesis de vistas novedosas (NVS), que int...

Inteligencia Artificial

Conoce al Omnívoro Startup desarrolla aplicación que permite a los usuarios convertir objetos en modelos 3D con solo un teléfono inteligente.

Nota del editor: Esta publicación forma parte de nuestra serie Meet the Omnivore, que presenta a creadores y desarrol...

Inteligencia Artificial

Análisis y optimización del rendimiento del modelo PyTorch - Parte 3

Esta es la tercera parte de una serie de publicaciones sobre el tema de analizar y optimizar modelos de PyTorch utili...

Inteligencia Artificial

Personalizando compañeros de codificación para organizaciones

Los modelos de IA generativa para compañeros de codificación se entrenan principalmente con código fuente disponible ...

Inteligencia Artificial

Protección de datos fundamentales para la aceleración de LLM empresarial con Protopia AI

La publicación describe cómo puedes superar los desafíos de retener la propiedad de los datos y preservar la privacid...