¿Puede la data sintética mejorar el rendimiento del aprendizaje automático?

¿La data sintética mejora el rendimiento del aprendizaje automático?

Investigando la Capacidad de los Datos Sintéticos para Mejorar el Rendimiento del Modelo en Conjuntos de Datos Desbalanceados

Imagen del autor: Generada con Midjourney

Antecedentes – Conjuntos de Datos Desbalanceados

Los problemas de clasificación desbalanceados ocurren con frecuencia en casos de uso comerciales de aprendizaje automático. Puedes encontrarlos en predicción de abandono, detección de fraudes, diagnóstico médico o detección de spam. En todos estos escenarios, lo que buscamos detectar pertenece a la clase minoritaria, la cual puede estar muy subrepresentada en nuestros datos. Se han propuesto varios enfoques para mejorar el rendimiento de los modelos en conjuntos de datos desbalanceados:

  • Submuestreo: Obtén un conjunto de entrenamiento más equilibrado al submuestrear aleatoriamente la clase mayoritaria.
  • Sobremuestreo: Obtén un conjunto de entrenamiento equilibrado al sobremuestrear aleatoriamente la clase minoritaria.
  • Pérdidas ponderadas: Asigna pesos a la función de pérdida en relación con la clase minoritaria.
  • Datos Sintéticos: Utiliza IA generativa para crear muestras de datos sintéticos de alta fidelidad de la clase minoritaria.

En este artículo demuestro cómo entrenar un modelo con datos sintéticos supera a los otros enfoques para mejorar el rendimiento del clasificador.

El Conjunto de Datos

Los datos provienen de Kaggle, que consta de 284,807 transacciones con tarjetas de crédito, de las cuales 492 (0.172%) están etiquetadas como fraudulentas. Los datos están disponibles tanto para uso comercial como no comercial bajo la licencia Open Data Commons.

Para lectores interesados, Kaggle ofrece información más detallada y estadísticas descriptivas básicas sobre los datos.

A partir de este conjunto de datos de Kaggle, creo dos subconjuntos: un conjunto de entrenamiento y un conjunto de retención. El conjunto de entrenamiento comprende el 80% de los datos totales, junto con muestras generadas sintéticamente al explorar ese enfoque. El conjunto de retención constituye el 20% de los datos originales, excluyendo cualquier muestra sintética.

Imagen del autor: Proceso de división de datos

El Modelo

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Segmentación de Imágenes Una Guía Detallada

La segmentación de imágenes se refiere a la capacidad de las computadoras (o más precisamente, los modelos almacenado...

Inteligencia Artificial

Robo-Dog establece el récord mundial de los 100 metros en la categoría sprint según el Guinness World Records

Guinness World records etiquetó a un robot parecido a un perro creado por un equipo del Instituto Avanzado de Ciencia...

Inteligencia Artificial

Destilando lo que sabemos

Los investigadores buscan reducir el tamaño de los modelos GPT grandes.

Noticias de Inteligencia Artificial

Microsoft dice que su extraña nueva partícula podría mejorar los ordenadores cuánticos.

Los investigadores de Microsoft dicen haber creado quasipartículas elusivas llamadas modos cero de Majorana, pero los...

Noticias de Inteligencia Artificial

Enfoque de OpenAI hacia la seguridad en la inteligencia artificial.

¿Qué pasará con los enfoques de seguridad en los sistemas de IA después de que el CEO de OpenAI, Sam Altman, testific...