Aprendizaje automático para regresión con datos desequilibrados

AutoML para regresión con datos desequilibrados

Por qué es tan difícil predecir valores atípicos en tu conjunto de datos y qué puedes hacer al respecto

¿Qué es un conjunto de datos desequilibrado?

Muchos conjuntos de datos del mundo real sufren de desequilibrio, donde ciertos tipos de muestras están sobre-representadas en el conjunto de datos, mientras que otras ocurren con menos frecuencia. Algunos ejemplos son:

  • Cuando se clasifican las transacciones con tarjeta de crédito como fraudulentas o legítimas, la gran mayoría de las transacciones pertenecerán a la última categoría
  • Las lluvias intensas ocurren con menos frecuencia que las lluvias moderadas, pero pueden causar más daño a las personas y la infraestructura
  • Cuando se intenta identificar el uso del suelo, hay más píxeles que representan bosques y agricultura que asentamientos urbanos

En esta publicación, nuestro objetivo es brindar una explicación intuitiva de por qué los algoritmos de aprendizaje automático tienen dificultades con los conjuntos de datos desequilibrados, mostrarte cómo cuantificar el rendimiento de tu algoritmo usando evaluación de cuantiles y mostrarte tres estrategias diferentes para mejorar el rendimiento de tu algoritmo.

Foto de Elena Mozhvilo en Unsplash

Conjunto de datos de ejemplo para regresión: viviendas de California

El desequilibrio del conjunto de datos se ilustra a menudo en problemas de clasificación, donde una clase mayoritaria eclipsa a una clase minoritaria. Aquí, nos centramos en la regresión, donde el objetivo es un valor numérico continuo. Vamos a utilizar el conjunto de datos de viviendas de California que está disponible en scikit-learn. El conjunto de datos contiene más de 20,000 muestras de casas con características como la ubicación, el número de habitaciones y dormitorios, la antigüedad de la casa, el metraje cuadrado y el ingreso mediano del vecindario. La variable objetivo es el valor mediano de la vivienda, medido en millones de dólares estadounidenses. Para ver si el conjunto de datos está desequilibrado, trazamos el histograma de la variable objetivo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Doce naciones instan a los gigantes de las redes sociales a abordar el raspado ilegal de datos

Una declaración conjunta de una docena de países pidió a las plataformas de redes sociales que aborden la extracción ...

Inteligencia Artificial

Conoce vLLM una biblioteca de aprendizaje automático de código abierto para una inferencia y servicio LLM rápidos

Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) tienen un impacto cada vez mayor en cómo cambian nue...

Inteligencia Artificial

Microsoft AI lanza LLMLingua una técnica única de compresión rápida que comprime los mensajes para acelerar la inferencia de Modelos de Lenguaje Grandes (LLMs)

Los Modelos de Lenguaje de Gran Tamaño (LLM, por sus siglas en inglés), debido a su gran capacidad de generalización ...

Inteligencia Artificial

AWS Inferentia2 se basa en AWS Inferentia1 ofreciendo un rendimiento 4 veces mayor y una latencia 10 veces menor.

El tamaño de los modelos de aprendizaje automático (ML) - modelos de lenguaje grande (LLM) y modelos fundamentales (F...

Inteligencia Artificial

Los 5 mejores cursos de IA generativa para hacer en 2023

Introducción Es imperativo mantenerse actualizado sobre la información y habilidades más recientes relacionadas con l...