Escalado de datos con Python

Data scaling with Python

Cómo escalar tus datos para hacerlos adecuados para la construcción de modelos.

En el proceso de aprendizaje automático, la escalación de datos se encuentra en el preprocesamiento de datos, o ingeniería de características. Escalar sus datos antes de utilizarlos para la construcción del modelo puede lograr lo siguiente:

  • La escalación garantiza que las características tengan valores en el mismo rango.
  • La escalación garantiza que las características utilizadas en la construcción del modelo sean adimensionales.
  • La escalación se puede utilizar para detectar valores atípicos.

Existen varios métodos para escalar datos. Las dos técnicas de escalación más importantes son la Normalización y la Estandarización.

Escalado de datos utilizando Normalización

Cuando los datos se escalan utilizando la normalización, los datos transformados se pueden calcular utilizando la siguiente ecuación:

donde

Implementación de la Normalización en Python

La escalación utilizando la normalización se puede implementar en Python utilizando el siguiente código:

from sklearn.preprocessing import Normalizer
norm = Normalizer()
X_norm = norm.fit_transform(data)

Sea X un conjunto de datos dado con

El X normalizado se muestra en la figura siguiente:

Figura 2. X normalizado con valores entre 0 y 1. Imagen del autor.

Escalado de datos utilizando Estandarización

Idealmente, la estandarización se debe utilizar cuando los datos se distribuyen de acuerdo a la distribución normal o Gaussiana. Los datos estandarizados se pueden calcular de la siguiente manera:

Aquí, es la media de los datos y es la desviación estándar. Los valores estandarizados deberían estar típicamente en el rango [-2, 2], lo cual representa el intervalo de confianza del 95%. Los valores estandarizados inferiores a -2 o mayores a 2 se pueden considerar como valores atípicos. Por lo tanto, la estandarización se puede utilizar para la detección de valores atípicos.

Implementación de la Estandarización en Python

La escalación utilizando la estandarización se puede implementar en Python utilizando el siguiente código:

from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()
X_std = stdsc.fit_transform(data)

Utilizando los datos descritos anteriormente, los datos estandarizados se muestran a continuación:

Figura 3. X estandarizado. Imagen del autor.

La media estandarizada es cero. Observamos en la figura anterior que excepto por algunos valores atípicos, la mayoría de los datos estandarizados se encuentran en el rango [-2, 2].

Conclusión

En resumen, hemos discutido dos de los métodos más populares para la escala de características, a saber: estandarización y normalización. Los datos normalizados se encuentran en el rango [0, 1], mientras que los datos estandarizados suelen encontrarse en el rango [-2, 2]. La ventaja de la estandarización es que se puede utilizar para la detección de valores atípicos. Benjamin O. Tayo es un físico, educador de ciencia de datos y escritor, además de ser el propietario de DataScienceHub. Anteriormente, Benjamin enseñaba ingeniería y física en la U. de Central Oklahoma, la U. Grand Canyon y la U. Pittsburgh State.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La inteligencia artificial ayuda a los robots domésticos a reducir a la mitad el tiempo de planificación

PIGINet utiliza el aprendizaje automático para simplificar y mejorar la planificación de tareas y movimientos de los ...

Inteligencia Artificial

Todo lo que necesitas saber sobre la serie de modelos de lenguaje (LLMs) Qwen Large

Los modelos de lenguaje grandes (LLMs) han remodelado significativamente el panorama de la Inteligencia Artificial (I...

Inteligencia Artificial

Investigadores de Stanford presentan Spellburst un entorno de codificación creativa impulsado por un modelo de lenguaje grande (LLM).

Mientras crean impresionantes obras de arte digitales, los artistas generativos a menudo se enfrentan a las complejid...

Inteligencia Artificial

Conoce a CodiumAI El Asistente Definitivo para Pruebas Basado en Inteligencia Artificial para Desarrolladores

En el mundo acelerado del desarrollo de software, escribir pruebas a menudo se considera una tarea tediosa que lleva ...

Inteligencia Artificial

Jina AI presenta 'jina-embeddings-v2' los primeros modelos de incrustación de texto de código abierto 8k del mundo.

Jina AI revela su último avance en su modelo de incrustación de texto de segunda generación: jina-embeddings-v2. Este...