¿Qué significa ‘Basura entra, basura sale’ al resolver problemas reales de negocios?

¿Qué significa esta frase al resolver problemas de negocios?

Foto de Gary Chan en Unsplash

y cómo evitarlo con un flujo de trabajo práctico

En el panorama empresarial actual, confiar en datos precisos es más importante que nunca. La frase “basura entra, basura sale” captura perfectamente la importancia de la calidad de los datos para lograr soluciones exitosas basadas en datos. Si bien el uso del modelo adecuado para pronósticos o clasificación es crucial, es imposible obtener buenos resultados sin una entrada de datos confiable. Al utilizar características amplificadas generadas a partir de fuentes de datos confiables, incluso las regresiones lineales simples pueden producir resultados altamente precisos. En esta publicación de blog, discutiré la importancia de los datos en la resolución de problemas empresariales del mundo real y describiré los pasos para crear un sólido flujo de evaluación de datos que garantice la calidad de los datos de entrada para una modelización precisa y una toma de decisiones inteligente.

La Realidad en la Ciencia de Datos Aplicada

Después de trabajar como científico de datos durante más de dos años, una de mis observaciones más sorprendentes es cuánto tiempo mis colegas y yo pasamos limpiando datos. Mientras estamos en la escuela, nuestra atención generalmente se dirige a comprender los algoritmos fundamentales, los principios matemáticos subyacentes de los modelos, el proceso general de construcción de un flujo de trabajo de pronóstico, etc. A menudo trabajamos con conjuntos de datos perfectos que están redactados deliberadamente de cierta manera para que solo nos centremos en el proceso de EDA, la evaluación del modelo y las partes de ajuste fino, lo que nos lleva a subestimar la importancia de la limpieza de datos hasta que nos encontramos con datos empresariales del mundo real en la industria. Los datos empresariales reales son desordenados. El desorden proviene, pero no se limita, a lo siguiente:

  1. Diversidad de Fuentes de Datos: Las empresas acumulan datos de una variedad de fuentes. Por ejemplo, una empresa de comercio electrónico puede recopilar datos de las compras de los clientes, la planificación de ventas, los procesos de fabricación, las campañas de marketing, etc. Cada fuente de datos viene con sus propios formatos de datos, estructuras y niveles de calidad únicos. Las inconsistencias aquí resultan en un gran desafío más adelante al fusionar todas las fuentes de datos para su posterior análisis.
  2. Error Humano: La recopilación de datos requiere la participación humana, lo que aumenta la probabilidad de cometer errores durante el proceso. Los errores cometidos por los humanos, como errores tipográficos, incorrectos…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Stability AI presenta SDXL Turbo un modelo de generación de texto a imagen en tiempo real

Stability AI presenta SDXL Turbo, que representa un avance notable en la síntesis de texto a imagen, impulsado por un...

Inteligencia Artificial

Investigadores de UC Berkeley introducen Ghostbuster un método de IA SOTA para detectar texto generado por LLM

ChatGPT ha revolucionado la capacidad de producir fácilmente una amplia gama de texto fluido sobre una amplia gama de...

Inteligencia Artificial

Meta presenta AudioCraft una herramienta de IA para convertir texto en audio y música

Meta, el gigante tecnológico detrás de plataformas de redes sociales como Facebook, Instagram y WhatsApp, ha lanzado ...

Inteligencia Artificial

California acaba de abrir las compuertas para los coches autónomos

Después de una decisión de la junta reguladora estatal, San Francisco tendrá robotaxis las 24 horas del día, los 7 dí...

Inteligencia Artificial

IA generativa y agentes multimodales en AWS La clave para desbloquear nuevo valor en los mercados financieros

Los datos multimodales son un componente valioso de la industria financiera, que abarca datos de mercado, económicos,...

Inteligencia Artificial

Las reseñas falsas son desenfrenadas en línea. ¿Puede una represión ponerles fin?

Una ola de regulación y acción de la industria ha puesto en aviso al próspero negocio de las reseñas falsas. Pero los...