12 Modelos Mentales para la Ciencia de Datos

12 Mental Models for Data Science.

Conceptos Poderosos para Navegar en el Terreno de la Ciencia de Datos

Foto de Júnior Ferreira en Unsplash

Introducción

En el campo siempre cambiante de la ciencia de datos, las habilidades técnicas para manipular y analizar datos son indudablemente cruciales para cualquier proyecto de datos. Además de las habilidades técnicas y blandas, un científico de datos experimentado puede desarrollar a lo largo de los años un conjunto de herramientas conceptuales conocidas como modelos mentales para ayudarlos a navegar por el terreno de datos.

No solo son útiles los modelos mentales para la ciencia de datos, James Clear (autor de Hábitos Atómicos) ha hecho un gran trabajo explorando cómo los modelos mentales pueden ayudarnos a pensar mejor y su utilidad en una amplia gama de campos (negocios, ciencia, ingeniería, etc.) en este artículo.

Al igual que un carpintero usa diferentes herramientas para diferentes tareas, un científico de datos emplea diferentes modelos mentales según el problema en cuestión. Estos modelos proporcionan una manera estructurada de resolver problemas y tomar decisiones. Nos permiten simplificar situaciones complejas, resaltar información relevante y hacer conjeturas educadas sobre el futuro.

Este blog presenta doce modelos mentales que pueden ayudar a aumentar su productividad en un 10X en la ciencia de datos. Particularmente, lo hacemos ilustrando cómo se pueden aplicar estos modelos en el contexto de la ciencia de datos seguido de una breve explicación de cada uno. Ya sea que sea un científico de datos experimentado o un recién llegado al campo, comprender estos modelos puede ser útil en su práctica de la ciencia de datos.

1. Basura Entra, Basura Sale

El primer paso para cualquier análisis de datos es garantizar que los datos que está utilizando sean de alta calidad, ya que cualquier conclusión que saque de ellos se basará en estos datos. Además, esto podría significar que incluso el análisis más sofisticado no puede compensar la mala calidad de los datos. En pocas palabras, este concepto enfatiza que la calidad de la salida está determinada por la calidad de la entrada. En el contexto de trabajar con datos, la manipulación y preprocesamiento de un conjunto de datos ayudaría a aumentar la calidad de los datos.

Imagen dibujada por el autor.

2. Ley de los Grandes Números

Después de garantizar la calidad de sus datos, el siguiente paso suele ser recopilar más datos. La Ley de los Grandes Números explica por qué tener más datos generalmente conduce a modelos más precisos. Este principio sugiere que a medida que el tamaño de la muestra aumenta, su media también se acerca al promedio de toda la población. Esto es fundamental en la ciencia de datos porque subyace en la lógica de recopilar más datos para mejorar la generalización y la precisión del modelo.

Imagen dibujada por el autor.

3. Sesgo de Confirmación

Una vez que tiene sus datos, debe tener cuidado con cómo los interpreta. El Sesgo de Confirmación es un recordatorio para evitar buscar solo datos que respalden sus hipótesis y considerar todas las pruebas. Particularmente, el sesgo de confirmación se refiere a la tendencia a buscar, interpretar, favorecer y recordar información de una manera que confirme las creencias o hipótesis previas de uno. En la ciencia de datos, es crucial ser consciente de este sesgo y buscar pruebas tanto de confirmación como de refutación.

Imagen dibujada por el autor.

4. P-Hacking

Este es otro concepto importante a tener en cuenta durante la fase de análisis de datos. Esto se refiere al mal uso del análisis de datos para encontrar selectivamente patrones en los datos que se pueden presentar como estadísticamente significativos, lo que lleva a conclusiones incorrectas. Para visualizar esto, la identificación de resultados estadísticamente significativos raros (ya sea intencionalmente o por casualidad) puede presentarse selectivamente. Por lo tanto, es importante ser consciente de esto para garantizar un análisis de datos sólido y honesto.

Imagen dibujada por el autor.

5. Paradoja de Simpson

Esta paradoja nos recuerda que, al analizar datos, es importante considerar cómo diferentes grupos pueden estar afectando los resultados. Sirve como una advertencia sobre los peligros de omitir el contexto y no considerar variables de confusión potenciales. Este fenómeno estadístico ocurre cuando una tendencia aparece en diferentes grupos de datos, pero desaparece o se invierte cuando se combinan estos grupos. Esta paradoja se puede resolver cuando se abordan adecuadamente las relaciones causales.

Imagen dibujada por el autor.

6. Regla 80/20 de Pareto

Una vez que se comprenden los datos y se plantea el problema, este modelo puede ayudar a priorizar en qué características enfocarse en su modelo, ya que sugiere que un pequeño número de causas a menudo lleva a una gran proporción de los resultados.

Este principio sugiere que, para muchos resultados, aproximadamente el 80% de las consecuencias provienen del 20% de las causas. En ciencia de datos, esto podría significar que una gran parte del poder predictivo de un modelo proviene de un pequeño subconjunto de las características.

Imagen dibujada por el autor.

Este principio sugiere que la explicación más simple suele ser la mejor. Cuando se comienzan a construir modelos, la navaja de Occam sugiere que se deben favorecer los modelos más simples cuando funcionan tan bien como los más complejos. Por lo tanto, es un recordatorio para no complicar innecesariamente los modelos.

Imagen dibujada por el autor.

8. Compensación entre sesgo y varianza

Este modelo mental describe el equilibrio que debe lograrse entre el sesgo y la varianza, que son las dos fuentes de error en un modelo. El sesgo es un error causado por simplificar un problema complejo para que sea más fácil de entender para el modelo de aprendizaje automático, lo que conduce a un subajuste. La varianza es un error que resulta de la exageración del modelo en las especificidades de los datos de entrenamiento, lo que conduce a un sobreajuste. Por lo tanto, el equilibrio adecuado de la complejidad del modelo para minimizar el error total (una combinación de sesgo y varianza) se puede lograr a través de una compensación. En particular, reducir el sesgo tiende a aumentar la varianza y viceversa.

Imagen dibujada por el autor.

9. Sobreajuste vs Subajuste

Este concepto se relaciona estrechamente con la compensación entre sesgo y varianza y ayuda a guiar aún más la sintonización de la complejidad de su modelo y su capacidad para generalizar a nuevos datos.

El sobreajuste ocurre cuando un modelo es excesivamente complejo y aprende demasiado bien los datos de entrenamiento, reduciendo así su eficacia en datos nuevos e invisibles. El subajuste ocurre cuando un modelo es demasiado simple para capturar la estructura subyacente de los datos, lo que provoca un rendimiento deficiente tanto en los datos de entrenamiento como en los invisibles.

Por lo tanto, se puede lograr un buen modelo de aprendizaje automático encontrando el equilibrio entre el sobreajuste y el subajuste. Por ejemplo, esto se podría lograr mediante técnicas como la validación cruzada, la regularización y la poda.

10. La Larga Cola

La larga cola se puede observar en distribuciones como la distribución de Pareto o la ley de potencias, donde se puede observar una alta frecuencia de eventos de bajo valor y una baja frecuencia de eventos de alto valor. Comprender estas distribuciones puede ser crucial al trabajar con datos del mundo real, ya que muchos fenómenos naturales siguen tales distribuciones.

Por ejemplo, en la interacción en las redes sociales, un pequeño número de publicaciones recibe la mayoría de los “me gusta”, compartidos o comentarios, pero hay una larga cola de publicaciones que obtienen menos interacciones. En conjunto, esta larga cola puede representar una parte significativa de la actividad general en las redes sociales. Esto llama la atención sobre la importancia y el potencial de los eventos menos populares o raros, que de otro modo podrían pasarse por alto si uno solo se enfoca en la “cabeza” de la distribución.

Imagen dibujada por el autor.

11. Pensamiento Bayesiano

El pensamiento bayesiano se refiere a un proceso dinámico e iterativo de actualización de nuestras creencias basado en nuevas evidencias. Inicialmente, tenemos una creencia o “prior”, que se actualiza con nuevos datos, formando una creencia revisada o “posterior”. Este proceso continúa a medida que se recopila más evidencia, refinando aún más nuestras creencias con el tiempo. En ciencia de datos, el pensamiento bayesiano permite aprender de los datos y hacer predicciones, a menudo proporcionando una medida de incertidumbre en torno a estas predicciones. Este sistema de creencias adaptativo y abierto a nueva información se puede aplicar no solo en ciencia de datos, sino también en nuestra toma de decisiones cotidiana.

Imagen dibujada por el autor.

12. Teorema de No hay Almuerzo Gratis

El teorema de No hay Almuerzo Gratis afirma que no hay un solo algoritmo de aprendizaje automático que sobresalga en la resolución de todos los problemas. Por lo tanto, es importante comprender las características únicas de cada problema de datos, ya que no existe un algoritmo universalmente superior. En consecuencia, los científicos de datos experimentan con una variedad de modelos y algoritmos para encontrar la solución más efectiva mediante la consideración de factores como la complejidad de los datos, los recursos informáticos disponibles y la tarea específica en cuestión. El teorema se puede pensar como una caja de herramientas llena de herramientas, donde cada una representa un algoritmo diferente, y la experiencia radica en seleccionar la herramienta adecuada (algoritmo) para la tarea correcta (problema).

Imagen dibujada por el autor.

Conclusión

Estos modelos proporcionan un marco sólido para cada uno de los pasos de un proyecto típico de ciencia de datos, desde la recopilación y el preprocesamiento de datos hasta la construcción, el refinamiento y la actualización del modelo. Ayudan a navegar por el complejo panorama de la toma de decisiones basada en datos, lo que nos permite evitar errores comunes, priorizar de manera efectiva y tomar decisiones informadas.

Sin embargo, es esencial recordar que ningún modelo mental único tiene todas las respuestas. Cada modelo es una herramienta, y como todas las herramientas, son más efectivas cuando se usan apropiadamente. En particular, la naturaleza dinámica e iterativa de la ciencia de datos significa que estos modelos no se aplican simplemente de manera lineal. A medida que se dispone de nuevos datos o que nuestra comprensión de un problema evoluciona, podemos volver a pasos anteriores para aplicar diferentes modelos y ajustar nuestras estrategias en consecuencia.

En última instancia, el objetivo de utilizar estos modelos mentales en la ciencia de datos es extraer ideas valiosas de los datos, crear modelos significativos y tomar mejores decisiones. Al hacerlo, podemos desbloquear todo el potencial de la ciencia de datos y utilizarlo para impulsar la innovación, resolver problemas complejos y crear un impacto positivo en varios campos (por ejemplo, bioinformática, descubrimiento de medicamentos, atención médica, finanzas, etc.).

Si has encontrado útil este artículo, conviértete en miembro de Zepes para apoyarme como escritor. Cuesta $5 por mes y ofrece…

data-professor.medium.com

Lee estos siguientes…

Cómo dominar Scikit-learn para la ciencia de datos

Aquí está lo esencial de Scikit-learn que necesitas para Ciencia de Datos

towardsdatascience.com

Cómo dominar Python para Ciencia de Datos

Aquí está lo esencial de Python que necesitas para Ciencia de Datos

towardsdatascience.com

Mira esto a continuación…

  • Lista de reproducción de Streamlit en YouTube – una colección en crecimiento de 52 videos tutoriales de Streamlit que he creado en mi canal de YouTube Data Professor.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Cómo mirar las tareas comunes de aprendizaje automático con una mirada fresca

Nunca recomendaríamos cambiar flujos de trabajo robustos y eficientes solo por el hecho de cambiar; si algo funciona ...

Inteligencia Artificial

Esta semana en IA, 31 de julio de 2023

Esta semana en IA en VoAGI proporciona un resumen semanal de los últimos acontecimientos en el mundo de la Inteligenc...

Inteligencia Artificial

5 Cursos Gratuitos para Dominar el Aprendizaje Automático

¿Estás emocionado/a de aprender y crear modelos de aprendizaje automático? Comienza a aprender hoy mismo con estos cu...

Inteligencia Artificial

Gira y Enfrenta lo Extraño

El análisis predictivo tradicional ofrece dos paradigmas a través de los cuales se pueden ver la mayoría de los probl...

Inteligencia Artificial

Conoce AudioLDM 2 Un marco de trabajo de IA único para la generación de audio que combina habla, música y efectos de sonido

En un mundo cada vez más dependiente de los conceptos de Inteligencia Artificial y Aprendizaje Profundo, el ámbito de...