4 Ideas Estadísticas Importantes que Deberías Comprender en un Mundo Impulsado por los Datos

'4 ideas estadísticas importantes en un mundo impulsado por los datos'

No necesitas ser un experto en estadística para navegar en el mundo moderno, pero aquí hay algunas ideas básicas que debes entender.

Foto de Anne Nygård en Unsplash

No tiene sentido evitar la realidad. La ciencia de datos, y más ampliamente, las estructuras basadas en datos, están en el centro de la sociedad que estamos construyendo actualmente.

Cuando el auge de la informática comenzó en los primeros años 2000, muchos señalaron que la informática se convertiría en una parte integral de todos los campos. Esto resultó ser cierto. Las empresas de diversas industrias, como la salud, la ingeniería, las finanzas, etc., comenzaron a contratar ingenieros de software para diversos tipos de trabajo. Los estudiantes de estos campos comenzaron a aprender a programar.

Yo diría que el nuevo auge de la ciencia de datos lleva esto un paso más allá. Con la informática, uno podía arreglárselas simplemente contratando ingenieros de software. Un gerente de negocios o un experto en ventas no necesariamente necesitaba entender lo que hacían estas personas.

Pero la ciencia de datos es más amplia y abarcadora. Dado que es una mezcla de campos [1], sus ideas son relevantes incluso para aquellos que no son científicos de datos en su día a día.

En este artículo, daré una visión general de alto nivel de cuatro ideas estadísticas importantes que todos deben entender, independientemente de su título laboral oficial. Ya sea que seas un gerente de proyectos, un reclutador o incluso un CEO, algún nivel de familiaridad con estos conceptos seguramente te ayudará en tu trabajo. Además, fuera del contexto laboral, la familiaridad con estos conceptos te dará un sentido de alfabetización en datos que es indispensable para navegar en la sociedad moderna.

Vamos a ello.

Solo una muestra grande y mala

Cuando era estudiante universitario, el primer curso de ciencia de datos que tomé consistía en un número inmenso de estudiantes, casi 2000. El curso, Fundamentos de la Ciencia de Datos, fue uno de los más populares en el campus, ya que estaba diseñado para ser accesible a estudiantes de diferentes departamentos. En lugar de entrar de inmediato en matemáticas avanzadas y programación, se centró en ideas de alto nivel que podrían impactar a estudiantes de diferentes campos.

En una de nuestras primeras clases, la profesora hizo una afirmación que me ha quedado grabada a lo largo de los años, volviendo siempre que trabajo en cualquier cosa relacionada con los datos. Estaba hablando de muestreo aleatorio, un término amplio que tiene que ver con elegir un subconjunto de una población de estudio de manera que represente a toda la población. La idea es que estudiar el subconjunto debería permitir sacar conclusiones sobre toda la población.

Ella señaló que tener una buena muestra era de suma importancia, ya que ninguna cantidad de manipulación matemática ni técnicas sofisticadas podrían compensar un subconjunto que no sea realmente representativo de la población que se desea emular. Al hacer este punto, mencionó que muchas personas asumen que si una muestra inicial es mala, entonces una solución razonable es seguir con el mismo enfoque, pero recolectar una muestra más grande.

“Entonces, solo tendrás una muestra realmente grande y realmente mala,” dijo a la gran sala de conferencias llena de estudiantes universitarios.

Entender este punto fundamental, y sus implicaciones más amplias, te permitirá comprender muchos fenómenos sociopolíticos que las personas dan por sentado. ¿Por qué las encuestas presidenciales a menudo son inexactas? ¿Qué hace que un modelo de aprendizaje automático aparentemente poderoso falle en el mundo real? ¿Por qué algunas empresas fabrican productos que nunca ven la luz del día?

A menudo, la respuesta radica en la muestra.

“Error” no significa “error”

Este tema está implícito en la mayoría de los cursos que involucran datos o estadísticas, pero mi discusión aquí está inspirada en la énfasis de Alberto Cairo en este punto en su excelente libro, How Charts Lie.

La premisa del libro de Cairo es describir las diversas formas en que las visualizaciones de datos pueden ser utilizadas para engañar a las personas, tanto de manera involuntaria como maliciosa. En un capítulo, Cairo se explaya sobre los desafíos de visualizar la incertidumbre en los datos y cómo esto en sí mismo puede llevar a visualizaciones de datos engañosas.

Comienza con una discusión sobre la idea de error en estadísticas. Destaca un punto crucial: mientras que en el inglés estándar, el término “error” es sinónimo de “error”, esto no es en absoluto el caso dentro del ámbito de la estadística.

El concepto de error estadístico tiene que ver con la incertidumbre. Casi siempre habrá alguna forma de error en las mediciones y modelos. Esto está relacionado con el punto anterior sobre las muestras. Debido a que no tienes todos los puntos de datos para una población que deseas describir, por definición te enfrentarás a la incertidumbre. Esto se acentúa aún más si estás haciendo predicciones sobre puntos de datos futuros, ya que aún no existen.

Minimizar y abordar la incertidumbre es una parte esencial de la estadística y la ciencia de datos, pero está más allá del alcance de este artículo. Aquí, el punto principal que debes internalizar es que el hecho de que un hallazgo estadístico se te presente con una medida de incertidumbre no significa que esté equivocado. De hecho, es probable que sea un indicador de que quien produjo los hallazgos sabía lo que estaba haciendo (deberías ser escéptico de las afirmaciones estadísticas hechas sin ninguna referencia al nivel de incertidumbre).

Aprende la forma correcta de interpretar la incertidumbre en las afirmaciones estadísticas [2], en lugar de descartarlas como incorrectas. Es una distinción esencial.

No siempre puedes simplemente “hacer un modelo para ello”

Entre la población en general, parece haber esta idea de que la inteligencia artificial es una especie de herramienta mágica que puede lograr cualquier cosa. Con la llegada de autos autónomos y asistentes virtuales realistas pero sin una aceleración similar en la alfabetización general de datos, no es sorprendente que se haya desarrollado esta mentalidad.

Desafortunadamente, no podría estar más lejos de la verdad. La IA no es magia. Depende en gran medida de buenos datos y sus resultados pueden ser bastante engañosos si los datos subyacentes son de mala calidad.

Una vez tuve una colega a quien se le asignó un proyecto en el que su tarea era construir un modelo de aprendizaje automático para un objetivo específico. Se suponía que debía clasificar eventos futuros en ciertas categorías basándose en datos históricos.

Solo había un problema: no tenía datos. Otros en el proyecto (que, notablemente, no estaban familiarizados con la ciencia de datos) seguían insistiendo en que ella simplemente debería hacer el modelo aunque no tuviera los datos, porque el aprendizaje automático es súper poderoso y esto debería ser factible. No comprendieron que su solicitud simplemente no era factible.

Sí, el aprendizaje automático es poderoso y sí, estamos mejorando en hacer tareas más geniales y mejores con él. Sin embargo, en el estado actual de las cosas, no es simplemente una solución mágica para todo. Sería bueno que recuerdes eso.

Los números mienten

Las personas suelen decir la frase “los números no mienten” como si fuera confeti.

Oh, si tan solo supieran. Los números de hecho mienten. Mucho. En algunos contextos, incluso más a menudo de lo que dicen la verdad. Pero no mienten porque estén realmente equivocados en su forma bruta; mienten porque la persona promedio no sabe cómo interpretarlos.

Hay innumerables ejemplos de cómo los números pueden ser retorcidos, manipulados, cambiados y transformados para apoyar el argumento que uno desea hacer. Para enfatizar este punto, aquí cubriré un ejemplo de cómo se puede hacer esto: no tener en cuenta las distribuciones de población subyacentes al hacer declaraciones generales.

Eso es un poco vago por sí solo, así que echemos un vistazo a un ejemplo. Considera el siguiente escenario, a menudo planteado a estudiantes de medicina:

Supongamos que una cierta enfermedad afecta a 1 de cada 1000 personas en una población. Existe una prueba para verificar si una persona tiene esta enfermedad. La prueba no produce falsos negativos (es decir, cualquier persona que tenga la enfermedad dará positivo en la prueba), pero la tasa de falsos positivos es del 5% (hay un 5% de probabilidad de que una persona dé positivo en la prueba incluso si no tiene la enfermedad). Supongamos que una persona seleccionada al azar de la población se realiza la prueba y da positivo. ¿Cuál es la probabilidad de que realmente tenga la enfermedad?

A simple vista, una respuesta razonable, dada por muchas personas, es del 95%. Algunos incluso podrían sospechar que no es matemáticamente preciso usar simplemente la tasa de falsos positivos para hacer esta determinación, pero probablemente aún adivinarían que la respuesta está cerca.

Desafortunadamente, la respuesta correcta no es del 95%, ni está cerca. La probabilidad real de que esta persona seleccionada al azar tenga la enfermedad es aproximadamente del 2%.

La razón por la que la mayoría de las personas están tan alejadas de la respuesta correcta es porque si bien prestan atención a la baja tasa de falsos positivos, no tienen en cuenta la prevalencia subyacente de la enfermedad dentro de la población: solo 1 de cada 1000 (o 0.1%) de las personas en la población realmente tienen esta enfermedad. Como resultado, esa tasa de falsos positivos del 5% termina afectando a muchas personas porque muy pocas de ellas tienen la enfermedad para empezar. En otras palabras, hay muchas, muchas oportunidades de ser un falso positivo.

La matemática formal detrás de esto está más allá del alcance de este artículo en particular, pero puedes ver una explicación detallada aquí si estás interesado [3]. Dicho esto, realmente no necesitas adentrarte en las matemáticas para comprender el punto principal: Uno podría imaginar usar el escenario anterior para asustar a una persona haciéndole creer que están mucho más en riesgo de una enfermedad de lo que realmente están. Los números por sí solos a menudo pueden ser tergiversados y/o malinterpretados para promover creencias falsas.

Mantente vigilante.

Reflexiones finales y resumen

Aquí tienes una pequeña lista de puntos importantes que debes recordar de este artículo:

  1. Una muestra grande ≠ Una buena muestra. Se necesita más que cantidad para garantizar una representación precisa de una población.
  2. En estadística, “error” no significa “error”. Tiene que ver con la incertidumbre, que es un elemento inevitable del trabajo estadístico.
  3. El aprendizaje automático y la inteligencia artificial no son mágicos. Dependen en gran medida de la calidad de los datos subyacentes.
  4. Los números pueden ser engañosos. Cuando alguien hace una afirmación estadística, especialmente en un contexto no académico (léase: en las noticias), revísala cuidadosamente antes de aceptar las conclusiones.

No tienes que ser un experto en estadística para navegar en este mundo impulsado por datos, pero te vendría bien comprender algunas ideas fundamentales y saber qué obstáculos evitar. Espero que este artículo te haya ayudado a dar ese primer paso.

Hasta la próxima.

Referencias

[1] https://towardsdatascience.com/the-three-building-blocks-of-data-science-2923dc8c2d78 [2] https://bookdown.org/jgscott/DSGI/statistical-uncertainty.html [3] https://courses.lumenlearning.com/waymakermath4libarts/chapter/bayes-theorem/

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Deci AI presenta DeciDiffusion 1.0 un modelo de difusión latente de texto a imagen de 820 millones de parámetros y 3 veces más rápido que la difusión estable.

Definir el problema La generación de imágenes a partir de texto ha sido durante mucho tiempo un desafío en inteligenc...

Ciencia de Datos

Resumen del artículo Un enfoque híbrido con GAN y DP para la preservación de la privacidad de los datos de IIoT.

Anonimización es un problema significativo al manejar datos del Internet Industrial de las Cosas (IIoT, por sus sigla...

Inteligencia Artificial

Más allá de Photoshop Cómo Inst-Inpaint está revolucionando la eliminación de objetos con modelos de difusión

El inpainting de imágenes es un arte antiguo. Es el proceso de eliminar objetos no deseados y rellenar píxeles faltan...

Inteligencia Artificial

Preguntas de probabilidad en la vida real de los analistas de datos

Si te postulas para el puesto de analista de datos y científico de datos, en tus entrevistas te encontrarás frecuente...