Descifrando la Ley de los Grandes Números

Descifrando la Ley de los Grandes Números' -> 'Analizando la Ley de los Grandes Números

Pixabay

El LLN es interesante tanto por lo que no dice como por lo que sí dice

El 24 de agosto de 1966, un talentoso dramaturgo llamado Tom Stoppard puso en escena una obra de teatro en Edimburgo, Escocia. La obra tenía un título curioso, “Rosencrantz y Guildenstern están muertos”. Sus personajes principales, Rosencrantz y Guildenstern, son amigos de la infancia de Hamlet (famoso personaje de Shakespeare). La obra comienza con Guildenstern lanzando repetidamente monedas que siempre caen del lado de las caras. Cada resultado hace que la bolsa de dinero de Guildenstern sea más ligera y la de Rosencrantz más pesada. A medida que el tamborileo de las caras continúa con una persistencia despiadada, Guildenstern se preocupa. Se pregunta si está deseando secretamente que cada moneda caiga del lado de las caras como un castigo autoinfligido por algún pecado olvidado. O si el tiempo se detuvo después del primer lanzamiento, y él y Rosencrantz están experimentando el mismo resultado una y otra vez.

Stoppard hace un trabajo brillante mostrando cómo las leyes de la probabilidad están tejidas en nuestra visión del mundo, en nuestra sensación de expectativa, en la propia estructura del pensamiento humano. Cuando el resultado del lanzamiento número 92 también es una cara, Guildenstern pregunta si él y Rosencrantz están bajo el control de una realidad antinatural donde las leyes de la probabilidad ya no operan.

Las preocupaciones de Guildenstern, por supuesto, son infundadas. Es cierto que la probabilidad de obtener 92 caras consecutivas es inimaginablemente pequeña. De hecho, es un punto decimal seguido de 28 ceros y luego un 2. Guildenstern tiene más probabilidades de ser golpeado en la cabeza por un meteorito.

Guildenstern solo tiene que volver al día siguiente para lanzar otra secuencia de 92 monedas y el resultado casi con certeza será muy diferente. Si siguiera esta rutina todos los días, descubriría que en la mayoría de los días el número de caras más o menos coincidiría con el número de cruces. Guildenstern está experimentando un comportamiento fascinante de nuestro universo conocido como la Ley de los Grandes Números.

La Ley de los Grandes Números explicada en lenguaje sencillo

La LLN, como se le llama, viene en dos versiones: la débil y la fuerte. La LLN débil puede ser más intuitiva y más fácil de relacionar. Pero también es fácil de interpretar erróneamente. En este artículo cubriré la versión débil y dejaré la discusión sobre la versión fuerte para un artículo posterior.

La Ley de los Grandes Números débil se ocupa de la relación entre la media de la muestra y la media de la población. Explicaré lo que dice en texto sencillo:

Supongamos que extraes una muestra aleatoria de un cierto tamaño, digamos 100, de la población. Por cierto, toma nota mental del término tamaño de la muestra. El tamaño de la muestra es el director de circo, el gran pooh-bah de esta ley. Ahora calcula la media de esta muestra y déjala a un lado. A continuación, repite este proceso muchas muchas veces. Lo que obtendrás es un conjunto de medias imperfectas. Las medias son imperfectas porque siempre habrá un ‘hueco’, un delta, una desviación entre ellas y la verdadera media de la población. Supongamos que tolerarás una cierta desviación. Si seleccionas una media de la muestra al azar de este conjunto de medias, habrá una probabilidad de que la diferencia absoluta entre la media de la muestra y la media de la población supere tu tolerancia.

La Ley de los Grandes Números débil dice que la probabilidad de que esta desviación supere tu nivel seleccionado de tolerancia se reducirá a cero a medida que el tamaño de la muestra crezca hasta el infinito o hasta el tamaño de la población.

No importa cuán pequeño sea tu nivel seleccionado de tolerancia, a medida que extraigas conjuntos de muestras de tamaño cada vez mayor, será cada vez menos probable que la media de una muestra elegida al azar del conjunto supere esta tolerancia.

Una ilustración del mundo real de cómo funciona la LLN débil

Para ver cómo funciona la LLN débil, la pondremos en práctica con un ejemplo. Y para eso, permíteme, si quieres, llevarte a la fría y sombría extensión del Océano Atlántico Norte.

Cada día, el Gobierno de Irlanda publica un conjunto de datos de mediciones de temperatura del agua tomadas desde la superficie del noreste del Atlántico Norte. Este conjunto de datos contiene cientos de miles de mediciones de la temperatura del agua superficial indexadas por latitud y longitud. Por ejemplo, los datos para el 21 de junio de 2023 son los siguientes:

Conjunto de datos de temperaturas de la superficie del agua del océano del noreste del Atlántico Norte (CC BY 4.0)

Es difícil imaginar cómo se ven ochocientos mil valores de temperatura superficial. Así que creemos un gráfico de dispersión para visualizar estos datos. He mostrado este gráfico a continuación. Las áreas blancas vacías en el gráfico representan a Irlanda y al Reino Unido.

Un gráfico de dispersión codificado por colores de las temperaturas de la superficie del mar del noreste del Atlántico Norte (Imagen del autor) (Fuente de datos: Conjunto de datos)

Como estudiante de estadística, nunca tendrás acceso a la ‘población’. Así que estarás en lo correcto al reprenderme severamente si declaro este conjunto de 800,000 mediciones de temperatura como la ‘población’. Pero aguanta un poco. Pronto verás por qué, en nuestra búsqueda por entender la LLN, nos ayuda considerar estos datos como la ‘población’.

Así que supongamos que estos datos son —ejem…toseo— la población. La temperatura promedio del agua superficial en las 810,219 localizaciones de esta población de valores es de 17.25840 grados Celsius. 17.25840 es simplemente el promedio de las 810,000 mediciones de temperatura. Designaremos este valor como la media poblacional, μ. Recuerda este valor. Lo necesitarás referenciarlo a menudo.

Ahora supongamos que esta población de 810,219 valores no está accesible para ti. En cambio, solo tienes acceso a una pequeña muestra de 20 ubicaciones aleatorias seleccionadas de esta población. Aquí tienes una muestra aleatoria:

Una muestra aleatoria de tamaño 20 (Imagen del autor)

La temperatura promedio de la muestra es de 16.9452414 grados Celsius. Esta es nuestra media muestral X_bar que se calcula de la siguiente manera:

X_bar = (X1 + X2 + X3 + … + X20) / 20

También puedes obtener una segunda, una tercera, de hecho cualquier cantidad de muestras aleatorias de tamaño 20 de la misma población. Aquí tienes algunas muestras aleatorias para ilustrar:

Muestras aleatorias de tamaño 20 obtenidas de la población (Imagen del autor)

Un breve inciso sobre lo que realmente es una muestra aleatoria

Antes de seguir adelante, hagamos una pausa para obtener cierto grado de perspectiva sobre el concepto de una muestra aleatoria. Esto facilitará la comprensión de cómo funciona la LLN débil. Y para adquirir esta perspectiva, debo presentarte la máquina tragamonedas del casino:

Pixabay

La máquina tragamonedas mostrada arriba contiene tres ranuras. Cada vez que bajas la palanca de la máquina, la máquina llena cada ranura con una imagen seleccionada aleatoriamente de una población mantenida internamente, como una lista de imágenes de frutas. Ahora imagina una máquina tragamonedas con 20 ranuras llamadas X1 a X20. Supongamos que la máquina está diseñada para seleccionar valores de una población de 810,219 mediciones de temperatura. Cuando tiras de la palanca, cada una de las 20 ranuras —X1 a X20— se llena con un valor seleccionado aleatoriamente de la población de 810,219 valores. Por lo tanto, X1 a X20 son variables aleatorias que pueden contener cualquier valor de la población. Juntas forman una muestra aleatoria. En otras palabras, cada elemento de una muestra aleatoria es en sí mismo una variable aleatoria.

X1 a través de X20 tienen algunas propiedades interesantes:

  • El valor que adquiere X1 es independiente de los valores que adquieren X2 a través de X20. Lo mismo se aplica a X2, X3, …, X20. Por lo tanto, X1 a través de X20 son variables aleatorias independientes.
  • Debido a que X1, X2,…, X20 pueden contener cualquier valor de la población, la media de cada uno de ellos es la media de la población, μ. Usando la notación E() para esperanza, escribimos este resultado de la siguiente manera: E(X1) = E(X2) = … = E(X20) = μ.
  • X1 a través de X20 tienen distribuciones de probabilidad idénticas.

Por lo tanto, X1, X2,…,X20 son variables aleatorias independientes e idénticamente distribuidas (i.i.d.).

…y ahora volvemos a mostrar cómo funciona el Límite Débil de Ley de los Grandes Números (LLN)

Calculemos la media (denotada por X_barra) de esta muestra de 20 elementos y déjela a un lado. Ahora volvamos a bajar el brazo de la máquina y saldrá otra muestra aleatoria de 20 elementos. Calcularemos su media y la dejaremos a un lado también. Si repetimos este proceso mil veces, habremos calculado mil medias de muestra.

Aquí hay una tabla de 1000 medias de muestra calculadas de esta manera. Las designaremos como X_barra_1 a X_barra_1000:

Una tabla de 1000 medias de muestra. Cada media se calcula a partir de una muestra aleatoria de tamaño 20

Ahora considera cuidadosamente la siguiente declaración:

Dado que la media de muestra se calcula a partir de una muestra aleatoria, la media de muestra en sí misma es una variable aleatoria.

En este punto, si estás asintiendo sabiamente con la cabeza y acariciando tu barbilla, es exactamente lo correcto. El darse cuenta de que la media de muestra es una variable aleatoria es una de las realizaciones más penetrantes que se pueden tener en estadística.

Observa también cómo cada media de muestra en la tabla de arriba está a cierta distancia de la media de la población, μ. Grafiquemos un histograma de estas medias de muestra para ver cómo se distribuyen alrededor de μ:

Un histograma de medias de muestra (Imagen del autor)

La mayoría de las medias de muestra parecen estar cerca de la media de la población de 17.25840 grados Celsius. Sin embargo, hay algunas que están considerablemente distantes de μ. Supongamos que tu tolerancia para esta distancia es de 0.25 grados Celsius. Si metieras la mano en este cubo de 1000 medias de muestra, tomaras la media que esté al alcance de tu mano y la sacaras. ¿Cuál será la probabilidad de que la diferencia absoluta entre esta media y μ sea igual o mayor a 0.25 grados C? Para estimar esta probabilidad, debes contar el número de medias de muestra que están al menos a 0.25 grados de distancia de μ y dividir este número entre 1000.

En la tabla de arriba, este conteo resulta ser 422, por lo que la probabilidad P(|X_barra — μ | ≥ 0.25) resulta ser 422/1000 = 0.422

Guardemos esta probabilidad por un momento.

Ahora repite todos los pasos anteriores, pero esta vez usa un tamaño de muestra de 100 en lugar de 20. Así que esto es lo que harás: sacar 1000 muestras aleatorias cada una de tamaño 100, tomar la media de cada muestra, guardar todas esas medias, contar las que estén al menos a 0.25 grados C de distancia de μ y dividir este conteo entre 1000. Si eso sonó como los trabajos de Hércules, no estabas equivocado. Así que tómate un momento para recuperar el aliento. Y una vez que estés al día, observa a continuación lo que has obtenido como fruto de tus esfuerzos.

La tabla a continuación contiene las medias de las 1000 muestras aleatorias, cada una de tamaño 100:

Una tabla de 1000 medias de muestra. Cada media se calcula a partir de una muestra aleatoria de tamaño 100

De estas mil medias, cincuenta y seis medias resultan desviarse al menos 0.25 grados C de μ. Esto te da la probabilidad de encontrarte con una media así como 56/1000 = 0.056. Esta probabilidad es definitivamente más pequeña que el 0.422 que calculamos anteriormente cuando el tamaño de la muestra era solo de 20.

Si repites esta secuencia de pasos varias veces, cada vez con un tamaño de muestra diferente que aumenta incrementalmente, obtendrás una tabla llena de probabilidades. He hecho este ejercicio por ti ajustando el tamaño de la muestra desde 10 hasta 490 en incrementos de 10. Aquí está el resultado:

Una tabla de probabilidades. Muestra P(|X_bar — μ | ≥ 0.25) a medida que se aumenta el tamaño de la muestra de 10 a 490 (Imagen por el autor)

Cada fila en esta tabla corresponde a 1000 muestras diferentes que extraje al azar de la población de 810219 mediciones de temperatura. La columna sample_size menciona el tamaño de cada una de estas 1000 muestras. Una vez extraídas, tomé la media de cada muestra y conté las que estaban al menos a 0.25 grados C de μ. La columna num_exceeds_tolerance menciona esta cuenta. La columna probability es num_exceeds_tolerance / sample_size.

Observa cómo esta cuenta disminuye rápidamente a medida que el tamaño de la muestra aumenta. Y lo mismo ocurre con la probabilidad correspondiente P(|X_bar — μ | ≥ 0.25). Para cuando el tamaño de la muestra alcanza los 320, la probabilidad ha decaído a cero. A veces sube a 0.001, pero eso se debe a que he extraído un número finito de muestras. Si cada vez extraigo 10000 muestras en lugar de 1000, no solo los aumentos ocasionales se nivelarán, sino que la atenuación de las probabilidades también será más suave.

El siguiente gráfico representa P(|X_bar — μ | ≥ 0.25) en función del tamaño de la muestra. Muestra claramente cómo la probabilidad se reduce a cero a medida que el tamaño de la muestra crece.

P(|X_bar — μ | ≥ 0.25) en función del tamaño de la muestra (Imagen por el autor)

En lugar de 0.25 grados C, ¿qué pasaría si eligieras una tolerancia diferente, ya sea un valor más bajo o más alto? ¿Decaerá la probabilidad independientemente del nivel de tolerancia que elijas? La siguiente familia de gráficos ilustra la respuesta a esta pregunta.

La probabilidad P(|X_bar — μ | ≥ ε) decae (hasta cero) a medida que el tamaño de la muestra aumenta. Esto se ve para todos los valores de ε (Imagen por el autor)

No importa cuán frugal, cuán pequeña sea tu elección de tolerancia (ε), la probabilidad P(|X_bar — μ | ≥ ε) siempre convergerá a cero a medida que el tamaño de la muestra crezca. Esto es la Ley Débil de los Grandes Números en acción.

La Ley débil de los grandes números, establecida formalmente

El comportamiento de la Ley débil de los grandes números se puede establecer formalmente de la siguiente manera:

Supongamos que X1, X2, …, Xn son variables aleatorias independientes e idénticamente distribuidas que forman juntas una muestra aleatoria de tamaño n. Supongamos que X_bar_n es la media de esta muestra. Supongamos también que E(X1) = E(X2) = … = E(Xn) = μ. Entonces, para cualquier número real no negativo ε, la probabilidad de que X_bar_n esté al menos ε lejos de μ tiende a cero a medida que el tamaño de la muestra tiende a infinito. La siguiente exquisita ecuación captura este comportamiento:

La Ley débil de los grandes números (Imagen del autor)

A lo largo de los 310 años de historia de esta ley, los matemáticos han logrado relajar progresivamente el requisito de que X1 a través de Xn sean independientes e idénticamente distribuidas, al tiempo que se preserva el espíritu de la ley.

El principio de “convergencia en probabilidad”, la notación “plim” y el arte de decir cosas realmente importantes en muy pocas palabras

El estilo particular de converger hacia algún valor utilizando la probabilidad como medio de transporte se denomina convergencia en probabilidad. En general, se establece de la siguiente manera:

Convergencia en Probabilidad (Imagen del autor)

En la ecuación anterior, X_n y X son variables aleatorias. ε es un número real no negativo. La ecuación dice que a medida que n tiende a infinito, X_n converge en probabilidad a X.

A lo largo de la inmensa extensión de la estadística, te encontrarás con una notación silenciosamente modesta llamada plim. Se pronuncia ‘p lim’ o ‘plim’ (como la palabra ‘ciruela’ pero con una ‘i’ en medio) o límite de probabilidad. plim es la forma abreviada de decir que una medida como la media converge en probabilidad a un valor específico. Usando plim, la Ley débil de los grandes números se puede expresar de manera concisa de la siguiente manera:

La Ley débil de los números naturales expresada con muy poca tinta (Imagen del autor)

O simplemente como:

(Imagen del autor)

La brevedad de la notación no es en absoluto sorprendente. A los matemáticos les atrae la brevedad como a las abejas les atrae el néctar. Cuando se trata de transmitir verdades profundas, las matemáticas bien podrían ser el campo más eficiente en términos de tinta. Y dentro de este campo obsesionado por la eficiencia, plim ocupa una posición destacada. Te costará encontrar un concepto tan profundo como plim expresado con menor cantidad de tinta o electrones.

Pero ya no luches más. Si la belleza lacónica de plim te dejó deseando más, aquí tienes otra notación, posiblemente aún más eficiente, que transmite el mismo significado que plim:

La Ley débil de los números naturales expresada con incluso menos tinta (Imagen del autor)

Desmintiendo algunos mitos sobre la Ley Débil de los Grandes Números

Al comienzo de este artículo, mencioné que la Ley Débil de los Grandes Números es notable tanto por lo que no dice como por lo que dice. Permítanme explicar a qué me refiero con eso. La Ley Débil de los Grandes Números a menudo se interpreta erróneamente como que a medida que el tamaño de la muestra aumenta, su media se acerca a la media de la población o a diversas generalizaciones de esa idea. Como vimos, tales ideas sobre la Ley Débil de los Grandes Números no tienen ninguna relación con la realidad.

De hecho, desmintamos un par de mitos sobre la Ley Débil de los Grandes Números de inmediato.

MITO #1: A medida que el tamaño de la muestra crece, la media de la muestra tiende a la media de la población.

Esta es posiblemente la interpretación errónea más frecuente de la Ley Débil de los Grandes Números. Sin embargo, la Ley Débil de los Grandes Números no hace tal afirmación. Para entender por qué, consideremos la siguiente situación: has logrado obtener una muestra realmente grande. Mientras admiras con alegría tu logro, también debes plantearte las siguientes preguntas: ¿Solo porque tu muestra es grande, debe ser también equilibrada? ¿Qué impide que la naturaleza te golpee con una muestra gigante que contenga una cantidad igualmente gigante de sesgo? La respuesta es absolutamente nada. De hecho, ¿no fue eso lo que le sucedió a Guildenstern con su secuencia de 92 caras? Después de todo, ¡era una muestra completamente aleatoria! Si resulta tener un sesgo grande, entonces, a pesar del tamaño de la muestra, el sesgo alejará la media de la muestra de un valor lejano al valor real de la población. Por el contrario, una muestra pequeña puede resultar ser exquisitamente equilibrada. El punto es que, a medida que el tamaño de la muestra aumenta, la media de la muestra no está garantizada de avanzar obedientemente hacia la media de la población. La naturaleza no brinda garantías innecesarias.

MITO #2: A medida que el tamaño de la muestra aumenta, prácticamente todo sobre la muestra, su mediana, su varianza, su desviación estándar, converge hacia los valores de la población.

Esta frase contiene dos mitos en un paquete fácil de llevar. En primer lugar, la Ley Débil de los Grandes Números postula una convergencia en probabilidad, no en valor. En segundo lugar, la Ley Débil de los Grandes Números se aplica a la convergencia en probabilidad solo de la media de la muestra, no de ninguna otra estadística. La Ley Débil de los Grandes Números no aborda la convergencia de otras medidas como la mediana, la varianza o la desviación estándar.

¿Cómo saber si la Ley Débil de los Grandes Números funciona?

Una cosa es afirmar la Ley Débil de los Grandes Números e incluso demostrar cómo funciona usando datos del mundo real. Pero, ¿cómo puedes estar seguro de que siempre funciona? ¿Existen circunstancias en las que arruinará las cosas, situaciones en las que la media de la muestra simplemente no converge en probabilidad al valor de la población? Para saber eso, debes demostrar la Ley Débil de los Grandes Números y, al hacerlo, definir precisamente las condiciones en las que se aplicará.

Resulta que la Ley Débil de los Grandes Números tiene una demostración deliciosamente apetitosa que utiliza como uno de sus ingredientes el infinitamente tentador Teorema de Chebyshev. Si eso despierta tu apetito, mantente atento a mi próximo artículo sobre la demostración de la Ley Débil de los Grandes Números.

Revisitando a Guildenstern

Sería descortés abandonar este tema sin calmar las preocupaciones de nuestro amigo Guildenstern. Desarrollemos una apreciación por lo inmensamente improbable que fue el resultado que experimentó. Simularemos el acto de lanzar 92 monedas imparciales utilizando un generador pseudoaleatorio. Las caras se codificarán como 1 y las cruces como 0. Registraremos el valor medio de los 92 resultados. El valor medio es la fracción de veces que la moneda salió cara. Repetiremos este experimento diez mil veces para obtener diez mil medias de 92 lanzamientos de monedas, y representaremos su distribución de frecuencia. Después de completar este ejercicio, obtendremos el siguiente tipo de gráfico de histograma:

Un histograma de medias de muestra de 10000 muestras (Imagen del Autor)

Vemos que la mayoría de las medias de muestra se agrupan alrededor de la media de la población de 0.5. El resultado de Guildenstern, obtener 92 caras seguidas, es un resultado excepcionalmente improbable. Por lo tanto, la frecuencia de este resultado también es extremadamente pequeña. Pero, contrariamente a los temores de Guildenstern, no hay nada antinatural en el resultado y las leyes de la probabilidad continúan operando con su entusiasmo habitual. El resultado de Guildenstern simplemente se encuentra en las regiones remotas de la cola izquierda del gráfico, esperando con infinita paciencia para abalanzarse sobre algún lanzador de monedas desafortunado que solo cometió el error de ser increíblemente desafortunado.

Referencias y derechos de autor

Conjunto de datos

El conjunto de datos de Temperatura de Superficie del Mar en Tiempo Real del Atlántico Nordeste fue descargado de DATA.GOV.IE bajo la licencia CC BY 4.0

Imágenes

Todas las imágenes en este artículo son propiedad de Sachin Date bajo la licencia CC-BY-NC-SA, a menos que se mencione una fuente y derechos de autor diferentes debajo de la imagen.

¡Gracias por leer! Si te ha gustado este artículo, por favor sígueme para recibir consejos, tutoriales y asesoramiento en programación sobre análisis de regresión y series de tiempo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Biosensor ofrece retroalimentación en tiempo real para la diálisis

Investigadores de la Universidad de Tecnología de Shahrood en Irán han desarrollado un nuevo biosensor para acelerar ...

Inteligencia Artificial

Los robots submarinos podrían abrir paso a un futuro de alta tecnología para la minería en aguas profundas

Renee Grogan, desarrolladora de soluciones mineras en Impossible Metals, visualiza a los robots submarinos como clave...

Inteligencia Artificial

Conoce circ2CBA un modelo novedoso de aprendizaje profundo que revoluciona la predicción de los sitios de unión circRNA-RBP

En un reciente avance, un equipo de investigadores de China ha presentado un modelo de aprendizaje profundo, llamado ...

Inteligencia Artificial

Transmisión de respuestas de modelos de lenguaje amplios en Amazon SageMaker JumpStart

Estamos emocionados de anunciar que Amazon SageMaker JumpStart ahora puede transmitir respuestas de inferencia de mod...