Skip to content

Instantly share code, notes, and snippets.

@mharias
Last active January 25, 2020 06:46
Show Gist options
  • Star 1 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save mharias/cb1b61fd72ddb6b18ce5693d38f75238 to your computer and use it in GitHub Desktop.
Save mharias/cb1b61fd72ddb6b18ce5693d38f75238 to your computer and use it in GitHub Desktop.
Large Numbers Law, copy for blog post at mharias.com
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Teoremas \"límite\" de la Estadística: Ley de los Grandes Números (LLN: Large Numbers Law) (1)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Introducción"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Cuando pensamos en repeticiones de eventos aleatorios (tirar una moneda al aire por ejemplo, o cuando oímos las distribuciones de la terminación de la lotería ) la intuición nos dice que cuanto más mayor sea ese número de repeticiones más a salvo estaremos de situaciones \"anómalas\".\n",
"\n",
"Si disponemos de una moneda y la lanzamos al aire sabemos que (¡siempre que sea una moneda \"fiel\"!) tanto la cara como la cruz disponen de una probabilidad del 50% de que ocurran. Pero si repetimos ese experimento muchas veces: ¿qué posibilidades tenemos de que la media se aleje de ese teórico 50%?. La intuición nos dice que a larga, y con un número suficiente de repeticiones del experimiento, nos iremos acercando a ese 50%, y esas situaciones anómalas se irán disipando. ¿Pero con qué probabilidad?, ¿cómo se realiza esa convergencia? ¿como se comporta la media conforme aumentamos el número de experimentos?.\n",
"\n",
"Vamos a estudiar estos conceptos por medio de dos teóremas fundamentales de la Estadística: La Ley de los Grandes Números y el Teorema del Límite Central. En este post hablaremos del primero.\n",
"\n",
"Vamos a apoyarnos en distribuciones Binomiales y de Bernouilli, por lo que dedicaremos unas líneas a ellas, y además introduciremos el Teorema de Markov y el Teorema de Chebyshev, necesarios para la demostración del Teorema protagonista de este post."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Distribución de Bernouilli"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Es esta una distribución de probabilidad de variable aleatoria en la que definimos un éxito, $valor=1$, con una probabilidad $p$ y un fracaso, $valor=0$, con probabilidad $q=1-p$. Ejemplo o caso práctico es el mencionado en la introducción: lanzamiento de moneda con $p=1/2$. \n",
"\n",
"Calculemos el valor esperado y la varianza de esta distribución que usaremos estos valores posteriormente:\n",
"\n",
"$E[X]=\\sum_x x*p(x)=1*p+0*q=p $\n",
"\n",
"$Var[X]=|E[X^2]\\,-E[X]^2|=1^2p+0*q-pp=p-p^2=p(1-p)$\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
" ## Distribución binomial"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"En el caso de que repitamos experimentos basados en la distribución anterior nos encontraremos con una distribución binomial. \n",
"\n",
"La caracterizaremos por un valor $p$, probabilidad de éxito, y un valor $n$, número de experimentos realizados. Formalmente una variable aleatoria con distribución binomial la representaremos tal que $X\\sim B(n,p)$. $X$ marca el número de éxitos tras los $n$ intentos o experimentos.\n",
"\n",
"La función de densidad de probabilidad es:\n",
"\n",
"$f(x)={n\\choose k} p^k (1-p)^{n-k}$, con $k\\in\\{0..n\\}$\n",
"\n",
"y con un valor esperado $E(X)=np$ y una varianza $Var(X)=np(1-p)$"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Desigualdad de Markov"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"La desigualdad de Markov nos dice que siendo $X$ una variable aleatoria, con valores siempre mayor o igual que cero, entonces:\n",
"\n",
"$P(X\\geq a)\\leq \\dfrac {E[X]}{a} \\; \\forall a > 0$ \n",
"\n",
"Veamos una rápida demostración. Para ello definimos una variable auxiliar $I$, tal que:\n",
"$\n",
"I=\\left\\{\n",
" \\begin{array}{ll}\n",
" 1 \\; si X \\geq a\\\\\n",
" 0 \\;resto\n",
" \\end{array}\n",
" \\right.\n",
"$ lo cual implica que $I \\leq \\dfrac{X}{a} $. Aplicamos ahora valor esperado a ambos lados:\n",
"$E[I] \\leq \\dfrac {E[X]}{a}$, y aplicando la definición de valor esperado: $E[\\mathrm{X}]=\\sum _{x\\in \\mathrm{X}} x*p(x)=1*p(X\\geq a) + 0*p(X<a)$ luego $E[I]=p(X \\geq a)$ con lo que $p(X\\geq a) \\leq \\dfrac {E[X]}{a}$ $\\blacksquare$"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Desigualdad de Chebyshev´s"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Esta desigualdad nos dice que siendo $X$ una variable aleatoria con una media finita $\\mu$ y una varianza $\\sigma^2$, entonces $\\forall k >0$ : \n",
"\n",
"$p\\left(\\left| x-\\mu \\right| \\geq k\\right) \\leq \\dfrac {\\sigma^2}{k^2}$\n",
"\n",
"Efectivamente, si aplicamos $Markov$ con $k^2=a$ entonces: \n",
"\n",
"$p\\left\\{(x-\\mu)^2\\geq k^2 \\right\\}\\leq\\dfrac{E\\left[(x-\\mu)^2\\right]}{k^2}$ y de ahí se infiere que: \n",
"$p\\left\\{(x-\\mu)\\geq k \\right\\}\\leq\\dfrac{\\sigma^2}{k^2}$ $\\blacksquare$"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Ley \"débil\" de los Grandes Números"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Esta desigualdad nos dice que siendo $X_1, X_2,\\cdots,X_n$ variables \n",
"aleatorias independientes e idénticamente distribuidas (nos referiremos a este hecho como $i.i.d.$) con media finita $\\mathrm{E}\\left[x_i\\right]=\\mu$ y varianza finita $\\sigma^2$, entonces $\\forall \\epsilon >0$ se cumple que $p\\left\\{\\left| \\dfrac {x_1+\\cdots+x_n}{n} - \\mu\\right| \\geq \\epsilon\\right\\} \\rightarrow 0$ cuando $n\\rightarrow \\infty$. Esta ley nos indica, de manera resumida, que la media de las estimaciones de una variable $X$ tiende a la media de esa variable.\n",
"\n",
"Para probar este teorema partimos del hecho de que $\\mathrm{E}\\left[\\dfrac{X_1+\\cdots+X_n}{n}\\right]=n\\mu/n=\\mu$ y que $Var\\left(\\dfrac{X_1+\\cdots+X_n}{n}\\right)=\\dfrac{\\sigma^2}{n}$ (ambos se extraen de las definiciones de valor esperado y varianza), y podemos aplicar la desigualdad de Chebyshev tal que:\n",
"\n",
"$$\n",
"p\\left\\{\\left|\\dfrac{X_1+\\cdots+X_n}{n}\\right|-\\mu)\\geq \\epsilon \\right\\}\\leq\\dfrac{\\sigma^2}{nk^2}$$ y como $n\\rightarrow\\infty$ entonces el término de la derecha tiende a cero con lo que queda demostrado.\n",
"\n",
"Hemos visto aquí el primero de los tres teoremas, nos demuestra lo que de manera intuitiva entendemos: la media de los valores estimados de una variable se acercará a la media teórica de esa variable aleatoria cuanto más valores estimemos.\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Juguemos con Python y con estos conceptos "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Vamos a realizar simulaciones y comprobar como se cumplen el resultado previsto en el LLN.\n",
"\n",
"Para ello jugaremos con las librerías scipy, para las herramientas estadísticas, y con la clásica matplotlib para los gráficos.\n",
"\n",
"Empecemos con la importación:"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [],
"source": [
"import pandas as pd\n",
"import numpy as np\n",
"import matplotlib.pyplot as plt\n",
"from matplotlib.ticker import PercentFormatter"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Jugaremos con las dos distribuciones que hemos visto en el comienzo de este artículo: la de Bernouilli y su repetición: la Binomial. Nos basaremos en la función [np.random.binomial](https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.random.binomial.html)"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"valor1=[1] y valor2=[0]\n"
]
}
],
"source": [
"p=q=1/2\n",
"valor1=np.random.binomial(1,p,1)\n",
"valor2=np.random.binomial(1,p,1)\n",
"print ('valor1={} y valor2={}'.format(valor1,valor2))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Estos dos son ejemplos de Bernouilli, realizamos el experimento de \"lanzamiento de moneda\" (hemos elegido una $p=1/2$) una sola vez.\n",
"\n",
"Podemos también realizar ese experimento n veces y ver la media:"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[5]\n"
]
}
],
"source": [
"valor3=np.random.binomial(n=10,p=p,size=1)\n",
"print (valor3)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"En este caso vemos el sumatorio de los n experimentos (un nº entre 0 y 10), si lo dividimos entre n obtendremos la media de esos experimentos que será un número entre 0 y 1:"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[0.4]\n"
]
}
],
"source": [
"n=10\n",
"valor4=np.random.binomial(n=n,p=p,size=1)/n\n",
"print (valor4)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Repitamoslo varias veces:"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[0.5]\n",
"[0.7]\n",
"[0.6]\n",
"[0.6]\n",
"[0.3]\n"
]
}
],
"source": [
"n=10\n",
"for i in range(5):\n",
" valor4=np.random.binomial(n=n,p=p,size=1)/n\n",
" print (valor4)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Esta misma repetición la podemos conseguir de manera más simple con el parámetro size. Obtendremos un array de numpy de dimensiones (size,)"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[0.8 0.7 0.5 0.4 0.2]\n"
]
}
],
"source": [
"valor5=np.random.binomial(n=n,p=p,size=5)/n\n",
"print (valor5)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Ya tenemos entonces un método para hacer simulación de sumas de variables aleatorias. Se compondrá de resultados de realizar el experimento 'n' veces, hallando su media si fuera necesarios al dividir por 'n', y realizaremos esa observación 'size' veces. Por ejemplo: el experimento se compone de 50 lanzamientos de una moneda hallando posteriormente la suma de los valores, y realizaremos ese experimento 100 veces."
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[26 24 31 28 28 26 23 29 25 20 31 25 26 22 28 24 23 23 23 28 21 27 19 28\n",
" 19 26 30 28 28 21 23 27 21 23 24 28 29 20 25 24 27 24 34 28 18 25 27 30\n",
" 27 24 28 20 27 23 24 26 28 19 28 28 26 29 26 29 29 20 23 28 30 29 20 23\n",
" 25 25 21 22 20 16 31 25 33 26 28 24 22 27 27 23 23 24 28 28 24 24 33 28\n",
" 24 29 26 19]\n",
"[0.52 0.48 0.62 0.56 0.56 0.52 0.46 0.58 0.5 0.4 0.62 0.5 0.52 0.44\n",
" 0.56 0.48 0.46 0.46 0.46 0.56 0.42 0.54 0.38 0.56 0.38 0.52 0.6 0.56\n",
" 0.56 0.42 0.46 0.54 0.42 0.46 0.48 0.56 0.58 0.4 0.5 0.48 0.54 0.48\n",
" 0.68 0.56 0.36 0.5 0.54 0.6 0.54 0.48 0.56 0.4 0.54 0.46 0.48 0.52\n",
" 0.56 0.38 0.56 0.56 0.52 0.58 0.52 0.58 0.58 0.4 0.46 0.56 0.6 0.58\n",
" 0.4 0.46 0.5 0.5 0.42 0.44 0.4 0.32 0.62 0.5 0.66 0.52 0.56 0.48\n",
" 0.44 0.54 0.54 0.46 0.46 0.48 0.56 0.56 0.48 0.48 0.66 0.56 0.48 0.58\n",
" 0.52 0.38]\n"
]
}
],
"source": [
"n=50\n",
"valor6=np.random.binomial(n=n,p=p,size=100)\n",
"valor6_medios=valor6/n\n",
"print (valor6)\n",
"print (valor6_medios)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Y podemos calcular la media de esos experimentos y la desviación estándar de los resultados, Frente a unos valores teóricos de media=p*n y varianza=p(1-p)n, según hemos visto "
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Valores reales de la muestra: Media=25.36, Varianza=12.65\n",
"Valores teóricos: Media=25.00, Varianza=12.50\n"
]
}
],
"source": [
"print ('Valores reales de la muestra: Media={:.2f}, Varianza={:.2f}'.format(valor6.mean(),valor6.std()**2))\n",
"print ('Valores teóricos: Media={:.2f}, Varianza={:.2f}'.format(p*n,p*(1-p)*n))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"De igual manera podemos ver la media y varianza de las medias de las sumas:"
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Valores reales de la muestra: Media=0.5072, Varianza=0.00506\n",
"Valores teóricos: Media=0.5000, Varianza=0.00500\n"
]
}
],
"source": [
"print ('Valores reales de la muestra: Media={:.4f}, Varianza={:.5f}'.format(valor6_medios.mean(),\n",
" valor6_medios.std()**2))\n",
"print ('Valores teóricos: Media={:.4f}, Varianza={:.5f}'.format(p,p*(1-p)/n))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"En este punto vamos a crear una función que genere este tipo de resultados, le pasaremos como parámetros: nº de términos a sumar (n), la probabilidad p y el nº de observaciones que queremos que nos devuelva. Con la particularidad de que la n (términos a sumar) podrá ser una lista, de tal manera que, de manera fácil, podamos ver la evolución de la media conforme vamos aumentando el nº de sumandos. Esta función `generador_binomial` nos devolverá un diccionario cuyos índices serán cada uno de los elementos de la lista `terminos_a_sumar` y como valores la lista de las observaciones,junto con la varianza teórica, la media y la varianza de las observaciones."
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [],
"source": [
"def generador_binomial(terminos_a_sumar,p,numero_de_observ):\n",
" media=[]\n",
" varianza=[]\n",
" series={}\n",
" varianza_base=p*(1-p) \n",
" var_teorica=[]\n",
" for n in terminos_a_sumar:\n",
" valores=np.random.binomial(n,0.5,numero_de_observ)/n\n",
" media.append(valores.mean())\n",
" var_teorica.append(varianza_base/n)\n",
" varianza.append(valores.std()**2)\n",
" series[n]=valores\n",
" return series,var_teorica,media,varianza"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"preparemos una lista con varios escenarios: cada nº representa una `n`, número de términos a sumar para calcular posteriormente la media. Usaremos nueve para cuadrar posteriormente los gráficos. A continuación llamaremos a la función, solicitando 1000 observaciones:"
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [],
"source": [
"lista_terms_sum=[10,50,100,200,300,400,500,1000,10000] #han de ser 9!\n",
"#lista_terms_sum=[10,100,500,1000,5000,10000,50000,100000,1000000]\n",
"#lista_terms_sum=[10,20,30,40,50,60,70,80,90]\n",
"series,var_teorica,media,varianza=generador_binomial(lista_terms_sum,p=1/2,numero_de_observ=1000)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"A continuación representaremos gráficamente estas 1000 observaciones, y veremos el efecto del teorema LLN conforme aumentamos el nº de términos en la suma:"
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 720x720 with 9 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"f = plt.figure(figsize=(10,10))\n",
"f.subplots_adjust(hspace=1, wspace=1)\n",
"ax1 = f.add_subplot(331)\n",
"ax2 = f.add_subplot(332)\n",
"ax3 = f.add_subplot(333)\n",
"ax4 = f.add_subplot(334)\n",
"ax5 = f.add_subplot(335)\n",
"ax6 = f.add_subplot(336)\n",
"ax7= f.add_subplot(337)\n",
"ax8= f.add_subplot(338)\n",
"ax9= f.add_subplot(339)\n",
"f.subplots_adjust(hspace=.5, wspace=0.5)\n",
"lista_axes=f.get_axes()\n",
"N_bins=np.linspace(0,1,100)\n",
"n_decimales=2\n",
"for i in range(0,9):\n",
" lista_axes[i].set_xlabel('{:,} términos en la suma'.format(lista_terms_sum[i]))\n",
" lista_axes[i].yaxis.set_major_formatter(PercentFormatter(1))\n",
" lista_axes[i].set_xlim(0.2,0.8)\n",
" lista_axes[i].set_ylim(0.0,0.25)\n",
" counts, bins = np.histogram(np.around(series[lista_terms_sum[i]],decimals=n_decimales),bins=N_bins)\n",
" lista_axes[i].hist(bins[:-1],bins,weights=counts/counts.sum())\n",
" lista_axes[i].text(0.0,0.8,'Varianza muestra={:.4}'.\n",
" format(varianza[i]),transform=lista_axes[i].transAxes,color='tab:orange')\n",
" lista_axes[i].text(0.0,0.6,'Varianza teórica={:.4}'.\n",
" format(var_teorica[i]),transform=lista_axes[i].transAxes,color='tab:orange')\n",
" lista_axes[i].text(0.0,0.4,'Media de la muestra={:.4}'.\n",
" format(media[i]),transform=lista_axes[i].transAxes,color='tab:orange')\n",
" "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Podemos observar como la varianza disminuye como nos indica la teoría (inversamente proporcial a n) y la media converge a la media de la variable aleatoria inicial. Vemos mejor este efecto con el gráfico siguiente:"
]
},
{
"cell_type": "code",
"execution_count": 13,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 432x288 with 2 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"fig, ax1 = plt.subplots()\n",
"color = 'tab:red'\n",
"ax1.set_xscale('log', basex=10)\n",
"ax1.set_xlabel('Nº términos en la suma')\n",
"ax1.set_ylabel('Varianza', color=color)\n",
"ax1.set_ylim(0,0.03)\n",
"ax1.plot(lista_terms_sum,varianza, color=color)\n",
"ax1.tick_params(axis='y', labelcolor=color)\n",
"\n",
"ax2 = ax1.twinx() \n",
"\n",
"color = 'tab:blue'\n",
"ax2.set_ylabel('media', color=color) \n",
"ax2.plot(lista_terms_sum,media, color=color)\n",
"ax2.tick_params(axis='y', labelcolor=color)\n",
"\n",
"fig.tight_layout() "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Conclusiones"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Hemos visto la base teórica que rigue el comportamiento de variables aleatorias cuando realizas experimentos un número elevado de veces, para, a continuación, realizar simulaciones en `python`, utilizando librerias de uso común, para confirmar que obtenemos resultados alineados con la teoría. En un próximo post veremos el Teorema Central del Límite."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Notebook y código disponible en mi repositorio [github](https://github.com/mharias/stats) en https://github.com/mharias/stats"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.6.9"
}
},
"nbformat": 4,
"nbformat_minor": 2
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment