Me disponía yo a seguir con la línea inferencia Bayesiana cuando me ha asaltado una duda…cada vez que escribo la “distribución de la variable” ¿estaré perdiendo a alguien? Porque seguro que habéis escuchado frases como: «La variable tiene una distribución normal» o «La variable sigue una distribución normal» o, simplemente, «es una variable normal»… bueno, esta ultima igual responde a otras ideas…jeje. ¿Pero sabemos realmente que significa eso?
Para intentar paliar esa duda he ido a twitter empeñada en preguntar a quienes me leen para tener una visión más concreta y, a la luz de los resultados podríamos decir que: Aproximadamente el 41% de quien me sigue/lee pertenece al gremio de la estadística, el 42% ha estudiado o ha leído sobre estos conceptos alguna vez, el 15% no lo entiende, pero quiere saber y hay un 2% que, digamos, pasaba por allí…
A los primeros les diré que espero que esta entrada les sirva, aunque sea como material didáctico… prometo hilos más jugosos pero no quisiera que nadie se perdiese en ellos. A quienes no sabían nada de estos conceptos, espero saber explicarlos de la forma más sencilla posible y a quienes les suenan de antes, pues que la entrada les sirva para afianzar o refrescar conceptos… para los cuartos… pues ¡Buenos días! Pero…
Vamos al lio, ¿Me dejas que te cuente?
¿Qué es una distribución?
En términos generales, una distribución es algo que nos ayuda a entender cómo se comporta una variable, qué valores se observan con mayor frecuencia o cuáles se podrían considerar valores “raros”.
Poniéndonos un poco más técnicos diremos que ese algo es una función que asocia un número a cada posible valor de la variable, pero ¿qué son esos números? ¿Cómo los interpretamos? Pues bien, esta interpretación va a depender un poco del tipo de variable que tengamos porque no es lo mismo que la variable sea discreta (solo puede tomar ciertos valores) que continua (puede tomar cualquier valor en un intervalo). Empecemos por las primeras.
Variables discretas
Como la mejor forma de entenderlo es con un ejemplo, y vamos a empezar con una variable discreta. Para ello, volvamos al ejemplo donde estudiábamos si a una persona le gustaba o no la serie Gambito de Dama. La variable de interés en este caso solo puede tomar dos posibles valores, Sí o No o sí queréis 1 o 0.
La mejor forma de entender una variable de este tipo es dar la probabilidad de “Sí” y la probabilidad de “No”. Se tratará de dos valores entre 0 y 1 que, además, deben sumar 1. ¿Recordáis los axiomas de Kolmogorov sobre como debe comportarse la probabilidad?
- La probabilidad de un resultado imposible vale 0
- La probabilidad de un resultado seguro vale 1
- La probabilidad de que suceda alguno de varios resultados que no pueden suceder a la vez es la suma de sus probabilidades.
Poniéndonos un poco más técnicos de nuevo, lo que tenemos es una función que asocia el 1 (Sí) con una probabilidad que vamos a representar con la letra (porque en matemáticas somos así y nos gustan las letras griegas). Del mismo modo, dicha función debe relacionar el 0 con el valor .
Ahora vamos a ponerle nombres a las cosas:
- A una función de este tipo que asocia cada valor de la variable con una probabilidad se le llama función de probabilidad o función de densidad de probabilidad.
- En concreto a la función de probabilidad que asociamos a una variable que solo puede tomar valores 0/1 se le llama distribución de Bernoulli (en honor a Jacob Bernoulli)
- A , que es la clave aquí lo vamos a llamar parámetro. Y es importante tener en cuenta que todas las distribuciones tienen parámetros que las “tunean” para un caso concreto… porque no es lo mismo hablar de la variable “¿Te gusta Gambito de Dama?” que de la variable “¿Te gusta que te pisen?” Fijaos como cambia la distribución de la probabilidad según el valor de :
Venga, vamos a complicarlo un poco, imaginad que la variable ahora es, a cuantas personas de un grupo de 10 les ha gustado la serie. La respuesta puede ser: a ninguna, a 1 a 2… y así hasta 10 ¿no?
En este caso, la distribución de la variable debe decirnos como de probable es cada valor. Es decir, necesitamos una función que asocie cada valor del 0 al 10 con una probabilidad. Para hacerlo existen distintas opciones dependiendo de las condiciones que se den… porque no es lo mismo que las 10 personas sean amigas y se influyan las unas a las otras en el gusto que se trate de 10 personas independientes.
En el caso más simple, que las 10 sean independientes, se usa la distribución conocida como Binomial. Esta distribución depende de dos parámetros: el primero es el número de personas, N=10, porque, al fin y al cabo, le tendremos que decir a la distribución hasta donde llega la variable. El otro parámetro es, como en la Bernoulli, un valor que nos dice la probabilidad de que a cada persona le haya gustado, así que lo volvemos a representar por la letra . En la imagen podemos ver como varia la probabilidad de cada valor según el valor de este parámetro.
Por supuesto, como os decía, existen otras distribuciones posibles para variables discretas, pero en todas, la idea es la misma, asignar una probabilidad a cada posible valor de la variable. Y ojo, que una cosa importante es que todas las probabilidades sumadas tienen que valer 1, no os olvidéis, ¡por Kolmogorov!
Al respecto de esto de la suma, cabe decir, que además de la función de probabilidad, también se define lo que se conoce como función de distribución o fución de distribución acumulada. Esta función en lugar de relacionar cada valor con su probabilidad lo asocia con la probabilidad de estar por debajo de el. Por ejemplo, la función de distribución acumulada para el valor “tres personas” del ejemplo anterior lo que nos dará es la probabilidad de que la serie les haya gustado a 0, a 1 a 2 o a 3 personas y se calcula como la suma de las probabilidades para esos 4 valores.
En la siguiente imagen podéis ver como se representaría una distribución acumulada. Destaca que hemos creado una especie de escalera y ya no usamos las típicas barras, y eso ¿Por qué? pues porque al expresar la probabilidad de ser menor que un valor se crea una sensación de continuidad… piénsalo, no tiene sentido pensar en la probabilidad de 2.5 porque es 0 pero si en la de ser menor que 2.5 pues eso implica los valores 0, 1 y 2.
Hasta aquí bien, ¿no? Pues venga, vamos a complicarlo un poco más… ¿Qué pasa cuando la variable es continua? Hemos dicho que una variable es continua cuando puede tomar cualquier valor en un intervalo. Esto significa que si la variable esta definida entre 3 y 4 pues lo mismo puede valer 3.5 que 3.65 que 3.57869938372048504…
Variables continuas
Y ahora, si te paras a pensarlo un momento es fácil que llegues rápido a la pregunta si tengo los infinitos valores en un intervalo, ¿le puedo dar una probabilidad a cada uno y que estas probabilidades sumen 1?
Pues está complicado… y es que, en realidad, la probabilidad de un valor concreto es 0, no porque se trate de algo imposible si no porque no tiene sentido definirla. Así que, vamos a hacer una cosa, en lugar de establecer una probabilidad vamos a recurrir a lo que se llama densidad (recordad que a la función de probabilidad la habíamos llamado también función de densidad de probabilidad… pues aquí la clave).
Vamos a pensar, de nuevo, en un ejemplo. Hablemos de la altura de una persona. La altura de una persona puede tomar cualquier valor entre 0 e infinito (raro, ya lo se, pero no hay límites establecidos, que le vamos a hacer). Imaginad que cogemos a todas las personas de la población y las vamos situando a lo largo de una línea según su altura. Si alguien no cabe exactamente en su sitio le diremos que se sitúe delante de los que ya están en la línea. Después de situar a todas las personas cogemos un dron y sobrevolamos la figura que se habrá creado, lo que veremos será algo similar a una campana.
Pues bien, la curva que dibuja el perfil de esa campana sería la función de densidad. Más concretamente, en un fenómeno como este, esa campana suele estar bien representada por lo que se conoce como distribución normal o Campana de Gauss aunque no fue Gauss el primero en definirla si no Abraham de Moivre.
La distribución normal depende de dos parámetros, uno que tiene que ver con la localización de la campana, es decir, su centro y otro que tiene que ver con su amplitud.
Como podeis ver, cuando vemos una función de densidad también podemos hacernos una idea de donde se sitúan los valores que ocurren con mayor frecuencia aunque no podemos interpretar los valores de la curva como probabilidades, incluso podrían ser mayores de 1.
Si queremos calcular una probabilidad a lo que recurriremos es a la función de distribución. Recordad que la función de distribución para una variable discreta era la probabilidad de estar por debajo de un determinado valor y se obtenía como la suma de las probabilidades asociadas a todos los valores que estaban, efectivamente, por debajo del valor dado.
En el caso continuo, la situación es la misma solo que ahora ya no podemos sumar probabilidades porque no son discretas… ¿que hacemos? Pues lo que se suele hacer en matemáticas cuando se trata de sumar cosas para infinitos valores continuos… integrar. Y es que, la probabilidad de estar por debajo de un valor se obtiene como el área bajo la curva de la densidad hasta ese valor. Lo vemos en la imagen
De esta forma, podemos saber cuando un valor está situado en uno de los extremos (su función de distribución será muy cercana a 0 o a 1) o cuando esta situada en el centro (su función de probabilidad estará cercana al 0.5, aunque bueno, esto depende de la forma que tenga la densidad… porque, como ya habíamos dicho en el caso de las variables discretas, existen multitud de funciones de densidad, cada una con sus parámetros asociados y cuya idoneidad dependerá de la naturaleza de la variable estudiada.
En definitiva, cuando hablamos de la distribución de una variable, lo que estamos haciendo, es intentar entender como varia nuestra variable y, para ello, solemos utilizar distribuciones bien definidas aunque estas no siempre se adapten al 100% a lo observado… pero ese tema lo dejamos para otro día.
Si has llegado leyendo hasta aquí, ¡Gracias!
Muchas gracias por tus posts, Anabel. Tu forma de abordar los conceptos es muy didáctica. Soy profesor de Matemáticas en Secundaria y llevo un tiempo tonteando con la idea de enriquecer los apuntes que hago para mis alumnos con animaciones y las tuyas me han encantado, el caso es que no tengo ni idea de cómo empezar. ¿Qué software utilizas para hacer estas construcciones tan chulas?
Hola Luis,
En primer lugar gracias por tus palabras. Sobre las animaciones, la verdad es que no hago nada muy especial. trabajo con PowerPoint creando una diapositiva por fotograma. A veces incluyo gráficos que hago en R (que me gustan más que los de PowerPoint). Cuando ya tengo todas las diapositivas las exporto a png.
Las imágenes en png las subo a https://ezgif.com que me permite hacer un gif con ellas. La misma página también te sirve para obtener un png por cada fotograma de un gif que ya esté hecho.Es un método muy rudimentario, pero me funciona.
Sé que geogebra te permite hacer animaciones muy chulas también y que Julio Mulero hace cosas muy bonitas y más elaboradas que las mias. Igual él te puede añadir algún otro truco.
Espero que te sirva. Un abrazo!
Muchas gracias por tu respuesta, Anabel. Tomo nota de tus consejos. ¡Un abrazo!
Muy bueno. Gracias por compartir