Han sido varias las personas que, refiriéndose a las últimas entradas del blog sobre estimación y contraste de hipótesis, me han dicho: “Estos posts son muy frecuentistas para hacerte llamar BayesAna”. Esto es así y, aunque tiene su explicación porque tenían un objetivo didáctico, en las próximas entradas compensaré mostrando la parte Bayesiana de lo que os vengo contando las últimas semanas. Pero…
¿Qué es eso de la Inferencia Bayesiana? ¿Me dejas que te cuente?
Empecemos por el principio
Al hablar de Inferencia Bayesiana es imposible no empezar con un par de pinceladas sobre el origen de esta forma de entender la incertidumbre.
El nombre de está filosofía (porque, sí, podemos entenderla como tal) se lo debemos al reverendo presbiteriano Thomas Bayes (1702-1761) del que ya os conté algunas cosas en esta otra entrada.
Thomas Bayes desarrolló el teorema que lleva su nombre alrededor de 1740 aunque este no se hizo público hasta 1763, dos años después de su muerte. Se trataba de un teorema que buscaba conocer la probabilidad de las causas de un suceso a partir de los datos. Se considera que algunas de las posibles inspiraciones de Bayes a la hora de desarrollar su teorema fueron:
- El libro de Abraham De Moivre “The Doctrine of Chances”.
- Probar la Ley de la Gravitación Universal enunciada por Isaac Newton.
- Los retos de William de Stanhope (segundo Conde de Harrington) relacionados con los juegos de azar.
- El Tratado Sobre la Naturaleza Humana de David Hume en el que intentaba refutar la existencia de Dios.
Lo curioso es que las dos primeras fueron también la motivación del gran matemático Francés Pierre-Simon Laplace (1749-1827) para llegar a una formula equivalente a la de Bayes.
Pero ¿cuál es este teorema? ¿En que consiste?
El teorema
De una manera informal, el teorema de Bayes es la fórmula que nos permite incorporar información procedente de los datos, para actualizar el conocimiento que tenemos sobre algo. Algo que, siguiendo la motivación de Bayes o Laplace, podría ser la causa de esos mismos datos.
Durante muchos años, el teorema de Bayes se utilizó únicamente como una herramienta probabilística con el espíritu que Julio Mulero y yo os explicábamos en este hilo de twitter:
Sin embargo, su uso estaba bastante denostado de forma que podemos encontrar grandes hitos en la historia que se resolvieron usando el teorema de Bayes sin tan siquiera mencionarlo. Es el caso, por ejemplo, del Banburismo de Alan Turing, Jack Good y Joan Clerk que ayudo a descifrar la máquina enigma o de los métodos que ayudaron a localizar la bomba caída en Palomares en enero de 1966.
Tras varias idas y venidas a lo largo de los años, incluyendo las arduas discusiones entre Ronald Fisher (como no) y Harold Jeffreys (a quien se considera el padre de la Estadística Bayesiana moderna), no sería hasta bien entrada la década de los 60s del siglo pasado cuando la teoría Bayesiana resurgiría como tal de la mano de Irving J. («Jack») Good (el compañero de Turin), Leonard Jimmie Savage y Dennis Lindley.
Pero ¿por qué tanto rechazo? ¿Qué hay detrás del teorema de Bayes que lo hace tan incómodo?
Definición de probabilidad
Pues bien, podríamos decir que el principal escollo es la definición de probabilidad implícita en este teorema.
Como podemos ver en la siguiente imagen extraída del libro “La Estadística en Comic” de Larry Gonick existen tres posibles interpretaciones para el concepto de probabilidad.
- La probabilidad frecuentista que basa su existencia en la repetición de un proceso un número muy grande de veces para estudiar la proporción de ellas en la que aparece un determinado suceso. Basicamente, lanzar muchas veces una moneda bajo las mismas condiciones y observar cuantas veces sale cara para determinar la probabildad de cara.
- La probabilidad clásica basada en la fórmula de Laplace, casos favorables / casos posibles que se basa en la suposición de que todos los sucesos son equiprobables.
- La probabilidad «personal» entendida como medida subjetiva de creencia en la verosimilitud de un suceso.
La última de estas interpretaciones es la que se utiliza en el teorema de Bayes y eso de la subjetividad, a los matemáticos de la época no les venía muy bien, digamos.
Pero claro… si no creemos en la probabilidad subjetiva, ¿cómo podemos establecer la probabilidad de sucesos que nunca antes han tenido lugar?
Esta fue una pregunta recurrente durante la guerra fría cuando se planteaban cuál sería la probabilidad de que se produjese un accidente nuclear o de que chocasen dos aviones en el aire.
Sin evidencia ninguna puesto que nunca había pasado, la visión frecuentista establecería que esa probabilidad era 0. Pero lo cierto es que eso sonaba raro y la incorporación de conocimiento previo sobre la problemática podía ayudar a definir mejor esa probabilidad. Y es que, todo tiene una oportunidad de suceder…
Siempre cabe dudar
Al entender la probabilidad como subjetiva todo es susceptible de tener asignada una distribución de probabilidad, incluidos los parámetros y las hipótesis.
Por ejemplo cuando hablábamos de la probabilidad de que a una persona de cierta población le gustase la serie Gambito de dama, teníamos un parámetro de interés, esa probabilidad. Podemos pensar que es una cantidad fija, inmutable, que tenemos que estimar. En términos frecuentistas, se trata de un valor que no va a cambiar al repetir el experimento y, por tanto, no podemos calcular su probabilidad y no podemos tratarlo como una variable.
Sin embargo, bajo el prisma de la probabilidad subjetiva nada nos impide asignarle un grado de incertidumbre según lo que creamos que puede valer (en base a cuanto me a gustado a mi y en cuanto les ha gustado a mis compañeros de departamento, etc). Volviendo al teorema de Bayes, esta probabilidad basada en lo que nosotros ya sabemos es lo que se conoce como distribución a priori o previa.
La información previa se combina entonces con la información proporcionada por los datos y que está contenida en la función de verosimilitud, la p(datos |causas) de la que ya hemos hablado en otras ocasiones y que se utiliza tanto en la estadística frecuentista como en la Bayesiana.
Y, a partir de ellos, usando el teorema de Bayes obtenemos la distribución a posteriori sobre nuestro parámetro de interés. Una distribución que nos servirá para hacer inferencia sobre el mismo… pero eso, os lo cuento otro día.
Si has llegado hasta aquí Gracias por leerme!
Muchos de los datos históricos comentados aquí han sido extraidos del libro The Theory That Would Not Die de Sharon Bertsch McGrayne.
3 Replies to “¿Y en Bayesiano qué?”