¿En Bayesiano?¿Por qué?

En esta casa hemos hablado muchas veces de estadística bayesiana y ya sabéis que es mi mundo y que soy fan incondicional. Sin embargo, sois muchas las personas que me preguntáis por las ventajas que esta visión de la estadística tiene sobre la frecuentista, ¿hay ocasiones en las que es preferible una que otra? Yo diría que, ante la duda, mejor en bayesiano… pero ¿Por qué? 

¿Me dejas que te cuente?

Introducción

Cuando Thomas Bayes y Pierre Simon Laplace llegaron de forma independiente al conocido como Teorema de Bayes, su intención era tan relevante como llegar a entender si algo podía ser la causa de los sucesos acontecidos. ¿Era la gravedad la que producía el movimiento de los planetas? ¿Estaba Dios tras los supuestos castigos divinos? Pero pronto este Teorema se convirtió en un tabú. Las razones fueron variadas pero, entre ellas destacaba el hecho de que implicaba una visión aparentemente subjetiva de la probabilidad, algo impensable para los matemáticos de la época.

Tuvieron que pasar varios siglos y se tuvo que usar muchas veces «a hurtadillas» hasta que renació de sus cenizas como una forma diferente de entender, no solo la probabilidad, si no, también la estadística. Y es precisamente en estas diferencias, donde residen las fortalezas del paradigma bayesiano.

En particular, desde mi punto de vista, las ventajas de la estadística bayesiana frente a la frecuentista se pueden dividir en tres. En primer lugar, en esa visión subjetiva de la probabilidad de la que hablábamos y lo que esta implica. Por otra parte, su uniformidad a la hora de abordar cualquier problema sea cual sea su complejidad y, por último, pero quizás lo más importante de todo, por lo fácil que resulta interpretar sus resultados.

Probabilidad como medida subjetiva de creencia

Lo de siempre, la frecuencia

Cuando hablamos de probabilidad es importante reflexionar un momento sobre qué interpretación le damos a un 80% de probabilidad de lluvia o a que la probabilidad de contagiarte de una determinada enfermedad sea de un 2%. No es una cuestión trivial y es por eso que acabamos siempre en ejemplos mucho más sencillos como el lanzamiento de una moneda o de un dado.

En concreto, en el caso de la moneda, un 70% de probabilidad de cara parece que nos dice: 1) la moneda está trucada; 2) si lanzamos la moneda 100 veces, aproximadamente 70 saldrá cara… Pero cómo traducimos eso al caso de la lluvia. Podemos pensar que, si se repitiese este día 100 veces exactamente igual, 80 veces no llovería. Y bueno… además de que esa no es exactamente la forma de calcular la probabilidad de lluvia (eso os lo cuento otro día), esta idea de frecuencia requiere asumir que algo pueda, hipotéticamente, repetirse exactamente igual un número grande de veces y… mehh.

Pero, más allá de las posibles reticencias sobre la idea de repetición, esta interpretación tiene una connotación que pasa desapercibida: obliga a que solo podamos calcular la probabilidad de cosas que cambian al repetir el proceso. Esto es, en el caso de la moneda, lo que puede cambiar de una tirada a otra es si sale cara o cruz pero, si nuestro interés está en saber si la moneda esta trucada o no, lo llevamos mal ¿por qué? Pues porque si la moneda está trucada o no es algo que no va a cambiar por mucho que repitamos el lanzamiento, y mucho menos que podamos observar. De hecho, la probabilidad de que salga cara será un 80% o un 50% o lo que sea, pero no podemos hablar de incertidumbre sobre ese valor porque es un valor que no cambia con cada lanzamiento.  

Probabilidad subjetiva

La otra posible interpretación de la probabilidad tiene mucho más que ver con nuestro grado de creencia sobre el evento que estemos considerando. Por ejemplo, en el caso de la lluvia, un 80% de probabilidad de lluvia nos dice simplemente que es más verosímil que llueva que que no llueva. No necesitamos pensar en repeticiones, ni en circunstancias similares, aunque nada nos lo prohibe, por supuesto. De hecho, la visión frecuentista está incluida dentro de esta interpretación subjetiva.

La gran ventaja es que al considerar así la probabilidad cualquier cuestión desconocida que queramos estudiar es susceptible de ser algo incierto, de ponerle una probabilidad. Da igual que no cambie como en el caso de saber si la moneda está trucada.

Esto, en estadística se traduce en la idea de que cualquier parámetro o hipótesis  puede ser tratada como una variable aleatoria y le podemos asignar una distribución de probabilidad.

Por ejemplo, si no me fio de ti puedo empezar pensando que has trucado la moneda y que la probabilidad de cara es de un 70%. Lo creo con ciertas reservas, por supuesto, y no es que diga que es exactamente ese valor, pero que estará alrededor de ese valor. Eso lo hago poniendo lo que se llama una distribución a priori sobre el parámetro “probabilidad de cara”.

Por supuesto, después tengo que observar datos, como siempre en estadística. Con estos datos podré corroborar si apoyan a que la probabilidad de cara está realmente alrededor del 70% o no, así actualizo mi creencia e igual empiezo a confiar más en ti. 

Pero, ¿cómo hago eso? Y aquí viene la segunda ventaja del análisis Bayesiano

Una herramienta para dominarlos a todos

Como ya sabéis la heramienta que tenemos en estadística bayesiana para pasar de mi creencia a priori a la distribución a posteriori es el Teorema de Bayes. 

En el teorema de Bayes partimos de una distribución de probabilidad para la cantidad desconocida de interés. Esa cantidad desconocida es lo que en el gif anterior aparece como la «causa» de lo que observo y que en nuestro ejemplo es la probabilidad de cara. Si, como hemos dicho antes, no me fio de tí, voy a centrar esta distribución en el 0,7 (el 70% del que hablábamos). Pero claro, mi percepción no es exacta, tengo incertidumbre y le pongo cierta variabilidad como así vemos en la figura.

Distribución beta con media 0,70. Los valores posibles oscilan entre el 0,25 y el 1 aproximadamente.

Ahora observo datos del proceso, lanzo la moneda 10 veces y observo 6 caras. Teniendo en cuenta que el número de caras en diez intentos se puede estudiar con un modelo binomial obtengo lo que llamamos verosimilitud. Esta interesante función de la que ya hablamos aquí, me dice a que valores de la probabilidad de cara son apoyados por los datos… en este caso, claro está, es a 6 de 10, 0,6 (un 60%)

Verosimilitud obtenida a partir de la distribución binomial de los datos y centrada en 0,6 por haber observado 6 de 10

Ahora, usamos el teorema de Bayes para combinar las dos fuentes de información obteniendo la distribución conocida como a posteriori. Esta es una nueva distribución de probabilidad completa que nos dice mucho sobre la información que tenemos acerca del parámetro «probabilidad de cara».

Esta distribución se situará en algún lugar entre la verosimilitud y la previa y con menos variabilidad que cada una de ellas por separado. r

Representación de la distribución a priori, la a posteriori y la versimilitud.

Y esto que acabamos de hacer para la probabilidad de cara lo podemos hacer con lo que queráis. Con el efecto que tiene un tratamiento frente a un placebo, con el parámetro que mide la relación entre dos o más variables… e incluso cuando lo que nos es desconocido es cuál de las posibles hipótesis planteadas es más factible. 

Y no importa lo complicado que sea el modelo que estés planteando, ya sea un test t un ANOVA o una regresión lineal (que en el fondo son lo mismo). Ya estés estudiando un modelo con componente espacial, con error no normal, un modelo de supervivencia. Te da igual si hablas de aprendizaje automático supervisado, no supervisado o por refuerzo…. Sea cual sea tu caso siempre tendrás una o varias entidades desconocidas sobre las que poner una distribución a priori reflejando lo que sabes de ellas, aunque sea nada. Una distribución a priori que podrás actualizar gracias a tus datos mediante la herramienta única para resolverlo todo: El Teorema de Bayes. 

Y, lo mejor de todo, pues que lo que obtienes siempre se puede interpretar igual: en términos de probabilidad. 

Sin vueltas ni frecuencias. 

Con eso de “en términos de probabilidad” a lo que me refiero es a que nos basta con mirar la distribución a posteriori. A partir de ella puedo dar desde una estimación puntual, que puede ser su media su mediana o su moda; hasta la probabilidad de que esa cantidad sea mayor o menor que un valor concreto. ¿Cuál es la probabilidad de que la moneda esté trucada? O, dicho de otra forma ¿Cuál es la probabilidad de que la probabilidad de cara sea mayor de 0.5? Pues, según nuestra posterior, más de un 90%… vamos, que sigo sin fiarme de ti.

Aquí no hay estimaciones puntuales con intervalos de confianza que pueden o no cazar al verdadero valor. Aquí los intervalos son de credibilidad y realmente son intervalos obtenidos mediante la distribución a posteriori que contienen ciertos valores para el parámetro que acumulan cierta probabilidad, nada de confianzas.

No hay p-valores, ni probabilidad de error tipo I  fijada en 0.05. No necesitas pre fijar una potencia con un tamaño de muestra. Lo precisa o imprecisa que sea tu posterior te va a informar de lo que serás capaz de decir. Además, si quieres saber como de probable es la hipótesis alternativa, ahora puedes.

Por supuesto, esto no nos exime de hacer un calculo de tamaño muestral, sobre todo cuando se trata de hacer estudios con seres vivos. La ética ante todo. Pero, si algo falla siempre podremos decir algo, al menos los animales sacrificados o el tiempo invertido nos permitirán concluir algo (aunque sea que sabemos poco).

Si tenemos que cambiar de variable estudiada porque la que queríamos medir nos ha dado problemas, en frecuentista estaríamos alterando la potencia. Estaríamos haciendo lo que se conoce como p-hacking (tratar de buscar un p-valor menor de 0,05 a toda costa). En Bayesiano siempre podremos reportar la precisión de la distribución a posteriori, y ser sinceros con lo que estamos haciendo.

Con todo esto, volvamos a nuestro ejemplo. Imagina que ahora solo tengo 3 lanzamientos, porque en los otros 7 previstos he perdido la moneda. De esos 3 lanzamientos 2 han sido cara. Pues bien, la verosimilitud es mucho más imprecisa y la posterior nos dice básicamente lo mismo que la previa

Así, se que tengo poca información, pero… ¿y si tengo muchísimos datos que, incluso, van en contra de mi conocimiento inicial? Imagina, 100 lanzamientos de los que 40 son cara. Pues entonces los datos lo dominaran todo y la posterior estará cerca de la verosimilitud.

Así, traducido al mundo de la experimentación, si habías previsto hacer un estudio con 80 ratones para medir el efecto de una cierta molécula sobre la glucosa en sangre, pero no has podido medir a los 80, o has tenido que estudiar otra variable, siempre podrás saber como de informativos son tus datos y podrás justificar los cambios con respecto a tu diseño original…

Mola ¿no?

Bueno, seguro que ahora estás pensando que alguna pega tiene que tener…

Alguna debilidad 

Bueno, te seré sincera, la elección de la distribución previa no siempre es fácil. Pero es algo sobre lo que se ha estudiado mucho y hay soluciones para casi cualquier escenario conocido. Además, tenemos lo que se conocen como previas objetivas o por defecto, que son aquellas que te permiten decir que no sabes nada. Porque, ante todo, hay que ser sinceros con lo que sabemos y lo que no.

Y, si te estas preguntando que pasa con la parte computacional, bueno, pues sí, resulta que la posterior casi nunca se puede conseguir de forma “bonita” como la curva que yo os he puesto en el ejemplo de la moneda. En concreto, en probabilidad decimos que no se puede obtener de forma cerrada y queremos decir que no es una de las distribuciones conocidas, ni una normal, ni una gamma, ni una beta…  

De esta última pega tiene la culpa, en parte, el denominador del teorema de Bayes pero también tiene solución. En concreto existen métodos computacionales que no han dejado de crecer en las últimas décadas ofreciendonos una solución, una aproximación a la distribución posterior a partir de la cual podemos obtener las mismas ventajas de las que hablábamos antes. 

Y vale, se que puede dar pereza cambiar y tener que comprender las cosas de otra forma. Sobre todo, se que puede ser difícil no tener un p-valor y un 0,05 con el que obtener un sí o un no. Pero merece la pena intentarlo, por todo lo que puede aportar a nuestras investigaciones. Porque es más transparente, y nos dice mucho más.

Y ¿por dónde empiezo?

Añado esta parte por sugerencia de @OMDataScience y porque creo que es importante. Sin embargo, por ahora solo son algunas sugerencias. 

Si queréis empezar por lo más simple creo que el software JASP (libre y basado en R) es una opción estupenda para resolver los problemas más habituales e ir rompiendo mano. Otra opción es usar los paquetes de R LearnBayes, que te permite aprender desde 0 o el MCMCPack que permite hacer en bayesiano los modelos lm o glm con una sintaxis muy similar a la habitual en R.

Si queréis algo más avanzado, podéis consultar la documentación de INLA, Stan, JAGS, o WINBUGS… aunque os advierto que estos son de nivel pro.

Y prometo que otro día os enseño como funciona alguno de ellos pero por hoy, solo espero haberos acercado un poco más a las bondades de la estadística bayesiana.

Gracias por llegar hasta aquí.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

A %d blogueros les gusta esto: