Traduciendo la Intuición: La distribución a priori

Es común tener intuiciones sobre las cosas que nos pasan, sobre cuándo nos pasan o por qué nos pasan. 

En ciencia, esas intuiciones son fundamentales y están basadas casi siempre en evidencias recogidas de algún estudio anterior o en el conocimiento que se tiene “a priori” sobre aquello que se está estudiando. 

Estas ideas previas, traducidas al lenguaje de la probabilidad, son la tercera pata sobre la que se sustenta la Estadística Bayesiana: la distribución previa o “a priori”, y también la que más quebraderos de cabeza le ha supuesto siempre. 

Pero ¿qué es una distribución previa? ¿Cómo la construimos?

¿Me dejas que te cuente?

Recordemos

Antes de empezar es importante que nos situemos. 

En la mayor parte de los problemas estadísticos siempre contamos con los mismos elementos. 

Habitualmente tenemos una pregunta concreta, por ejemplo, saber cuáles son los niveles de glucosa en sangre para una población sana. 

Para responder a la pregunta contamos con esos pequeños seres llamados datos a los que hay que comprender. Se trata de mediciones de variables aleatorias que incluirán, entre otras, la variable que da “respuesta” al objetivo del estudio. Siguiendo con el ejemplo anterior, estos datos podrían contener mediciones del nivel de glucosa en sangre, la edad y/o el sexo  para una muestra de una población sana.

Y para poder traducir estos datos y entender que tienen que decirnos sobre el proceso, solemos considerar un modelo, una distribución que nos pueda contestar a cosas como ¿entre que valores está el nivel de glucosa de las personas sanas?, ¿qué probabilidad hay de tener un nivel por debajo de 80 mg/dl?, etc.

Pero, por supuesto, se trata de un modelo posiblemente genérico que queremos adaptar a lo observado.  Esa caja “mágica” que nos ayuda a discernir la información contenida en los datos pero que tenía parámetros que tunear, ruedecitas que debían estar en la posición correcta para que la traducción fuese útil. 

Pues bien, esa ruedecita, esos parámetros del modelo son los verdaderos protagonistas de todo análisis estadístico. A veces son una media que tenemos que aproximar, o una varianza, otras veces son valores que nos indican la relación existente entre la variable respuesta (el nivel de glucosa) y otras variables (por ejemplo, la edad). 

La idea detrás del análisis es que estos parámetros tienen un valor real pero desconocido y no observable, así que tenemos que basarnos en los datos para decir cosas sobre ellos. 

En el caso concreto de la Estadística Bayesiana, estos parámetros son tratados como si fuesen variables aleatorias que no podemos observar. Nuestro objetivo es estudiar como se comportan dichas variables combinando la información previa con la información contenida en los datos y que se resume mediante la función de verosimilitud. Esa función que obtenemos a partir de la caja del modelo y de la que ya hablamos en una entrada anterior

Esta aproximación es la principal diferencia entre la estadística Bayesiana y la Frecuentista ya que, en la segunda, estos valores no pueden tener nunca una probabilidad asignada, ¿por qué? Bueno, esto lo dejamos para otro día.  

 Y ahora llega la parte difícil traducir la intuición experta sobre el valor de los parámetros, al lenguaje matemático o, mejor dicho, al lenguaje de la probabilidad. 

Convirtiendo ideas en distribuciones: 

El primer escollo con el que nos encontramos cuando tratamos de traducir el conocimiento existente a una distribución es cuál será la forma que esta tenga. A veces nos parece que todo sigue una campana de Gauss, pero esto no es siempre cierto. Puede ser que todos los posibles valores del parámetro sean igual de creíbles, entonces mejor usar una uniforme ¿no? Quizás el parámetro solo pueda tomar valores positivos o, incluso, entre 0 y 1. Ahí la normal no tienen nada que hacer.

Pero, entonces, llega el segundo gran escollo, la parte práctica, computacional, o matemática, como queráis llamarla. La cuestión es que esta previa debe combinarse con la verosimilitud en el Teorema de Bayes para dar lugar a la distribución posterior, esa que incorporará tanto la información previa como la información contenida en los datos, y seria ideal que obtuviésemos una expresión sencilla y manejable para ella. 

En este sentido, durante siglos, el uso de la estadística bayesiana se restringió a ejemplos sencillos. Aquellos que permitían obtener distribuciones a posteriori conocidas y fáciles de obtener (los típicos ejemplos con dados y monedas). 

No fue hasta la época de la guerra fría cuando aparecieron un tipo de previas llamadas conjugadas y que supusieron un salto cualitativo en el uso del análisis Bayesiano.  Se trata de un tipo de previas se combinan a la perfección con la verosimilitud correspondiente. Esto quiere decir que, si  la previa es una campana de Gauss, una uniforme o cualquier otra distribución, la posterior tendrá la misma forma, pero más precisa gracias a la acción de los datos.  

Pero claro, esto no deja de ser un artificio. Solo unas pocas distribuciones lo cumplen y quizás no sean las que mejor reflejan nuestro conocimiento. Por poner un ejemplo, si en el modelo para la glucosa la previa conjugada para el parámetro es una distribución normal, esta contemplaría cualquier valor, ya sea 1000 o -1000. Pero, podría pasar que la información experta nos diga que ese parámetro solo puede tomar los valores 20, 30 y 80… pues vamos mal.   

El gran avance en este sentido se produjo cuando aparecieron los Métodos Montecarlo por Cadenas de Markov (MCMC) allá por los años 90. Estos métodos permitieron eliminar las barreras que suponía la elección de la distribución previa. Sigue siendo difícil determinar la forma exacta de la distribución, pero, al menos, ya no debemos recurrir al artificio de las previas conjugadas. 

Sin embargo, aun existe un escollo más. ¿Qué pasa cuando no sabemos nada? Cuando entramos en el mundo de las modelizaciones complejas, los parámetros son tantos y tan variados que es casi imposible tener una idea formada sobre cada uno de ellos, ¿qué podemos hacer en ese caso?

Previas en ausencia de información previa. 

El problema en esta situación es como transmitimos al estudio la falta de conocimiento. Nuestra intuición nos lleva a pensar rápidamente que lo mejor sería dar la misma probabilidad a todos los posibles valores del parámetro. Esto podría lograrse con una distribución uniforme sobre dichos valores, pero claro, cuando los valores que puede tomar el parámetro no están acotados, esto no es tan sencillo.  

Una posible solución sería utilizar una uniforme sobre un intervalo «lo suficientemente grande» o una normal con una varianza enorme. Pero ¿cuánto es suficientemente grande?, ¿cómo elegimos esa varianza?, ¿cómo afecta el valor elegido al resultado?

Pues bien, la solución no es sencilla. A este tipo de distribuciones se les llama vagas o mínimo informativas y se ha demostrado que, en algunos casos, su elección es determinante en los resultados finales. 

Pero, ¿qué opción nos queda entonces? 

Existen estudios que se centran en el desarrollo matemático de previas llamadas Objetivas. Son distribuciones que se construyen con el fin de incorporar la mínima información posible al estudio de un parámetro concreto. Una solución muy interesante, pero, quizás, la más compleja de todas. 

Criticas, siempre las hay. 

Pero, como ya habíamos mencionado, la elección de la previa no solo es compleja, si no que es la parte más controvertida del análisis Bayesiano. 

En el fondo, la elección de la previa está basada (excepto en el caso de las previas objetivas) en la intuición humana. ¿Muy subjetivo quizás?, mejor fijarnos solo en los datos ¿cierto?  

Esta fue la gran discusión, mantenida a lo largo de los siglos. Una discusión que mantuvo a la estadística Bayesiana arrinconada hasta bien entrado el siglo XX.

Pero lo cierto es que, da igual el enfoque estadístico que utilicemos. Hay un montón de decisiones subjetivas, desde la elección inicial del modelo a la selección de la muestra y su tamaño, etc. Se trata, además, de decisiones de las que no podemos medir su impacto. Sin embargo, en el caso de las distribuciones a priori, sí existen mecanismos, que nos permiten estudiar cuanto cambian los resultados si cambiamos la distribución previa. A este tipo de estudios los llamamos análisis de sensibilidad y nos permiten estar seguros de que nuestros resultados son validos.

Así que, vamos a por la Estadística Bayesiana, sin miedo. 

¡Gracias por haber leído hasta aquí! Espero que te haya gustado. 

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

A %d blogueros les gusta esto: