El otro día comenzaba a seguir expectante la encuesta de @JCesarPL sobre el significado de un Intervalo de Confianza. Al terminar la encuesta, una vez más quedaba patente que es un concepto que no se termina de entender.
Encuesta va. La afirmación «Un intervalo de confianza 95% en torno a la media estimada quiere decir que la media poblacional está con un 95% de probabilidad dentro de los límites de ese intervalo» es…
— José C. Perales (@JCesarPL) May 13, 2020
En esta entrada (también en twitter como hilo) vamos a intentar entender que es un intervalo de confianza, y le vamos a poner un poco de poesía ¿Me acompañáis?
Imaginad la flor más bonita del mundo plantada en vuestro jardín (igual es mucho imaginar, pero viene lo peor… jejeje). Un malvado mago que odia la belleza la ha cubierto con un conjuro de invisibilidad aunque no ha conseguido acabar con su intenso aroma.
Para recuperar vuestra flor, la única opción es encontrarla y transplantarla a otro lugar libre de magia. Así que cada mañana salís al jardín, aspiráis el aroma alrededor de donde debería estar, tomando siempre la misma cantidad de aire (Vaaaaleee ya se que no se puede… pero seguid imaginando porfa)
Dependiendo de la intensidad del aroma construís una caja, si el aroma es muy intenso bastará con una caja pequeña, si el aroma es sutil, una caja más grande… pero ¿para qué?
Bien, vuestro anhelo es que, si situáis la caja en el lugar en que habéis olido, está contendrá a la flor. No sabéis en qué lugar de la caja estará, pero confiáis que en lo hará. Entonces cogéis todo lo que hay bajo la caja y lo transplantáis a ese otro lugar en que la flor volverá a mostrar su belleza.
Vuestro sistema de construcción de la caja en relación a la intensidad del aroma, tiene una característica muy especial. Si repetís el proceso cada mañana durante muchos días, el 95% de esos días conseguiríais recuperar la flor.
Sin embargo, el malvado mago solo os ha dado un día, no vais a poder repetirlo. Construís vuestra caja y la flor está o no está dentro. Ya está, se acabo.
Confías en qué está, claro, que puede ser uno de esos 95 casos sobre 100. Pero la flor no puede moverse, no varia, y si no varia no se le puede asociar una probabilidad de estar dentro de la caja. Es la caja la que varia según la intensidad del aroma, pero solo la vamos a construir una vez. No hay probabilidad… hay confianza.
Traducimos al mundo de la Estadística
Si traducimos esta historia al mundo de la estadística y los datos (que seguro que ya lo habéis hecho) la flor sería ese valor desconocido que queremos estimar. Desconocido pero fijo
El aire respirado es una muestra de tamaño fijo de los datos (de ahí que os pidiese medir siempre la misma cantidad).
La intensidad del aroma está relacionada con la variabilidad de los datos. Cuanto más variables sean, menor será la fuerza de este aroma y más grande deberá ser la caja para confiar en «cazar» la rosa.
La caja es, finalmente, nuestro intervalo de confianza. Ese que construimos y en el que confiamos para contener el verdadero valor anhelado.
Por último, hemos hablado de un 95% de confianza pero podríamos cambiar ese valor. Si queremos confiar más, construiremos siempre cajas más grandes, pero lo pagaremos haciendo hoyos más grandes en el jardín. También podemos reducir las cajas, reduciendo nuestra confianza.
Pero de nuevo, lo importante, lo más importante, es que el valor del parámetro desconocido es fijo, como la posición de nuestra flor, y si no varia no podremos hablar nunca, NUNCA, de su probabilidad de estar dentro de la caja (el intervalo).
Para veáis otra diferencia. Pensad en un intervalo sobre una variable normal (ojo, un intervalo sobre una variable), los valores en el centro tienen una densidad mayor, acumulan más probabilidad. Confiaría más en esos valores…
Sin embargo, en un intervalo de confianza, el verdadero valor puede estar en cualquier lugar, en el centro, en un extremo, en el otro…o no estar, no lo sabemos.
Y ojo, que si os gusta la interpretación como intervalo de probabilidad, bien, estáis en vuestro derecho, pero entonces haceos Bayesian@s y usad intervalos de credibilidad.
Si has llegado leyendo hasta aquí, GRACIAS.
Espero haber sido un poquito de ayuda clarificando este concepto tan utilizado y tan poco comprendido.
Excelente blog.
Ya sabemos que los bayesianos «sois» más elegantes y sesudos que los retorcidos frecuentistas anclados en el convoluto «dado que la hipótesis nula es cierta …» (uso el género neutro). Y que tenéis mucha razón, argumental y semántica, identificando lo que un frecuentista nunca debe afirmar.
En cualquier caso, una vez más, hay un desafío: describir de manera directa, y del modo menos alambicado posible, qué es el intervalo de confianza (el de credibilidad ya nos queda claro con menos de 30 palabras).
Y por último una paradoja: operando frecuentistamente y bayesianamente con weakly informative priors (o con completely flat priors with bootstrapping) obtenemos virtualmente los mismos resultados. Desde sencillos intervalos para medias, hasta parametrizaciones complejas de thin plate splines en modelos GAMM con controles de autocorrelación residual.
Y sin embargo, siendo los resultados tan similares, tenemos que referirnos a cosas muy distintas para describirlas. Asumiendo los frecuentistas tener que dar prolijas explicaciones, usando verborréicas digresiones, para describir lo obtenido.
Un cordial saludo
Vale, y ahora un argumento a favor de que el valor «real» está dentro del intervalo de confianza con una probabilidad del 95%. En el mundo, a lo largo de la historia se habrán construido… ¿cuántos? ¿Mil millones de intervalos de confianza para la media al 95%? La teoría frecuentista nos dice que de ellos, el 95% contienen al parámetro de interés.
Cuando nosotros construimos un intervalo de confianza estamos metiendo la mano en una hipotética urna que contiene mil millones de bolas de las cuales el 95% son blancas (y contienen el parámetro de interés) y el 5% son negras (y no lo contienen). Frecuentistamente, por lo tanto, podemos decir que existe un 95% de probabilidad de que nuestro intervalo de confianza sea «una bola blanca».
Ponlo si quieres en términos de «probabilidades subjetivas» «a la Savage»: te doy un euro si tu intervalo de confianza contiene al parámetro de interés; ¿cuánta es la cantidad máxima que estarías dispuesta a pagar por participar en ese juego?
Pero esos mil millones de intervalos construidos no corresponden a la misma población, ni están hechos con muestras del mismo tamaño. La propiedad se refiere a una población concreta, con un tamaño de muestra concreto.
Aun así, de nuevo, el punto es que la variable es el intervalo, no el parámetro. Por tanto no podemos hablar de «la probabilidad del parámetro de estar» si no «la probabilidad del intervalo de contener».
Y con respecto a la apuesta, si calcularemos la esperanza de ganar no lo haríamos sobre si el parámetro esta o no esta, sino sobre si el intervalo lo contiene o no lo contiene. Por ejemplo si apuesto un euro, Espero ganar 0,95, de acuerdo, pero el cálculo es 1* P(IC contenga a mu) + 0 *P(IC no contenga a mu).
Si me quieres decir que en equivalente Bayesiano, un intervalo de credibilidad construido a partir de una previa mínimo informativa, me va a dar lo mismo, te lo compro. Pero entonces no estamos trabajando en fecuentista y consideramos el parámetro como una variable aleatoria.
¿Te convenzo? jeje. Gracias por la pregunta y por el interés!