En ciencia, como en la vida, establecemos hipótesis sobre cómo se construye la realidad y si determinadas acciones pueden cambiarla.
El método científico exige recopilar evidencia que nos permita descartar o no dichas hipótesis. Pero ¿Cómo cuantificamos la evidencia?
¿Me dejas que te cuente?
El comienzo del principio
El contraste o test de hipótesis es una técnica cuyos primeros usos se remontan al Siglo XVIII cuando John Arbuthnot (1667-1732) quiso comprobar si nacía el mismo número de mujeres que de hombres, un problema que también intrigó a Pierre Simon de Laplace (1749-1827).
Sin embargo, su formalización no llegaría hasta el Siglo XX, momento desde el cual, Sir Ronald Fisher (1880-1962) por una parte, y Jerzy Neyman (1894-1981) y Egon Pearson (1895-1980) por otra, empezaron a ser considerados los padres del contraste de hipótesis, aunque las herramientas que desarrollaron eran distintas y sus enfrentamientos personales sonados.
Ronald Fisher desarrollo la técnica conocida como Null Hypothesis Significance Testing (NHST) que establece una única hipótesis conocida como hipótesis nula (H0). Se trata una representación matemática de aquello que se considera cierto por defecto (que nacen el mismo número de hombres que de mujeres, que un tratamiento no tiene efecto, …) y se busca comprobar si los datos son compatibles con ella. Si no lo son, pues algo está pasando (nacen más niños que niñas, el tratamiento tiene un efecto …). Pero si sí lo son, pues no puedo decir nada más, seguiré teniendo que pensar que nada ha cambiado y seguir recopilando información. Algo así como pensar que, en un juicio, no has tenido suficientes pruebas para declarar culpable al acusado.
Por otra parte, la metodología de Neyman-Pearson establece dos hipótesis: la hipótesis nula (H0), con una definición similar a la de Fisher, y la hipótesis alternativa (HA) que pretende captar aquello que puede estar sucediendo si la nula no es cierta. Para decantarse por una o por otra, se establecen regiones denominadas de aceptación-rechazo, que delimitan cuando los datos son compatibles con una u otra hipótesis. Para hacerlo debemos tener en cuenta que se pueden cometer dos tipos de error, el error tipo I al rechazar H0 erróneamente y el error tipo II al rechazar HA de forma incorrecta.
Cada uno de esos errores tiene asociada una probabilidad de ocurrir. En concreto, será la probabilidad de error tipo I, más conocida como nivel de significación, y la probabilidad del error tipo II donde a la llamamos potencia del contraste. Cabe destacar que ambos valores tienen una interpretación frecuentista, y representan el porcentaje de veces que nos equivocaríamos al tomar la decisión si repitiésemos muchas veces el mismo experimento.
Pero, tanto en el caso de Fisher como en el de Neyman-Pearson estamos hablando de establecer límites y de medir la compatibilidad de los datos con la(s) hipótesis, y eso, ¿cómo lo hacemos?
Vayamos a la práctica
Para ilustrarlo vamos a pensar en que queremos establecer si la altura media de las personas adultas de una población es 1.70 m. Según Fisher esa sería H0 y no habría nada más que esa hipótesis. Si lo escribimos matemáticamente sería algo así como H0: .
Neyman-Pearson añadirían una hipótesis alternativa perfilando que es lo que esperamos encontrar si la altura ha cambiado. Puede ser simplemente que sea distinta de 1.70 dando igual su valor, o que queramos comprobar si ahora es mayor o menor. En esta ocasión vamos a utilizar la opción “bilateral” es decir, nos da igual si ha aumentado o disminuido, solo queremos saber si ha cambiado HA:
Tenemos que recurrir entonces, a un concepto que ya comentamos cuando hablábamos de estimación: los estadísticos. En concreto, cuando estamos haciendo un contraste de hipótesis utilizamos lo que se denominan estadísticos de contraste, un valor resumen de los datos construido en base a la formulación de la hipótesis nula.
Para el caso concreto de la altura, asumiendo que se comporta siguiendo una distribución normal, el estadístico de cabecera es el estadístico t que calcula la diferencia entre la media observada y la hipotética y divide entre la variabilidad existente. Porque, no solo cuenta lo diferentes que sean las medias, también el hecho de que esa diferencia pueda ser fruto del azar o no.
Cada estadístico tiene una distribución en el muestreo bajo la hipótesis nula, es decir que, si la hipótesis nula es cierta, el estadístico debe comportarse de una forma concreta. En el caso del ejemplo, el estadístico t se comporta siguiendo una distribución t-student, distribución que tiene una curiosa historia. Además de esta distribución teórica, el estadístico tomará un valor concreto en los datos observados, en nuestro ejemplo podría haber sido t = -2.3.
A partir de la distribución del estadístico bajo la hipótesis nula y de su valor observado en el experimento, la estrategia de Fisher es calcular el valor p o p-valor (traducción directa del inglés p-value). Lo que Fisher tenia en mente era ¿Cómo de probable es haber observado ese valor si la hipótesis nula es cierta? Pero, claro, la probabilidad de un valor concreto para una variable continua es 0, da igual el valor. Se recurre entonces a pensar en la probabilidad de haber observado ese valor o uno más extremo.
En nuestro ejemplo, la idea sería calcular la probabilidad (utilizando la distribución t-student) de ser menor que -2.3 y mayor de 2.3. El tomar los valores positivo y negativo viene determinadoporque nos da igual que la diferencia hubiese sido positiva o negativa. El resultado, en este caso es 0.04.
Establecemos entonces un umbral, y si el p-valor es menor que dicho umbral, rechazamos H0. El valor más usado por Fisher era 0.05 y, atendiendo a esa elección, nuestro resultado nos indicaría que los datos no son compatibles con H0.
En el caso de Neyman-Pearson, el enfoque es diferente. Lo que hacemos en ese caso es establecer unos límites (sin pensar en el valor observado del estadístico). Esos límites determinan los valores del estadístico para los que diremos que los datos no son compatibles con H0.
En el caso de nuestro ejemplo, los umbrales, conocidos como valores críticos se sitúan en -1.7 y 1.7. Por tanto, nuestra observación, quedará en la región de rechazo (como era de esperar)
Puede ser que alguien haya visto la expresión “aceptar H0” y haya querido matarme o dejar de leerme… pero creo que es importante explicar esta idea.
Cuando todo se mezcla
En algún momento de la historia las concepciones del contraste de hipótesis de Fisher y el de Neyman-Pearson se mezclaron y se convirtió en tabú hablar de aceptar H0. Se trata de una concepción que viene heredada de la filosofía de Fisher quién, recordemos, solo establecía una hipótesis que tenia que ver con lo que se asumía por defecto… el “inocente hasta que se demuestre lo contrario” de la estadística.
Sin embargo, en la percepción de Neyman-Pearson, al haber dos hipótesis nos quedaremos con una o con otra, usemos o no la palabra aceptar. Y hagamos lo que hagamos, lo haremos asumiendo una probabilidad de error. Una probabilidad que, en el caso de rechazar H0, la tenemos muy clara, pues es el nivel de significación establecido. Sin embargo, al aceptarla (o no rechazarla), ese valor ya no está tan claro pues es un valor que no solemos establecer de antemano. A la determinación de se le conoce como análisis de la potencia y es un tema muy interesante al que merece la pena dedicar un post a parte.
En definitiva, hablar o no de aceptar H0 es más una cuestión de lenguaje y de que el deseo de toda investigación sea rechazarla para demostrar que algo ha cambiado. Lo importante es entender que tomemos la decisión que tomemos, existe un error asociado y que es importante medir su posible impacto.
La interpretación del p-valor
Otra de las interpretaciones erróneas, derivadas de la mezcla de los dos paradigmas es la interpretación del p-valor como un nivel de significación. Algo que se puede ver en la mayor parte de los estudios que presentan los resultados como p<0.001 o p<0.01 o p<0.00001 dependiendo del p-valor obtenido, y que entienden que, al obtener un p-valor menor la probabilidad de error tipo I es más baja. Algo que es erróneo, principalmente porque la interpretación del p-valor no es frecuentista. No se puede interpretar como el número de veces que erraríamos al rechazar H0 .
Además, uno de los problemas añadidos del p-valor es su interpretación como la probabilidad de H0 . Sin embargo, lo que estamos suponiendo al calcular el p-valor es que dicha hipótesis es cierta, y por tanto, su probabilidad solo puede ser 1. Esta interpretación tendría sentido si estuviésemos trabajando desde una perspectiva Bayesiana pero no desde el punto de vista de Fisher.
Todos estos errores de interpretación llevaron a la American Psicological Association a rechazar el uso del contraste de hipótesis tal y como Fisher lo entendía. Se produjeron, a demás numerosas réplicas críticas de la comunidad estadística. Toda una problemática de la que ya os he hablado en este blog
Si has llegado hasta aquí, solo me queda darte las gracias por leerme y desear que te haya sido útil. Hasta otro post!
Gracias por el post. Estoy estudiando estadistica en la Open University del Reino Unido y nos dan una indicacion de como interpretar con palabras el p-valor: p<0.01 significa que hay evidencia fuerte (solida?… usan la expresion "strong evidence") contra la Ho; 0.01<p<0.05, evidencia moderada; 0.05<p<0.1, evidencia debil; y p.0.1, no hay evidencia o es escasa contra la Ho.
Esta interpretacion es anglosajona o es universal?
Hola Jesús,
Creo que ya te respondí en Twitter pero, igualmente lo hago por aquí. Esa interpretación no creo que sea universal y, además, no creo que sea correcta. Una cosa es hablar de la probabilidad de equivocarnos al rechazar H0, el nivel de significación, que si podríamos que podríamos clasificar pero yo no clasificaría nunca el p-valor puesto que va a depender mucho del tamaño de la muestra o del tipo de variable que estemos estudiando.
Gracias por la pregunta y por leerme.
Muy interesante, Ana, un privilegio leerte.
Me quedo con la siguiente duda: dado que la interpretación del p-valor no es frecuentista, entiendo que lo que sí es frecuentista es la interpretación de alfa. Entonces, desde la percepción de Neyman-Pearson, ¿se podría justificar el empleo de varios umbrales alfa en un mismo estudio (p. ej., 0.01, 0.05, 0.10) de modo que cada uno pudiera darnos una regla más o menos estricta a la hora de «actuar como si H0/H1 fuese cierta/falsa»?
Gracias!!
Hola Tao,
El umbral de alpha debería fijarse para cada contraste que se realiza teniendo en cuenta el tamaño de la muestra y la potencia del contraste. Debemos tener en mente que al cambiar alpha está cambiando la capacidad que tenemos de detectar diferencias significativas y eso es fundamental puesto que es lo que se busca en la mayor parte de nuestros estudios.
Gracias por tu pregunta y por leerme!