En cualquier área de investigación suele ser común querer entender si un proceso se comporta de forma diferente entre diferentes grupos.
Por ejemplo, entender si la proporción de personas que enferman es diferente entre quienes se les administra la vacuna y quienes no; entender si las plantas crecen u ofrecen la misma cosecha con diferentes fertilizantes; si el equipo de baloncesto favorito de una persona cambia con la población en la que nació… y mil ejemplos más en todas las áreas de conocimiento…
La cuestión es que, para comparar grupos, de lo único que disponemos es de datos. Observaciones de la variable de interés que pueden ser diferentes entre grupos por puro fruto del azar o serlo sistemáticamente por una diferencia “real” entre estos. Y eso, ¿Cómo podemos saberlo?
¿Me dejas que te cuente?
Variables que responden
Cuando estamos estudiando un proceso de interés lo que hacemos es medir variables que lo representan. Por ejemplo, si estamos hablando del crecimiento de una planta, mediremos la longitud del [inserte aquí el lugar a medir según la planta] o en el caso de las vacunas, tendremos el número de enfermos entre todos los vacunados o, medido de otra forma cada persona recibirá un 0 si no enferma y un 1 si sí lo hace.
Como ya podemos intuir, la naturaleza de las variables que medimos puede ser muy dispar. Desde variables que toman cualquier valor en un intervalo (cualquier número entre 0 y 1 metro, por ejemplo) a variables que solo pueden tomar valores sueltos (de 5 pacientes pueden enfermar 1, 2, 3, 4 o 5, pero nunca 2 pacientes y medio). Incluso podemos medir variables que no tienen nada de numérico. Variables como el equipo de baloncesto favorito de una persona.
En muchas ocasiones, nuestro interés reside en saber si estas variables tienen un comportamiento diferente en distintos grupos que pueden haber sido creados de forma artificial… asignación de un fertilizante u otro, pertenencia al grupo vacunado o al grupo placebo… o de forma “natural” municipio de nacimiento, franja de edad, etc.
¿Cómo se comportan las variables?
Pero que queremos decir con «el comportamiento de una variable». Acaso tienen voluntad propia y pueden ser educadas o no serlo… jejeje…
Evidentemente no nos referimos a eso, sino a su distribución poblacional, algo de lo que ya hemos hablado en esta casa en la entrada “Distribución o Dónde baila una variable”.
Recordando brevemente, la distribución de una variable nos dice, en cierta forma, que valores esperamos observar en los datos. La distribución más conocida es la campana de Gauss o distribución Normal. Si los datos siguen esta distribución, entre otras cosas, esperaremos observar valores entorno a la media y que encontremos tanto valores más grandes que esta como valores más pequeños (un comportamiento que llamamos simétrico). Sin embargo, la distribución normal no es la única y no sirve para todo (que a nadie se le ocurra modelizar el salario con una distribución normal).
Pero volvamos a la comparación de grupos. la cuestión es que, cuando hablamos de diferencias a lo que nos referimos es a si podemos decir que la distribución de la que vienen los datos es la misma en los todos los grupos o no lo es. Y claro, aquí vienen los peros… tenemos los datos, pero no conocemos su distribución poblacional y, ¿qué hacemos en estadística cuando tenemos datos, pero queremos decir cosas de la población? ¡Pues hacemos inferencia!
En concreto, en el caso que nos ocupa recurriremos a hacer un contraste de hipótesis. En particular, cuando comparamos grupos la hipótesis nula del contraste, aquella que asumimos por defecto, es que el comportamiento de la variable es el mismo en todos los grupos.
Nota para personas con mayor conocimiento: Este mismo problema podemos explicarlo desde la perspectiva de los modelos de regresión… pero eso lo dejamos para otro día y hoy vamos a pasar por el aro de los contrastes “clásicos”.
Resolvamos el contraste.
Cuando todo es normal
El primer paso en un contraste es encontrar un estadístico, un valor resumen de los datos, que nos permita discriminar entre una u otra hipótesis. La elección de este estadístico va a depender principalmente de la naturaleza de la variable: ¿Es cuantitativa o cualitativa? Es decir, indica una cantidad y por tanto es una variable numérica (discreta o no) o una cualidad y por tanto es discreta y no numérica.
Nos centraremos hoy en el caso en que tenemos una variable cuantitativa que además sea continua. En ese caso, lo primero que nos solemos preguntar es si la distribución de la variable en cada grupo es normal y si la variabilidad es la misma en cada grupo.
Cuando se cumplen ambos supuestos (que también comprobaremos con sendos contrastes de hipótesis) la solución es muy típica… recurrimos a estadístico t, si solo tenemos dos grupos, o a un estadístico F de ANOVA (ANalysis Of VAriance) si tenemos más de 2 grupos. No vamos a entrar a explicar en detalle estás pruebas (para el caso de ANOVA tenéis este maravilloso hilo de Julio Mulero) solo diremos que nos ayudan a determinar si la media de la distribución normal es la misma en todos los grupos o no lo es.
Pensemos que, si tenemos varias distribuciones normales, con la misma varianza, lo único que nos queda para que sean iguales es que las medias lo sean…
Pero que pasa cuando no se cumplen estos supuestos… Si falla la igualdad de varianzas, pero seguimos dentro de la normalidad, tanto ANOVA como la prueba t tienen alternativas que nos permiten seguir contrastando la igualdad de las distribuciones en todos los grupos de una forma similar. Es lo que se conoce como corrección de Welch.
Cabe mencionar, además, que la fiabilidad de ANOVA y la prueba t es bastante buena incluso aunque los datos no sean exactamente normales ni las varianzas exactamente iguales, siempre y cuando tengamos el mismo número de datos en todos los grupos y estos estén relativamente centrados entorno a su media… pero… ¿Qué pasa cuando todo falla?
Test no paramétricos
La cuestión es que, cuando no podemos saber sobre la normalidad de los datos tampoco tenemos herramientas para asegurar cual es la distribución y tenemos que recurrir a herramientas que nos permitan trabajar en general… sea cual sea la forma de la distribución.
Para eso, en el caso de tener dos grupos podemos trabajar con la prueba de Wilcoxon también conocida como U de Mann-Whitney, que se generaliza a la prueba de Kruskal-Wallis cuando tenemos más de dos grupos.
Pero… ¿qué es lo que hace esta prueba si no tiene en cuenta ninguna curva concreta?. Pues lo que hace es intentar determinar si los puntos están repartidos entre todos sus posibles valores de una forma similar.
Veámoslo si solo tenemos dos grupos. Imagina que colocas un punto sobre una regla en cada valor de la variable en el grupo 1. Los pintamos de rojo. Después hacemos lo mismo para el grupo 2, en verde. Si los dos grupos tienen la misma distribución esperas que los puntos se intercalen. Si tienen distribuciones diferentes esperarás que los rojos estén por encima o por debajo de los verdes.
El test de Wilcoxon o Mann-Whitney se encarga exactamente de eso, de cuantificar si los puntos de un color están sistemáticamente por encima de los del otro. El test de Kruskal Wallis generaliza esta idea para cuando tenemos más de dos grupos.
Sin embargo, siempre hay un pero, esta forma de trabajar tiene ciertas condiciones que no siempre se respetan. Resulta que para que funcione, las varianzas siguen teniendo que ser la misma en todos los grupos y, si la distribución es asimétrica (más valores a un lado de la moda que al otro) pues tiene que serlo igual para todos los grupos. Así que, sí, quizás se trata de tests más flexibles pero no todo lo flexibles que nos gustaría.
Se que ahora os estáis preguntando… ¿y si la variable es cualitativa? En ese caso trabajamos con lo que se conoce como test de homogeneidad o test chi-cuadrado pero… eso para otro día.
¡Gracias por leerme! ¡Seguimos!
Referencias.
En la pagina web cienciadedatos.net tenéis una explicación muy clara de este tipo de tests