Si os acordáis, la semana pasada estuvimos hablando de como recoger una muestra que fuese representativa de una población. Y con representativa queríamos decir que nos permitiese conocer el comportamiento de la población.
Pero, ¿qué significa eso de “conocer el comportamiento de la población”?¿Me dejas que te cuente?
Descripción y estadísticos
Lo habitual es que, cuando nos enfrentamos a los valores que toma una variable medida en una muestra, lo primero que hagamos sea describirlos.
Para ello, además de las descripciones gráficas, podemos dar valores numéricos. Por ejemplo, usamos la media, la mediana o la varianza cuando se trata de una variable de tipo continuo o cuantitativo: la altura, el colesterol en sangre o el número de hijos. En el caso de variables discreta/cualitativa como el color de ojos, hablaremos de proporciónes. También podemos hablar de la moda, los cuantiles, el máximo, el mínimo, el rango… o de cualquier otro resumen de los datos que se nos ocurra, algunos con más sentido que otro.
A cualquiera de estos valores se les llama “estadísticos”. Si lo ponemos en lenguaje matemático diremos que un estadístico es una función de los datos. Lo bonito de esta definición es la idea de que se trata de algo bien definido que yo le puedo aplicar a diferentes conjuntos de datos obteniendo resultados distintos.
Por ejemplo, si pensamos en la media, esta siempre se define igual: la suma de todos los valores y dividida por el número datos. Sin embargo, si tengo dos muestras diferentes, incluso de una misma población, el valor de la media será diferente. Y esto pasará aunque las dos muestras tengan el mismo tamaño y estemos midiendo la misma cosa.
Pero todos estos valores son, al fin y al cabo, descripciones de la muestra, pero ¿cuándo nos dicen algo de la población?
Toca inferir
El fin último de un análisis de datos es hacer inferencia, es decir, explicar las características de la población observando solo una parte de esta, la muestra. En particular, uno de los procesos de inferencia más inmediatos es la estimación.
Estimar consiste en proponer un valor para un parámetro de interés a partir de lo observado. En principio parece fácil, si queremos conocer la media de la altura en la población, pues hacemos la media de la muestra y la proponemos como estimador. De forma similar, si lo que queremos es calcular la probabilidad de tener una determinada enfermedad, pues calculamos la proporción de quienes la tienen en la muestra y usamos el valor del estadístico como estimación del valor en la población.
Sin embargo, hay dos aspectos que no podemos perder de vista. El primero es preguntarnos cuál es el mejor estimador para un valor concreto. El segundo es entender que, aunque escojamos el mejor estimador, al hacer una estimación estamos cometiendo un error que es necesario conocer y tener en cuenta. Pues bien, vayamos por partes.
El mejor estimador
Antes de empezar hablar de “mejor estimador” cabe destacar que estamos hablando del mejor estadístico, que aproxima aquello que hemos decidido estudiar. No quiere decir, sin embargo, que sea el más adecuado para nuestros datos. Y es que, ya hemos visto muchas veces que estimar la media de unos datos con distribución asimétrica, como el salario (pocos valores muy grandes y la mayor parte concentrada en valores pequeños), solo nos lleva a confusión. Aun así, si nuestro empeño es estimar la media… tendremos que saber cuál es el mejor estadístico para ello.
Y, dicho esto, a la hora de encontrar el mejor estimador podemos hablar de distintos procedimientos. Uno de ellos, el más intuitivo, es el método de los momentos. En lo que consiste es en pensar… si quiero aproximar la media de la población pues cogeré la media de la muestra y si quiero estimar la varianza, pues hallaré la de la muestra, lo que hacemos habitualmente sin pensarlo mucho, vaya.
Sin embargo, existe un método, menos intuitivo a primera vista, pero mucho más versátil a la hora de aplicarlo a parámetros que no tengan que ver directamente con la media y la varianza. Se trata del método de máxima verosimilitud.
Para entender dicho método, lo primero es entender que es una verosimilitud. Simplificándolo mucho, la verosimilitud es una función que se crea a partir de los datos, y que nos va diciendo como de creíble es un determinado valor del parámetro. Si conseguimos hallar el máximo habremos encontrado el valor que más se adecua a los datos.
Entrando un poco en el aspecto técnico, la verosimilitud se obtiene a partir de la distribución elegida para la variable de interés (una normal, una poisson, una binomial…) donde dejamos los parámetros como desconocidos sustituyendo el valor de la variable por los datos observados.
Imaginemos que queremos estimar la proporción de personas a las que les ha gustado Gambito de Dama (la serie de Netflix) y para ello hemos escogido una muestra de 40 personas (voluntarias) en twitter y les hemos preguntado.
¿Me ayudáis para una cosa que quiero contaros esta tarde? 🙏
— BayesAna 😷 (@AnaBayes) November 8, 2020
Va encuesta (muy sencilla) para quienes habéis visto Gambito de Dama.
Tras el experimento tenemos un conjunto de Noes (0) y Síes (1), en concreto 38 unos y 2 ceros (que la serie mola mucho).
Utilizando la distribución típica en estos casos, la Bernoulli, creamos la función de verosimilitud y buscamos el máximo para comprobar que proporción es la más creíble. Vamos probando valores para p y obteniendo la verosimilitud de cada uno de ellos. En el siguiente gif podemos ver como el máximo se alcanza en 0.95, valor que coincide con la proporción en la muestra… tiene sentido ¿no?
El principio de máxima verosimilitud también lo podéis encontrar, muy bien explicado, en el siguiente hilo de Julio Mulero:
Según la @RAEInforma, verosímil es aquello que tiene apariencia de verdadero, o que es creíble por no ofrecer carácter alguno de falsedad.
— Julio Mulero (@juliomulero) November 7, 2019
El concepto de verosimilitud es de gran importancia en probabilidad y estadística. Prácticamente magia.
Te lo cuento brevemente.#HilosDC6 pic.twitter.com/8HPxra448g
Utilizando cualquiera de estos métodos habríamos llegado al mejor estimador pero, ¿cómo de cerca estamos del valor en la población? ¿Cuánto error estamos cometiendo? Y, lo más importante de todo, ¿Cómo podemos reportar dicho error?
Distribución en el muestreo y Error muestral
Pues bien, para entender esta parte es importante comprender que los estadísticos que se utilizan para estimar se comportan como variables aleatorias…
Sí sí, no pongas cara de sorpresa… son variables aleatorias.
Un estadístico toma un valor concreto en nuestra muestra, pero para otra muestra de la misma población podría haber dado un valor diferente. Volviendo a nuestro ejemplo, dos grupos 40 de personas en twitter que hayan visto Gambito de Dama podrían haber dado una proporción ligeramente diferente.
Y claro, si es una variable aleatoria, tendrá una distribución de probabilidad asociada que se conoce como distribución en el muestreo. Comprender bien esa distribución es esencial para poder reportar el error que podemos estar cometiendo. En el caso más conocido, la media, la ley de los grandes números nos asegura que esa distribución estará centrada en el valor de la media en la población con una varianza que decrecerá a medida que aumente el número de datos.
De hecho, reportar la varianza de dicha distribución, es una buena práctica para entender la precisión de nuestra estimación. Este valor es lo que, en el caso de una población normal, llamamos error muestral (o SE, sample error).
La otra forma de reportar la precisión de nuestro estimador es el uso de intervalos de confianza. Un intervalo de confianza también se obtiene a partir de la distribución en el muestreo del estadístico que estemos utilizando como estimador. Se trata de un conjunto de valores entre los que esperamos que esté el verdadero valor del parámetro con una confianza determinada, como ya os conté aquí: http://anabelforte.com/2020/05/16/confianza-para-recuperar-una-flor/. Más allá del valor de la confianza (el habitual 95%), cabe mencionar que la amplitud del intervalo, vendrá determinada, por la variabilidad de la distribución en el muestreo y, por tanto, por el tamaño de la muestra.
Concluyendo
En definitiva, una vez obtenida la muestra podemos intentar extraer conclusiones sobre la población a la que representa asumiendo que, en el proceso, siempre estaremos cometiendo un error.
Reportar dicho error y entender de donde viene es siempre una buena práctica que beneficiará a nuestro estudio.
Si has llegado hasta aquí ¡Gracias por leerme y dejar que te cuente!
En términos porcentules contra un conjunto de n elementos que fracción se consideraría es una muestra representativa? en el caso de los salarios que expone a lo mejor una media ponderada funcionara mejor, que opina?
Hola Jaime,
La representatividad de la muestra no depende tan solo de su tamaño. De hecho, una muestra pequeña pude ser representativa si incluye todas las características de la población. No se puede hablar, por tanto, de un porcentaje de representatividad genérico, es necesario pensar en la(s) variable(s) a estudiar, tener en cuenta el conocimiento previo que tenemos, por ejemplo, sobre su variabilidad.
Sobre la otra cuestión, el problema de los salarios es que no tienen una distribución simétrica y cuando eso sucede es mejor utilizar la mediana o la moda. Cuando hablas de media ponderada, la cuestión sería cómo eliges los pesos.
Gracias por tu pregunta y por leerme!