En la vida en general, hay un montón de cosas que, si no se empiezan por el principio no hay forma de entenderlas. Pero ¿cuál es el principio en estadística?
Yo diría que, si hubiese que empezar por un “principio” sería por las bases de la probabilidad, pero, a nada que avancemos un poco nos encontramos con un par de conceptos con los que empiezan la mayor parte de los cursos de estadística: Población y muestra. ¿Qué los une? ¿Qué los diferencia? ¿Me dejas que te cuente?
La población o el todo
Si nos vamos a la definición de la RAE del término Población, vemos que las primeras acepciones hacen referencia a aquello que seguramente ya os imaginabais. Definiciones relacionadas con un conjunto de personas y el lugar en que habitan. Sin embargo, la definición que más nos interesa en este caso es la quinta.
Cuando hablamos de población en estadística nos referimos a un conjunto de elementos sobre los que queremos estudiar una determinada característica. De hecho, lo que define a una población estará determinado por la investigación que se quiera realizar. Por ejemplo:
- Podemos hablar de “las personas con Diabetes tipo II” para estudiar sobre ellas el efecto de un nuevo fármaco.
- O hablar de “las personas menores de 18 años” para estudiar la incidencia de adicción al juego en dicho grupo.
Pero también podemos pensar en poblaciones donde los elementos no son personas como cuando se estudia la evolución de una enfermedad en un tipo de árbol frutal. Incluso podemos hablar de poblaciones en las que no hay elementos individuales si no que se trata de algo continuo como el estudio de la presencia de una bacteria en el sistema de aguas de una ciudad.
Estas poblaciones son relativamente fáciles de imaginar por sus características, pero… ¿cuál seria la población si queremos estudiar si una moneda esta trucada o no? ¿Podríamos pensar en la población como el conjunto infinito de todos los posibles lanzamientos? ¿Y si queremos estudiar la proporción de bombillas defectuosas que produce una máquina? La población, de nuevo, serían todas las bombillas que salen de esa máquina.
Como veis, hay poblaciones más sencillas que otras a la hora de definirlas pero es muy importante tener claro, además de el “qué queremos estudiar”, sobre quién o qué lo queremos estudiar.
Si ahora intentamos establecer la relación con el lenguaje de la probabilidad podemos hablar de la distribución de la variable de interés. Si conociésemos por completo una población conoceríamos la distribución de probabilidad de dicha variable: una normal, una gamma, una Binomial etc. o quizás una nueva distribución desconocida. De ahí que hagamos referencia a una “población normal” cuando estamos suponiendo que la variable se comporta de forma normal en la población completa.
Si estuviésemos en esa situación, podríamos establecer a la perfección el valor de todos los parámetros de la distribución, la media (que en ese caso llamamos Esperanza), la varianza o los cuantiles, en el caso de una variable continua o la probabilidad de cada categoría, en el caso de variables discretas.
Pero… ¿podemos contarlo todo?
Sin embargo, ahora viene el gran problema, ¿Podemos medir toda la población? La respuesta suele ser “no” por motivos muy diversos.
En poblaciones infinitas y/o continuas queda bastante claro que es imposible llegar a todos sus elementos, pero incluso en poblaciones que podríamos considerar finitas tampoco suele ser viable por cuestiones, principalmente, de tiempo y dinero.
Pensemos, por ejemplo, en estudiar la resistencia de un lote de 1000 tornillos. Si probamos cuanto cuesta romperlos todos i) moriremos del aburrimiento ii) Nos quedaremos sin los 1000 tornillos del lote, y seguramente no es lo más aconsejable ¿no crees?
Recurrimos entonces al concepto de muestra. La muestra son elementos de la población elegidos de forma inteligente y cuidadosa para que representen a la población general y nos ayuden a aproximar las características de la variable de interés en la población general. Vamos, que nos permitan estimar los parámetros de los que hablábamos hace unos párrafos.
A la hora de seleccionar la muestra es importante tener en cuenta dos cuestiones. La primera es su tamaño.
¿El tamaño importa?
El tamaño de la muestra está principalmente relacionado con la precisión con la que nos aproximaremos al comportamiento de la variable en la población general. A veces podemos caer en la tentación de pensar que una muestra más grande será siempre mejor, pero lo cierto es que, en este caso, no siempre se cumple la idea de cuanto más azúcar más dulce y, de hecho, existe toda un área dentro del diseño de experimentos dedicada a estudiar el tamaño óptimo de una muestra teniendo en cuenta factores asociados a la variable de interés y al tipo de estudio que se quiere realizar. (un buen ejemplo lo podéis encontrar en este hilo de @Picanumeros:
Como cada vez que se habla sobre una encuesta en Twitter, han aparecido vehementes quejas sobre el escaso tamaño de una muestra de 30.000 (!) hogares y un total de 62.400 (!!!) personas para estimar la prevalencia del COVID-19, así que vuelvo a dejar este gráfico por aquí. pic.twitter.com/0tFXuwiIwU
— Picanúmeros (@Picanumeros) April 7, 2020
El otro aspecto fundamental es lo representativa que sea la muestra de la población. Básicamente, si queremos estudiar la probabilidad de enfermedad cardiovascular en la población de “personas de más de 45 años” pero, para ello, elegimos más hombres que mujeres, posiblemente la estimación de dicha proporción será mayor que la real, algo que en estadística se conoce como sesgo.
Y, ¿Cómo la elegimos?
Para elegir la muestra correctamente es necesario tener una población bien definida y recurrir a los métodos de muestreo adecuados. Algunos de los más conocidos son:
- El Muestreo Aleatorio Simple, según el cual elegimos a la muestra completamente al azar dentro de la población. Le pones un número a cada elemento, haces un sorteo y coges los seleccionados.
- El Muestreo Estratificado consiste en identificar grupos que se van a comportar de forma diferente dentro de la población (por ejemplo, hombres y mujeres en el caso de enfermedades coronarias). Dentro de estos grupos elegimos al azar consiguiendo así que ambos “estratos” estén bien representados.
- El Muestreo por Conglomerados parte de una situación en la que tenemos a la población separada en grupos similares entre sí (municipios, por ejemplo) y dentro de ellos encontramos toda la variabilidad existente. En ese caso, lo que hacemos es seleccionar al azar entre los conglomerados y después llevar a cabo alguno de los dos muestreos anteriores en cada grupo.
Existen muchísimos más tipos de muestreo, pero para conocerlos yo consultaría a un experto en diseño como @picanumeros o @TessaSanMar.
Finalmente, queda un caso interesante que da pie a la reflexión en estos tiempos ¿qué sucede si creemos que podemos medir toda la población? Un caso habitual en la era del BigData.
Una reflexión para terminar
Imaginemos, por ejemplo, que queremos estudiar la variabilidad de la tasa de desempleo en los municipios españoles. Hoy en día, entidades como el INE nos permiten tener acceso a este tipo de información al completo. Sin embargo, lo que estos datos nos ofrecen son una foto fija de un proceso medido, posiblemente, con error. David Spiegelhalter en su libro The Art of Statistics, hace referencia a estas situaciones incidiendo en que resulta útil considerar dichas observaciones como una muestra de un proceso aleatorio mayor. Algo así como un proceso que comprendería los todos valores que podría haber tomado la variable en otras dimensiones en las que podríamos haber medido esa variable bajo las mismas circunstancias. Muy filosófico quizás, pero nada alejado de la realidad.
Si has llegado hasta aquí, gracias por leerme.
Este post esta especialmente dedicado al alumnado del Máster en Bioestadística de la Universitat de Valencia (@MBioesta_UV) que con esto empezamos mañana.
One Reply to “Población y muestra”