Distribución Marginal. Individualidad mientras el mundo cambia

La mayor parte de las cosas que nos suceden no son independientes entre si, ya lo decía Lorenz cuando definió el famoso efecto mariposa … Por supuesto, esto se traduce también al mundo de la probabilidad y la estadística donde, en muchas ocasiones, es necesario estudiar las variables que nos interesan de forma conjunta para poder entender las interrelaciones entre ellas.

En esos casos ¿Cómo podemos conocer el comportamiento marginal de una variable? … ¡Espera! ¿Marginal? ¿Qué es eso?

¿Me dejas que te cuente?

Lo que te voy a contar es bastante abstracto y, habitualmente, difícil de asimilar, pero vamos a empezar con una pequeña metáfora y veréis como no es tan difícil. 

Relaciones de guardería

Ana y Pablo son dos peques de una guardería que siempre juegan juntos. A Pablo le gusta chinchar a Ana cuando está enfadado. Si Pablo está de buen humor, juegan juntos con mucha alegría pero si Ana intuye que Pablo empieza a enfadarse, se aísla y empieza a tener un tipo de juego más solitario. 

Imaginemos que somos parte del equipo de la guarde y queremos analizar el juego de estos dos peques, es importante fijarse en el comportamiento conjunto, sin duda. Sin embargo, ante las sospechas de que Ana puede estar afectada por alguna patología que influye en su comportamiento, es importante estudiarla de forma individual durante el juego. 

Con tal fin la observan a ella sola dejando que las circunstancias varíen libremente (que Pablo tenga el comportamiento que quiera tener, solo miramos a Ana). Podríamos decir entonces que la observan de forma marginal.  

Otra opción hubiese sido influir en el comportamiento de Pablo y observar a Ana justo en esas circunstancias, es decir, observarla condicionada a una situación concreta. Pero entonces no sabremos como se comporta “en general” si no como se comporta bajo esas circunstancias… y no es eso lo que queremos (al menos hoy 😜).

La versión estadística

Imagina ahora que el comportamiento del que hablamos se puede traducir a variables aleatorias. En concreto tenemos 

  • “Tipo de juego de Ana”. Cuanto mayor valor tiene la variable, más individual es el juego.
  •  “Nivel de enfado de Pablo”. A mayor valor, mayor nivel de enfado

dejadme que haga aquí un pequeño inciso. Una variable aleatoria es algo que definimos en abstracto: la altura de los niños de 18 años, el número de llamadas a una centralita en una hora, el tiempo que una persona adolescente pasa frente a la pantalla o el numero de muertes por cáncer de pulmón en un año. 

De todas estas variables podemos observar “realizaciones” o valores concretos que son lo que denominamos datos.  Pero también podemos estudiar su comportamiento teórico gracias a los modelos probabilísticos o distribuciones de densidad de probabilidad de las que ya hemos hablado en una ocasión anterior.

La cuestión es que, del mismo modo que estudiamos una variable aleatoria de forma individual, cuando lo que estamos estudiando es el comportamiento conjunto de varias de ellas, recurriremos también a una función de distribución, que en este caso llamamos conjunta.  Es el caso de Ana y Pablo, pero también es el caso de la mortalidad por diversos tipos de cáncer. Pensemos que es posible que en una zona en la que haya alta mortalidad por cáncer de pulmón, haya también una alta incidencia de cáncer de laringe y sea, por tanto, conveniente, estudiar dichas variables de forma conjunta.

Variables continuas

Pero, ¿de que hablamos cuando hablamos de distribución conjunta? Para ver un ejemplo lo más sencillo es pensar siempre en dos variables continuas (pueden tomar cualquier valor en un intervalo). Además, recurrimos, como casi siempre, a la famosa campana de Gauss que aquí adquiere todo su sentido de campana ya que su aspecto para dos variables es el de uno de estos artefactos como vemos en la imagen.

Cabe mencionar que las imágenes en 3D molan, pero suelen ser difíciles de ver en su totalidad por lo que, para representar distribuciones conjuntas se suele recurrir a los gráficos de contorno… Sí, los mismos que nos indican, en un mapa, la altura de una montaña o la profundidad de un valle.  

Variables discretas

En el caso en que nuestras variables sean discretas, lo mejor es hablar de la función de probabilidad que nos da un valor para cada posible combinación de sus valores.  Por ejemplo, si pensamos en analizar las variables “genero” y “estado de vida” en la serie juego de tronos tenemos que la distribución de probabilidad conjunta sería: 

 MuertoPresuntamente muertoResucitadoVivo
Mujer0,21 000.10
Hombre0,540.010.020.12

Importante es que todos los valores suman uno, condición necesaria para que sea una distribución de probabilidad. 

Y ahora marginalicemos

Pero volvamos al nuestro objetivo. Ya sabemos de que hablamos cuando nos referimos a la distribución conjunta, pero recordemos que nuestro objetivo era la distribución marginal del tipo de juego de Ana. Entonces, ¿Qué significa matemáticamente ignorar el comportamiento de Pablo?

Para ilustrarlo, volvamos al ejemplo de juego de tronos, si queremos saber, únicamente, como se comporta el género, es decir, solo queremos la probabilidad de que sea hombre o mujer bastará con “ignorar” el estado de vida y sumar todos los valores. Así, la probabilidad de ser Mujer en juego de tronos es 0,31 y la de ser hombre 0,69.  

 MuertoPresuntamente muertoResucitadoVivoTotal
Mujer0,21 000.100,31
Hombre0,540.010.020.120,69

Si, por el contrario, lo que me interesa es la probabilidad de la variable “estado de vida”, debemos ignorar el genero y tenemos que un 75% de los y las protagonistas acaban sin vida… cosas de las luchas de poder… 

 MuertoPresuntamente muertoResucitadoVivo
Mujer0,21 000.10
Hombre0,540.010.020.12
Total 0,750.010.020,22

Parece fácil ¿no? Sin embargo, cuando las variables que estamos estudiando son continuas, la cosa se complica un poco más. En ese caso al ignorar las variables que no nos interesan, debemos ignorar un numero infinito de valores y lo de sumar, pues no está tan claro. 

Lo bueno es que contamos con la integral… y es que, integrar es sumar el valor de una función en los infinitos valores que hay en un intervalo. Así pues, si tenemos una función de densidad conjunta que nos indica por donde se mueven las dos variables a la vez, y la integramos sumando para, por ejemplo, todos los valores de la variable Y, lo que tendremos es la función de densidad marginal para la variable X, y con ello, es como si solo observásemos lo que pasa para X, ignorando Y. 

Por supuesto, para poder hacer dicha integral, debemos conocer la función de distribución conjunta y… bueno… en la vida real no todo es una campana de Gauss… y lo realmente normal es que solo tengamos los datos. 

Pero no nos preocupemos, porque siempre existen aproximaciones que nos permiten obtener tanto la densidad conjunta como las marginales a partir de la observación de los datos. 

El caso práctico

En el caso de Ana y Pablo, el equipo recogió unas 500 mediciones a lo largo de todo el curso para las dos variables implicadas. En la imagen podemos ver, los datos, la distribución conjunta y las marginales para el nivel de enfado de Pablo y para el tipo de juego de Ana. 

Lo que se puede observar, de forma marginal, solo para Ana, es que parecía tener dos tipos de juegos diferenciados, uno muy solitario y otro compartido, por eso vemos una distribución con dos jorobas que se denomina bimodal. Esto determina que Ana es tan capaz de jugar sola como acompañada. Sin embargo, si observamos todo de forma conjunta, lo que parece es que, a partir de cierto nivel de enfado de Pablo, Ana dejaba de jugar con él. 

Como veis, pasar de la distribución conjunta a la marginal es, intuitivamente, tan sencillo como dejar que el resto fluya y poner el foco solo en una parte. Aunque, por supuesto, si miramos el dedo, puede que nos perdamos la luna. 

Gracias por leer hasta aquí y espero que os haya gustado. Y sobre todo, si vais a estudiar probabilidad, que ya no os asuste el concepto de distribución marginal. 

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.