COVID19

Ponderación de Predicciones mediante Bayesian Model Averaging

Anabel Forte Deltell

8/4/2020

Situación actual

En el actual estado de emergencia son muchos los equipos que se encuentran trabajando para poder ofrecer mejores estimaciones de la evolución de la curva de contagios y estimar los tiempos de duración de esta pandemia.

Cada una de estas estimaciones tiene un valor en si misma pero también cierto error derivado de las consideraciones realizadas y del modelo elegido.

Una posible solución, en la línea de lo propuesto por el “Comité Español de matemáticas”, sería poder combinarlas todas para obtener una meta predicción que pueda resultar más ajustada que cada predicción individualmente.

En este sentido la ponderación Bayesiana de modelos podría ofrecer una solución bastante sencilla al problema a través el uso del paquete BayesVarSel (Garcia-Donato, G., & Forte, A., 2018).

Ponderación Bayesiana de las predicciones

La idea es generar combinaciones de las predicciones mediante un modelo lineal utilizando como variable respuesta el número real de casos, y como variables explicativas las predicciones realizadas con cada uno de los modelos.

A través de la comparación de los datos con las predicciones se puede establecer que combinación de modelos da la mejor predicción. Pero la idea no es seleccionar una de las \(2^p\) combinaciones (siendo \(p\) el número de predicciones disponibles) sino ponderarlas mediante lo que se conoce como Bayesian Model Averaging (BMA)

Por ejemplo, si solo disponemos de dos predicciones para la variable del número de muertes (acumulada), podemos considerar la combinación

\[\mbox{casos}=\beta_0+\beta_1\mbox{pred\_mod1}+ \beta_2\mbox{pred\_mod2}\] Pero también las que solo considerán

  • la predicción con el modelo 1,
  • la predicción con el modelo 2,
  • la predicción solo con el intercepto

Utilizando BMA lo que haremos será dar un peso a cada una de estas 4 combinaciones.

Ilustración del proceso

Para ilustar el proceso hemos considerado dos modelos de juguete (un modelo de poisson y un modelo exponencial), así como las predicciones realizadas por un grupo de cientificos de la Universidad Tecnológica de Eindhoven.

Los datos de mortalidad han sido extraidos del Portal de datos abiertos de la UE.

las cruces rojas señalan la predicción combinada realizada usando BayesVarsel con intervalos de credibilidad marcados entre las lineas rojas punteadas.

Se puede observar como la ponderación de las diferentes combinaciones de predicciones ofrece una mejor estimación de los datos incluso cuando se comienza a observar un distanciamiento evidente de los modelos exponencial y de poisson.

Datos

Para poder utilizar esta ponderación deberíamos elegir sobre qué variables queremos trabajar y unificar los datos utilizados con cada modelo en la línea de la propuesta del CEMAT.

diacasospred_mod1pred_mod2
1NANANA
2NANANA
3NANANA

Otro punto a comentar es la necesidad de contar con predicciones antiguas estimadas con los modelos en cuestión para poder valorar el ajuste de los mismos a los datos.

Referencias