En prensa, muchas veces, la información va de la mano de porcentajes y gráficas que ayudan a cuantificar e ilustrar aquello de lo que se quiere hablar. Sin embargo, cada vez es más común encontrarnos con artículos donde los datos y su descripción centran el debate sobre un tema de interés. Es lo que ha venido a llamarse «periodismo de datos».
Algunos periódicos han incorporado incluso sus propios equipos de periodistas de datos como es el caso de elDiario.es con Raúl Sanchez y Victoria Olivares a la cabeza o de El País, donde cuentan con Kiko Llaneras entre otros. Sin embargo, siendo estos equipos competentes como son, a veces tengo la sensación de que falta incorporar un mayor manejo de la incertidumbre y su lenguaje.
¿A qué me refiero con «manejo de la incertidumbre»? ¿Me dejas que te cuente?
El ejemplo de las cesáreas
Me centraré en particular en una serie de artículos de elDiario.es sobre el porcentaje de cesáreas que se han producido en España entre 2010 y 2020.
A lo largo de esta entrada me gustaría comentar estadísticamente los datos y gráficos que se presentan en ellos añadiendo cierta perspectiva estadística para entender mejor lo que dicen y lo que no, haciendo una crítica constructiva a este tipo de estudios en general. Sin embargo, antes de comenzar, vayan por delante tres cosas:
- La importancia que tiene el estudio de la excesiva medicalización del parto tanto para la salud de la madre como por las posibles implicaciones para el bebé. En este sentido, destacar el papel que Ana Requena Aguilar está desempeñando en la comunicación periodística de estas prácticas.
- El profundo respeto que me merece el equipo de análisis de datos de elDiario.es y su empeño por recuperar datos públicos que deberían estar analizados directamente por nuestro sistema de salud, sin tapujos y sin esconderse.
- Que no soy experta ni muchísimo menos en la parte sanitaria de esta investigación así que todo lo que se exprese en este sentido esta sacado de una mezcla entre los artículos leídos, los profesionales consultados y mi humilde opinión.
Dicho esto vayamos por partes.
Obtención de datos
El primero de los artículos a los que vamos a hacer referencia lleva por titulo: El mapa de las cesáreas en España. En él, de forma muy acertada, se incluye (al final del artículo) la metodología que se ha utilizado para obtener los datos.
Esta es una muy buena práctica aunque sería todavía más acertado, a mi modo de ver, que estuviesen también disponibles los datos en crudo para poder profundizar en su estudio. En cualquier caso, respecto a la obtención de los datos que se menciona en la citada metodología, dejadme que planteé una duda ética.
¿Datos anonimizados?
Los datos se obtuvieron del sistema de salud pero sin hacer referencia al hospital al que pertenecían. El equipo de elDiario.es trabajó entonces para obtener estos nombres a través de otras bases de datos disponibles o consultando directamente a los hospitales. Esto me lleva a una pregunta ¿hasta qué punto los datos anonimizados lo son realmente? Ojo, yo soy partidaria de que el sistema público hubiese cedido estos datos con el nombre del hospital incluido, pues me parece una buena práctica para poder reflexionar sobre políticas de salud. Sin embargo ¿qué pasaría si se tratase de datos cuyo rastro puede llevar hasta una persona concreta? ¿Podríamos cruzar bases de datos públicas hasta llegar a ella? ¿Es lícito? ¿El fin justifica los medios?
En esta misma línea me surgen cierta dudas sobre los datos en los que se basan los otros dos artículos: Los datos que señalan cómo se programan las cesáreas en España para evitar partos en fin de semana y festivos y Parir en un hospital privado influye más que la edad en la probabilidad de tener una cesárea. Se trata de microdatos del INE en los que tenemos distintas variables medidas para cada nacimiento que se ha producido en España entre 2010 y 2020. En el artículo de elDiario.es se señala que dichos datos contienen día, mes y año de cada nacimiento (aunque, a la espera de respuesta de Raúl Sanchez, yo solo he podido recuperar mes y año).
La duda ética viene entonces porque, en el caso de tener la fecha completa del nacimiento, los datos podrían rastrearse hasta dar con la persona concreta, sobre todo para quienes han nacido en municipios pequeños.
En cualquier caso, dicho esto y sin respuesta claras para estas preguntas, volvamos a los datos.
Análisis de porcentajes
A lo largo de los tres estudios lo que se analizan es el porcentaje de cesáreas. Este valor se obtiene como el número total de cesáreas dividido por el número total de partos atendidos y multiplicado por 100.
Este porcentaje se puede calcular también por año o separando por la tipología del hospital. Sin embargo, debe tenerse en cuenta que el porcentaje total no puede calcularse nunca como la media de los porcentajes anuales o por tipo de hospital puesto que el número de partos atendidos cada año o en cada hospital es distinto.
En varias ocasiones aparecen también porcentajes de cambio que se calculan como la diferencia entre dos valores dividido por aquel con el que nos estamos comparando. Por ejemplo, si en 2010 el porcentaje era de un 12% y en 2020 era de un 18%, el calculo sería 100*6/12, esto es, el porcentaje ha aumentado un 50% de 2010 a 2020. Ojo porque estos porcentajes pueden estar por encima del 100% y no pueden nunca interpretarse como la probabilidad de algo. A lo largo de este texto, yo utilizaré diferencias porcentuales directas es decir, en el caso anterior hablaría de 6 puntos porcentuales por encima, y lo haré así porque me parece más fácil de transmitir que los porcentajes de cambio.
En cualquier caso, a la hora de estudiar estos porcentajes (como cualquier otro tipo de datos), lo mejor es recurrir a un buen gráfico y en elDiario.es lo saben bien. Veamos algunos de ellos y hablemos de lo que muestran y de lo que no.
Gráficos de barras
Uno de los primeros gráficos que quería comentar es el de los hospitales con mayor número de cesáreas en España. Es el primero de una serie de gráficos de barras que podemos encontrar a lo largo de los tres artículos y que, para mí, incumplen alguna de las reglas básicas de un diagrama de barras para porcentajes.
- Que aparezca la escala. Sin esta escala, es difícil ver si la proporción entre las barras se cumple y si las barran van exactamente a dónde toca. Nos las han colado tantas veces con esto que creo que es fundamental que no lo olvidemos.
- Que la citada escala parta siempre desde el 0% y, siempre que sea posible, llegue hasta el 100%. Quiero entender que la primera parte se cumple (aunque con la ausencia de escala es difícil de ver). Sin embargo, la segunda condición no parece cumplirse con el agravante de que el fondo sombreado en gris hace pensar que llenarlo por completo sí supondría llegar al 100%. Es cierto que a veces las proporciones son tan pequeñas que puede parecer absurdo llegar al 100% pero visualmente la impresión es muy diferente y la comprensión de lo que se está mostrando también por lo que, si no es al 100% al menos hay que elegir con cuidado hasta dónde se va a llegar.
Una cuestión similar y quizás un poco más llamativa es la que encontramos en el articulo en que se hace referencia al día de la semana en que se produce el parto.
En este gráfico sí que aparece la leyenda pero, de nuevo, la escala solo va entre el 0 y el máximo por lo que la diferencia entre un 21 y un 28,6% parece mucho mayor que si la escala llegase al 100%. Los colores inciden también en esta diferencia aunque, de eso y de las posibles razones tras este gráfico hablaremos un poco más adelante.
En cualquier caso, es posible que estés pensando qué sentido tiene hacerla hasta el 100% y si en ese caso no estaremos disimulando las diferencias y estoy de acuerdo y puede que llegar siempre al 100% no tenga sentido como ya he comentado antes pero ¿tiene más sentido el 28,6%? Y si lo que queremos es hablar de diferencias «significativas» quizás lo que pasa es que debemos recurrir a otro tipo de análisis estadístico y no solo a un gráfico.
Gráfico de burbujas
Un gráfico más acertado, a mi modo de ver, es el de burbujas que se incluye en el primer artículo. Este se presenta como una animación que va variando para explicar diversas características de los datos. En él cada hospital es un círculo cuyo tamaño es proporcional al número de partos que atiende. Aunque es cierto que la escala no llega al 100%, esta está presente, lo que permite leer los datos mucho mejor.
Continuando con la animación anterior, en el siguiente gráfico podemos ver la gran diferencia entre hospitales públicos y privados. En ella vemos cómo el porcentaje de cesáreas es mucho más alto en los segundos aunque también vemos que el número de partos atendidos es, en general, menor que el de los hospitales públicos.
En el gráfico también se observa como los hospitales públicos con un elevado número de cesáreas suelen ser hospitales pequeños. Esto podría responder a una de las apreciaciones que se hacen el artículo donde se menciona que algunos hospitales pequeños sin acceso fácil a UCIs neonatales y sin personal experto suelen «curarse en salud» y los partos acaban en cesárea a la menor complicación. En cualquier caso, es muy difícil hacer esta afirmación sin conocer la situación concreta de los mismos y sin preguntar a sus responsables.
Lo que si queda claro para mi después de la visualización de este último gráfico es que, a partir de este momento, el análisis de los datos sobre las comunidades autónomas debería desarrollarse de forma separada entre hospitales privados o públicos ya que si hablamos del porcentaje total de cesáreas, estaremos contaminando la información con el número de partos atendidos en hospitales privados de la zona.
Esto es lo que vemos, por ejemplo, en el siguiente gráfico donde, si bien es cierto que existe una amplia diferencia entre hospitales públicos (entre el 16% del hospital de Manises al 28% del de La Fe), los hospitales privados de la comunidad marcan mucho el porcentaje total de cesáreas de la misma.
Este efecto se aprecia también muy bien en el siguiente gráfico. En él vemos tres puntos por cada comunidad: El porcentaje de cesáreas en hospitales públicos, el de hospitales privados y el total. Observamos como en la Comunidad Valenciana y Baleares el total aumenta con respecto al porcentaje en hospitales públicos mientras que en Asturias, Extremadura o C. La Mancha a penas se aprecian diferencias. Así, podemos ver como, teniendo porcentajes similares en el ámbito público, la C. Valenciana y C.La Mancha difieren en el total en unos 4 puntos porcentuales.
Notad que este efecto tiene que ver con lo que comentaba al principio de que el porcentaje total no puede calcularse como la media de otros porcentajes, en este caso el de públicos y privados debido al diferente número de partos atendidos.
Spaghetti Plot.
El siguiente gráfico que se conoce como spaghetti plot nos muestra la evolución temporal del número de cesáreas por provincia.
Salta casi a simple vista que casi todas las provincias han mantenido un porcentaje de cesáreas estable entre 2010 y 2020. Me hubiese gustado ver algo similar con número de nacimientos en fin de semana con los datos del INE pero, lamentablemente no está incluido en el artículo aunque sí que se hace referencia a que cada vez hay menos nacimientos en fin de semana.
Llegados a estas alturas me gustaría preguntaros si os habéis fijado en los diferentes tonos de color que se han ido utilizando en la mayor parte de las gráficas. Esto es algo habitual cuando marcamos valores de referencia pero, ¿cómo se marcan estos valores?
Valores de referencia
A lo largo de los tres artículos se usan como principal referencia los valores de la OMS que sitúa el número ideal de cesáreas entre un 10 y un 15%. Teniendo en cuenta dichos porcentajes, en cada uno de los artículos se establece un código de color que va del verde oscuro a un marrón rojizo pasando por diversas tonalidades de verde y de naranja según si se estaba por debajo o por encima de ciertos umbrales. En particular, en el articulo del mapa de las cesáreas, el cambio de verde a rojo se produce alrededor del 25% aunque estos valores cambian para el artículo que trata la programación de las cesáreas.
Sin entrar en valorar el porcentaje marcado por la OMS (que la misma entidad está considerando revisar) ante lo que me surgen dudas es ante la decisión de establecer unos u otros umbrales. Y no solo los umbrales si no el llegar a hacer referencia a expresiones como «más», «muchas más», «menos» o «muchas menos», como podemos ver en el siguiente gráfico.
Desde mi punto de vista, estos valores deberían plantearse en función de lo que en estadística llamamos valores críticos. Para ello sería fundamental establecer un modelo para la probabilidad de tener una cesárea y, con el, poder determinar cuando estamos observando valores fuera del rango que se considere «normal».
Entra en juego entonces otra pregunta ¿qué variables influyen en el porcentaje de cesáreas? El día de la semana, el hospital de referencia para la embarazada, la edad de esta, su comunidad autónoma, su nivel económico… Hablemos un poco más de esto:
Relaciones evidentes y no tanto
A lo largo de los tres artículos se hacen referencia de forma implícita o explícita a diferentes factores que pueden estar influyendo en el porcentaje de cesáreas.
Uno de los que parece evidente es la naturaleza público/privada del hospital. Pero, más allá de esta diferencia, quedan pendientes muchas preguntas algunas que Ana y Raúl también se plantean en los artículos:
- ¿Cómo influye que el hospital tenga o no UCI neonatal?
- ¿Y si se trata de un hospital de referencia para algún tipo de patología obstétrica?
- ¿Qué relación hay entre la edad de las mujeres y la elección de un tipo u otro de hospital?
Con respecto a la última pregunta, otro de los artículos de la serie incide en el hecho de que es la comunidad autónoma en la que se reside o el hecho de ir a un hospital privado son más influyentes a la hora de tener una cesárea que la edad de la madre. Y aquí al hablar de influencia es donde el lenguaje de la incertidumbre se tergiversa.
El siguiente gráfico muestra cómo, efectivamente, hay comunidades que tienen sistemáticamente un porcentaje de cesáreas más alto que otras y seguro que una parte de estas diferencias viene motivado por las políticas de esa comunidad. Sin embargo, no olvidemos que, como ya comenté anteriormente, esto viene derivado en parte del hecho de que dicha comunidad tenga más o menos hospitales privados y el volumen de partos que estos atiendan. En cualquier caso, es innegable el papel que la edad juega en el porcentaje de cesáreas practicado independientemente de las políticas comunitarias.
En el siguiente gráfico de elaboración propia podemos ver como la tendencia del porcentaje de cesáreas que se practican es creciente con la edad siendo la diferencia mínima de 7,9 puntos porcentuales entre las cesáreas practicadas en la Comunidad Foral de Navarra a personas de menos de 25 y mayores de 35. La diferencia máxima se sitúa en los 18,8 puntos de la C. Valenciana.
Así pues, se produce una mezcla entre el papel de los hospitales privados, las políticas públicas y la edad. Incluso, me atrevería a decir que es posible que un elevado número de mujeres que deciden ser madres a edad avanzada, acaben recurriendo a la privada por cuestiones que también se comentan en el artículo. En definitiva, son muchos los factores que «influyen» y se influyen entre ellos por lo este estudio debería tomarse como una llamada de atención para investigaciones más profundas pero no de forma concluyente en este sentido.
Y es que, establecer las causas no es algo que podamos hacer con datos meramente observacionales. En este caso concreto sería necesario determinar cuándo una cesárea es o no necesaria y valorar que tipo de embarazos se atienden en unos u otros hospitales.
En este sentido, volviendo por un momento al caso de la Comunidad Valenciana, una de las dudas que me surgen (por propia experiencia) es sí el hecho de que el hospital de Manises tenga un protocolo de parto respetado (yo di a luz a mi segundo hijo allí por esa razón) no hará que el tipo de mujer que acuden al mismo estén más decididas a no pasar por una cesárea a no ser que no haya otra opción, y eso haga que la diferencia entre este hospital y el de La Fe sea de más de 10 puntos porcentuales.
Igualmente, sobre la programación de las cesáreas, creo que asumir que se hacen para evitar que los partos se produzcan en fin de semana no es acertado en todos los casos. Hablando en particular del sistema público, un mayor porcentaje de cesáreas programadas entre semana puede tener que ver simplemente con el hecho de que cuando esta cesárea tiene tras de sí una razón médica, se programa por los equipos que están disponibles de lunes a viernes y no quedan para el momento «aleatorio» del parto.
Del mismo modo, en el caso de los hospitales privados donde las cesáreas parece ser mucho más comunes entiendo que puestos a programarlas, mejor entre semana que en fin de semana o festivo, ¿no?
En definitiva, creo que la pregunta no es si se programan más entre semana que está claro que sí, si no que es lo que lleva a un equipo médico a decidir llevar a cabo una cesárea en el momento del parto espontáneo y si estás razones son puramente médicas, si tienen que ver con los recursos del hospital o con la (falta de) formación de los profesionales, como también se plantea en el artículo. Dicho con otras palabras, para dos personas que estén exactamente en la misma situación, misma edad, misma tipología de parto, mismo desarrollo del parto… ¿tienen más probabilidad de pasar por una cesárea en un lugar o en otro?
Consideraciones finales
Las múltiples razones detrás de una práctica como las cesáreas son muy difíciles de establecer mediante datos agregados. En datos de este tipo, lo que suele suceder es que tendemos a encontrar patrones que podemos asignar a una u otra causa cuando la complejidad de las variables subyacentes es tal que es imposible separar el efecto de unas y otras.
En este sentido, habréis observado que a lo largo del texto he hablado muy poco de probabilidad de cesárea como si se hace en los citados artículos. Esto es porque considero que en un análisis descriptivo solo puede hablarse de porcentajes como descripción de lo observado y no de estimación de la probabilidad para lo que harían falta datos más desagregados y responder a algunas de las preguntas antes mencionadas.
Dicho esto, vuelvo a repetir como al principio, que estos artículos me han parecido muy interesantes en muchos aspectos, que creo que esto abre un debate muy necesario. Con este artículo solo he querido contar cómo se pueden interpretar los datos desde una perspectiva estadística y hasta dónde podrían (siempre en mi criterio) llegar las conclusiones.
Gracias por llegar hasta aquí y, si te ha gustado, ¡comparte!
Muy interesante! Una de habilidades que hay que explotar en Estadística, es la interpretación de gráficos. En mi caso, muy poco vi en la carrera sobre este tema. ¿Sería interesante un dendograma sobre este tema de las cesáreas?. Un saludo!
Gracias por tu comentario!
Un dendograma podría ayudar a agrupar hospitales. Aunque quizás solo basándolo en las cesáreas no sería suficiente. Los dendogramas ayudan a clasificar observaciones en base a un grupo de variables medidas sobre ellas.
Un saludo!