Ciencia se escribe con R


Muchas veces, cuando pensamos en ciencia pensamos en su infalibilidad, en su capacidad para entender, poco a poco, la verdadera naturaleza del mundo… pero ese poco a poco es mucho más lento de lo que podemos imaginar y para que la ciencia realmente avance con paso seguro, necesitamos que los estudios cumplan con dos características fundamentales. Dos características que, sea como sea, empiezan con R… ¿Qué cuales son? 

¿Me dejas que te cuente?

Es posible que alguna vez hayas oído las palabras reproducibilidad, replicabilidad o repetibilidad… aunque sea en un contexto distinto al de la ciencia.

Por ejemplo, un CD (o un vinilo) se reproduce en un reproductor tantas veces como quieras, siguiendo siempre los mismos surcos. Replicar, pues solemos replicar a nuestros progenitores cuando no algo no nos parece adecuado, o existen el derecho a replica en un debate para intentar contraargumentar el discurso de la otra persona. Sobre repetir, pues quizás algún curso o un plato exquisito (si ha sobrado).

Pero en ciencia estas palabras, aunque con cierta confusión entre ellas como indica Plesser aquí, cobran un significado muy importante y esencial para un correcto avance del conocimiento. 

Para no irnos por las ramas con los diferentes usos de estas palabras, e ir al grano en lo que al concepto se refiere, en lo que sigue, haré uso de las palabras reproducibilidad y replicabilidad con un sentido muy concreto.  ¡Vayamos al lío!

Reproduciendo que es gerundio 

El concepto de la reproducibilidad es, quizás, el más fácil de entender y de comprobar y tiene mucho que ver con la idea del reproductor de CDs. 

Supongamos que un equipo de investigación ha realizado cierto experimento obteniendo una serie de datos que, analizados con cierta metodología (estadística o matemática) le permiten alcanzar ciertas conclusiones. Lo ideal es, entonces, que cualquier otro equipo, con esos mismos datos y usando los mismos métodos, debería llegar a las mismas conclusiones. 

Veamos un ejemplo. Imagina que una investigadora quiere comprobar si la edad media de los Hobbits de La Comarca es mayor de 40 años. Para ello ha recogido una serie de datos y ha utilizado un software determinado (puede que haya usado Excel o Spss, o Stata o R o Python… no sé, lo que más le guste) para realizar un análisis estadístico. Finalmente, la investigadora ha alcanzado la conclusión deseada y publica los resultados en el Comarca Times. 

La Comarca es el lugar de la Tierra Media donde viven los Hobbits. Esta ubicación se recreó en NuevaZelanda para el rodaje de la Saga cinematográfica con el mismo título que la obra de Tolkien: El Señor de los Anillos

Sin embargo, otra investigadora sospecha que puede haber algún error en el análisis y se decide a reproducirlo. Para ello, lo ideal sería que los datos estén disponibles en algún repositorio público. Además el artículo debería describir a la perfección los pasos seguidos y sería perfecto si el código con el que se ha realizado el análisis estuviese disponible, así no habrá lugar a dudas de interpretación del texto.

Con eso, la incrédula investigadora podrá reproducir el análisis, como si de reproducir un CD se tratase, y comprobar que las conclusiones (si todo ha ido bien) son exactamente las mismas. 

No parece complicado ¿verdad? Pues en realidad la reproducibilidad en la ciencia hoy en día se encuentra comprometida por dos razones. 

Datos y código ¿Disponibles?

En primer lugar, la necesidad de compartir los datos. Muchos grupos de investigación son muy celosos en este sentido y les cuesta compartirlos por el miedo a que alguien les pueda adelantar en los estudios, o incluso porque los consideran algo personal e intransferible. 

En segundo lugar, el código y, lo que es más, el software con el que se ejecuta. En este sentido, un software como Excel no permite guardar un historial de las acciones realizadas y todo depende de que las operaciones queden bien grabadas en cada columna y de que no haya borrados inconscientes u otros errores que no pueden detectarse a simple vista.

Por el contrario, R, Python y otros softwares / lenguajes de programación permiten guardar un archivo, conocido habitualmente como script. En estos archivos aparece todo el código del análisis y cualquier otra persona que conozca ese lenguaje, podría ejecutarlo e interpretarlo, pudiendo detectar posibles errores de forma relativamente rápida.

Algo intermedio podría ser SPSS, donde el análisis se realiza mediante un sistema de ventanas, pero se puede recuperar el código que indica todos los pasos seguidos. 

Seguramente a estas alturas estarás pensando que…

Esto no pasa ¿no?

Pero la respuesta es triste, sí, sí pasa y, además puede conducirnos a terribles consecuencias.

Para entenderlo mejor podemos recurrir al caso Reinhart y Rogoff.

Durante la crisis económica que estalló en 2008, Carmen Reinhart y Kennet Rogoff, dos prestigiosos economistas Estadounidenses,  publicaron un estudio en la revista American Economic Review. En el aseguraban que cuando la deuda publica subía, el crecimiento se desplomaba.

Basándose en este estudio, muchos gobiernos comenzarón a adoptar políticas de austeridad para reducir la deuda a toda costa.  Sin embargo, poco tiempo después Thomas Herndon, Michael Ash y Robert Pollin, de la Universidad de Massachusetts mostraron que Reinhart y Rogoff, no solo habían omitido algunos países del estudio si no que, además, la tabla de Excel que habían utilizado tenia errores en la aplicación de las fórmulas. Errores que invalidaban el estudio. 

La utilidad de la reproducibilidad en este caso queda bastante clara y, aunque los gobiernos no echaron marcha atrás, dudo que nadie vuelva a escudarse en ese artículo para aplicar las mismas políticas. 

Pero, ¿basta con que el estudio sea reproducible para que sea fiable? Lo cierto es que no. Se me ocurren un montón de motivos por los que podría no serlo y para poder vigilar que no suceden, aun nos faltaría una segunda R, la replicabilidad.

Replicabilidad para que todo valga

La replicabilidad de un estudio consiste en que las conclusiones extraídas puedan volver a obtenerse mediante otra muestra de la misma población (más allá del error debido a la incertidumbre). 

Para entenderlo mejor, volvamos al ejemplo anterior. Imaginemos que la primera investigadora ha concluido que la edad media en la población de los Hobbits de La Comarca era significativamente superior a 40 años. Para ello había utilizado una muestra supuestamente aleatoria de 200 hobbits entre las ciudades de Hobbiton y Delagua. 

La segunda investigadora ha decidido ahora repetir el estudio, pero esta vez con datos de 50 hobbits de las mismas poblaciones. A pesar de haber utilizado los mismos métodos, la edad media de este segundo grupo no ha mostrado ser significativamente diferente de 40 

¿Qué hacemos entonces? ¿De que estudio nos fiamos?

Cuando esto sucede lo que decimos es que el estudio no es replicable y, hasta que no lo sea, no estará “oficialmente” demostrado. Esto no es necesariamente malo, ya puede llevarnos a plantear nuevas hipótesis y ha realizar nuevos experimentos… Sin embargo, es poco deseable si queremos dar a nuestros resultados una entidad de verdad absoluta.

En este sentido, el siglo XXI y la gran disponibilidad de datos ha supuesto, contrariamente a lo esperado,  una gran crisis de replicabilidad. Y cuando hay una crisis, hay que buscar culpables, ¿no? Pues el declarado culpable en esta ocasión es, ni más ni menos que el p-valor, una entidad estadística de la que ya hablamos en la entrada sobre contraste de hipótesis y que nos sirve para comprobar la compatibilidad de los datos con una determinada hipótesis.

La culpa fue del p-valor

La cuestión es que, en los últimos años, diversos artículos publicados en revistas tan prestigiosas como Nature han señalado la necesidad de huir de la toma de decisiones basada, únicamente, en el uso del p-valor. Y no les falta cierta razón ya que, el uso del p-valor es mucho más complejo de lo que se pretende y extraer conclusiones a la ligera y sin supervisión de una persona experta puede ser nefasto. 

El gran problema del p-valor es que reduce la toma de decisiones a blanco y negro. Y cuando tomamos decisiones así, corremos el riesgo de que, por pura casualidad, acabemos por llegar a una conclusión incorrecta.

Uno de los ejemplos (esta vez a propósito) de este riesgo es el mostrado por Craig Bennet y Abigail Baird merecedores de uno de los premios Ig Nobel (Estudios ridículos que ayudan a alertar sobre los riesgos de la ciencia mal hecha). En concreto, Bennet y Baird mostraban que la neuroimagen del cerebro de un salmón mostraba señales de empatía… Algo del todo imposible, dado que el salmon estaba muerto. 

El problema de este estudio es que, en él, se comprobaba la activación de diferentes zonas del cerebro de los salmones. En ese proceso, se habían realizado tantos contrastes de hipótesis como voxels (pixels en 3D) tenía la imagen y, claro, tanto va el cántaro a la fuente que, por puro azar alguno de ellos resultó significativo (p-valor < 0.05) llevando a la conclusión de que esa zona del cerebro se había activado.   

Además, la era del BigData tampoco ayuda. Al contrario de lo que parecería natural pensar, un exceso de datos es contraproducente para el uso del p-valor. Esto sucede porque, por su construcción el p-valor calculado con un elevado número de datos, se vuelve muy sensible a la más mínima desviación de la hipótesis.

Volviendo al ejemplo de los hobbits, quizás la primera y la segunda investigadora obtuvieron una media de edad de 40,5 pero ese medio punto de diferencia a la primera, con 200 datos, le fue suficiente para rechazar la hipótesis mediante el p-valor, mientras que a la segunda, con solo 50 datos, no.

Por supuesto, el p-valor no tiene nada de malo, es solo una magnitud matemática que necesita ser bien entendida, algo que no suele suceder. Se está trabajando, por ello, en alternativas que pretenden hacer más interpretables los resultados y la estadística Bayesiana es una de ellas (la mejor, que os voy a decir yo). Sin embargo, todas las opciones contempladas no dejan de estar exentas de dificultad y requieren de profesionales capaces de interpretarlas correctamente. 

Concluyendo

Como en toda historia, también aquí podemos extraer una moraleja, bueno, varias.

Por una parte, un estudio aislado no muestra nada si este no puede replicarse. Ya me pueden decir que hay un artículo que prueba que la acupuntura alivia el dolor de muelas que, si no se ha podido replicar, yo seguiré yendo a mi dentista.

Por la otra, necesitamos leyes que regulen la disponibilidad de los datos y los códigos empleados en los estudios y desterrar de la investigación el software que no permite hacer un estudio reproducible… Cabe lanzar una lanza a favor de muchas editoriales que ya lo imponen como requisito para publicar en sus revistas.

Y con esto me despido. Gracias por leerme

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

A %d blogueros les gusta esto: