«Cuarenta y dos,» dijo Pensamiento Profundo con infinita majestuosidad y calma. La Respuesta a la Gran Pregunta de la Vida, el Universo, y Todo lo Demás.
Douglas Adams, La Guía del Autoestopista galáctico
Nos pasamos la vida buscando respuestas, las mejores respuestas, a veces incluso, las respuestas que más satisfagan a un propósito concreto y quizás egoísta. Esta búsqueda de respuestas es, al fin y al cabo, el objetivo de la ciencia: entender mejor el mundo que nos rodea basándonoslos en evidencias. Así lo entendía Descartes que en su «Discurso del método» afirma querer dedicarse por entero a la búsqueda de la verdad.
El problema es que muchas veces nos centramos tanto en la búsqueda de la respuesta que nos olvidamos de formular la pregunta correcta. No somos conscientes que un cuestionamiento erróneo nos lleva a respuestas sin utilidad real o incluso completamente equivocadas. Empezábamos con «la pregunta de la vida el universo y todo lo demás» que plantea Dougglas Adams en su Guía del Autoestopista Galáctico. Y puede que se trate de un ejemplo un poco extremo pero muy elocuente. Una clara metáfora de lo importante que resulta la pregunta para que la respuesta tenga sentido.
Diseño de Experimentos.
Cuando se trata de entender cómo funciona algo basándonos en evidencias/datos, tenemos que establecer correctamente los protocolos de recogida los mismos. Pero, para empezar, es fundamental saber qué pregunta queremos responder. A este proceso se le conoce como Diseño de Experimentos.
Si mi pregunta es si un nuevo tratamiento funciona, estoy perdida… Funciona, ¿qué significa funciona? ¿Qué cura más rápido? ¿Qué mejora los síntomas? ¿Qué hace desaparecer la enfermedad?
Fijaros que la diferencia entre estas preguntas influye, de primeras, en los datos que tendré que recoger. Si debo hacer dos grupos incluyendo un grupo control en el que los individuos no toman ningún tratamiento. O, ¿se debe administrar un medicamento estándar a un grupo y el tratamiento que se quiere estudiar al otro?. ¿Tengo que medir el tiempo hasta que desaparece la enfermedad?. Quizás basta con anotar si ésta desaparece o no. Podría ser que tengamos que establecer una escala de medida a los síntomas. En definitiva, dependiendo de la pregunta cambiará lo que en estadística se llama variable respuesta.
También cambiarán las variables que tenemos que controlar para que podamos asumir que el éxito se debe al tratamiento y no a cuestiones secundarias. O para que no haya un ruido excesivo que nos impida ver su eficacia.
Por ejemplo, si el grupo que toma el tratamiento está haciendo también una dieta especial, no podremos saber si el cambio se debe a la dieta o al nuevo tratamiento. Si escogemos personas de distinto género, complexión física, raza etc. y no lo tenemos en cuenta en el análisis, corremos el riesgo de que la respuesta se vea enmascarada por diferencias debidas a estos condicionantes.
Controlamos el ruido pero mejor no callarlo.
Pero ojo, cuando hablamos de controlar el «ruido» es importante no caer en un error simplista que hemos observado repetidas veces a lo largo de la historia de la ciencia. Si, por evitar el exceso de variabilidad, simplificamos nuestro grupo de estudio cogiendo únicamente hombres blancos en una franja de edad concreta, estamos cambiando la pregunta completamente. Ya no estaremos hablando de si «funciona» el medicamento, sino de si funciona el medicamento en hombres blancos en esa franja de edad.
Y no se si esto os parecerá obvio con los ojos del siglo XXI pero, hasta hace relativamente poco era fácil encontrar estudios en los que se asumía que las enfermedades afectaban igual a cualquier persona. Los grupos de estudio solían estar conformados únicamente por varones debido a su menor variabilidad «hormonal» o, se incluían hembras pero no se hacia un estudio especifico sobre el efecto de la enfermedad en estas. Lamentablemente, estás prácticas, sostenidas a lo largo del tiempo, han llevado a sutiles «errores» que han costado muchas vidas (1).
Tamaño de muestra y potencia del estudio.
Pero volvamos a la importancia de la pregunta. Cabe destacar que cada decisión tomada en función de la pregunta (variable respuesta, variables implicadas o explicativas), afecta al tipo de herramienta estadística que se debe implementar. Y junto a la técnica, cambia el tamaño de la muestra necesario para asegurar la validez de la respuesta. Se trata de lo que se conoce como Análisis de la Potencia (y del que os cuento más otro día).
La cuestión es que, al diseñar un estudio para responder a una pregunta concreta, los datos recogidos solo serán óptimos para dar esa respuesta. Volviendo al estudio del nuevo tratamiento, si se ha diseñado para detectar una disminución en la duración de los síntomas, no puedo después fijarme en la variable que me dice si desaparece la enfermedad o no aunque obtenga con ello una respuesta más «conveniente».
Pero, ¿quién sabe que pregunta se formuló en primer lugar? ¿Por qué no cambiarla si los datos me permiten formular otra? Pues muy sencillo, porque la fiabilidad de la respuesta en ese caso es como echar a la lotería, lo obtenido puede corresponderse con la realidad o no.
Además, buscar la hipótesis o pregunta después de observar los datos va en contra del pensamiento estadístico y, por tanto, científico. Aunque, desgraciadamente, se trata de una práctica tan común que ha llegado a tener su propio nombre: HARKing. Una práctica que podemos y debemos evitar inscribiendo el protocolo de estudio en alguno de los registros existentes a tal efecto (3). De hecho, se trata de la exigencia habitual de los organismos como la Foods and Drugs Administration (FDA) Americana o la Agencia Española de Medicamentos y Productos Sanitarios (AEMPS).
¿Basta con tener BigData?
Pero claro, os he dicho que los resultados pueden no ser fiables por no tener un tamaño de muestra suficiente. Alguien podría estar pensando entonces: «¿Y si tengo una gran base de datos?» A lo que yo respondería con otra pregunta ¿cómo y para qué se obtuvo?
Es fácil caer en la tentación de pensar que el tamaño de muestra lo es todo y no es cierto. En un experimento bien diseñado basta con unas pocas muestras para obtener resultados fiables. Pero cuando los datos se han obtenido por pura recolección, no hay un objetivo concreto de fondo y todo nos viene dado.
En ese tipo de bases de datos, toda precaución es poca y el tamaño de la muestra puede volverse en nuestra contra. Cualquier test estadístico podría salir significativo. Cualquier respuesta podría parecer fiable, relaciones de causa efecto pueden parecer tan obvias como inexistentes… Y, de nuevo, volvemos a la importancia de la pregunta.
Para que entendáis a que me refiero vuelvo a un ejemplo que ya he usado otras veces: el algoritmo de contratación de Amazon (4). Cuando Amazon creo su algoritmo y lo alimentó con los currículums de sus empleados no parece que pensase en que pregunta quería formular. Porque no es lo mismo preguntar ¿A quién voy a contratar para seguir con una plantilla como la que tengo? ¿Qué persona dará un mayor «rendimiento» ? ¿A quién debo contratar para fomentar la diversidad?
La relevancia de la técnica.
Y claro que aquí, con su base de datos, el tamaño de la muestra no es un problema. La importancia reside entonces en la elección de la técnica estadística, o de ciencia de datos si queréis, adecuada para resolver el dilema. Algo muy importante y que queda muy bien reflejado en el hilo de Ana Valdivia (@ana_valdi) en twitter y en el articulo que enlaza (5).
Me sorprende la cantidad de gente que responde a este estudio diciendo que el problema del sesgo en la IA está en los datos.
— Ana Vldv (@ana_valdi) July 3, 2020
No, es un problema estructural. El diseño de la tecnología es profundamente político. Ese es el problema. https://t.co/GvGOjyZ7H1
A veces el uso del algoritmo más sofisticado de clasificación puede no ser adecuado. Otras veces, usar un contraste estadístico como ANOVA para detectar diferencias entre grupos tampoco lo es (con muchos datos es posible que salga que sí siempre).
En definitiva, formular las preguntas correctas, entender la idiosincrasia de los datos y saber obtener técnicamente las respuestas es clave. De ello dependerán tanto el avance de la ciencia como el éxito social y/o económico de cualquier aplicación que derive de las conclusiones obtenidas.
Referencias y enlaces
(1) Sobre los sesgos en estudios de salud es muy interesante el podcast de Carne Cruda La medicina que no amaba a las mujeres:
(2) Entrada en Wikipedia sobre el término HARKing
(3) Algunos repositorios donde puede registrarse un protocolo experimental son el Open Science Framework o el ClinicalTrials.gov
(4) El algoritmo de Amazon al que no le gustan las mujeres
(5) Decolonising AI: A transfeminist approach to data and social justice