Ciencia de Datos, ¿Qué y por qué?

La estadística oculta

En más de una ocasión me he enfadado amargamente por ver cómo se utilizaba «Ciencia de Datos» para tapar una aplicación de la Estadística, o por encontrarme con que las expresiones Big Data, Inteligencia Artificial o Machine Learning dominaban el discurso dejando fuera de juego a la Estadística, e incluso quitándole la posibilidad de solicitar algún tipo de financiación.

Llega este mensaje sobre una convocatoria de ayudas de @BBVAResearch

Me duele mucho que la Estadística, que tiene mucho que decir sobre esta pandemia, que puede ayudar a comprender la evolución y otras muchas cosas, quede relegada… «Big Data e IA» en eso hemos quedado… 😔 pic.twitter.com/0MEeqw0grH
— BayesAna #YoMeQuedoEnCasa (@AnaBayes) June 5, 2020

Pero, como planteaba en una mini encuesta en Twitter, ¿Qué es realmente la Ciencia de Datos ? ¿Se trata simplemente de otra forma de llamar a la Estadística?

La encuesta, en la que ganaba la opción de Estadística + Informática con un 43% de los votos, recibió todo tipo de respuestas, algunas de ellas indicando que las opciones eran incompletas y seguramente tenían razón. Twitter tampoco da para más así que escribo hoy aquí para explicar cuál es mi punto de vista en este tema. No el de BayesAna enfadada por toda la palabrería que se escucha, sino el de mi parte reflexiva que intenta entender porque hemos llegado hasta aquí, por qué me indigna y si una nueva ciencia es necesaria.

Acabo de escuchar a una persona decir que era arquitecto y data scientist y que usaba técnicas de ciencia de datos junto a otras de geoestadística… se está volviendo todo muy loco… necesitamos el debate ¿Que es la ciencia de datos?
— BayesAna #YoMeQuedoEnCasa (@AnaBayes) June 6, 2020

Pero para que entendáis el porque de mi enfado, dejadme que os ponga en situación. Desde que terminé la carrera y empecé a estudiar el doctorado me he encontrado con muchísimas noticias geniales sobre el avance de esta o aquella ciencia. Recuerdo especialmente un espacio en radio dedicado a los Stents (un dispositivo que permite abrir espacios en las arterias obstruidas). En la entrevista, a cada paso que se avanzaba, yo veía estadística, tests, muestras, diferencias significativas… Nada de lo que se comentaba sería real si la estadística no estaba bien hecha, si el tamaño de muestra no era correcto o el método utilizado estaba adecuado al tipo de datos. Sin embargo, ni una mención a tal disciplina se escuchó, incluso dudo si en el equipo habría alguna persona experta en estadística.

Pero el ejemplo de los Stents es solo una gota en el océano. Cualquier avance de la ciencia en el que las demostraciones no son absolutas, en el que existe cierto grado de incertidumbre, debe ir, sin lugar a dudas, de la mano de la estadística.

Sin embargo, cuando sí se escuchaba la palabra estadística era cuando se manipulaba un gráfico en televisión, cuando nos hablaban de un mal cálculo en la tasa de paro, vamos, siempre asociada a errores, mentiras y simplificaciones absurdas como la de «si yo tengo dos pollos y tu ninguno, nos hemos comido en media uno cada uno pero tu te has quedado con hambre». Cuantas veces habré tenido que enfrentarme a la, lamentablemente famosa, frase popularizada por Mark Twain: «Hay tres tipos de mentiras: mentiras, grandes mentiras y estadísticas».

Todo se transforma

Y mientras todo esto pasaba, el mundo cambiaba, y la cantidad de datos almacenados aumentaba de forma descontrolada. En 2002, ya se consideraba que la cantidad de información almacenada de manera digital sobrepasaba la no digital y empezaba a utilizarse el termino Big Data (sin que tenga un origen claro).

En esta situación cabe, por supuesto, reinventarse, buscar nuevas técnicas que permitan abordar la cantidad creciente de información acumulada y sí, surge la necesidad de una «Ciencia de Datos».

Y cuando hablamos de esta ciencia, a mí me gusta pensar en los datos sobre una placa de Petri, les echamos tintura (perdónenme biólogos y biólogas) hacemos un corte aquí, otro allá, los ponemos bajo el microscopio y observamos que está pasando. Al fin y al cabo, de eso trata la Ciencia de Datos, de buscar formas de extraer, limpiar, preparar y analizar los datos para dar conclusiones coherentes y acertadas.

La Ciencia de Datos, tal y como la describe William S. Cleveland (1943–) en su artículo “Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics”, debe ser multidisciplinar, formada de diversas ciencias donde la computación y las matemáticas permitan afrontar los retos que supone el Big Data, debiendo entender el término Big en un sentido amplio, ya que no se trata únicamente de un aumento desmesurado de la cantidad de datos si no también de la complejidad de los modelos necesarios para entenderlos. Esta multidisciplinariedad suele representarse en forma de Diagrama de Venn donde la Ciencia de Datos se sitúa en intersección de tres conjuntos: «Las Tres Patas».

Diagrama de Venn con las 3 patas de la Ciencia de Datos

Y aquí es donde nacen mis dudas y mi enfado. Por una parte, ¿se pueden reunir en una misma persona todas estas competencias (fijaros en el unicornio)? Por otra, ¿No estaremos vendiendo humo en muchas ocasiones, vistiendo de Ciencia de Datos aplicaciones puramente Estadísticas?

Respecto a la primera pregunta, quizás lo ideal es crear equipos multidisciplinares (como creo que expresaba Cleveland en su artículo). Sin embargo, para dirigir esos equipos con una visión global de todos los aspectos del manejo de datos, parece razonable tener una formación completa. Eso es lo que intentan los nuevos grados en ciencia de datos algunos como el de la Universitat de Valencia o el de la Universidad Publica de Navarra*, de forma muy acertada combinando Estadística, Matemáticas, Ciencias de la computación y nociones de otras áreas como Derecho, Medicina o Biología.

Pero, lamentablemente, la segunda pregunta es pertinente y mi respuesta es sí, hay mucho humo. Como en el ejemplo del twit de la encuesta, «un arquitecto y data scientist» utilizando «herramientas de la Ciencia de Datos y técnicas de geo-estadística», a mí, me huele a humo. Hablar de algoritmo de clasificación supervisada o de Machine Learning cuando una regresión logística nos daría muchísima más información sobre qué está pasando. Utilizar la «caja negra» de la Inteligencia Artificial sin saber qué se está haciendo, además de poder venderse fácil, puede servir para perpetuar los sesgos presentes en los datos como ya hemos visto en más de una ocasión.

Concluyendo

En definitiva, que sí, que la Ciencia de Datos en pleno siglo XXI es necesaria, qué hace falta una formación multidisciplinar porque los problemas son otros y mucho más complejos que en el siglo pasado, pero no debemos, en ningún caso, olvidarnos de la importancia del manejo de la incertidumbre. Dejar la Estadística de lado, hacer artículos sobre «¿Cuál es tu algoritmo favorito de Machine Learning?» sin tener en cuenta que el algoritmo debe adaptarse a los datos o la situación que se quiere estudiar o afirmar que «para hacer ciencia de datos hacen falta menos matemáticas de las que piensas» es peligroso e irresponsable.

Y es por todo ello que, al menos yo, seguiré indignándome y denunciando cada vez que detecte humo y que seguiré divulgando la importancia que tiene la Estadistica tanto como parte de esta nueva ciencia como para nuestra sociedad en general.

Referencias

W. S. Cleveland. Data science: An action plan for expanding the technical areas of the field of statistics. International Statistical Review, 69(1):21–26, 2001. ISSN 03067734, 17515823. URL http://www.jstor.org/stable/1403527.
*Para más información sobre grados en ciencia de datos y su composición podéis leer el artículo que publiqué recientemente en el Boletín de la SEIO y que podéis encontrar aquí.

Relacionado

5 Replies to “Ciencia de Datos, ¿Qué y por qué?”

Daniel

13/07/2021 at 06:25

Así como no todo lo que se puede resolver mediante un algoritmo es ciencias de la computación, no hay que confundir la aplicación de ciertas técnicas de estadística con la ciencia per se. Sería falaz pensar que la medicina es entonces una subrama de la estadística

Cargando...

Responder
Daniel Fernández

14/06/2020 at 22:17

Excelente artículo Anabel! Como siempre! Eres una divulgadora excelente.
¿A ver qué te parece esta sugerencia? Yo el diagrama de Venn en el que se interaccionan Informática, Estadística y Conocimiento del Área lo ampliaría con una cuarta área: comunicación. Una vez se tienen la potencia informática, junto al modelo estadístico hay que saber transmitirlo de forma que se pueda entender a la área de conocimiento donde se quiere aplicar. ¿Cómo lo ves? Felicidades de nuevo!

Cargando...

Responder
Juan P. Paredes

14/06/2020 at 16:35

Excelente artículo. Evidentemente, el avance de la informática y su progresiva penetración en los ámbitos más triviales de nuestra vida cotidiana está creando ciertos extremismos muy irónicos. Como que profesionales de esas áreas puedan subestimar el conocimiento científico ajeno (no generado necesariamente en el ámbito digital o como fundamento de éste), que profesionales de otras áreas se sientan intimidados por toda esta parafernalia digital y sucumban a una simplificación “algorítmica” en desmedro de otras perspectivas. O finalmente y por el contrario, que haya un sector caduco que desprecia estos adelantos y los evidentes beneficios técnicos que nos puede ofrecer.

Yo creo que hace falta empatía en la gente, algo que se va perdiendo, no solo en el ámbito científico, sino social en sí. Saber escuchar REALMENTE lo que el otro tiene que decir. Podés llamarlo transdisciplinariedad, pluralismo, interculturalidad, etc. Así te evitás estas simplificaciones que nos están invadiendo, ya sea en forma de determinismos científicos y técnicos, como formas de intolerancia social y peor aún, política.

Cargando...

Responder
- Anabel Forte Deltell
  
  14/06/2020 at 17:54
  
  Me parece que tu apreciación es acertadísima! Muchísimas gracias. Necesitamos escucharnos más entre ciencias para avanzar en un mundo donde los avances unidisciplinares quedan ya lejos.
  
  Cargando...
  
  Responder
Pingback: Sabéis que siempre me enfado por la cortina... by @AnaBayes - Twitter Threads by Threadix

Deja un comentarioCancelar respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.