Ciencia de Datos, ¿Qué y por qué?

La estadística oculta

En más de una ocasión me he enfadado amargamente por ver cómo se utilizaba «Ciencia de Datos» para tapar una aplicación de la Estadística, o por encontrarme con que las expresiones Big Data, Inteligencia Artificial o Machine Learning dominaban el discurso dejando fuera de juego a la Estadística, e incluso quitándole la posibilidad de solicitar algún tipo de financiación.

Pero, como planteaba en una mini encuesta en Twitter, ¿Qué es realmente la Ciencia de Datos ? ¿Se trata simplemente de otra forma de llamar a la Estadística?

La encuesta, en la que ganaba la opción de Estadística + Informática con un 43% de los votos, recibió todo tipo de respuestas, algunas de ellas indicando que las opciones eran incompletas y seguramente tenían razón. Twitter tampoco da para más así que escribo hoy aquí para explicar cuál es mi punto de vista en este tema. No el de BayesAna enfadada por toda la palabrería que se escucha, sino el de mi parte reflexiva que intenta entender porque hemos llegado hasta aquí, por qué me indigna y si una nueva ciencia es necesaria.

Pero para que entendáis el porque de mi enfado, dejadme que os ponga en situación. Desde que terminé la carrera y empecé a estudiar el doctorado me he encontrado con muchísimas noticias geniales sobre el avance de esta o aquella ciencia. Recuerdo especialmente un espacio en radio dedicado a los Stents (un dispositivo que permite abrir espacios en las arterias obstruidas). En la entrevista, a cada paso que se avanzaba, yo veía estadística, tests, muestras, diferencias significativas… Nada de lo que se comentaba sería real si la estadística no estaba bien hecha, si el tamaño de muestra no era correcto o el método utilizado estaba adecuado al tipo de datos. Sin embargo, ni una mención a tal disciplina se escuchó, incluso dudo si en el equipo habría alguna persona experta en estadística.

Pero el ejemplo de los Stents es solo una gota en el océano. Cualquier avance de la ciencia en el que las demostraciones no son absolutas, en el que existe cierto grado de incertidumbre, debe ir, sin lugar a dudas, de la mano de la estadística.

Sin embargo, cuando sí se escuchaba la palabra estadística era cuando se manipulaba un gráfico en televisión, cuando nos hablaban de un mal cálculo en la tasa de paro, vamos, siempre asociada a errores, mentiras y simplificaciones absurdas como la de «si yo tengo dos pollos y tu ninguno, nos hemos comido en media uno cada uno pero tu te has quedado con hambre». Cuantas veces habré tenido que enfrentarme a la, lamentablemente famosa, frase popularizada por Mark Twain: «Hay tres tipos de mentiras: mentiras, grandes mentiras y estadísticas».

Todo se transforma

Y mientras todo esto pasaba, el mundo cambiaba, y la cantidad de datos almacenados aumentaba de forma descontrolada. En 2002, ya se consideraba que la cantidad de información almacenada de manera digital sobrepasaba la no digital y empezaba a utilizarse el termino Big Data (sin que tenga un origen claro).

En esta situación cabe, por supuesto, reinventarse, buscar nuevas técnicas que permitan abordar la cantidad creciente de información acumulada y sí, surge la necesidad de una «Ciencia de Datos».

Y cuando hablamos de esta ciencia, a mí me gusta pensar en los datos sobre una placa de Petri, les echamos tintura (perdónenme biólogos y biólogas) hacemos un corte aquí, otro allá, los ponemos bajo el microscopio y observamos que está pasando. Al fin y al cabo, de eso trata la Ciencia de Datos, de buscar formas de extraer, limpiar, preparar y analizar los datos para dar conclusiones coherentes y acertadas.

La Ciencia de Datos, tal y como la describe William S. Cleveland (1943–) en su artículo “Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics”, debe ser multidisciplinar, formada de diversas ciencias donde la computación y las matemáticas permitan afrontar los retos que supone el Big Data, debiendo entender el término Big en un sentido amplio, ya que no se trata únicamente de un aumento desmesurado de la cantidad de datos si no también de la complejidad de los modelos necesarios para entenderlos. Esta multidisciplinariedad suele representarse en forma de Diagrama de Venn donde la Ciencia de Datos se sitúa en intersección de tres conjuntos: «Las Tres Patas».

Diagrama de Venn con las 3 patas de la Ciencia de Datos

Y aquí es donde nacen mis dudas y mi enfado. Por una parte, ¿se pueden reunir en una misma persona todas estas competencias (fijaros en el unicornio)? Por otra, ¿No estaremos vendiendo humo en muchas ocasiones, vistiendo de Ciencia de Datos aplicaciones puramente Estadísticas?

Respecto a la primera pregunta, quizás lo ideal es crear equipos multidisciplinares (como creo que expresaba Cleveland en su artículo). Sin embargo, para dirigir esos equipos con una visión global de todos los aspectos del manejo de datos, parece razonable tener una formación completa. Eso es lo que intentan los nuevos grados en ciencia de datos algunos como el de la Universitat de Valencia o el de la Universidad Publica de Navarra*, de forma muy acertada combinando Estadística, Matemáticas, Ciencias de la computación y nociones de otras áreas como Derecho, Medicina o Biología.

Pero, lamentablemente, la segunda pregunta es pertinente y mi respuesta es sí, hay mucho humo. Como en el ejemplo del twit de la encuesta, «un arquitecto y data scientist» utilizando «herramientas de la Ciencia de Datos y técnicas de geo-estadística», a mí, me huele a humo. Hablar de algoritmo de clasificación supervisada o de Machine Learning cuando una regresión logística nos daría muchísima más información sobre qué está pasando. Utilizar la «caja negra» de la Inteligencia Artificial sin saber qué se está haciendo, además de poder venderse fácil, puede servir para perpetuar los sesgos presentes en los datos como ya hemos visto en más de una ocasión.

Concluyendo

En definitiva, que sí, que la Ciencia de Datos en pleno siglo XXI es necesaria, qué hace falta una formación multidisciplinar porque los problemas son otros y mucho más complejos que en el siglo pasado, pero no debemos, en ningún caso, olvidarnos de la importancia del manejo de la incertidumbre. Dejar la Estadística de lado, hacer artículos sobre «¿Cuál es tu algoritmo favorito de Machine Learning?» sin tener en cuenta que el algoritmo debe adaptarse a los datos o la situación que se quiere estudiar o afirmar que «para hacer ciencia de datos hacen falta menos matemáticas de las que piensas» es peligroso e irresponsable.

Y es por todo ello que, al menos yo, seguiré indignándome y denunciando cada vez que detecte humo y que seguiré divulgando la importancia que tiene la Estadistica tanto como parte de esta nueva ciencia como para nuestra sociedad en general.

Referencias

  • W. S. Cleveland. Data science: An action plan for expanding the technical areas of the field of statistics. International Statistical Review, 69(1):21–26, 2001. ISSN 03067734, 17515823. URL http://www.jstor.org/stable/1403527.
  • *Para más información sobre grados en ciencia de datos y su composición podéis leer el artículo que publiqué recientemente en el Boletín de la SEIO y que podéis encontrar aquí.

  4 comentarios en “Ciencia de Datos, ¿Qué y por qué?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.