Es hora de que empecemos a "fijarnos en los datos" para resolver nuestros problemas, señala una de las principales expertas mundiales en ciencia de datos.
En 2006, la entonces jefa del Departamento de Ciencias de la Computación de la Universidad Carnegie Mellon (EE. UU.), Jeannette Wing, publicó un influyente ensayo titulado Pensamiento computacional, en el que defendía que todos nos beneficiaríamos del uso de las herramientas conceptuales de las ciencias de la computación para resolver problemas en todas las áreas de la actividad humana.
La propia Wing no tenía intención de estudiar ciencias de la computación. A mediados de la década de 1970, se matriculó en el MIT (EE. UU.) para dedicarse a la ingeniería eléctrica, inspirada por su padre que era profesor en ese campo. Cuando descubrió su interés por la informática, Wing llamó a su padre para preguntarle si se trataba de una moda pasajera. En aquel momento ni siquiera había libros de texto sobre el tema. Su padre le aseguró que no lo era. Wing cambió de carrera y nunca miró hacia atrás.
La que también fuera vicepresidenta corporativa de Microsoft Research y actual vicepresidenta ejecutiva para investigación de la Universidad de Columbia (EE. UU.), ahora lidera la promoción de la ciencia de datos en múltiples disciplinas.
Anil Ananthaswamy habló recientemente con Wing sobre su ambicioso plan para promover la "Inteligencia artificial (IA) fiable", uno de los 10 desafíos de investigación que ha fijado en su intento de lograr que los sistemas de inteligencia artificial sean más justos y menos sesgados.
¿Considera que existe una transformación en cómo se realiza la computación en la actualidad?
Absolutamente. La ley de Moore nos llevó muy lejos. Sabíamos que íbamos a tocar el techo con ella, y por eso otra computación paralela se volvió relevante. Pero la computación en la nube fue un cambio de fase. Los primeros sistemas de archivos distribuidos fueron una especie de nacimiento de la computación en la nube, ya que los archivos no se encontraban en el ordenador, sino en otro lugar del servidor. La computación en la nube se basa en eso y lo amplifica aún más: los datos no están ni cerca del ordenador y la computación se realiza lejos de nosotros.
El siguiente cambio tuvo que ver con los datos. Durante mucho tiempo, nos fijábamos en los ciclos para que las cosas funcionaran más rápido: en los procesadores, CPU, GPU y otros servidores paralelos. Ignorábamos la parte de los datos. Ahora tenemos que fijarnos ellos.
Ese es el campo de la ciencia de datos. ¿Cómo lo definiría? ¿Cuáles son los desafíos de usar los datos?
Tengo una definición muy concisa. La ciencia de datos es el estudio de extraer valor de los datos.
Usted no puede simplemente darme un montón de datos sin procesar para que yo pulse un botón y extraiga su valor. Todo empieza con la recopilación, el procesamiento, el almacenamiento, la gestión, el análisis y la visualización de los datos y luego sigue la interpretación de los resultados. Yo lo llamo el ciclo de vida de los datos. Cada paso de ese ciclo supone mucho trabajo.
Al utilizar big data, a menudo surgen preocupaciones sobre privacidad, seguridad, equidad y sesgo. ¿Cómo se abordan estos problemas, especialmente en la IA?
Tengo un nuevo plan de investigación que estoy promoviendo. Lo llamo IA fiable, por las décadas de progreso que logramos en la computación fiable. En cuanto a la fiabilidad, generalmente nos referimos a la seguridad, la confiabilidad, la disponibilidad, la privacidad y la funcionalidad. Durante las últimas dos décadas, hemos avanzado mucho. Tenemos métodos concretos que pueden asegurar la exactitud de un fragmento de código; contamos con protocolos de seguridad que aumentan la seguridad de un sistema específico. Y tenemos ciertas nociones de privacidad que se han regularizado.
La IA fiable va más allá y lo hace de dos maneras. De repente, hablamos de resistencia y de equidad. La resistencia que se refiere a que, si se perturba el input, el output no se perturba tanto. Y hablamos de interpretabilidad. Cuando se trataba de la computación, antes nunca pensábamos en estas cosas.
[Además,] los sistemas de IA son de naturaleza probabilística. Los sistemas informáticos del pasado son básicamente máquinas deterministas: están encendidas o apagadas, verdaderas o falsas, sí o no, ceros o unos. Los resultados de nuestros sistemas de IA son básicamente probabilidades. Si le digo que su radiografía indica que usted tiene cáncer, se trata, por ejemplo, de una probabilidad de 0,75 de que esa pequeña mancha blanca que vi sea maligna.
Por eso, en la actualidad, tenemos que vivir en este mundo de probabilidades. Desde un punto de vista matemático, se está utilizando la lógica probabilística y mucha estadística y razonamiento estocástico, etcétera. Un científico informático no está formado para pensar de esa manera. Los sistemas de inteligencia artificial realmente han complicado nuestro razonamiento formal sobre estos sistemas.
La IA fiable es uno de los 10 desafíos de investigación que usted ha determinado para los científicos de datos. La causalidad parece ser otro gran problema.
Creo que la causalidad es la próxima frontera para la IA y el aprendizaje automático. En estos momentos, los algoritmos y los modelos de aprendizaje automático son buenos para encontrar patrones, correlaciones y asociaciones. Pero no pueden decirnos: ¿Esto causó eso? O si yo hiciera esto, ¿qué pasaría? Por eso, hay otra área entera de actividad sobre la inferencia causal y el razonamiento causal en la ciencia de la computación. Los expertos en estadística llevan décadas analizando la causalidad. A veces se enfadan un poco con la comunidad de informáticos por pensar que "Oh, esta idea es nueva". Así que quiero dar crédito a los especialistas en estadística por sus contribuciones fundamentales a la causalidad. La combinación del big data y el razonamiento causal realmente puede crear avances en el campo.
¿Le hace ilusión lo que puede lograr la ciencia de datos?
Todo el mundo se está volviendo loco con la ciencia de datos, porque ven que sus campos se transforman por el uso de los métodos de la ciencia de datos en los datos digitales que generan, producen, recopilan, etcétera. Es un momento que crea mucha ilusión.