La gran escuela de español de la Inteligencia Artificial

Los datos se están convirtiendo en el oro, el petróleo y el silicio del futuro, en la gran fuente de riqueza que se intuye para el mundo que viene. Datos, en cantidades industriales, son los que circulan desde hace cuatro años entre la Biblioteca Nacional de España (BNE) y el Barcelona Supercomputing Center (BSC), el centro nacional de supercomputación, dentro del programa marIA. No es un error de transcripción: la I y la A del nombre están en mayúscula en un juego gráfico que remite a las siglas de la Inteligencia Artificial. El programa marIA reclama datos para enseñar a hablar en español a la IA, desde el corrector de textos de Word hasta la atención telefónica automatizada de cualquier empresa.

Ayer fue un día importante para los responsables de marIA. Los ingenieros del BSC viajaron a Madrid y presentaron en público su trabajo junto a los bibliotecarios de la BNE.La secretaria de Estado de Digitalización e Inteligencia Artificial, Carme Artigas, presidió el acto y anunció la inversión estatal de 30 millones de euros dirigidos al Plan de Lenguaje Natural, en el que están incluidas las investigaciones de varias universidades, la de la Real Academia Española y, en un lugar preferente, marIA. Fuentes del Ministerio de Economía han explicado que el programa, finandiado por la UE, no tiene aún un calendario de aplicación.

Mucho dinero para ¿exactamente qué? «marIAes un conjunto de recursos, esencialmente modelos del lenguaje y datos para entrenar esos modelos que sirven como infraestructura básica para que el español se pueda incorporar a cualquier aplicación de IA que incluya el lenguaje: Siri, Alexa, programas de traducción automática, transcripción de textos... Hemos generado un recurso básico para que los investigadores lo empleen en aplicaciones de inteligencia artificial», explica Marta Villegas, responsable del proyecto en Barcelona.

Su trabajo, por tanto, consiste en crear una red de millones de relaciones de palabras que, procesadas por computación, permitan que las máquinas sepan cómo se habla en español y sean capaces de imitarlo. La Inteligencia Artificial, como muchos humanos, aprende idiomas a base de escuchar y leer, de crear sus conexiones, de imitar de oído.

«Hay dos dificultades en un proyecto como este. La primera es encontrar datos suficientes. Estos modelos se entrenan con redes neuronales profundas que se alimentan de datos masivos. Y la segunda consiste en disponer de recursos computacionales, de capacidad de computo suficiente», explica Villegas. Y ahí es donde entra en el proyecto la Biblioteca Nacional, la gran proveedora de información con la que alimentar a los ordenadores de la BSC.

«La Biblioteca Nacional ha cuidado desde su fundación del patrimonio escrito del idioma español. En 2009, empezamos a hacer lo mismo con el español escrito en internet porque nos dimos cuenta de que, de lo contrario, iba a quedar una edad oscura digital, sin fuentes, explica Mar Pérez Morillo, directora de la División de Procesos y Servicios Digitales de la BNE. Nuestro trabajo es el mismo de siempre, no ha cambiado por marIA. Lo único que hacemos es hacer llegar los datos que generamos al BSC para que sus máquinas entrenen con ellos».

Datos que incluyen anuncios, recordatorios de primeras comuniones, memes... cualquier fuente que reproduzca la forma de un idioma en un momento concreto. «Como profesional, me parece un proyecto impresionante y muy prometedor. De pronto, vemos que el gran patrimonio que hemos creado se puede emplear para crear investigación y conocimiento», dice Pérez Morillo.

¿Vamos a las aplicaciones prácticas? «El uso de marIA esrá en cualquier aplicación de Inteligencia Artificial que utilice el lenguaje: traducción automática, transcripciones y clasificiaciones de textos, corrección, aplicaciones de voz, sistemas conversacionales, aplicaciones de resumen... Son aplicaciones que usamos a diario sin que nos demos cuenta», explica Marta Villegas. «El uso académico, por ejemplo, es interesantísimo. Ya podemos mejorar la interpretación de grandes masas de lenguaje natural», añade Pérez Morillo.

A partir de ahí, la fantasía. Cuando los coches se conduzcan solos, ¿les podremos decir «Vamos a casa de mi madre, pero por el camino largo que no hay prisa y es más bonito»? ¿Se lo podremos decir en español? ¿En catalán, en gallego o en euskera...? Es razonable pensarlo. El planteamiento de marIA incluye todas las lenguas del Estado y prevé la exposición pública y libre cada fase de trabajo, de modo que los investigadores puedan valerse de él en sus aplicaciones. De momento, sólo el inglés y el mandarín están más avanzados que el español.


Conforme a los criterios de

The Trust ProjectSaber másCinePerdón señor Wes Anderson, se le ha metido un español en el ojoLa Entrevista FinalJorge Dezcallar: "En Siria todo el mundo ha metido la cuchara y por eso la guerra dura 10 años"MúsicaRozalén, Premio Nacional de Músicas Actuales con sólo 35 años: "He pensado, 'pero si esto no me toca a mí ahora'"