El español de MarIA

Herles Velasco

No muchos saben que existe en este mundo un superordenador concebido para dar la posibilidad a programadores para desarrollar aplicaciones con una inteligencia artificial (IA) experta en comprender y escribir en nuestra lengua. El proyecto ha sido creado por el Centro Nacional de Supercomputación de Barcelona e IBM con datos de la Biblioteca Nacional de España (BNE); un proyecto que además está abierto y sin costo para cualquier desarrollador, grupo de investigación o entidad pública o privada que deseé utilizarlo sin costo; esto sin importar que se traten de entidades que trabajan con recursos generales de la lengua o con modelos muy específicos como pueden ser los relativos a temas legales o incluso de biomedicina. Las posibilidades de esta inteligencia artificial, llamada MarIA, van desde la corrección y la traducción hasta la búsqueda inteligente y la subtitulación automática, con todo lo que hay en medio de eso, convirtiendo a MarIA en el primer modelo de IA masivo en lengua española. Por poner un ejemplo, en temas de corrección, la IA ha sido capaz de producir ya 201 millones de documentos “limpios”, que se han sumado al repositorio de la propia Biblioteca Nacional de España.

El “entreno” que ha recibido MarIA no es muy distinto al de otras inteligencias artificiales; es decir, se ha dotado a sus redes neuronales bases de datos suficientes para que ésta obtenga la suficiente comprensión de la lengua (incluyendo léxico y mecanismos de expresión de significados) para que pueda escribir a un nivel, dicen, de experto. En total van 59 terabytes de información del archivo web de la BNE; casi 7 millones de horas de procesamiento, 135 mil millones de palabras; solo el superordenador del Centro Nacional de Supercomputación tiene una capacidad de cálculo de 9,7 trillones operaciones. Sumado a esto, MarIA, rastrea y archiva webs en español con las que sigue su entrenamiento.

Las aplicaciones de estas herramientas a los mundos del arte y la cultura se potencian, pero no dejan de estar en el mapa de los creadores de esta IA el potencial que los algoritmos de MarIA pueden aportar, en el campo de lo económico, a las empresas tecnológicas de habla hispana. Con este proyecto, nuestro idioma está en el top tres de modelos masivos de acceso abierto en el mundo, detrás del inglés y el chino mandarín; con lo que la proyección de la lengua española en los mundillos de las nuevas tecnologías está asegurado. Hay que sumar que este proyecto no tiene intenciones de estancarse solamente en el castellano sino que planea ampliar sus capacidades aplicadas a lenguas como el catalán, gallego, euskera y portugués.
Al ser México el país con más hispanohablantes del mundo, valdría la pena pensar qué tanto podrían irse involucrando nuestras grandes instituciones académicas a este tipo de proyectos, pensando en las dificultades que hemos experimentado en el pasado (pre-digital) con algunas formas que algunos interpretan como imposiciones centralistas, sobre todo por el impacto y potencial a mediano plazo que parece tener el proyecto. De entrada, las puertas están abiertas para que desde acá podamos involucrarnos, y si bien es un proyecto que lleva ya unos meses desarrollándose, todavía no hay, que sepamos, algún pronunciamiento de universidad o institución local de llevar la batuta en lo que se refiere a nutrir a esta IA con los acervos que tenemos de este lado del mundo, que no son pocos.

 

Comentarios