El proyecto Alia, el 'ChatGPT español' que entrena el Gobierno: “La calidad de las respuestas va a ser mucho mejor”

El Ejecutivo quiere lanzar “tras el verano” una inteligencia artificial entrenada en castellano y las lenguas cooficiciales con datos del BOE o el Diario de Sesiones del Congreso
— La curva de aprendizaje de la inteligencia artificial está en riesgo: su ansia de datos es infinita pero no las obras humanas

El Supercomputador MareNostrum 5 instalado en el BSC Kike Rincón / Europa Press

23 de abril de 2024 22:23h Actualizado el 24/04/2024 09:31h

El proyecto Alia ya está en fase de pre-entrenamiento. Se trata del primer modelo de inteligencia artificial de lenguaje natural que trabajará directamente en español y en las lenguas cooficiales del Estado, sin traducirlas desde otra lengua base. Pedro Sánchez anunció la intención del Gobierno de desarrollar un sistema de este tipo en la inauguración del Mobile World Congress y recientemente el ministro de Transformación Digital, José Luis Escrivá, ha adelantado que el objetivo es que su primera versión esté disponible “tras el verano”.

Este ChatGPT español será concebido en los circuitos del MareNostrum V, el nuevo supercomputador inaugurado a finales de 2023 en el Centro Nacional de Supercomputación. Para llevarlo a cabo, el Gobierno ha llegado a un acuerdo con IBM para que esta proporcione el software y la metodología de entrenamiento. La multinacional estadounidense es conocida por su apuesta por la inteligencia artificial de código abierto y de modelos sectoriales, especializados en campos específicos, dos características que Moncloa quiere que marquen el desarrollo de Alia.

Su objetivo es que este programa “se constituya como infraestructura abierta, pública y transparente, de forma que pueda ser la base de futuros servicios y aplicaciones avanzadas en tecnologías del lenguaje”, detallan desde el Ministerio de Transición Digital.

Porque aunque ChatGPT se haya convertido en sinónimo para cualquier inteligencia artificial, no todas las inteligencias artificiales generativas de texto son iguales. Eric Delgado, director de Ingeniería de Clientes de IBM en España, Portugal, Grecia e Israel, revela en conversación con elDiario.es cuáles son los intereses del Ejecutivo para esta nueva IA. “Hay algunas diferencias fundamentales entre ChatGPT y el modelo que está el Gobierno español planeando”, expone.

La primera es la ya citada: mientras la creación de OpenAI fue entrenada en muchos idiomas, el proyecto Alia se especializará en el español, lo que optimizará su rendimiento en este idioma. “Eso tiene una consecuencia, y es que la calidad de las respuestas que da va a ser mucho mejor”, afirma Delgado.

“Cuando tú trabajas con ChatGPT y este tipo del uno de estos modelos multilingües, es fácil que en determinados contextos se vayan de un idioma a otro. Esto, si estás jugando con él en casa no pasa nada, pero sí que tiene un gran impacto en un entorno empresarial como el del Gobierno español, que quiere aproximar la IA a las pequeñas y medianas empresas que igual económicamente no tienen acceso a los modelos más grandes”, detalla.

Entrenamiento con datos de “alta calidad”

La segunda diferencia serán los datos con los que será entrenado el proyecto Alia. Uno de los problemas de los modelos de IA más populares de las multinacionales estadounidenses que usaron un método de entrenamiento “a lo bruto”: chupar todos los textos que encontraron en Internet. “ChatGPT está entrenado con todo lo que hay en Internet. Todo quiere decir todo lo bueno, todo lo malo y todo lo de en medio”, sigue Delgado.

“La intención del Gobierno español es crear un modelo que esté entrenado solamente con datos de muchísima calidad, por lo tanto va a acudir a fuentes a las que tiene acceso, como bibliotecas nacionales, etcétera. Eso va a hacer que sea un modelo ya no solamente entrenado solo en español, sino con unos datos de muy alta calidad que harán que el comportamiento de este modelo sea mucho mejor que el de cualquier otro”, asegura.

Los comentarios en redes sociales y foros quedarán, por tanto, fuera. “Se proporcionarán al modelo diversas fuentes documentales, por ejemplo, bases de datos de dominio público, como por ejemplo el Boletín Oficial del Estado o el Diario de Sesiones del Congreso”, confirman desde el Ministerio que dirige Escrivá. “Para desarrollar un modelo de lenguaje en español y lenguas cooficiales que cumpla estándares de calidad, debe estar basado en corpus de entidad suficiente, fiable y relevante”, argumentan las mismas fuentes.

También evitará otro tipo de problemas que están enfrentando empresas como OpenAI, denunciada por autores y medios como el New York Times por usar sus textos sin permiso. La empresa intentó retrasar la polémica opacando las bases de datos que usó para el entrenamiento. Ante las pruebas de que se había saltado el copyright, se vio obligada a reconocer que habría sido “imposible” entrenar a ChatGPT respetando los derechos de autor.

El proyecto Alia tomará un enfoque diferente, puesto que su base de datos de entrenamiento sí será abierta y transparente. No solo por cuestiones legales, sino para permitir que otras instituciones como universidades o colegios de profesionales puedan ofrecer sus propias bases de datos.

“Otros actores interesados en colaborar, con los que se están firmando acuerdos de colaboración, tanto organismos públicos como empresas privadas, participarán en fases concretas en las que sus aportaciones puedan ser útiles. Es el caso de la instalación en servidores para proporcionar servicios desde la nube, por ejemplo, o la aportación de corpus de dominio concreto”, afirman en Transición Digital.

“La idea del Gobierno español es que este sea un modelo en el cual todo el mundo pueda participar a la hora de contribuir con conocimientos de cada ámbito”, añade Delgado. “La idea original es que haya un un modelo base bastante grande como primera versión, que se pueda ir especializando en distintos dominios. Que aprenda por ejemplo el lenguaje jurídico, que es muy especial, leyendo sentencias”.

El reto de las lenguas cooficiales

Tras un año y medio de evolución vertiginosa, las inteligencias artificiales generativas de texto se acercan a un muro. Estos sistemas ya han recogido todos los textos de alta calidad de Internet, algo que no solo tiene que ver con el nivel léxico sino también con el hecho de que estén correctamente etiquetados para que la IA pueda identificarlos. Algunos análisis avisan de que se quedarán sin materia prima de la que aprender (y por tanto, mejorar) en 2026.

El fin de los datos para los modelos multilingües es un problema para las compañías que los desarrollan. El proyecto Alia no lo sufrirá para su versión en castellano, que cuenta con referencias suficientes para entrenar un modelo de altas capacidades. El reto llegará, no obstante, con las lenguas cooficiales como el euskera o el gallego. ¿Qué hacer en los casos del euskera o el gallego, con un corpus de información menor? “Es una buena pregunta”, reconoce Delgado.

“En IBM Research de hecho tenemos un subproyecto para ver cómo podemos aumentar el corpus de lenguas que tienen un contenido bajito. Desde luego, el español no tiene problemas ahí, ya que hay montones de fuentes. El catalán tampoco. Pero es posible que haya otras otras lenguas en las que el corpus sea más pequeño. Pero hay mecanismos que nos permiten ampliarlo”, avanza el responsable de IBM.

Se refiere a los “datos sintéticos”. Es un mecanismo que la industria de la IA está analizando ante la posibilidad real de quedarse sin datos y que consiste en que sean otras inteligencias artificiales las que generen textos que luego se integren en la base de datos de entrenamiento.

“Se utiliza una IA que reordena los textos para convertirlos en uno diferente, pero que tenga sentido. Tomando un texto de 6.000 palabras puedes crear otro distinto escribiéndolas de otra forma. Es una tecnología puntera, aunque no lo parezca, que permite entrenar a los modelos más grandes pero que también se está utilizando con idiomas que están a punto de desaparecer”, abunda Delgado.

El acuerdo entre el Gobierno e IBM no implica un pago económico por los servicios de esta. El pacto se entronca en un “Memorando de Entendimiento” (MoU). “Los MoU son documentos que simplemente comportan declaraciones de voluntad para actuar con un objetivo común, sin compromisos jurídicos ni obligaciones. Con este acuerdo entre Gobierno e IBM se enmarcan relaciones de colaboración en el intercambio de información y en la organización de jornadas de trabajo conjuntas”, especifica el Ministerio de Transformación Digital.

Etiquetas