El catalán detrás de la IA de Google: “Gemini no podría hacerme esta entrevista, al menos de momento”
Oriol Vinyals (Sabadell, 1983) es una de las mentes pensantes tras la mayor revolución tecnológica de los últimos años: la inteligencia artificial (IA). Este catalán es vicepresidente de investigación de Google DeepMind, el laboratorio desde el cual el gigante californiano desarrolla Gemini, el chatbot que compite con ChatGPT.
Este matemático e ingeniero de telecomunicaciones afincado en Silicon Valley, es uno de los responsables del modelo de lenguaje de Gemini. En otras palabras: el motor que permite a la IA alimentarse de grandes cantidades de datos y establecer relaciones entre la información recolectada para poder ofrecer respuestas coherentes y válidas. Si bien no es uno de los padres de la IA, sí es el maestro que le enseña a hablar.
Vinyals se enamoró de la inteligencia artificial desde que un profesor del MIT dio una charla en la Universitat Politècnica de Barcelona (UPC), donde él estudiaba. Ahí se gestó una pasión que lo llevó a seguir formándose en Estados Unidos, concretamente en California, donde Google tiene la sede. Tras tantos añosa fuera, volvió a la UPC, donde este miércoles lo nombraron Honoris Causa solo unos días después de que Google sacara la última versión de Gemini que, según los expertos, supuso un salto cualitativo que superó a ChatGPT.
-La semana pasada se lanzó Gemini 3. ¿En qué cambió respecto la versión anterior?
-Gemini es el modelo de lenguaje que alimenta muchos productos de Google, desde el buscador a YouTube. Lo que hace esta versión es lo mismo que la anterior, pero mucho mejor. Un ejemplo: la generación de imágenes ha dado un salto enorme. Ahora puedes añadir a alguien que no estaba o cambiarle la ropa. Además, las letras o el texto que aparecerán en estas imágenes será correcto, no letras abstractas como pasaba antes.
Aparte de la calidad de las imágenes y el texto, también ha mejorado mucho la escritura de código de programación y el razonamiento matemático. También estamos empezando a entender la personalidad de estos modelos y a mejorarla a partir de lo que nos dicen los usuarios.
Hemos notado que Gemini era demasiado complaciente. Siempre respondía diciendo “¡Qué buena pregunta” y eso no gustaba a los usuarios
-¿Personalidad? ¿Qué personalidad tiene Gemini?
-[Risas] ¡Esta es difícil! No es sencillo decirlo con una palabra, lo que analizamos es cómo interactúa, si responde rápido, si se pone a la defensiva. Depende de las instrucciones que le des y de cómo le hables. Como con los humanos. Pero es verdad que lo que hemos notado y estamos cambiando es que era demasiado complaciente. Siempre respondía diciendo “¡Qué buena pregunta” y cosas así. Eso no gustaba a los usuarios y ahora estamos intentando que sea más neutral.
-Esta emulación de las relaciones humanas hace que muchas personas teman a la IA. ¿Cree que hay motivos para ello?
-Es natural que los cambios tecnológicos asusten. Sobre todo ahora, que hay más y se suceden más rápido. Es muy importante hablar con esta gente que siente miedo para que puedan entender qué hace esta herramienta, cómo afectará a su trabajo, cómo puede mejorar cosas de su día a día.
-Precisamente perder el trabajo es uno de los mayores temores de la gente. ¿Está justificado?
-Depende de la profesión. Mira, ahora en lugar de usar un programa de edición de fotos que requiera un conocimiento muy especial, puedes pedírselo a la IA para que, qué sé yo, tú salgas con un gorrito de Navidad. Eso rebaja la barrera de entrada a ciertos trabajos en los que se requerían capacidades concretas. Lo que nos toca como profesionales de Google es entender a los profesionales y ver qué necesitan.
Ahora estamos colaborando con artistas de cine o artistas para ver cómo pueden usar la IA en un momento en que la cinematografía y el arte van a pasar por cambios enormes. Lo importante es verlo como una posibilidad, no una amenaza. Igual que pasó con Internet: mucha gente le tenía miedo y ahora es imprescindible.
-Pero entonces, los profesionales como los editores de fotos sí podrían ser sustituidos por la IA.
-Habrá una transformación. Algunos cambios serán buenos y otros no tanto, pero la evolución nos llevará a trabajos que serán más valorados si los hace un humano y a otros que se transformarán. Habrá empleos que se podrán automatizar más, pero todavía queda lejos porque seguimos necesitando humanos detrás de la IA.
A mí me gusta enfocarlo desde el punto de vista optimista y ver cómo puede ayudar a mejorar el mundo. Ahora estamos en una universidad, donde hay profesores magníficos, pero no todo el mundo tiene acceso a una carrera. Pues la IA te permite tener un tutor en cualquier lugar del mundo. Los científicos también se verán beneficiados porque la IA les permitirá analizar pruebas diagnósticas más rápido y mejor. Así que un solo doctor podrá ver a más pacientes y dedicarse más a los casos complejos. Demis Hassabis, CEO de DeepMind, dice que la revolución de la IA será como la revolución industrial, pero 10 veces mayor y más rápida.
-Los periodistas somos uno de los colectivos inquietos por los avances de la IA. Antes de venir le pedí a Gemini que me preparara preguntas para usted y debo decirle que no me gustaron. ¿Cree que en algún momento la IA podría hacerle esta entrevista?
-¡Está bien que lo hayas probado! Y es cierto que hay camino por recorrer. Podrá prepararte preguntas, pero lo que no podrá hacer es conocer la historia y el contexto social y preguntar en consecuencia. La IA interacciona con la gente y cuanto más lo haga, mejores preguntas hará, pero la conexión humana seguirá siendo importante. Así que no creo que pudiera hacerme esta entrevista, al menos de momento.
Hoy en día cuesta saber qué es verdad y qué no. Es un momento en el que hay muchas opiniones, debates y discusiones
-Además del miedo a quedarse sin trabajo, otra cosa que preocupa a la sociedad es que no poder saber qué es real, sobre todo ahora que la generación de textos e imágenes ha alcanzado este nivel. ¿Les preocupa, como desarrolladores, el uso que se hace de la IA?
-Cada compañía tiene políticas y filosofías diferentes. Desde Google siempre hemos tenido claro que queremos desarrollar los sistemas más potentes del mundo y descubrir cómo funciona la inteligencia humana a través de la inteligencia artificial. Pero siempre desde la responsabilidad. Antes de sacar cada modelo hacemos muchas pruebas, pero es muy difícil tener en cuenta todos los usos que se le va a dar porque hay millones de usuarios.
Hay usos sorprendentes y, ante ellos, podemos revisar y ajustar el modelo. Pero es necesario tener en cuenta que hay una coadaptación entre la tecnología y la sociedad, el problema es que la irrupción de los chatbots ha sido muy rápida y, quizás, no ha habido este tiempo para adaptarse. Por eso creo que es muy importante educar e informar a la gente.
Nuestro papel es el de introducir ciertos cambios. Lo que decía antes de hacer que Gemini sea menos complaciente es importante para que no responda “¡Qué buena pregunta!” si le pides algo que sea... complicado. O que te pueda advertir si le pides algo que no deberías pedirle. Pero es verdad que hoy en día cuesta saber qué es verdad y qué no. Es un momento en el que hay muchas opiniones, debates y discusiones.
-Podemos entrar en debates sobre muchas cosas, pero antes me decía que, por ejemplo, la IA puede ponerme un gorrito de Navidad en una foto. Si yo no he llevado nunca ese gorro, lo miremos como lo miremos, esa foto cuenta una mentira. ¿Le preocupa que la IA pueda ser usada para difundir fake news?
-Todo depende de quien use la tecnología. Nosotros aseguramos que tenemos herramientas muy fiables que permiten verificar rápidamente si una imagen ha sido generada. Estas marcas han existido siempre: están diseñadas para que el usuario no las vea, pero los metadatos son claros. Y son accesibles a cualquier medio de comunicación que quiera corroborar si unas imágenes o textos son originales o no. Es una herramienta que se llama Synth ID y que desarrollamos desde el primer día. Luego, obviamente, en plataformas nuestras como YouTube, tiene que quedar muy claro si un vídeo es real o no.
-En YouTube esa opción todavía no está disponible
-No, pero es que la generación de vídeos todavía no es mainstream en YouTube, así como sí pasa en otras plataformas. Pero cuando pase, estará controlado. Evidentemente, no podemos hacer nada respecto a lo que se publique en otros sitios. La tecnología de verificación existe y nuestra responsabilidad es garantizar que vaya bien. Más allá de eso, sabemos que habrá gente que no la usará.
-Hay diversos estudios que alertan de que los datos disponibles para entrenar y mejorar la IA se han agotado. ¿Es así?
-Sí. Estamos en una fase llamada preentrenamiento, que es la más larga de todas. Es cuando entrenamos a este cerebro que, al principio, no tiene ninguna inteligencia. Hemos usado todos los datos de calidad alta y media, porque el objetivo es obtener todo el conocimiento de la humanidad a través de las bases de datos abiertas de Internet.
Pero una vez agotada esta fuente, hay otras maneras de obtener más datos. Los modelos son bastante buenos como para pensar que ellos mismos pueden crear datos nuevos o, al menos, reformular los que ya existen. Si puedes manipular una foto con un modelo, en lugar de una foto ya tienes diez. Si esas imágenes son buenas, pueden servir de entrenamiento para que la IA siga aprendiendo. Es complicado, pero no hemos encontrado la manera perfecta de crear más datos.
La IA tiene un nivel de inteligencia suficiente como para empezar a cubrir las partes del conocimiento sobre las que todavía no hay tantos datos
-¿Y esperar a que la humanidad genere más datos?
-Si esperáramos unos años, podríamos escribir más información y los modelos mejorarían de manera natural. Pero los modelos tienen un nivel de inteligencia suficiente como para empezar a cubrir las partes del conocimiento sobre las que todavía no hay tantos datos. No es fácil, pero es algo que nos demuestra que los modelos seguirán mejorando. Hoy no parece que haya un límite de crecimiento y mejora para la IA.
-Pero es sabido que la IA reproduce errores de datos o sesgos, ya sean racistas o de género. ¿Alimentar los modelos con datos generados por esos mismos modelos no supone profundizar en el error y el sesgo?
-Es un tema muy interesante. A la gente le gusta probar la IA y encontrar errores; uno de los más recientes salió cuando un usuario preguntó cuantas R tiene la palabra Strawberry [fresa en inglés] y la respuesta fue dos. Así que, seguramente, con toda la conversación que hay ahora en Internet sobre este error absurdo, si entrenamos al motor con datos generados por él mismo, perpetuará la idea de que strawberry tiene dos R.
En esta fase de preentrenamiento que lleva a imitar el conocimiento, los sesgos formarán parte del modelo. Pero para eso está el postentrenamiento, que es donde se da la oportunidad de corregir. Porque es más fácil detectar el error que no producirlo.
-Pero ¿cómo se detecta el error si la base está mal?
-Con modelos que evalúan el primer modelo. Hay errores que son muy obvios y, por tanto, fáciles de corregir, como que strawberry tiene tres R en lugar de dos.
En Inteligencia Artificial es más fácil detectar el error que no evitar cometerlo
-Si es tan obvio, ¿por qué no se detecta y corrige antes?
-Siguiendo el caso de strawberry: porque no tenemos aplicado un modelo dedicado a contar letras de palabras, que es sencillo de diseñar, y se aplica en el momento en que se detecta que hay un error en este campo. Si no se aplica antes es porque los chatbots son herramientas al alcance de muchos usuarios y tienen que ir relativamente rápido. Si tuviéramos tres horas, podríamos esperar a que implementara este modelo dedicado a contar letras de palabras y así, seguro, nos diría exactamente lo que necesitamos saber. Pero hay que ir más rápido. Por eso digo que es más fácil detectar el error que no evitar cometerlo. Es a partir de la detección del error cuando se hace el postentrenamiento.
Queremos que nuestros motores sean lo más fiables posible y, por eso, aunque siempre podrá haber errores cómicos, cada vez serán menos frecuentes y menos ridículos.
-Esta semana, se publicó un artículo sobre expertos que trabajan en desarrollo de la IA y recomiendan a sus familiares y amigos que no la usen. ¿Coincide con ellos?
-Yo soy padre y te digo que con la tecnología se tiene que tener cierto sentido común. Y, en base a ese sentido común, no tengo problema en usar la IA cuando mis hijos se ponen enfermos para saber qué tienen. Es una búsqueda mucho más personalizada que la de Google, al que, por supuesto, se debe seguir recurriendo para consultar páginas web oficiales. Pero nunca me agarro al pie de la letra a lo que diga, a no ser que ya tenga conocimientos previos sobre la materia. Tienes que ser crítico con lo que lees.
Ahora, otra cosa es, como padre, qué relación creo que mis dos hijos deben tener con la IA, pero también con las pantallas. Como conocedor, no usaría la palabra ‘peligroso’, pero entiendo que hay incertidumbre porque todavía no hay estudios sobre las consecuencias de la exposición a las tecnologías.
-Dice que usa los chatbots para consultar síntomas. ¿Qué opina de la gente que los usa como psicólogo?
-Ese es un uso muy personal. Puede ser que tengas un conflicto laboral o una situación complicada. En esos casos, la IA quizás te da un punto de vista en el que no hayas pensado. El problema es cuando se convierte en una adicción. Tengo que decir, además, que el modelo de Google es muy general y no está diseñado para eso, pero sí hay start-ups que están intentando ajustar sus chats específicamente para eso.
En esos casos, al final te proporcionan un mentor que te puede ayudar. Seguro que hay casos en los que, lamentablemente, no ayuda, pero por lo general puede ser una herramienta interesante siempre que sea para uso puntual y que tengamos claro que detrás de esas palabras hay una inteligencia artificial, no una humana.
0