Estamos en una clase de literatura en una escuela secundaria. La profesora está enseñando qué es un haiku, un poema de tres versos de origen japonés que transmite una imagen o emoción. Para saber si un alumno en concreto ha entendido el concepto, normalmente le pedirá que lo defina y que redacte uno. Puede que la definición sea mejorable, pero si escribe un buen haiku, la profesora asumirá que va por buen camino.
Esto funciona porque, para los humanos, aplicar un concepto correctamente es la mejor prueba de que lo hemos entendido. Es algo básico en nuestro aprendizaje. Sin embargo, desde la irrupción de las inteligencias artificiales generativas nos hemos encontrado con una realidad que choca frontalmente con nuestro método. Estos algoritmos pueden definir algo perfectamente (de hecho, lo hacen en el 94% de las ocasiones) pero fallar más de la mitad de las veces si se les pide que lo pongan en práctica.
Son los resultados de un estudio preliminar elaborado por Investigadores del Instituto Tecnológico de Massachusetts (MIT) y de las universidades de Harvard y Chicago. Este ha conseguido recoger evidencias sólidas de lo que muchos llevaban años avisando: las inteligencias artificiales generativas de texto no entienden lo que escriben. Pero, además, han profundizado en el fenómeno y las razones por las que se produce. También han propuesto un nombre para él: la “comprensión potemkin”.
Una fachada
El término de “comprensión potemkin” evoca el mito de las aldeas potemkin. Según la leyenda (discutida hoy por los historiadores), estas fueron construidas por Grigori Potemkin, valido y amante de Catalina la Grande de Rusia. Durante un viaje de la zarina por Crimea en 1787 junto a embajadores extranjeros, Potemkin habría mandado construir pueblos falsos para impresionarla y ocultar la pobreza real de la región. Con casas compuestas solo de fachadas, campesinos traídos para la ocasión y animales alquilados, su objetivo era dar una falsa impresión de prosperidad.
Los investigadores utilizan esta analogía en su estudio como metáfora de la “fachada” de raciocinio que los modelos de IA construyen ante nosotros. Una “ilusión de comprensión” que les permite explicar casi cualquier término por el que se les pregunte sin ser capaces de aplicarlo, dando “respuestas irreconciliables con la forma en que cualquier humano interpretaría un concepto”.
Los exámenes humanos no sirven para la IA
Los investigadores definen los potemkins de la IA como “malentendidos no humanos”, ya que son incompatibles con la manera en la que nosotros asimilamos el conocimiento. “Estos fallos reflejan no solo una comprensión incorrecta, sino una incoherencia interna más profunda en las representaciones conceptuales”, destacan.
La principal consecuencia de este descubrimiento es que los exámenes para humanos, que las empresas de IA utilizan habitualmente para publicitar la potencia de sus modelos, no son “válidos” para evaluar su capacidad real, avisan los investigadores.
“Los exámenes diseñados para humanos solo son pruebas válidas para los modelos de lenguaje si el espacio de malentendidos de estos está estructurado de la misma manera que el espacio de malentendidos humanos”, explican. Pero “si los malentendidos de los modelos de malentendidos divergen de los patrones humanos, los modelos pueden tener éxito en los exámenes sin comprender los conceptos subyacentes”, concluyen.
Son, en resumen, como un alumno que lo aprende todo de memoria. Pero con una capacidad de memorizar millones de páginas de documentos en segundos y mantenerlas en su cabeza indefinidamente.
No son lo mismo que las alucinaciones
Las alucinaciones, esos detalles inventados que los modelos cuelan en sus respuestas como si fueran verdaderos, han sido uno de los grandes problemas de la IA generativa desde la popularización de estos sistemas. Son las causantes de que sea necesario revisar pormenorizadamente todos los contenidos que generan, ya los modelos las integran y relacionan con el resto de conceptos a la perfección, haciendo que en ocasiones sean difíciles de detectar para personas sin conocimientos de la materia.
Sin embargo, son un problema independiente de los potemkins. Tampoco son una consecuencia de ellos. “Los potemkins son al conocimiento conceptual lo que las alucinaciones son al conocimiento fáctico: las alucinaciones fabrican hechos falsos; los potemkins fabrican una falsa coherencia conceptual”, explican los investigadores.
“Sin embargo, los potemkins plantean un desafío mayor”, avisa el estudio: “las alucinaciones pueden exponerse mediante la verificación de hechos, pero los potemkins requieren desentrañar inconsistencias sutiles en la aparente comprensión de un modelo”, continúan.
Si bien una alucinación puede resultar evidente para las personas que controlan una determinada materia, los potemkins son algo más profundo. Hay que bucear mucho más en las redes neuronales de la IA para desentrañar dónde ha tenido el patinazo conceptual.
Un problema común en todas las IAs
Los investigadores buscaron potemkins en los principales modelos de IA. Desde Llama (desarrollado por Meta) a Gemini (Google), pasando por Claude (Anthropic) y GPT-4o, GPT-o1-mini y GPT-o3-mini (que impulsan las diferentes versiones de ChaGPT). También en los modelos chinos DeepSeek-V3, DeepSeek-R1, así como Qwen2-VL (del gigante chino Alibaba). El resultado fue que los potemkins aparecieron en todos ellos y con tasas de prevalencia notablemente elevadas.
“Son ubicuos en todos los modelos, tareas y dominios de conocimiento”, destaca el estudio, cuyos resultados deberán ahora ser contrastados por científicos de equipos independientes. “Aunque los modelos definen los conceptos correctamente el 94.2% de las veces, su rendimiento disminuye drásticamente cuando se les pide que utilicen esos conceptos”, abunda.
En concreto, los fallos llegaron a ser del 55% cuando los investigadores pedían a la IA que clasificara los conceptos en diferentes categorías (tras haberlos definido correctamente), y del 40% cuando se les solicitaba que generaran ejemplos en base a ellos o que los editaran.
Los autores llegaron a estos resultados a partir de 32 pruebas diseñadas específicamente para medir la desconexión entre la capacidad de un modelo para explicar un concepto y su habilidad para aplicarlo. Doce de ellas eran de técnicas literarias, como rimas asonantes, analogías o paradojas; nueve eran sobre teoría de juegos, como juegos de suma cero o el equilibrio de Nash; y las once restantes eran sesgos psicológicos, como la falacia del coste hundido o el efecto IKEA.
Estas tareas, que requieren una comprensión más profunda del concepto que su mera definición, destaparon las costuras de los sistemas de IA. Se observó incoherencia en todos los modelos examinados, conceptos y dominios, lo que para los investigadores sugiere que los malentendidos conceptuales surgen no solo de concebir erróneamente los conceptos, sino también de usarlos de manera irracional.
Aunque no entra en grandes debates, el estudio se sitúa en la línea de los tecnólogos y expertos que han avisado que ChatGPT y el resto de los modelos de lenguaje no son realmente “un primer paso” para lograr inteligencias artificiales con capacidades similares a la nuestra. Los potemkins conceptuales son una prueba más de la desconexión profunda entre el raciocinio humano y las capacidades de estos sistemas, así como de que harán falta avances mucho mayores y no solo fuerza bruta matemática para salvar el bache entre ambas.