Por qué las alucinaciones de la IA no van a desaparecer con el próximo modelo

Ya estamos en 2026 y los modelos de lenguaje siguen inventándose datos con una naturalidad pasmosa. Yo llevo dos años metido de lleno en esto, probando herramientas, integrando APIs, leyendo cada paper que cae, y la conclusión que he sacado es esta: el problema de las alucinaciones en la IA no se va a resolver porque no es un bug. Es una característica estructural del sistema.

Lo sé, suena duro. Y sé también que hay mucha gente vendiendo narrativas más optimistas. Pero vamos a hablar de lo que de verdad está pasando.

El titular que no te están contando

A principios de este año, OpenAI reconoció algo que muchos sabíamos pero que pocos decían en voz alta: las alucinaciones en los LLMs son matemáticamente inevitables. No son un fallo de ingeniería que se puede parchear con más datos o más parámetros. Son el resultado de cómo funcionan estos modelos por dentro.

El estudio identificó tres factores concretos. Primero, la incertidumbre epistémica: cuando cierta información aparece muy pocas veces en los datos de entrenamiento, el modelo no tiene base suficiente para ser preciso y rellena los huecos con probabilidades. Segundo, las limitaciones propias del modelo para distinguir entre lo que sabe de verdad y lo que está generando por extrapolación. Y tercero, la presión implícita del sistema para producir siempre una respuesta, aunque no tenga los datos para hacerlo bien.

Dicho de otra forma: el modelo prefiere inventarse algo plausible antes que decirte «no lo sé».

Los modelos de razonamiento no son la solución que te han vendido

Con la llegada de los modelos de razonamiento, muchos pensamos que el problema iba a mejorar de forma significativa. Yo mismo lo pensé. La idea es simple: si el modelo piensa paso a paso antes de responder, debería cometer menos errores.

La realidad es más complicada. Un benchmark reciente de investigadores suizos y alemanes muestra que incluso los modelos más potentes, con búsqueda web activada, siguen generando información incorrecta en casi un tercio de los casos. No es un dato anecdótico. Es sistemático.

Y lo más curioso, que señalan desde eye2.ai, es que los modelos de «pensamiento profundo» a veces alucian más que los modelos estándar. La razón es que con más pasos de razonamiento también hay más oportunidades de que el modelo se desvíe o se contradiga a sí mismo. El proceso de pensar en voz alta puede amplificar el error en lugar de corregirlo.

Por qué seguimos usando estas herramientas de todas formas

Aquí es donde la conversación se pone interesante. Porque a pesar de todo lo anterior, yo sigo usando modelos de lenguaje cada día. Y mucha gente también. La pregunta es por qué, si sabemos que fallan.

La respuesta honesta es que el coste de verificación es asumible cuando el contexto lo permite. Si le pido a un modelo que me ayude a estructurar un argumento, o que me proponga titulares, o que me resuma un texto largo, el error que pueda cometer es fácil de detectar. El problema llega cuando alguien usa estas herramientas para obtener información factual sin verificar, o cuando se integran en sistemas críticos que no tienen revisión humana.

En el ámbito de la salud, el derecho, las finanzas o la educación, una alucinación no es un error menor. Es un riesgo real. Y ahí es donde creo que la industria tiene un problema de comunicación serio.

La narrativa del «mejora con cada versión» hace daño

Cada vez que sale un modelo nuevo, el ciclo es el mismo: benchmarks impresionantes, titulares sobre el salto cualitativo, demos cuidadosamente seleccionadas. Y luego, a las pocas semanas, empieza a acumularse evidencia de que en entornos reales el rendimiento es mucho más errático de lo que prometían los números.

No digo que los modelos no mejoren. Sí mejoran, y en muchas tareas el progreso es real. Pero la narrativa de que cada versión resuelve el problema de las alucinaciones es, en el mejor de los casos, un optimismo prematuro. En el peor, es marketing que confunde a usuarios que toman decisiones basándose en esa confianza.

La biblioteca de Duke planteó en enero una pregunta que me parece clave: si los modelos de razonamiento son más inteligentes y más precisos, ¿por qué las alucinaciones persisten? La respuesta, como hemos visto, está en la naturaleza matemática del problema. Y eso debería cambiar radicalmente cómo vendemos y desplegamos estas herramientas.

Lo que deberías hacer con esta información

Si usas IA en tu trabajo, lo primero es asumir que el modelo puede equivocarse en cualquier momento, no solo cuando te da una respuesta que parece rara. Los errores más peligrosos son los que suenan completamente coherentes.

Segundo, invierte tiempo en desarrollar criterio propio sobre el dominio en el que usas IA. Si no sabes lo suficiente para detectar un error, el modelo tiene demasiado poder sobre tu trabajo.

Y tercero, cuando evalúes una herramienta de IA para un caso de uso crítico, no te quedes con los benchmarks. Prueba en condiciones reales, con datos reales, y mide cuántas veces falla de formas que importan.

El problema de las alucinaciones no va a desaparecer con el próximo modelo. Forma parte de la arquitectura. La pregunta que te hago es esta: ¿cuánta responsabilidad estás delegando en un sistema que matemáticamente no puede garantizar que lo que te dice es verdad?

Fuentes

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Scroll al inicio