En el campo de los modelos de lenguaje (LLMs), alucinar significa generar información que parece plausible pero no es cierta. Y aquí está la trampa que mucha gente no entiende: el modelo no distingue entre "sabe algo" y "se lo está inventando". Para él, las dos operaciones son la misma cosa, porque su mecanismo interno es siempre el mismo.
Lo que un LLM hace, en cada respuesta, es:
1. Recibe un prompt (tu mensaje + contexto + historial).
2. Lo convierte en tokens.
3. Calcula, palabra por palabra, cuál es el siguiente token más probable dada la secuencia anterior.
4. Lo escribe.
5. Repite.
No hay un módulo de "verificación de verdad". No hay una base de datos donde busca antes de contestar (a no ser que se la conectes explícitamente). Solo hay un cálculo de probabilidades sobre lo que ha aprendido durante el entrenamiento.
Cuando acierta, ¿qué ha pasado? Que la respuesta más probable resulta ser, además, correcta. Porque en su entrenamiento había abundante texto coherente sobre ese tema, y la probabilidad de los tokens correctos era alta.
Cuando falla, ¿qué ha pasado? Que la respuesta más probable era plausible pero no real. Algunos casos típicos: la pregunta es muy específica y no había datos suficientes. La pregunta toca algo que cambia con el tiempo. La pregunta es sobre algo poco frecuente en sus datos. La forma de la pregunta lo empuja hacia una respuesta concreta.
En todos esos casos, el modelo te entrega la respuesta con la misma confianza estilística que cuando acierta. Esta es la trampa: la confianza con la que te lo dice no se correlaciona con que sea verdad.