CLASE 04 · ALUCINACIONES · PROBABILIDADES · DEEP RESEARCH · VERIFICACIÓN

La IA siempre alucina

La IA no sabe nada. Calcula la siguiente palabra más probable y te la entrega con cara de saberlo todo. Cuando acierta, no es porque haya entendido: es porque la respuesta probable era la correcta. Cuando se equivoca, lo hace con la misma seguridad. En esta clase aprendes a no caer en el cuento.

Empezar la clase ↓ Saltar al resumen final
01

Qué significa que la IA alucine

Empezamos por lo fuerte. La palabra "alucinar" en este contexto no es metáfora, es vocabulario técnico. Y describe lo que pasa absolutamente siempre.

Técnico

En el campo de los modelos de lenguaje (LLMs), alucinar significa generar información que parece plausible pero no es cierta. Y aquí está la trampa que mucha gente no entiende: el modelo no distingue entre "sabe algo" y "se lo está inventando". Para él, las dos operaciones son la misma cosa, porque su mecanismo interno es siempre el mismo.

Lo que un LLM hace, en cada respuesta, es:

1. Recibe un prompt (tu mensaje + contexto + historial).

2. Lo convierte en tokens.

3. Calcula, palabra por palabra, cuál es el siguiente token más probable dada la secuencia anterior.

4. Lo escribe.

5. Repite.

No hay un módulo de "verificación de verdad". No hay una base de datos donde busca antes de contestar (a no ser que se la conectes explícitamente). Solo hay un cálculo de probabilidades sobre lo que ha aprendido durante el entrenamiento.

Cuando acierta, ¿qué ha pasado? Que la respuesta más probable resulta ser, además, correcta. Porque en su entrenamiento había abundante texto coherente sobre ese tema, y la probabilidad de los tokens correctos era alta.

Cuando falla, ¿qué ha pasado? Que la respuesta más probable era plausible pero no real. Algunos casos típicos: la pregunta es muy específica y no había datos suficientes. La pregunta toca algo que cambia con el tiempo. La pregunta es sobre algo poco frecuente en sus datos. La forma de la pregunta lo empuja hacia una respuesta concreta.

En todos esos casos, el modelo te entrega la respuesta con la misma confianza estilística que cuando acierta. Esta es la trampa: la confianza con la que te lo dice no se correlaciona con que sea verdad.

Kuki lenguaje

Imagínate a alguien que ha leído todos los libros del mundo y ha aprendido un truco: completar frases. Tú le dices "la capital de Francia es..." y completa "París". Y acierta. Le dices "el río más largo de España es..." y completa "el Tajo". Y acierta también.

Ahora le preguntas: "¿qué dice el artículo 47 del estatuto de la asociación de criadores de gallinas de Albacete?". Esta persona no se ha leído ese estatuto. Pero como el truco es completar frases con lo que parece más probable, te suelta: "El artículo 47 establece que los socios deben pagar una cuota mensual de 30 euros y mantener al menos cinco aves registradas". Suena plausible. Tiene la forma de un artículo de estatuto. Pero se lo acaba de inventar y te lo está diciendo igual de segura que cuando te dijo París.

Eso es alucinar. Y aquí va la parte que duele: el modelo no sabe cuándo está acertando y cuándo está alucinando. Para él son exactamente la misma operación. Así que tampoco te puede avisar.

Tu trabajo, a partir de ahora, es asumir que TODA respuesta puede ser una alucinación, y aplicar herramientas para reducir el riesgo. No para eliminarlo, porque eliminar no se puede. Para reducirlo.

02

Por qué la IA suena tan segura cuando se equivoca

Si la IA estuviera dudando todo el rato, sería más fácil detectarla. El problema es que escribe igual de bien cuando inventa que cuando no.

Técnico

Los LLMs están entrenados con cantidades enormes de texto humano coherente: artículos, libros, páginas web bien redactadas, documentación. De ese entrenamiento aprenden, entre otras cosas, el estilo de la confianza: frases bien construidas, datos puestos como datos, citas con la forma de citas, números con la forma de números.

El modelo replica ese estilo cuando genera, independientemente de si lo que está escribiendo es verdad. La forma de "datos seguros" se aplica tanto a hechos reales como a invenciones plausibles.

A esto se suma un segundo factor: el reinforcement learning con feedback humano (RLHF) que se aplica durante el entrenamiento. Los modelos aprenden que las respuestas dudosas, vacilantes o llenas de "no estoy seguro" reciben peor puntuación de quienes los entrenan. Así que aprenden a sonar seguros, incluso cuando no tienen base.

Resultado: el modelo genera con tono de experto siempre. La duda no está visualmente codificada en su forma de escribir.

Algunos modelos modernos tienen mecanismos de auto-verificación (Claude, GPT-5.4 Thinking, Gemini Deep Think pueden razonar antes de responder y a veces detectan sus propias incertidumbres). Pero ni con esos mecanismos se elimina el problema. Solo se reduce.

Kuki lenguaje

Imagínate a la persona del ejemplo anterior, la que ha leído todos los libros del mundo. Ahora añádele otra cosa: ha estado años trabajando como presentadora de telediario. Ha aprendido que la información se da con voz firme, con buen ritmo, sin dudar, mirando a cámara.

Cuando lee una noticia real, la da con esa voz. Cuando le toca improvisar porque no tiene la noticia delante, sigue dando con esa voz. Es la misma voz. Es el único registro que sabe usar.

Por eso cuando la IA te dice "según el artículo 47 del estatuto", suena igual de seria que cuando te dice "París es la capital de Francia". Si la IA tartamudeara o dudara cuando inventa, sería fácil pillarla. Pero no lo hace. Lo hace todo en el mismo tono perfecto de presentadora.

Esto significa una cosa práctica: la confianza con la que te llega una respuesta no es información. No te la creas más por sonar segura. La seguridad es siempre la misma. Lo que cambia es que en unos casos lo que dice es verdad y en otros se lo está inventando.

03

Las cuatro situaciones donde la IA alucina más

Hay zonas de riesgo. Si las identificas, sabes cuándo bajar la guardia y cuándo subirla.

Técnico

Las alucinaciones se concentran en cuatro tipos de situación:

1. Información que cambia con el tiempo. Leyes, precios, versiones de software, plantillas vivas, tipos impositivos, listados de productos, datos de empresas, organigramas. Si la respuesta correcta puede haber cambiado desde el entrenamiento del modelo, hay alta probabilidad de alucinación. La IA no sabe que algo está obsoleto.

2. Información muy específica o de nicho. Datos de personas no famosas, eventos locales, normativas regionales, jerga sectorial, productos de poca difusión, autores poco citados, libros poco traducidos, asociaciones pequeñas. Cuanta menos huella tenga algo en internet, más probabilidad de que el modelo lo invente para parecer útil.

3. Tareas que requieren cálculo o lógica precisa. Operaciones matemáticas con muchos pasos, fechas, conversiones de unidades, contabilidad, citas legales con artículos exactos, referencias bibliográficas con páginas. La IA no calcula como una calculadora: predice. Y predecir mal una cifra es muy fácil.

4. Tareas donde la pregunta sugiere una respuesta. Si tú preguntas "¿es verdad que X dijo Y?", la IA tiende a confirmar antes que a desmentir, porque la forma de la pregunta la empuja hacia el "sí". Si formulas mal la pregunta, induces alucinaciones tú misma sin querer.

Patrón común a las cuatro: en todos los casos, el problema es el mismo: el modelo prioriza dar una respuesta plausible antes que admitir que no sabe. Y por defecto, la mayoría de modelos casi nunca dicen "no sé". Han aprendido que decir "no sé" se penaliza.

Kuki lenguaje

Piensa en cuatro tipos de pregunta que harían dudar a cualquier persona:

1. "¿Cuánto cuesta hoy un pan en el horno de la esquina?" Quien no esté ahí ahora mismo, no lo sabe. Si te contesta, se lo está inventando. La IA es esa persona: sabe lo que costaba en general en cierto momento, no lo que cuesta hoy.

2. "¿Quién ganó el premio de microemprendimiento femenino del Ayuntamiento de Getxo en 2024?" Pregunta muy específica de un sitio concreto. Quien no estuviera allí, no lo sabe. La IA tampoco. Pero si tiene fragmentos sueltos de premios y de Getxo, puede ensamblar una respuesta inventada que suena verídica.

3. "Cuánto es 4.873 multiplicado por 219, dividido entre 17, redondeado al alza." Una calculadora lo hace bien. Una persona puede equivocarse. Una IA puede sacar un número que tenga la pinta correcta pero sea distinto del real. Para esto hay herramientas mejores.

4. "Verdad que el café es bueno para la concentración?" La pregunta sugiere que quieres oír "sí". La IA tiende a darte ese sí. Si quieres respuestas matizadas, formula con neutralidad: "¿qué evidencia hay sobre el café y la concentración?".

Cuando estés en una de esas cuatro situaciones, sube tu nivel de desconfianza. Es exactamente cuando vas a aplicar las herramientas que vienen en las próximas lecciones.

Las cuatro zonas de riesgo de alucinación

1 Datos temporales Leyes, precios, versiones, organigramas. Todo lo que cambia con el tiempo.
2 Datos de nicho Eventos locales, normativas regionales, personas no famosas, asociaciones pequeñas.
3 Cálculo preciso Matemáticas, fechas, contabilidad, citas legales con número exacto de artículo.
4 Pregunta sesgada Preguntas que sugieren respuesta. La IA tiende a confirmar lo que quieres oír.
04

Deep research, la herramienta que cambia todo

Hay un gesto que reduce alucinaciones a la mitad o más. Solo hay que aprender a pedirlo.

Técnico

Las plataformas modernas de IA incluyen un modo llamado deep research (también conocido como "investigación profunda" o "research" según la plataforma). Es una funcionalidad que activas cuando hagas una pregunta donde la precisión importa.

Qué hace deep research:

Cuando lo activas, la IA no responde con su predicción de tokens directamente. Antes, hace varias cosas:

1. Identifica las preguntas concretas que tu prompt requiere responder.

2. Busca en internet fuentes oficiales que tengan información actualizada.

3. Lee y compara varias fuentes para detectar contradicciones.

4. Genera una respuesta basada en lo que ha encontrado, citando las fuentes.

El resultado es radicalmente distinto: en lugar de una respuesta plausible, obtienes una respuesta con base, con citas verificables, y con menos riesgo de alucinación.

Disponibilidad:

Claude: "Research" disponible en planes pagos.

ChatGPT: "Deep Research" disponible en planes Plus y superiores.

Gemini: "Deep Research" disponible incluso en algunos niveles gratuitos.

Cuándo usarlo: Cualquier pregunta sobre información actualizada (leyes, precios, eventos recientes). Cualquier pregunta que requiera datos verificables. Cualquier comparativa de productos, servicios, empresas. Cualquier pregunta donde la respuesta vaya a usarse para tomar una decisión.

Cuándo NO hace falta: Conversación normal. Generación creativa. Preguntas conceptuales generales. Tareas donde la verdad histórica ya está consolidada.

Coste: Deep research consume más tokens y más tiempo (puede tardar varios minutos). No lo uses para todo, úsalo cuando importe.

Kuki lenguaje

Deep research es el equivalente a decirle a alguien:

"No me contestes de cabeza. Antes de responderme, busca en sitios oficiales y dime con qué fuentes me lo confirmas."

Si tú le preguntas a una experta sobre algo importante, la respuesta que valoras no es la que sale de cabeza. Es la que viene precedida de un "déjame verificar" y termina con un "según el documento X que está en la web Y".

La IA puede hacer eso si se lo pides explícitamente. Si no se lo pides, te contesta de cabeza. Y "de cabeza" en una IA significa adivinar la respuesta más probable.

El gesto exacto que tienes que interiorizar: cuando la pregunta es importante, antes de leer la respuesta, comprueba que has activado deep research. Si no estaba activado, vuelve a preguntar con él activado.

Y un detalle: pídele que cite las fuentes. Si la respuesta cita y tú abres una de las fuentes y compruebas que dice lo mismo, ya tienes una capa de verificación humana. Si no cita, no te fíes.

05

La estructura de archivos también reduce alucinaciones

La otra forma de combatir alucinaciones no es preguntar mejor, sino cambiar el contexto en el que pregunta el modelo.

Técnico

Cuando la IA tiene acceso a archivos concretos con información real (en lugar de tener que tirar de su entrenamiento), las alucinaciones bajan brutalmente en ese dominio. La razón es simple: en lugar de predecir basándose en estadísticas generales, está leyendo el dato.

Esto se aplica en tres niveles:

1. Subir archivos puntuales. En la plataforma web puedes subir un PDF, un Excel, un Word. La IA los lee y responde basándose en ellos. Reduce alucinaciones para preguntas sobre ese documento concreto.

2. Carpetas de proyecto en IDE. Cuando trabajas en Visual Studio Code con Claude Code, la IA tiene acceso a todos los archivos del proyecto. Si le preguntas algo sobre tu código, lee el código real. Si tiene tu documentación en markdown, la lee.

3. Skills y agent.md. Archivos específicos que le enseñan al modelo a trabajar en un dominio concreto, con instrucciones precisas, errores conocidos y fuentes de verdad. Esto lo veremos en profundidad en la Clase 06 (Skills).

Limitación importante: PDFs vs Markdown. Los PDFs se leen mal. La IA captura aproximadamente la mitad del contenido de un PDF. Para tareas serias donde la información tiene que estar bien leída, conviene convertir los PDFs a markdown antes de meterlos en el proyecto. El markdown se lee entero, en orden, sin perderse nada.

Kuki lenguaje

Imagínate dos escenarios distintos.

Escenario 1: le preguntas a una abogada qué dice exactamente la ley de propiedad horizontal sobre los gastos comunes. La abogada te contesta de cabeza: "creo que el artículo... no me acuerdo del número... establece que los gastos se reparten según el coeficiente de participación". Suena bien. Igual acierta, igual no.

Escenario 2: le entregas a la abogada el BOE con la ley de propiedad horizontal abierta. Le dices: "léeme el artículo sobre gastos comunes". Ahora ella lee el texto real y te lo cita literal. Cero invención.

La IA es igual. Si la haces predecir de memoria, alucina. Si le das el documento en la mesa, lee.

El cambio mental: cuando vayas a hacerle una pregunta seria a la IA sobre algo concreto (un contrato, un texto legal, un protocolo, un manual), mete el documento en el contexto antes de preguntar. No confíes en su memoria. Que lea el papel.

Y si el documento es un PDF largo y la pregunta es importante, conviértelo a markdown primero. Cuesta cinco minutos. Te ahorra alucinaciones bestiales.

06

La regla práctica anti-alucinación

Tres gestos que aplicas siempre que la respuesta de la IA importe de verdad. Si los conviertes en hábito, evitas el 90% de los problemas.

Técnico

Gesto 1: Pide deep research por defecto en tareas críticas.

Cualquier pregunta sobre información actualizada, datos verificables, normativa, comparativas, decisiones, va precedida de: "Antes de responder, haz un deep research y búscame fuentes oficiales. Cita las fuentes en tu respuesta."

Este gesto no es un truco, es un protocolo. Cada vez que la respuesta vaya a usarse para algo serio, este es el primer paso.

Gesto 2: Mete el documento en el contexto cuando sea posible.

Si la pregunta es sobre un texto concreto (contrato, ley, manual, transcripción, base de datos), no preguntes de memoria. Sube el archivo, o trabaja desde un IDE donde el archivo esté disponible. La IA con archivo es radicalmente mejor que la IA sin archivo.

Gesto 3: Verifica las cosas críticas con una segunda fuente.

Para decisiones importantes (legales, médicas, financieras, contractuales), la IA es un primer paso, no el último. Si la respuesta va a tener consecuencias, comprueba con una fuente humana experta o con la fuente oficial directa.

Una regla bonus específica: si la IA cita un artículo de ley, una sentencia, una página de un libro, un estudio académico, una estadística con cifra concreta, abre la fuente y verifica. Hay un patrón muy frecuente de alucinación: la IA cita referencias que no existen pero que tienen pinta correcta.

Kuki lenguaje

Tres preguntas que te haces antes de fiarte de una respuesta importante de la IA:

1. "¿He activado deep research o me ha contestado de cabeza?" Si te ha contestado de cabeza, vuelve a preguntar con deep research activado. No te fíes de la respuesta de cabeza.

2. "¿Le he dado el documento o le he pedido que se acuerde?" Si le has pedido que se acuerde, la respuesta puede ser plausible y falsa. Dale el documento si lo tienes, o úsalo en una herramienta donde la IA pueda acceder a él.

3. "¿Esto va a tener consecuencias reales? Si sí, ¿lo verifico con alguien?" Si la respuesta va a tomar una decisión legal, fiscal, contractual, no te quedes solo con la IA. La IA es un buen primer filtro, no la última palabra.

Una analogía que ayuda:

La IA es como una colaboradora rapidísima que se lee todo, pero que a veces se inventa cosas con cara de saberlo. Para tareas casuales, vas con ella tranquila. Para decisiones importantes, ella te hace un primer borrador y tú lo contrastas con quien sí sabe.

Esa frase grábala. Cambia tu relación con la IA de forma definitiva.

Resumen final: la IA alucina, tú verificas

Técnico

Cinco puntos clave de la clase:

1. La IA no sabe nada, predice tokens. Cada respuesta es una predicción estadística, no un hecho recuperado.

2. Suena segura tanto cuando acierta como cuando inventa. La confianza estilística no es información.

3. Hay zonas de alto riesgo: información que cambia, datos específicos, cálculos precisos, preguntas que sugieren respuesta.

4. Deep research y estructura de archivos reducen las alucinaciones drásticamente. No las eliminan, pero las hacen manejables.

5. Para decisiones importantes, la IA es primer filtro, no última palabra. Verificación humana o con fuente oficial directa.

Kuki lenguaje

Si te llevas una sola idea de toda la clase, que sea esta:

No le creas a la IA. Trabaja con ella.

No es lo mismo. Creerle es darle el "sí" y aplicar lo que dice. Trabajar con ella es usar su velocidad y su capacidad de procesar volumen, sabiendo que la verificación final es tuya.

Tres gestos que conviertes en hábito desde hoy:

Deep research siempre que la respuesta importe.

Documento en la mesa siempre que la pregunta sea sobre algo concreto.

Verificación humana o oficial cuando haya consecuencias reales.

La IA va a alucinar. Esto no se va a arreglar con la siguiente versión, ni con la siguiente. Es parte de cómo funciona, no un bug. Lo que cambia con la práctica es lo bien que tú detectas cuándo está alucinando y cuánto te apoyas en sus respuestas según la situación.

La diferencia entre alguien que se quema con la IA y alguien que la usa de verdad no está en el modelo. Está en la persona que sabe cuándo confiar y cuándo no.

Creado por ERK Labs