¿Por qué un LLM se equivoca incluso cuando parece seguro de sí mismo? Porque no sabe, predice.
Se equivoca porque no tiene un motor de la verdad dentro de sí. Solo tiene un motor estadístico del lenguaje. Cuando responde, no está afirmando lo que es verdadero: está completando una frase de la manera más probable basada en miles de millones de ejemplos.
Un LLM hace una sola cosa: predice la siguiente palabra.
Cada vez que escribes algo, el modelo observa lo que has escrito. Calcula qué token -- palabra, fragmento de palabra, puntuación -- es más probable que venga después. Luego lo escribe. Y repite. Token tras token, hasta terminar la respuesta.
No hace más. No razona, ni busca la respuesta correcta en tiempo real. Ya consultó su base de conocimiento -- millones de textos, páginas web, libros, artículos -- pero lo hizo una sola vez, durante el entrenamiento. Lo que aprendió se comprimió en pesos estadísticos: no son recuerdos, ni hechos, ni conocimiento en el sentido humano. Si la secuencia "la capital de Francia es" aparecía miles de veces seguida de "París", el modelo aprendió que "París" es el token más probable en ese contexto. Cuando responde, no está consultando nada -- usa lo que absorbió.
El problema es que este mecanismo funciona incluso cuando no debería. Si en el entrenamiento había suficiente texto que asociaba un escritor a una fecha incorrecta, el modelo produce esa fecha con la misma seguridad que la correcta. No tiene una alarma interna que suene. Solo tiene probabilidades -- y una probabilidad alta no significa verdad.
La diferencia con el error humano
Cuando un humano se equivoca, a menudo sabe que está en territorio incierto. Dice "me parece", "no estoy seguro", "lo comprobaría". No siempre, pero la duda es parte del proceso cognitivo.
Un LLM no tiene duda. Tiene probabilidades.
Por qué es importante entenderlo
No para dejar de usar estas herramientas. Sino para usarlas correctamente.
Un LLM es útil cuando lo tratas como un colaborador rápido que debe ser verificado, no como una fuente autoritaria. La confianza ciega es el problema -- no el modelo en sí.
Una manera empírica pero eficaz de saber si el modelo está en zona incierta es reformular la misma pregunta dos o tres veces de formas diferentes. Si las respuestas cambian en detalles -- una fecha que varía, un nombre que cambia, un número que no coincide -- significa que no hay un hecho, sino una zona de probabilidad difusa. El modelo cada vez elige el token más probable en ese contexto, y si el contexto cambia un poco, también cambia la elección.
También puedes preguntar directamente: "¿Cuán seguro estás de esta respuesta? ¿En qué te basas?" Los modelos más recientes tienen cierta capacidad de señalar cuando están en territorio poco cubierto por el entrenamiento -- no siempre, no de manera confiable, pero a menudo lo suficiente para hacerte ver que vale la pena verificar en otro lugar. Lo mismo si le pides al modelo que razone en voz alta: "Explícame el razonamiento paso a paso." Los errores lógicos emergen mucho más fácilmente cuando el modelo debe explicitar los pasos en lugar de saltar directamente a la conclusión.