Por que um LLM erra mesmo quando parece confiante? Porque não sabe, prevê.
Erra porque não tem um motor da verdade dentro de si. Tem apenas um motor estatístico da linguagem. Quando responde, não está afirmando o que é verdade: está completando uma frase da maneira mais provável com base em bilhões de exemplos.
Um LLM faz uma coisa só: prevê a próxima palavra.
Quando você escreve algo, o modelo olha o que escreveu. Ele calcula qual token -- palavra, fragmento de palavra, pontuação -- é mais provável de vir depois. Então, ele escreve. E repete. Token após token, até terminar a resposta.
É só isso. Não raciocina, não busca a resposta certa em tempo real. Ele já consultou sua base de conhecimento -- bilhões de textos, páginas web, livros, artigos -- mas fez isso uma vez, durante o treinamento. O que aprendeu foi comprimido em pesos estatísticos: não são lembranças, fatos ou conhecimento no sentido humano. Se a sequência "a capital da França é" apareceu milhares de vezes seguida de "Paris", o modelo aprendeu que "Paris" é o token mais provável nesse contexto. Quando responde, não está consultando nada -- está usando o que absorveu.
O problema é que esse mecanismo funciona mesmo quando não deveria. Se no treinamento havia texto suficiente associando um escritor a uma data errada, o modelo produz essa data com a mesma confiança da correta. Não tem um alarme interno. Só tem probabilidades -- e alta probabilidade não é sinônimo de verdade.
A diferença com o erro humano
Quando um humano erra, ele muitas vezes sabe que está em território incerto. Diz "me parece", "não tenho certeza", "eu verificaria". Nem sempre, mas a dúvida faz parte do processo cognitivo.
Um LLM não tem dúvida. Tem probabilidades.
Por que é importante entender isso
Não para parar de usar essas ferramentas. Mas para usá-las do jeito certo.
Um LLM é útil quando você o trata como um colaborador rápido que precisa ser verificado, não como uma fonte autoritária. A confiança cega é o problema -- não o modelo em si.
Um jeito empírico mas eficaz de saber se o modelo está em zona incerta é reformular a mesma pergunta duas ou três vezes de maneiras diferentes. Se as respostas mudam nos detalhes -- uma data que muda, um nome que varia, um número que não bate -- significa que não há um fato, mas uma zona de probabilidade difusa. O modelo escolhe o token mais provável naquele contexto, e se o contexto muda um pouco, a escolha também muda.
Você também pode perguntar diretamente: "Quão seguro está dessa resposta? Em que se baseia?" Os modelos mais recentes têm certa capacidade de sinalizar quando estão em território pouco coberto pelo treinamento -- não sempre, não de forma confiável, mas muitas vezes o suficiente para você entender que vale a pena verificar em outro lugar. O mesmo vale se você pedir ao modelo para raciocinar em voz alta: "Explique o raciocínio passo a passo." Os erros lógicos aparecem mais facilmente quando o modelo precisa explicitar os passos em vez de ir direto à conclusão.