Warum ein LLM auch dann Fehler macht, wenn es sich sicher zu sein scheint? Weil es nicht weiß, sondern vorhersagt.
Es macht Fehler, weil es keinen Wahrheitsmotor in sich trägt. Es hat nur einen statistischen Sprachmotor. Wenn es antwortet, behauptet es nicht, was wahr ist: Es vervollständigt einen Satz auf die wahrscheinlichste Weise basierend auf Milliarden von Beispielen.
Ein LLM macht nur eins: Es sagt das nächste Wort voraus.
Jedes Mal, wenn du etwas schreibst, schaut das Modell, was du geschrieben hast. Es berechnet, welcher Token - Wort, Wortteil, Satzzeichen - am wahrscheinlichsten als nächstes kommt. Dann schreibt es diesen Token. Und wiederholt den Vorgang. Token für Token, bis die Antwort fertig ist.
Mehr nicht. Es denkt nicht nach und sucht nicht in Echtzeit nach der richtigen Antwort. Es hat seine Wissensbasis schon konsultiert - Milliarden von Texten, Webseiten, Büchern, Artikeln - aber nur einmal, während des Trainings. Was es gelernt hat, wurde in statistische Gewichte komprimiert: keine Erinnerungen, keine Fakten, kein Wissen im menschlichen Sinne. Wenn die Sequenz "die Hauptstadt von Frankreich ist" tausendmal gefolgt von "Paris" auftauchte, hat das Modell gelernt, dass "Paris" der wahrscheinlichste Token in diesem Kontext ist. Wenn es antwortet, fragt es nichts ab - es nutzt, was es aufgenommen hat.
Das Problem ist, dass dieser Mechanismus auch funktioniert, wenn er nicht sollte. Wenn im Training genug Text war, der einen Autor mit einem falschen Datum verbindet, produziert das Modell dieses Datum mit der gleichen Sicherheit wie das richtige. Es hat keinen inneren Alarm. Es hat nur Wahrscheinlichkeiten - und eine hohe Wahrscheinlichkeit ist nicht gleichbedeutend mit Wahrheit.
Der Unterschied zum menschlichen Fehler
Wenn ein Mensch einen Fehler macht, weiß er oft, dass er unsicher ist. Er sagt "ich glaube", "ich bin mir nicht sicher", "ich würde nachsehen". Nicht immer, aber Zweifel sind Teil des kognitiven Prozesses.
Ein LLM hat keinen Zweifel. Es hat Wahrscheinlichkeiten.
Warum es wichtig ist, das zu verstehen
Nicht, um diese Werkzeuge nicht mehr zu nutzen. Sondern um sie richtig zu nutzen.
Ein LLM ist nützlich, wenn du es als schnellen Mitarbeiter siehst, den du überprüfen musst, nicht als autoritative Quelle. Blindes Vertrauen ist das Problem - nicht das Modell selbst.
Ein empirischer, aber effektiver Weg, um zu verstehen, ob das Modell in unsicherem Gebiet navigiert, ist, die gleiche Frage zwei- oder dreimal anders zu formulieren. Wenn sich die Antworten in Details ändern - ein Datum verschiebt sich, ein Name variiert, eine Zahl stimmt nicht - bedeutet das, dass darunter kein Fakt, sondern eine breite Wahrscheinlichkeitszone liegt. Das Modell wählt jedes Mal den wahrscheinlichsten Token in diesem Kontext, und wenn sich der Kontext leicht ändert, ändert sich auch die Wahl.
Du kannst auch direkt fragen: "Wie sicher bist du dir bei dieser Antwort? Worauf basiert sie?" Die neuesten Modelle haben eine gewisse Fähigkeit, anzuzeigen, wann sie in wenig abgedecktem Trainingsgebiet sind - nicht immer, nicht zuverlässig, aber oft genug, um zu verstehen, dass es sich lohnt, woanders zu überprüfen. Dasselbe gilt, wenn du das Modell bittest, laut zu denken: "Erkläre mir den Gedankengang Schritt für Schritt." Logische Fehler treten viel leichter auf, wenn das Modell die Schritte explizit machen muss, anstatt direkt zur Schlussfolgerung zu springen.