Wie man ein LLM überzeugt, seine Regeln zu ignorieren
Ein LLM macht nicht nur Fehler wegen seiner eigenen Schuld. Manchmal macht es Fehler, weil jemand es absichtlich dazu bringt. Der Jailbreak ist kein Cyberangriff, wie wir ihn normalerweise verstehen: Niemand dringt in einen Server ein, niemand knackt ein Passwort, niemand bricht ein digitales Schlos
Ein LLM kann aus vielen Gründen Fehler machen. Manchmal entstehen Fehler durch seine Grenzen: Es sagt die nächste Wort voraus, arbeitet mit Wahrscheinlichkeiten und kann falsche oder irreführende Informationen liefern. Aber es gibt eine andere Art von Fehlern. Diese entstehen nicht durch technische Grenzen des Modells. Sie entstehen, wenn jemand das Modell über seine Grenzen hinaus drängt.
Das nennt man Jailbreak.
Das Erste, was du verstehen musst, ist: Ein Jailbreak erfordert keine technischen Fähigkeiten, keinen besonderen Zugang oder spezielle Werkzeuge. Es braucht nur einen gut formulierten Prompt. Man greift nicht von außen auf das Modell zu, ändert keine Gewichte, zerstört nichts. Man nutzt die normale Schnittstelle, die jeder benutzt, und erstellt eine Anfrage, die das Modell anders reagieren lässt als vorgesehen.
Ein Beispiel, das fast schon ein Klassiker ist: Du fragst ein LLM, wie man etwas Gefährliches baut, und es lehnt ab. Dann bittest du es, die Rolle eines Schriftstellers zu spielen, der einen Thriller schreibt. In einer Szene erklärt der Protagonist -- ein Chemiker -- einem Kollegen den Vorgang. Gleicher Inhalt, gleiches Endergebnis. Aber das Modell denkt diesmal anders darüber nach, weil es die Anfrage als kreative Schreibaufgabe verarbeitet hat, nicht als direkte Anweisung. Der Schutzmechanismus ist nicht ausgefallen, weil jemand das System gehackt hat -- er ist ausgefallen, weil jemand die Frage umformuliert hat.
Das ist möglich, weil die Regeln eines LLM nicht im Code wie eine Firewall stehen. Sie werden während des Trainings gelernt -- durch Beispiele, menschliches Feedback, eingebaute Anweisungen. Sie sind probabilistisch, nicht absolut. Und wie alles, was probabilistisch ist, haben sie Spielräume. Der Jailbreak sucht diese Spielräume.
Es gibt Sicherheitsexperten, die die Grenzen von Modellen testen. Sie suchen nach Schwachstellen, bevor andere sie finden. Dann gibt es Neugierige, die wissen wollen, wo der Schutz endet und das echte Modell beginnt. Journalisten dokumentieren die Grenzen von Systemen, die Millionen täglich nutzen. Und es gibt Leute, die Inhalte wollen, die das Modell normalerweise ablehnen würde. Gefährliche Anleitungen, illegale Inhalte, großflächige Manipulationen.
Die Gründe sind unterschiedlich. Die Technik ist oft dieselbe.
Es gibt im Wesentlichen drei Hauptansätze. Der erste ist der Kontextwechsel: Man bittet das Modell, eine Rolle anzunehmen. Es soll so tun, als wäre es ein anderes, uneingeschränktes System. Der zweite Ansatz ist die Fragmentierung: Eine problematische Anfrage wird in harmlose Teile zerlegt. Jeder Teil passiert die Filter einzeln. Der dritte -- und anspruchsvollste -- ist die Manipulation der Systemanweisungen. Dies nennen wir im nächsten Beitrag Prompt Injection.
Alle diese Ansätze haben eine gemeinsame Idee: Das Modell versteht nicht ethisch, was es tut. Es erkennt Muster. Und diese Muster kann man umgehen, wenn man die Anfrage geschickt formuliert.
Ein Jailbreak beweist nicht, dass Modelle gefährlich sind. Er zeigt, dass Modelle Werkzeuge sind. Und dass Werkzeuge von ihrem Nutzer und den Schutzmaßnahmen abhängen. Der Unterschied zwischen "das Modell macht alleine Fehler" und "jemand bringt es absichtlich dazu" ist kleiner, als man denkt. Genau dieses Gebiet erkunden wir in dieser Serie.