Technik zur Umgehung von Sicherheitsmechanismen eines Sprachmodells zur Erzeugung verbotener Inhalte.
Jailbreaks sind Prompt-Strategien, die Sicherheitsfilter und Alignment-Training umgehen. Sie nutzen oft Rollenspielvorgaben, hypothetische Rahmen oder mehrstufige Manipulation des Modells.
Jailbreaks sind ein Katz-und-Maus-Spiel: Modellhersteller schließen bekannte Lücken, und Angreifer finden neue Umgehungswege. Adversariales Training und Red-Teaming helfen, Schwachstellen frühzeitig zu finden.
Die Existenz von Jailbreaks unterstreicht, dass aktuelle Sicherheitsmaßnahmen nicht absolut sind. Tiefe Alignment-Techniken, die Werte ins Modell einbetten statt zu filtern, sind ein aktives Forschungsfeld.
Angriff, bei dem bösartige Texteingaben das Verhalten eines KI-Systems manipulieren.
Technische und inhaltliche Schutzmaßnahmen, die unerwünschte KI-Ausgaben verhindern.
Strukturierte Suche nach Schwachstellen in KI-Systemen durch simulierte Angriffe und adversariale Tests.
Forschungsfeld, das sicherstellt, dass KI-Systeme menschliche Werte und Absichten verfolgen.