Safety

Jailbreak

Technik zur Umgehung von Sicherheitsmechanismen eines Sprachmodells zur Erzeugung verbotener Inhalte.

Jailbreaks sind Prompt-Strategien, die Sicherheitsfilter und Alignment-Training umgehen. Sie nutzen oft Rollenspielvorgaben, hypothetische Rahmen oder mehrstufige Manipulation des Modells.

Jailbreaks sind ein Katz-und-Maus-Spiel: Modellhersteller schließen bekannte Lücken, und Angreifer finden neue Umgehungswege. Adversariales Training und Red-Teaming helfen, Schwachstellen frühzeitig zu finden.

Die Existenz von Jailbreaks unterstreicht, dass aktuelle Sicherheitsmaßnahmen nicht absolut sind. Tiefe Alignment-Techniken, die Werte ins Modell einbetten statt zu filtern, sind ein aktives Forschungsfeld.

Jailbreak

Verwandte Begriffe

Jailbreak

Verwandte Begriffe