ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Safety

Jailbreak

Technik zur Umgehung von Sicherheitsmechanismen eines Sprachmodells zur Erzeugung verbotener Inhalte.

Jailbreaks sind Prompt-Strategien, die Sicherheitsfilter und Alignment-Training umgehen. Sie nutzen oft Rollenspielvorgaben, hypothetische Rahmen oder mehrstufige Manipulation des Modells.

Jailbreaks sind ein Katz-und-Maus-Spiel: Modellhersteller schließen bekannte Lücken, und Angreifer finden neue Umgehungswege. Adversariales Training und Red-Teaming helfen, Schwachstellen frühzeitig zu finden.

Die Existenz von Jailbreaks unterstreicht, dass aktuelle Sicherheitsmaßnahmen nicht absolut sind. Tiefe Alignment-Techniken, die Werte ins Modell einbetten statt zu filtern, sind ein aktives Forschungsfeld.

Verwandte Begriffe

  • Prompt Injection

    Angriff, bei dem bösartige Texteingaben das Verhalten eines KI-Systems manipulieren.

  • Guardrails (Leitplanken)

    Technische und inhaltliche Schutzmaßnahmen, die unerwünschte KI-Ausgaben verhindern.

  • Red-Teaming

    Strukturierte Suche nach Schwachstellen in KI-Systemen durch simulierte Angriffe und adversariale Tests.

  • Alignment (KI-Ausrichtung)

    Forschungsfeld, das sicherstellt, dass KI-Systeme menschliche Werte und Absichten verfolgen.