Red-Teaming
Strukturierte Suche nach Schwachstellen in KI-Systemen durch simulierte Angriffe und adversariale Tests.
Red-Teaming lässt spezialisierte Teams oder Modelle systematisch versuchen, ein KI-System zu schädlichem Verhalten zu verleiten. Gefundene Schwachstellen fließen in Verbesserungen ein.
Automatisches Red-Teaming setzt Sprachmodelle ein, um autonom neue Angriffsvektoren zu generieren und zu testen. Das skaliert die Suche weit über manuell durchführbare Umfänge hinaus.
Externe Red-Teams, Bug-Bounty-Programme und Kooperationen mit Sicherheitsforschern sind wichtige Ergänzungen zum internen Testing und helfen, blinde Flecken zu identifizieren.
Verwandte Begriffe
- Jailbreak
Technik zur Umgehung von Sicherheitsmechanismen eines Sprachmodells zur Erzeugung verbotener Inhalte.
- Guardrails (Leitplanken)
Technische und inhaltliche Schutzmaßnahmen, die unerwünschte KI-Ausgaben verhindern.
- Alignment (KI-Ausrichtung)
Forschungsfeld, das sicherstellt, dass KI-Systeme menschliche Werte und Absichten verfolgen.
- Prompt Injection
Angriff, bei dem bösartige Texteingaben das Verhalten eines KI-Systems manipulieren.