Strukturierte Suche nach Schwachstellen in KI-Systemen durch simulierte Angriffe und adversariale Tests.
Red-Teaming lässt spezialisierte Teams oder Modelle systematisch versuchen, ein KI-System zu schädlichem Verhalten zu verleiten. Gefundene Schwachstellen fließen in Verbesserungen ein.
Automatisches Red-Teaming setzt Sprachmodelle ein, um autonom neue Angriffsvektoren zu generieren und zu testen. Das skaliert die Suche weit über manuell durchführbare Umfänge hinaus.
Externe Red-Teams, Bug-Bounty-Programme und Kooperationen mit Sicherheitsforschern sind wichtige Ergänzungen zum internen Testing und helfen, blinde Flecken zu identifizieren.
Technik zur Umgehung von Sicherheitsmechanismen eines Sprachmodells zur Erzeugung verbotener Inhalte.
Technische und inhaltliche Schutzmaßnahmen, die unerwünschte KI-Ausgaben verhindern.
Forschungsfeld, das sicherstellt, dass KI-Systeme menschliche Werte und Absichten verfolgen.
Angriff, bei dem bösartige Texteingaben das Verhalten eines KI-Systems manipulieren.