Safety

Red-Teaming

Strukturierte Suche nach Schwachstellen in KI-Systemen durch simulierte Angriffe und adversariale Tests.

Red-Teaming lässt spezialisierte Teams oder Modelle systematisch versuchen, ein KI-System zu schädlichem Verhalten zu verleiten. Gefundene Schwachstellen fließen in Verbesserungen ein.

Automatisches Red-Teaming setzt Sprachmodelle ein, um autonom neue Angriffsvektoren zu generieren und zu testen. Das skaliert die Suche weit über manuell durchführbare Umfänge hinaus.

Externe Red-Teams, Bug-Bounty-Programme und Kooperationen mit Sicherheitsforschern sind wichtige Ergänzungen zum internen Testing und helfen, blinde Flecken zu identifizieren.

Red-Teaming

Verwandte Begriffe

Red-Teaming

Verwandte Begriffe