Guardrails (Leitplanken)
Technische und inhaltliche Schutzmaßnahmen, die unerwünschte KI-Ausgaben verhindern.
Guardrails umfassen Input- und Output-Filter, Klassifikatoren für schädliche Inhalte, Moderationsmodelle und regelbasierte Überprüfungen. Sie bilden eine Sicherheitsschicht um das Basismodell.
Guardrails können auf verschiedenen Ebenen eingesetzt werden: im System-Prompt, als separate Moderationsmodelle oder als nachgelagerte Filterung der Ausgaben. Mehrschichtige Ansätze bieten mehr Robustheit.
Ein zu restriktives Guardrail-System schadet der Nutzbarkeit durch Überblockierung legitimer Anfragen. Die Kalibrierung zwischen Sicherheit und Nutzbarkeit ist eine dauernde Herausforderung.
Verwandte Begriffe
- Alignment (KI-Ausrichtung)
Forschungsfeld, das sicherstellt, dass KI-Systeme menschliche Werte und Absichten verfolgen.
- Prompt Injection
Angriff, bei dem bösartige Texteingaben das Verhalten eines KI-Systems manipulieren.
- System-Prompt
Vorangestellte Anweisung, die Rolle, Verhalten und Grenzen eines KI-Assistenten definiert.
- Red-Teaming
Strukturierte Suche nach Schwachstellen in KI-Systemen durch simulierte Angriffe und adversariale Tests.