Zum Glossar
Safety

Guardrails (Leitplanken)

Technische und inhaltliche Schutzmaßnahmen, die unerwünschte KI-Ausgaben verhindern.

Guardrails umfassen Input- und Output-Filter, Klassifikatoren für schädliche Inhalte, Moderationsmodelle und regelbasierte Überprüfungen. Sie bilden eine Sicherheitsschicht um das Basismodell.

Guardrails können auf verschiedenen Ebenen eingesetzt werden: im System-Prompt, als separate Moderationsmodelle oder als nachgelagerte Filterung der Ausgaben. Mehrschichtige Ansätze bieten mehr Robustheit.

Ein zu restriktives Guardrail-System schadet der Nutzbarkeit durch Überblockierung legitimer Anfragen. Die Kalibrierung zwischen Sicherheit und Nutzbarkeit ist eine dauernde Herausforderung.

Verwandte Begriffe