Prompt Injection
Angriff, bei dem bösartige Texteingaben das Verhalten eines KI-Systems manipulieren.
Prompt Injection versucht, durch geschickt formulierte Eingaben die Instruktionen des System-Prompts zu überschreiben oder das Modell zu unerwünschtem Verhalten zu verleiten.
Direkte Prompt Injection kommt vom Nutzer; indirekte Injection injiziert schädliche Instruktionen über externe Inhalte wie Webseiten oder Dokumente, die der Agent verarbeitet.
Verteidigungsmaßnahmen umfassen Input-Sanitisierung, strikte Trennung von Instruktions- und Daten-Kontexten sowie Monitoring auf ungewöhnliche Verhaltensmuster in Agent-Systemen.
Verwandte Begriffe
- Guardrails (Leitplanken)
Technische und inhaltliche Schutzmaßnahmen, die unerwünschte KI-Ausgaben verhindern.
- Jailbreak
Technik zur Umgehung von Sicherheitsmechanismen eines Sprachmodells zur Erzeugung verbotener Inhalte.
- System-Prompt
Vorangestellte Anweisung, die Rolle, Verhalten und Grenzen eines KI-Assistenten definiert.
- KI-Agent
KI-System, das Aufgaben autonom durch Planung, Werkzeugeinsatz und iteratives Handeln erledigt.