Angriff, bei dem bösartige Texteingaben das Verhalten eines KI-Systems manipulieren.
Prompt Injection versucht, durch geschickt formulierte Eingaben die Instruktionen des System-Prompts zu überschreiben oder das Modell zu unerwünschtem Verhalten zu verleiten.
Direkte Prompt Injection kommt vom Nutzer; indirekte Injection injiziert schädliche Instruktionen über externe Inhalte wie Webseiten oder Dokumente, die der Agent verarbeitet.
Verteidigungsmaßnahmen umfassen Input-Sanitisierung, strikte Trennung von Instruktions- und Daten-Kontexten sowie Monitoring auf ungewöhnliche Verhaltensmuster in Agent-Systemen.
Technische und inhaltliche Schutzmaßnahmen, die unerwünschte KI-Ausgaben verhindern.
Technik zur Umgehung von Sicherheitsmechanismen eines Sprachmodells zur Erzeugung verbotener Inhalte.
Vorangestellte Anweisung, die Rolle, Verhalten und Grenzen eines KI-Assistenten definiert.
KI-System, das Aufgaben autonom durch Planung, Werkzeugeinsatz und iteratives Handeln erledigt.