Safety

Prompt Injection

Angriff, bei dem bösartige Texteingaben das Verhalten eines KI-Systems manipulieren.

Prompt Injection versucht, durch geschickt formulierte Eingaben die Instruktionen des System-Prompts zu überschreiben oder das Modell zu unerwünschtem Verhalten zu verleiten.

Direkte Prompt Injection kommt vom Nutzer; indirekte Injection injiziert schädliche Instruktionen über externe Inhalte wie Webseiten oder Dokumente, die der Agent verarbeitet.

Verteidigungsmaßnahmen umfassen Input-Sanitisierung, strikte Trennung von Instruktions- und Daten-Kontexten sowie Monitoring auf ungewöhnliche Verhaltensmuster in Agent-Systemen.

Prompt Injection

Verwandte Begriffe

Prompt Injection

Verwandte Begriffe