Evaluation

Human Evaluation

Bewertung von KI-Ausgaben durch menschliche Annotatoren als Goldstandard der Qualitätsmessung.

Human Evaluation gilt als verlässlichste Methode zur Beurteilung von KI-Ausgaben, besonders bei subjektiven Qualitätsmerkmalen wie Natürlichkeit, Hilfsbereitschaft oder Kreativität.

Herausforderungen sind hoher Kosten- und Zeitaufwand, Inter-Annotator-Variabilität und Skalierungsprobleme. Klare Annotationsrichtlinien und Kalibrierungsübungen sind entscheidend für konsistente Ergebnisse.

Human Evaluation wird oft als Kalibrierungsbasis für automatische Metriken und LLM-Judges verwendet. Regelmäßige Stichproben mit menschlicher Bewertung bleiben auch in produktiven Systemen wichtig.

Human Evaluation

Verwandte Begriffe

Human Evaluation

Verwandte Begriffe