Human Evaluation
Bewertung von KI-Ausgaben durch menschliche Annotatoren als Goldstandard der Qualitätsmessung.
Human Evaluation gilt als verlässlichste Methode zur Beurteilung von KI-Ausgaben, besonders bei subjektiven Qualitätsmerkmalen wie Natürlichkeit, Hilfsbereitschaft oder Kreativität.
Herausforderungen sind hoher Kosten- und Zeitaufwand, Inter-Annotator-Variabilität und Skalierungsprobleme. Klare Annotationsrichtlinien und Kalibrierungsübungen sind entscheidend für konsistente Ergebnisse.
Human Evaluation wird oft als Kalibrierungsbasis für automatische Metriken und LLM-Judges verwendet. Regelmäßige Stichproben mit menschlicher Bewertung bleiben auch in produktiven Systemen wichtig.
Verwandte Begriffe
- LLM-as-Judge
Evaluierungsansatz, bei dem ein starkes Sprachmodell die Ausgabequalität anderer Modelle bewertet.
- Benchmark
Standardisierter Datensatz und Metrik zur vergleichbaren Bewertung von KI-Modellen.
- Golden Dataset
Kuratierter Referenzdatensatz mit verifizierten Antworten als Maßstab für Modell- und Systemevaluierung.
- Regression-Test
Automatisierter Test, der nach Modellaktualisierungen sicherstellt, dass bekannte Fähigkeiten erhalten bleiben.