Bewertung von KI-Ausgaben durch menschliche Annotatoren als Goldstandard der Qualitätsmessung.
Human Evaluation gilt als verlässlichste Methode zur Beurteilung von KI-Ausgaben, besonders bei subjektiven Qualitätsmerkmalen wie Natürlichkeit, Hilfsbereitschaft oder Kreativität.
Herausforderungen sind hoher Kosten- und Zeitaufwand, Inter-Annotator-Variabilität und Skalierungsprobleme. Klare Annotationsrichtlinien und Kalibrierungsübungen sind entscheidend für konsistente Ergebnisse.
Human Evaluation wird oft als Kalibrierungsbasis für automatische Metriken und LLM-Judges verwendet. Regelmäßige Stichproben mit menschlicher Bewertung bleiben auch in produktiven Systemen wichtig.
Evaluierungsansatz, bei dem ein starkes Sprachmodell die Ausgabequalität anderer Modelle bewertet.
Standardisierter Datensatz und Metrik zur vergleichbaren Bewertung von KI-Modellen.
Kuratierter Referenzdatensatz mit verifizierten Antworten als Maßstab für Modell- und Systemevaluierung.
Automatisierter Test, der nach Modellaktualisierungen sicherstellt, dass bekannte Fähigkeiten erhalten bleiben.