ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Evaluation

Human Evaluation

Bewertung von KI-Ausgaben durch menschliche Annotatoren als Goldstandard der Qualitätsmessung.

Human Evaluation gilt als verlässlichste Methode zur Beurteilung von KI-Ausgaben, besonders bei subjektiven Qualitätsmerkmalen wie Natürlichkeit, Hilfsbereitschaft oder Kreativität.

Herausforderungen sind hoher Kosten- und Zeitaufwand, Inter-Annotator-Variabilität und Skalierungsprobleme. Klare Annotationsrichtlinien und Kalibrierungsübungen sind entscheidend für konsistente Ergebnisse.

Human Evaluation wird oft als Kalibrierungsbasis für automatische Metriken und LLM-Judges verwendet. Regelmäßige Stichproben mit menschlicher Bewertung bleiben auch in produktiven Systemen wichtig.

Verwandte Begriffe

  • LLM-as-Judge

    Evaluierungsansatz, bei dem ein starkes Sprachmodell die Ausgabequalität anderer Modelle bewertet.

  • Benchmark

    Standardisierter Datensatz und Metrik zur vergleichbaren Bewertung von KI-Modellen.

  • Golden Dataset

    Kuratierter Referenzdatensatz mit verifizierten Antworten als Maßstab für Modell- und Systemevaluierung.

  • Regression-Test

    Automatisierter Test, der nach Modellaktualisierungen sicherstellt, dass bekannte Fähigkeiten erhalten bleiben.