Evaluierungsansatz, bei dem ein starkes Sprachmodell die Ausgabequalität anderer Modelle bewertet.
LLM-as-Judge nutzt ein leistungsstarkes Modell als automatischen Bewerter, der Antworten nach Kriterien wie Hilfsbereitschaft, Genauigkeit und Kohärenz beurteilt. So lassen sich große Mengen Ausgaben effizient bewerten.
Der Ansatz korreliert oft gut mit menschlichen Urteilen und ist deutlich schneller und günstiger als manuelle Evaluation. Bekannte Probleme sind Positionsbias, Präferenz für längere Antworten und Selbstbevorzugung.
Für robuste Evaluierung empfiehlt sich eine Kombination aus LLM-Bewertung, Human Eval auf einer Teilmenge und automatisierten Metriken, da jeder Ansatz spezifische blinde Flecken hat.
Standardisierter Datensatz und Metrik zur vergleichbaren Bewertung von KI-Modellen.
Bewertung von KI-Ausgaben durch menschliche Annotatoren als Goldstandard der Qualitätsmessung.
Kuratierter Referenzdatensatz mit verifizierten Antworten als Maßstab für Modell- und Systemevaluierung.
Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.