Evaluation

LLM-as-Judge

Evaluierungsansatz, bei dem ein starkes Sprachmodell die Ausgabequalität anderer Modelle bewertet.

LLM-as-Judge nutzt ein leistungsstarkes Modell als automatischen Bewerter, der Antworten nach Kriterien wie Hilfsbereitschaft, Genauigkeit und Kohärenz beurteilt. So lassen sich große Mengen Ausgaben effizient bewerten.

Der Ansatz korreliert oft gut mit menschlichen Urteilen und ist deutlich schneller und günstiger als manuelle Evaluation. Bekannte Probleme sind Positionsbias, Präferenz für längere Antworten und Selbstbevorzugung.

Für robuste Evaluierung empfiehlt sich eine Kombination aus LLM-Bewertung, Human Eval auf einer Teilmenge und automatisierten Metriken, da jeder Ansatz spezifische blinde Flecken hat.

LLM-as-Judge

Verwandte Begriffe

LLM-as-Judge

Verwandte Begriffe