ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Evaluation

LLM-as-Judge

Evaluierungsansatz, bei dem ein starkes Sprachmodell die Ausgabequalität anderer Modelle bewertet.

LLM-as-Judge nutzt ein leistungsstarkes Modell als automatischen Bewerter, der Antworten nach Kriterien wie Hilfsbereitschaft, Genauigkeit und Kohärenz beurteilt. So lassen sich große Mengen Ausgaben effizient bewerten.

Der Ansatz korreliert oft gut mit menschlichen Urteilen und ist deutlich schneller und günstiger als manuelle Evaluation. Bekannte Probleme sind Positionsbias, Präferenz für längere Antworten und Selbstbevorzugung.

Für robuste Evaluierung empfiehlt sich eine Kombination aus LLM-Bewertung, Human Eval auf einer Teilmenge und automatisierten Metriken, da jeder Ansatz spezifische blinde Flecken hat.

Verwandte Begriffe

  • Benchmark

    Standardisierter Datensatz und Metrik zur vergleichbaren Bewertung von KI-Modellen.

  • Human Evaluation

    Bewertung von KI-Ausgaben durch menschliche Annotatoren als Goldstandard der Qualitätsmessung.

  • Golden Dataset

    Kuratierter Referenzdatensatz mit verifizierten Antworten als Maßstab für Modell- und Systemevaluierung.

  • Large Language Model (LLM)

    Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.