Benchmark
Standardisierter Datensatz und Metrik zur vergleichbaren Bewertung von KI-Modellen.
Benchmarks ermöglichen den reproduzierbaren Vergleich verschiedener Modelle auf denselben Aufgaben. Sie decken Bereiche wie Reasoning, Mathematik, Code, Sprache und Faktenwissen ab.
Bekannte Benchmarks haben erheblichen Einfluss auf die Modellentwicklung. Durch gezieltes Training auf Benchmark-Daten können Modelle gute Scores erzielen, ohne die zugrundeliegenden Fähigkeiten zu besitzen.
Benchmark-Contamination ist ein reales Problem: Wenn Testdaten im Pretraining-Corpus enthalten waren, überschätzen die Ergebnisse die echten Fähigkeiten. Neue, unveröffentlichte Benchmarks sollen das verhindern.
Verwandte Begriffe
- Perplexität (Perplexity)
Maß dafür, wie gut ein Sprachmodell eine Textsequenz vorhersagt — niedrigere Werte sind besser.
- LLM-as-Judge
Evaluierungsansatz, bei dem ein starkes Sprachmodell die Ausgabequalität anderer Modelle bewertet.
- Human Evaluation
Bewertung von KI-Ausgaben durch menschliche Annotatoren als Goldstandard der Qualitätsmessung.
- Golden Dataset
Kuratierter Referenzdatensatz mit verifizierten Antworten als Maßstab für Modell- und Systemevaluierung.