Standardisierter Datensatz und Metrik zur vergleichbaren Bewertung von KI-Modellen.
Benchmarks ermöglichen den reproduzierbaren Vergleich verschiedener Modelle auf denselben Aufgaben. Sie decken Bereiche wie Reasoning, Mathematik, Code, Sprache und Faktenwissen ab.
Bekannte Benchmarks haben erheblichen Einfluss auf die Modellentwicklung. Durch gezieltes Training auf Benchmark-Daten können Modelle gute Scores erzielen, ohne die zugrundeliegenden Fähigkeiten zu besitzen.
Benchmark-Contamination ist ein reales Problem: Wenn Testdaten im Pretraining-Corpus enthalten waren, überschätzen die Ergebnisse die echten Fähigkeiten. Neue, unveröffentlichte Benchmarks sollen das verhindern.
Maß dafür, wie gut ein Sprachmodell eine Textsequenz vorhersagt — niedrigere Werte sind besser.
Evaluierungsansatz, bei dem ein starkes Sprachmodell die Ausgabequalität anderer Modelle bewertet.
Bewertung von KI-Ausgaben durch menschliche Annotatoren als Goldstandard der Qualitätsmessung.
Kuratierter Referenzdatensatz mit verifizierten Antworten als Maßstab für Modell- und Systemevaluierung.