Evaluation

Benchmark

Standardisierter Datensatz und Metrik zur vergleichbaren Bewertung von KI-Modellen.

Benchmarks ermöglichen den reproduzierbaren Vergleich verschiedener Modelle auf denselben Aufgaben. Sie decken Bereiche wie Reasoning, Mathematik, Code, Sprache und Faktenwissen ab.

Bekannte Benchmarks haben erheblichen Einfluss auf die Modellentwicklung. Durch gezieltes Training auf Benchmark-Daten können Modelle gute Scores erzielen, ohne die zugrundeliegenden Fähigkeiten zu besitzen.

Benchmark-Contamination ist ein reales Problem: Wenn Testdaten im Pretraining-Corpus enthalten waren, überschätzen die Ergebnisse die echten Fähigkeiten. Neue, unveröffentlichte Benchmarks sollen das verhindern.

Benchmark

Verwandte Begriffe

Benchmark

Verwandte Begriffe