ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Evaluation

Benchmark

Standardisierter Datensatz und Metrik zur vergleichbaren Bewertung von KI-Modellen.

Benchmarks ermöglichen den reproduzierbaren Vergleich verschiedener Modelle auf denselben Aufgaben. Sie decken Bereiche wie Reasoning, Mathematik, Code, Sprache und Faktenwissen ab.

Bekannte Benchmarks haben erheblichen Einfluss auf die Modellentwicklung. Durch gezieltes Training auf Benchmark-Daten können Modelle gute Scores erzielen, ohne die zugrundeliegenden Fähigkeiten zu besitzen.

Benchmark-Contamination ist ein reales Problem: Wenn Testdaten im Pretraining-Corpus enthalten waren, überschätzen die Ergebnisse die echten Fähigkeiten. Neue, unveröffentlichte Benchmarks sollen das verhindern.

Verwandte Begriffe

  • Perplexität (Perplexity)

    Maß dafür, wie gut ein Sprachmodell eine Textsequenz vorhersagt — niedrigere Werte sind besser.

  • LLM-as-Judge

    Evaluierungsansatz, bei dem ein starkes Sprachmodell die Ausgabequalität anderer Modelle bewertet.

  • Human Evaluation

    Bewertung von KI-Ausgaben durch menschliche Annotatoren als Goldstandard der Qualitätsmessung.

  • Golden Dataset

    Kuratierter Referenzdatensatz mit verifizierten Antworten als Maßstab für Modell- und Systemevaluierung.