ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Evaluation

Golden Dataset

Kuratierter Referenzdatensatz mit verifizierten Antworten als Maßstab für Modell- und Systemevaluierung.

Ein Golden Dataset enthält sorgfältig kuratierte Frage-Antwort-Paare oder Aufgaben mit verifizierten korrekten Ausgaben. Es dient als verlässlicher Maßstab für die Evaluierung von Modellen oder RAG-Systemen.

Die Erstellung ist aufwendig und erfordert Domänenexperten. Dafür bieten Golden Datasets reproduzierbare, konsistente Bewertungen und decken typische Fehlerquellen des Systems gezielt ab.

Golden Datasets werden für Regression-Tests eingesetzt: Nach jeder Modell- oder Systemänderung wird sichergestellt, dass die Leistung auf bekannten Fällen nicht sinkt.

Verwandte Begriffe

  • Regression-Test

    Automatisierter Test, der nach Modellaktualisierungen sicherstellt, dass bekannte Fähigkeiten erhalten bleiben.

  • Human Evaluation

    Bewertung von KI-Ausgaben durch menschliche Annotatoren als Goldstandard der Qualitätsmessung.

  • Benchmark

    Standardisierter Datensatz und Metrik zur vergleichbaren Bewertung von KI-Modellen.

  • Retrieval-Augmented Generation (RAG)

    Architektur, die Sprachmodelle mit externer Wissenssuche kombiniert, um Antworten zu verankern.