Kuratierter Referenzdatensatz mit verifizierten Antworten als Maßstab für Modell- und Systemevaluierung.
Ein Golden Dataset enthält sorgfältig kuratierte Frage-Antwort-Paare oder Aufgaben mit verifizierten korrekten Ausgaben. Es dient als verlässlicher Maßstab für die Evaluierung von Modellen oder RAG-Systemen.
Die Erstellung ist aufwendig und erfordert Domänenexperten. Dafür bieten Golden Datasets reproduzierbare, konsistente Bewertungen und decken typische Fehlerquellen des Systems gezielt ab.
Golden Datasets werden für Regression-Tests eingesetzt: Nach jeder Modell- oder Systemänderung wird sichergestellt, dass die Leistung auf bekannten Fällen nicht sinkt.
Automatisierter Test, der nach Modellaktualisierungen sicherstellt, dass bekannte Fähigkeiten erhalten bleiben.
Bewertung von KI-Ausgaben durch menschliche Annotatoren als Goldstandard der Qualitätsmessung.
Standardisierter Datensatz und Metrik zur vergleichbaren Bewertung von KI-Modellen.
Architektur, die Sprachmodelle mit externer Wissenssuche kombiniert, um Antworten zu verankern.