Evaluation

Golden Dataset

Kuratierter Referenzdatensatz mit verifizierten Antworten als Maßstab für Modell- und Systemevaluierung.

Ein Golden Dataset enthält sorgfältig kuratierte Frage-Antwort-Paare oder Aufgaben mit verifizierten korrekten Ausgaben. Es dient als verlässlicher Maßstab für die Evaluierung von Modellen oder RAG-Systemen.

Die Erstellung ist aufwendig und erfordert Domänenexperten. Dafür bieten Golden Datasets reproduzierbare, konsistente Bewertungen und decken typische Fehlerquellen des Systems gezielt ab.

Golden Datasets werden für Regression-Tests eingesetzt: Nach jeder Modell- oder Systemänderung wird sichergestellt, dass die Leistung auf bekannten Fällen nicht sinkt.

Golden Dataset

Verwandte Begriffe