Zum Glossar
Training

Synthetische Daten

Künstlich erzeugte Trainingsdaten, oft von Sprachmodellen generiert, um reale Daten zu ergänzen oder ersetzen.

Synthetische Daten werden von Modellen oder Simulatoren erzeugt, wenn reale Daten knapp, teuer oder datenschutzrelevant sind. Sprachmodelle können damit ihren eigenen Trainingsdatensatz erweitern.

Qualitätskontrolle ist entscheidend: Ohne Filterung können synthetische Daten Fehler und Halluzinationen des Generatormodells verstärken. Sorgfältige Validierung gegen reale Verteilungen ist nötig.

Self-play und iterative Verfeinerung, bei denen Modelle ihre eigenen Ausgaben kritisieren und verbessern, sind vielversprechende Ansätze für hochqualitative synthetische Daten.

Verwandte Begriffe