Synthetische Daten
Künstlich erzeugte Trainingsdaten, oft von Sprachmodellen generiert, um reale Daten zu ergänzen oder ersetzen.
Synthetische Daten werden von Modellen oder Simulatoren erzeugt, wenn reale Daten knapp, teuer oder datenschutzrelevant sind. Sprachmodelle können damit ihren eigenen Trainingsdatensatz erweitern.
Qualitätskontrolle ist entscheidend: Ohne Filterung können synthetische Daten Fehler und Halluzinationen des Generatormodells verstärken. Sorgfältige Validierung gegen reale Verteilungen ist nötig.
Self-play und iterative Verfeinerung, bei denen Modelle ihre eigenen Ausgaben kritisieren und verbessern, sind vielversprechende Ansätze für hochqualitative synthetische Daten.
Verwandte Begriffe
- Pretraining (Vortraining)
Erste Trainingsphase, in der ein Modell auf riesigen Textmengen grundlegendes Sprach- und Weltwissen erwirbt.
- Supervised Fine-Tuning (SFT)
Feinjustierung eines vortrainierten Modells auf kuratierten Aufgaben-Antwort-Paaren zur Verhaltenssteuerung.
- Wissendestillation (Distillation)
Training eines kleinen Schülermodells mithilfe der weichen Ausgaben eines großen Lehrermodells.
- Halluzination
Tendenz von Sprachmodellen, plausibel klingende, aber faktisch falsche Informationen zu generieren.