Künstlich erzeugte Trainingsdaten, oft von Sprachmodellen generiert, um reale Daten zu ergänzen oder ersetzen.
Synthetische Daten werden von Modellen oder Simulatoren erzeugt, wenn reale Daten knapp, teuer oder datenschutzrelevant sind. Sprachmodelle können damit ihren eigenen Trainingsdatensatz erweitern.
Qualitätskontrolle ist entscheidend: Ohne Filterung können synthetische Daten Fehler und Halluzinationen des Generatormodells verstärken. Sorgfältige Validierung gegen reale Verteilungen ist nötig.
Self-play und iterative Verfeinerung, bei denen Modelle ihre eigenen Ausgaben kritisieren und verbessern, sind vielversprechende Ansätze für hochqualitative synthetische Daten.
Erste Trainingsphase, in der ein Modell auf riesigen Textmengen grundlegendes Sprach- und Weltwissen erwirbt.
Feinjustierung eines vortrainierten Modells auf kuratierten Aufgaben-Antwort-Paaren zur Verhaltenssteuerung.
Training eines kleinen Schülermodells mithilfe der weichen Ausgaben eines großen Lehrermodells.
Tendenz von Sprachmodellen, plausibel klingende, aber faktisch falsche Informationen zu generieren.