Erste Trainingsphase, in der ein Modell auf riesigen Textmengen grundlegendes Sprach- und Weltwissen erwirbt.
Beim Pretraining wird ein Modell auf Billionen von Tokens trainiert, typischerweise mit dem Ziel, das nächste Token vorherzusagen. So entstehen breite sprachliche Fähigkeiten und implizites Faktenwissen.
Das Pretraining erfordert immense Rechenressourcen und dauert Wochen auf Tausenden von GPUs. Die entstehenden Basismodelle werden anschließend durch Fine-Tuning für spezifische Anwendungen angepasst.
Die Qualität und Zusammensetzung der Pretraining-Daten hat großen Einfluss auf Fähigkeiten und Schwächen des Modells. Data Curation und Filtering sind daher kritische Schritte.
Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.
Feinjustierung eines vortrainierten Modells auf kuratierten Aufgaben-Antwort-Paaren zur Verhaltenssteuerung.
Trainingsverfahren, das menschliche Präferenzurteile nutzt, um Modellverhalten zu verbessern.
Künstlich erzeugte Trainingsdaten, oft von Sprachmodellen generiert, um reale Daten zu ergänzen oder ersetzen.