Supervised Fine-Tuning (SFT)
Feinjustierung eines vortrainierten Modells auf kuratierten Aufgaben-Antwort-Paaren zur Verhaltenssteuerung.
SFT passt ein vortrainiertes Basismodell auf menschlich kuratierten Demonstrations-Datensätzen an. Das Modell lernt, dem Instruktionsformat zu folgen und erwünschte Antwortstrukturen zu produzieren.
Die Datenmenge für SFT ist deutlich kleiner als beim Pretraining — oft einige zehntausend bis wenige Millionen Beispiele. Qualität der Demonstrationen ist wichtiger als schiere Menge.
SFT ist typischerweise die erste Stufe in der RLHF-Pipeline. Es erzeugt ein Modell, das anschließend durch Belohnungsmodell und Reinforcement Learning weiter verfeinert wird.
Verwandte Begriffe
- Pretraining (Vortraining)
Erste Trainingsphase, in der ein Modell auf riesigen Textmengen grundlegendes Sprach- und Weltwissen erwirbt.
- Reinforcement Learning from Human Feedback (RLHF)
Trainingsverfahren, das menschliche Präferenzurteile nutzt, um Modellverhalten zu verbessern.
- Direct Preference Optimization (DPO)
RLHF-Alternative, die menschliche Präferenzen direkt in die Verlustfunktion integriert ohne separates RL.
- LoRA (Low-Rank Adaptation)
Parameter-effiziente Fine-Tuning-Methode, die nur wenige Zusatzparameter in niedrigen Rängen trainiert.