Feinjustierung eines vortrainierten Modells auf kuratierten Aufgaben-Antwort-Paaren zur Verhaltenssteuerung.
SFT passt ein vortrainiertes Basismodell auf menschlich kuratierten Demonstrations-Datensätzen an. Das Modell lernt, dem Instruktionsformat zu folgen und erwünschte Antwortstrukturen zu produzieren.
Die Datenmenge für SFT ist deutlich kleiner als beim Pretraining — oft einige zehntausend bis wenige Millionen Beispiele. Qualität der Demonstrationen ist wichtiger als schiere Menge.
SFT ist typischerweise die erste Stufe in der RLHF-Pipeline. Es erzeugt ein Modell, das anschließend durch Belohnungsmodell und Reinforcement Learning weiter verfeinert wird.
Erste Trainingsphase, in der ein Modell auf riesigen Textmengen grundlegendes Sprach- und Weltwissen erwirbt.
Trainingsverfahren, das menschliche Präferenzurteile nutzt, um Modellverhalten zu verbessern.
RLHF-Alternative, die menschliche Präferenzen direkt in die Verlustfunktion integriert ohne separates RL.
Parameter-effiziente Fine-Tuning-Methode, die nur wenige Zusatzparameter in niedrigen Rängen trainiert.