Training

Supervised Fine-Tuning (SFT)

Feinjustierung eines vortrainierten Modells auf kuratierten Aufgaben-Antwort-Paaren zur Verhaltenssteuerung.

SFT passt ein vortrainiertes Basismodell auf menschlich kuratierten Demonstrations-Datensätzen an. Das Modell lernt, dem Instruktionsformat zu folgen und erwünschte Antwortstrukturen zu produzieren.

Die Datenmenge für SFT ist deutlich kleiner als beim Pretraining — oft einige zehntausend bis wenige Millionen Beispiele. Qualität der Demonstrationen ist wichtiger als schiere Menge.

SFT ist typischerweise die erste Stufe in der RLHF-Pipeline. Es erzeugt ein Modell, das anschließend durch Belohnungsmodell und Reinforcement Learning weiter verfeinert wird.

Supervised Fine-Tuning (SFT)

Verwandte Begriffe

Supervised Fine-Tuning (SFT)

Verwandte Begriffe