Training eines kleinen Schülermodells mithilfe der weichen Ausgaben eines großen Lehrermodells.
Beim Knowledge Distillation wird ein kleineres Modell trainiert, die Ausgabeverteilungen eines größeren Lehrermodells zu imitieren. Soft Labels, also Wahrscheinlichkeitsverteilungen statt harter Labels, übertragen mehr Information.
Das Schülermodell lernt nicht nur richtige Antworten, sondern auch die Fehlerstruktur des Lehrers. Das führt oft zu besserer Generalisierung als reines Training auf harten Labels.
Destillation ist ein wichtiger Baustein für effiziente Modelle: Viele kompakte Modelle wurden aus deutlich größeren Lehrermodellen destilliert und erreichen trotzdem beeindruckende Leistungen.
Reduktion der numerischen Präzision von Modellgewichten, um Speicher und Rechenaufwand zu verringern.
Kompaktes Sprachmodell mit wenigen Milliarden Parametern, das auf ressourcenarmen Geräten lauffähig ist.
Erste Trainingsphase, in der ein Modell auf riesigen Textmengen grundlegendes Sprach- und Weltwissen erwirbt.
Künstlich erzeugte Trainingsdaten, oft von Sprachmodellen generiert, um reale Daten zu ergänzen oder ersetzen.