Training

Wissendestillation (Distillation)

Training eines kleinen Schülermodells mithilfe der weichen Ausgaben eines großen Lehrermodells.

Beim Knowledge Distillation wird ein kleineres Modell trainiert, die Ausgabeverteilungen eines größeren Lehrermodells zu imitieren. Soft Labels, also Wahrscheinlichkeitsverteilungen statt harter Labels, übertragen mehr Information.

Das Schülermodell lernt nicht nur richtige Antworten, sondern auch die Fehlerstruktur des Lehrers. Das führt oft zu besserer Generalisierung als reines Training auf harten Labels.

Destillation ist ein wichtiger Baustein für effiziente Modelle: Viele kompakte Modelle wurden aus deutlich größeren Lehrermodellen destilliert und erreichen trotzdem beeindruckende Leistungen.

Wissendestillation (Distillation)

Verwandte Begriffe

Wissendestillation (Distillation)

Verwandte Begriffe