Training

Pretraining (Vortraining)

Erste Trainingsphase, in der ein Modell auf riesigen Textmengen grundlegendes Sprach- und Weltwissen erwirbt.

Beim Pretraining wird ein Modell auf Billionen von Tokens trainiert, typischerweise mit dem Ziel, das nächste Token vorherzusagen. So entstehen breite sprachliche Fähigkeiten und implizites Faktenwissen.

Das Pretraining erfordert immense Rechenressourcen und dauert Wochen auf Tausenden von GPUs. Die entstehenden Basismodelle werden anschließend durch Fine-Tuning für spezifische Anwendungen angepasst.

Die Qualität und Zusammensetzung der Pretraining-Daten hat großen Einfluss auf Fähigkeiten und Schwächen des Modells. Data Curation und Filtering sind daher kritische Schritte.

Pretraining (Vortraining)

Verwandte Begriffe

Pretraining (Vortraining)

Verwandte Begriffe