Training

Quantisierung

Reduktion der numerischen Präzision von Modellgewichten, um Speicher und Rechenaufwand zu verringern.

Quantisierung reduziert die Bit-Breite von Gewichten und Aktivierungen, etwa von 32-Bit-Float auf 8-Bit-Integer oder 4-Bit. Das verkleinert den Speicherbedarf und beschleunigt Matrixmultiplikationen.

Post-Training Quantization (PTQ) quantisiert ein bereits trainiertes Modell ohne weiteres Training. Quantization-Aware Training (QAT) berücksichtigt die Quantisierung während des Trainings und erzielt bessere Qualität.

Moderne Verfahren wie GPTQ und AWQ minimieren den Qualitätsverlust durch schlaue Kalibrierung. Modelle mit 4-Bit-Quantisierung erreichen oft nahezu gleiche Leistung wie ihre Vollpräzisions-Pendants.

Quantisierung

Verwandte Begriffe

Quantisierung

Verwandte Begriffe