Kombination aus 4-Bit-Quantisierung und LoRA, die Fine-Tuning großer Modelle auf Einzelverbraucher-GPUs ermöglicht.
QLoRA lädt das Basismodell in 4-Bit-Quantisierung und trainiert LoRA-Adapter in voller Präzision obendrauf. So kann ein Modell mit Dutzenden Milliarden Parametern auf einer einzigen GPU feinabgestimmt werden.
Spezielle Quantisierungsformate wie NF4 erhalten die wichtigsten Gewichtsverteilungen und minimieren den Qualitätsverlust durch Quantisierung beim Training.
QLoRA hat die Einstiegshürde für eigenes LLM-Fine-Tuning drastisch gesenkt. Forschende mit begrenztem Hardware-Budget können damit Experimente durchführen, die vorher Cluster-Ressourcen erforderten.
Parameter-effiziente Fine-Tuning-Methode, die nur wenige Zusatzparameter in niedrigen Rängen trainiert.
Reduktion der numerischen Präzision von Modellgewichten, um Speicher und Rechenaufwand zu verringern.
Feinjustierung eines vortrainierten Modells auf kuratierten Aufgaben-Antwort-Paaren zur Verhaltenssteuerung.
Spezialprozessor mit Tausenden paralleler Recheneinheiten — die dominante Hardware für KI-Training und -Inferenz.