Speicherverwaltungsansatz für KV-Cache, der Betriebssystem-Paging auf KI-Inferenz überträgt.
Paged Attention teilt den KV-Cache in kleine, nicht-zusammenhängende Speicherseiten auf, ähnlich wie virtuelle Speicherverwaltung in Betriebssystemen. Das reduziert Speicherfragmentierung erheblich.
Ohne Paged Attention wird für jede Anfrage im Voraus zusammenhängender Speicher reserviert, oft mehr als tatsächlich benötigt. Paged Attention erlaubt dynamische Zuteilung und effizienteres Teilen von Präfixen.
Die Technik ist zentral für vLLM und hat die praktische Serving-Effizienz von LLMs revolutioniert. Durchsatz und parallele Kapazität wurden durch Paged Attention deutlich erhöht.
Zwischenspeicher für Key- und Value-Vektoren der Attention, der autoregressive Generierung beschleunigt.
Hochperformantes Inferenz-Framework für LLMs mit Paged Attention und effizienter Batch-Verarbeitung.
Zusammenfassen mehrerer Anfragen zu einem Batch, um GPU-Kapazität optimal auszunutzen.
Spezialprozessor mit Tausenden paralleler Recheneinheiten — die dominante Hardware für KI-Training und -Inferenz.