Infrastruktur

Paged Attention

Speicherverwaltungsansatz für KV-Cache, der Betriebssystem-Paging auf KI-Inferenz überträgt.

Paged Attention teilt den KV-Cache in kleine, nicht-zusammenhängende Speicherseiten auf, ähnlich wie virtuelle Speicherverwaltung in Betriebssystemen. Das reduziert Speicherfragmentierung erheblich.

Ohne Paged Attention wird für jede Anfrage im Voraus zusammenhängender Speicher reserviert, oft mehr als tatsächlich benötigt. Paged Attention erlaubt dynamische Zuteilung und effizienteres Teilen von Präfixen.

Die Technik ist zentral für vLLM und hat die praktische Serving-Effizienz von LLMs revolutioniert. Durchsatz und parallele Kapazität wurden durch Paged Attention deutlich erhöht.

Paged Attention

Verwandte Begriffe

Paged Attention

Verwandte Begriffe