Zwischenspeicher für Key- und Value-Vektoren der Attention, der autoregressive Generierung beschleunigt.
Bei der autoregressiven Generierung müssen Attention-Key- und -Value-Matrizen für bereits generierte Token nicht neu berechnet werden. Der KV-Cache speichert sie und reduziert so die Rechenlast erheblich.
Der Speicherbedarf des KV-Caches wächst linear mit der Kontextlänge und Batchgröße. Bei langen Kontexten wird er zum Flaschenhals und macht Optimierungstechniken wie Paged Attention nötig.
Effizientes KV-Cache-Management ist ein zentrales Thema bei der Skalierung von Inference-Systemen. Techniken wie Prefix Sharing erlauben, gemeinsame Präfixe über viele Anfragen hinweg zu teilen.
Mechanismus, der jedem Element einer Sequenz erlaubt, selektiv auf andere Elemente zu fokussieren.
Speicherverwaltungsansatz für KV-Cache, der Betriebssystem-Paging auf KI-Inferenz überträgt.
Maximale Anzahl Token, die ein Sprachmodell in einem Durchlauf verarbeiten und berücksichtigen kann.
Spezialisierter Server zum Betrieb von KI-Modellen in der Produktion mit hohem Durchsatz und niedriger Latenz.