LLM-Konzepte

KV-Cache

Zwischenspeicher für Key- und Value-Vektoren der Attention, der autoregressive Generierung beschleunigt.

Bei der autoregressiven Generierung müssen Attention-Key- und -Value-Matrizen für bereits generierte Token nicht neu berechnet werden. Der KV-Cache speichert sie und reduziert so die Rechenlast erheblich.

Der Speicherbedarf des KV-Caches wächst linear mit der Kontextlänge und Batchgröße. Bei langen Kontexten wird er zum Flaschenhals und macht Optimierungstechniken wie Paged Attention nötig.

Effizientes KV-Cache-Management ist ein zentrales Thema bei der Skalierung von Inference-Systemen. Techniken wie Prefix Sharing erlauben, gemeinsame Präfixe über viele Anfragen hinweg zu teilen.

KV-Cache

Verwandte Begriffe

KV-Cache

Verwandte Begriffe