ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
LLM-Konzepte

KV-Cache

Zwischenspeicher für Key- und Value-Vektoren der Attention, der autoregressive Generierung beschleunigt.

Bei der autoregressiven Generierung müssen Attention-Key- und -Value-Matrizen für bereits generierte Token nicht neu berechnet werden. Der KV-Cache speichert sie und reduziert so die Rechenlast erheblich.

Der Speicherbedarf des KV-Caches wächst linear mit der Kontextlänge und Batchgröße. Bei langen Kontexten wird er zum Flaschenhals und macht Optimierungstechniken wie Paged Attention nötig.

Effizientes KV-Cache-Management ist ein zentrales Thema bei der Skalierung von Inference-Systemen. Techniken wie Prefix Sharing erlauben, gemeinsame Präfixe über viele Anfragen hinweg zu teilen.

Verwandte Begriffe

  • Attention (Aufmerksamkeitsmechanismus)

    Mechanismus, der jedem Element einer Sequenz erlaubt, selektiv auf andere Elemente zu fokussieren.

  • Paged Attention

    Speicherverwaltungsansatz für KV-Cache, der Betriebssystem-Paging auf KI-Inferenz überträgt.

  • Kontextfenster (Context Window)

    Maximale Anzahl Token, die ein Sprachmodell in einem Durchlauf verarbeiten und berücksichtigen kann.

  • Inferenz-Server

    Spezialisierter Server zum Betrieb von KI-Modellen in der Produktion mit hohem Durchsatz und niedriger Latenz.