ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Infrastruktur

Paged Attention

Speicherverwaltungsansatz für KV-Cache, der Betriebssystem-Paging auf KI-Inferenz überträgt.

Paged Attention teilt den KV-Cache in kleine, nicht-zusammenhängende Speicherseiten auf, ähnlich wie virtuelle Speicherverwaltung in Betriebssystemen. Das reduziert Speicherfragmentierung erheblich.

Ohne Paged Attention wird für jede Anfrage im Voraus zusammenhängender Speicher reserviert, oft mehr als tatsächlich benötigt. Paged Attention erlaubt dynamische Zuteilung und effizienteres Teilen von Präfixen.

Die Technik ist zentral für vLLM und hat die praktische Serving-Effizienz von LLMs revolutioniert. Durchsatz und parallele Kapazität wurden durch Paged Attention deutlich erhöht.

Verwandte Begriffe

  • KV-Cache

    Zwischenspeicher für Key- und Value-Vektoren der Attention, der autoregressive Generierung beschleunigt.

  • vLLM

    Hochperformantes Inferenz-Framework für LLMs mit Paged Attention und effizienter Batch-Verarbeitung.

  • Batching

    Zusammenfassen mehrerer Anfragen zu einem Batch, um GPU-Kapazität optimal auszunutzen.

  • GPU (Grafikprozessor)

    Spezialprozessor mit Tausenden paralleler Recheneinheiten — die dominante Hardware für KI-Training und -Inferenz.