ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Infrastruktur

vLLM

Hochperformantes Inferenz-Framework für LLMs mit Paged Attention und effizienter Batch-Verarbeitung.

vLLM ist ein Open-Source-Framework, das LLM-Inferenz durch Paged Attention, Continuous Batching und andere Optimierungen drastisch beschleunigt. Es wird in vielen produktiven Deployments eingesetzt.

Continuous Batching füllt freie GPU-Slots mit neuen Anfragen, sobald andere abgeschlossen werden, statt auf volle Batches zu warten. Das erhöht den Durchsatz erheblich.

vLLM unterstützt eine breite Palette von Modellen und Quantisierungsformaten. Es bietet eine OpenAI-kompatible API, was die Migration einfach macht.

Verwandte Begriffe

  • Paged Attention

    Speicherverwaltungsansatz für KV-Cache, der Betriebssystem-Paging auf KI-Inferenz überträgt.

  • Batching

    Zusammenfassen mehrerer Anfragen zu einem Batch, um GPU-Kapazität optimal auszunutzen.

  • Inferenz-Server

    Spezialisierter Server zum Betrieb von KI-Modellen in der Produktion mit hohem Durchsatz und niedriger Latenz.

  • GPU (Grafikprozessor)

    Spezialprozessor mit Tausenden paralleler Recheneinheiten — die dominante Hardware für KI-Training und -Inferenz.