Infrastruktur

vLLM

Hochperformantes Inferenz-Framework für LLMs mit Paged Attention und effizienter Batch-Verarbeitung.

vLLM ist ein Open-Source-Framework, das LLM-Inferenz durch Paged Attention, Continuous Batching und andere Optimierungen drastisch beschleunigt. Es wird in vielen produktiven Deployments eingesetzt.

Continuous Batching füllt freie GPU-Slots mit neuen Anfragen, sobald andere abgeschlossen werden, statt auf volle Batches zu warten. Das erhöht den Durchsatz erheblich.

vLLM unterstützt eine breite Palette von Modellen und Quantisierungsformaten. Es bietet eine OpenAI-kompatible API, was die Migration einfach macht.

vLLM

Verwandte Begriffe

vLLM

Verwandte Begriffe