Zusammenfassen mehrerer Anfragen zu einem Batch, um GPU-Kapazität optimal auszunutzen.
GPUs sind für parallele Berechnungen ausgelegt: Einzelne Anfragen nutzen nur einen Bruchteil der verfügbaren Rechenkapazität. Batching bündelt mehrere Anfragen und führt sie gleichzeitig aus.
Static Batching wartet, bis ein Batch vollständig gefüllt ist; Continuous Batching fügt neue Anfragen dynamisch hinzu und entfernt abgeschlossene, was Latenz und Durchsatz besser balanciert.
Batching erhöht den Durchsatz auf Kosten höherer Latenz für einzelne Anfragen. Die optimale Batchgröße hängt von Modellgröße, Hardware und dem Verhältnis von Durchsatz- zu Latenzanforderungen ab.
Hochperformantes Inferenz-Framework für LLMs mit Paged Attention und effizienter Batch-Verarbeitung.
Speicherverwaltungsansatz für KV-Cache, der Betriebssystem-Paging auf KI-Inferenz überträgt.
Spezialisierter Server zum Betrieb von KI-Modellen in der Produktion mit hohem Durchsatz und niedriger Latenz.
Spezialprozessor mit Tausenden paralleler Recheneinheiten — die dominante Hardware für KI-Training und -Inferenz.