Infrastruktur

Batching

Zusammenfassen mehrerer Anfragen zu einem Batch, um GPU-Kapazität optimal auszunutzen.

GPUs sind für parallele Berechnungen ausgelegt: Einzelne Anfragen nutzen nur einen Bruchteil der verfügbaren Rechenkapazität. Batching bündelt mehrere Anfragen und führt sie gleichzeitig aus.

Static Batching wartet, bis ein Batch vollständig gefüllt ist; Continuous Batching fügt neue Anfragen dynamisch hinzu und entfernt abgeschlossene, was Latenz und Durchsatz besser balanciert.

Batching erhöht den Durchsatz auf Kosten höherer Latenz für einzelne Anfragen. Die optimale Batchgröße hängt von Modellgröße, Hardware und dem Verhältnis von Durchsatz- zu Latenzanforderungen ab.

Batching

Verwandte Begriffe

Batching

Verwandte Begriffe