ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Infrastruktur

Batching

Zusammenfassen mehrerer Anfragen zu einem Batch, um GPU-Kapazität optimal auszunutzen.

GPUs sind für parallele Berechnungen ausgelegt: Einzelne Anfragen nutzen nur einen Bruchteil der verfügbaren Rechenkapazität. Batching bündelt mehrere Anfragen und führt sie gleichzeitig aus.

Static Batching wartet, bis ein Batch vollständig gefüllt ist; Continuous Batching fügt neue Anfragen dynamisch hinzu und entfernt abgeschlossene, was Latenz und Durchsatz besser balanciert.

Batching erhöht den Durchsatz auf Kosten höherer Latenz für einzelne Anfragen. Die optimale Batchgröße hängt von Modellgröße, Hardware und dem Verhältnis von Durchsatz- zu Latenzanforderungen ab.

Verwandte Begriffe

  • vLLM

    Hochperformantes Inferenz-Framework für LLMs mit Paged Attention und effizienter Batch-Verarbeitung.

  • Paged Attention

    Speicherverwaltungsansatz für KV-Cache, der Betriebssystem-Paging auf KI-Inferenz überträgt.

  • Inferenz-Server

    Spezialisierter Server zum Betrieb von KI-Modellen in der Produktion mit hohem Durchsatz und niedriger Latenz.

  • GPU (Grafikprozessor)

    Spezialprozessor mit Tausenden paralleler Recheneinheiten — die dominante Hardware für KI-Training und -Inferenz.