Zum Glossar
Infrastruktur

Inferenz-Server

Spezialisierter Server zum Betrieb von KI-Modellen in der Produktion mit hohem Durchsatz und niedriger Latenz.

Inferenz-Server wie Triton Inference Server, TorchServe oder vLLM stellen Modelle als skalierbare HTTP/gRPC-Dienste bereit. Sie verwalten Modell-Loading, Batching und GPU-Ressourcen automatisch.

Produktive Deployments erfordern Funktionen wie automatische Skalierung, A/B-Tests zwischen Modellversionen, Health-Checks und Monitoring. Dedizierte Inference-Server bieten diese Infrastruktur out-of-the-box.

Die Wahl des Inference-Servers beeinflusst Kosten und Leistung stark. Open-Source-Lösungen bieten Flexibilität; Cloud-Managed-Dienste reduzieren operationellen Aufwand auf Kosten höherer laufender Kosten.

Verwandte Begriffe