ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Infrastruktur

Serverless Inference

Betriebsmodell, bei dem KI-Modelle nur bei tatsächlichen Anfragen Ressourcen verbrauchen und auf null skalieren.

Serverless Inference vermeidet das permanente Vorhalten von GPU-Ressourcen. Modelle werden bei Bedarf geladen, verarbeiten Anfragen und skalieren bei Inaktivität auf null Instanzen.

Der Kompromiss ist Cold-Start-Latenz: Das erste Laden eines Modells kann Sekunden dauern. Für latenztolerante Batch-Workloads ist das akzeptabel; für Echtzeit-Anwendungen oft nicht.

Anbieter wie Hugging Face Inference Endpoints, Modal oder AWS Lambda mit Custom Runtimes ermöglichen serverlose LLM-Deployments. Für sporadischen Traffic kann das deutlich kosteneffizienter sein.

Verwandte Begriffe

  • Inferenz-Server

    Spezialisierter Server zum Betrieb von KI-Modellen in der Produktion mit hohem Durchsatz und niedriger Latenz.

  • Edge Inference

    Ausführung von KI-Modellen direkt auf Endgeräten ohne Verbindung zu Cloud-Servern.

  • Batching

    Zusammenfassen mehrerer Anfragen zu einem Batch, um GPU-Kapazität optimal auszunutzen.

  • Small Language Model (SLM)

    Kompaktes Sprachmodell mit wenigen Milliarden Parametern, das auf ressourcenarmen Geräten lauffähig ist.