Betriebsmodell, bei dem KI-Modelle nur bei tatsächlichen Anfragen Ressourcen verbrauchen und auf null skalieren.
Serverless Inference vermeidet das permanente Vorhalten von GPU-Ressourcen. Modelle werden bei Bedarf geladen, verarbeiten Anfragen und skalieren bei Inaktivität auf null Instanzen.
Der Kompromiss ist Cold-Start-Latenz: Das erste Laden eines Modells kann Sekunden dauern. Für latenztolerante Batch-Workloads ist das akzeptabel; für Echtzeit-Anwendungen oft nicht.
Anbieter wie Hugging Face Inference Endpoints, Modal oder AWS Lambda mit Custom Runtimes ermöglichen serverlose LLM-Deployments. Für sporadischen Traffic kann das deutlich kosteneffizienter sein.
Spezialisierter Server zum Betrieb von KI-Modellen in der Produktion mit hohem Durchsatz und niedriger Latenz.
Ausführung von KI-Modellen direkt auf Endgeräten ohne Verbindung zu Cloud-Servern.
Zusammenfassen mehrerer Anfragen zu einem Batch, um GPU-Kapazität optimal auszunutzen.
Kompaktes Sprachmodell mit wenigen Milliarden Parametern, das auf ressourcenarmen Geräten lauffähig ist.