Edge Inference
Ausführung von KI-Modellen direkt auf Endgeräten ohne Verbindung zu Cloud-Servern.
Edge Inference führt KI-Modelle auf Smartphones, Laptops, IoT-Geräten oder lokalen Servern aus. Das eliminiert Netzwerk-Latenz und ermöglicht Offline-Betrieb sowie höheren Datenschutz.
Die begrenzte Rechenleistung und Speicher von Endgeräten erfordern stark optimierte Modelle. Quantisierung, Pruning und Destillation sind zentrale Techniken für effiziente Edge-Modelle.
Apple Neural Engine, Qualcomm NPU und ähnliche dedizierte KI-Beschleuniger in modernen Chips ermöglichen energieeffiziente Inferenz auf mobilen Geräten ohne Cloud-Abhängigkeit.
Verwandte Begriffe
- Small Language Model (SLM)
Kompaktes Sprachmodell mit wenigen Milliarden Parametern, das auf ressourcenarmen Geräten lauffähig ist.
- Quantisierung
Reduktion der numerischen Präzision von Modellgewichten, um Speicher und Rechenaufwand zu verringern.
- Serverless Inference
Betriebsmodell, bei dem KI-Modelle nur bei tatsächlichen Anfragen Ressourcen verbrauchen und auf null skalieren.
- Wissendestillation (Distillation)
Training eines kleinen Schülermodells mithilfe der weichen Ausgaben eines großen Lehrermodells.