Architektur, die nur einen Bruchteil der Modellparameter pro Token aktiviert und so Effizienz steigert.
Ein MoE-Modell besteht aus vielen spezialisierten Teilnetzen (Experten) und einem Router, der für jedes Token entscheidet, welche Experten aktiviert werden. So hat das Modell viele Parameter, ohne alle berechnen zu müssen.
MoE erlaubt es, die effektive Modellgröße bei gleichbleibenden Rechenkosten zu erhöhen. Modelle wie Mixtral nutzen diese Technik, um mit deutlich weniger aktivierten Parametern zu arbeiten als die nominelle Gesamtgröße suggeriert.
Herausforderungen sind gleichmäßige Lastverteilung unter den Experten sowie kommunikationsintensives Routing bei verteiltem Training auf vielen GPUs.
Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.
Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.
Spezialprozessor mit Tausenden paralleler Recheneinheiten — die dominante Hardware für KI-Training und -Inferenz.