Architektur

Mixture of Experts (MoE)

Architektur, die nur einen Bruchteil der Modellparameter pro Token aktiviert und so Effizienz steigert.

Ein MoE-Modell besteht aus vielen spezialisierten Teilnetzen (Experten) und einem Router, der für jedes Token entscheidet, welche Experten aktiviert werden. So hat das Modell viele Parameter, ohne alle berechnen zu müssen.

MoE erlaubt es, die effektive Modellgröße bei gleichbleibenden Rechenkosten zu erhöhen. Modelle wie Mixtral nutzen diese Technik, um mit deutlich weniger aktivierten Parametern zu arbeiten als die nominelle Gesamtgröße suggeriert.

Herausforderungen sind gleichmäßige Lastverteilung unter den Experten sowie kommunikationsintensives Routing bei verteiltem Training auf vielen GPUs.

Mixture of Experts (MoE)

Verwandte Begriffe

Mixture of Experts (MoE)

Verwandte Begriffe