Attention (Aufmerksamkeitsmechanismus)
Mechanismus, der jedem Element einer Sequenz erlaubt, selektiv auf andere Elemente zu fokussieren.
Attention berechnet für jede Position in einer Sequenz eine gewichtete Summe aller anderen Positionen. Die Gewichte entstehen aus der Ähnlichkeit zwischen Query- und Key-Vektoren.
Multi-Head Attention führt diesen Vorgang parallel in mehreren Köpfen durch, sodass das Modell verschiedene Arten von Beziehungen gleichzeitig erfassen kann. Die Ergebnisse werden anschließend konkateniert.
Attention löste das Problem langer Abhängigkeiten in Sequenzen, an dem recurrente Netze scheiterten. Der Rechenaufwand wächst quadratisch mit der Sequenzlänge, was Effizienzforschung zu einem aktiven Gebiet macht.
Verwandte Begriffe
- Self-Attention
Attention-Variante, bei der eine Sequenz mit sich selbst interagiert, um interne Abhängigkeiten zu lernen.
- Transformer
Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.
- KV-Cache
Zwischenspeicher für Key- und Value-Vektoren der Attention, der autoregressive Generierung beschleunigt.
- Kontextfenster (Context Window)
Maximale Anzahl Token, die ein Sprachmodell in einem Durchlauf verarbeiten und berücksichtigen kann.