Mechanismus, der jedem Element einer Sequenz erlaubt, selektiv auf andere Elemente zu fokussieren.
Attention berechnet für jede Position in einer Sequenz eine gewichtete Summe aller anderen Positionen. Die Gewichte entstehen aus der Ähnlichkeit zwischen Query- und Key-Vektoren.
Multi-Head Attention führt diesen Vorgang parallel in mehreren Köpfen durch, sodass das Modell verschiedene Arten von Beziehungen gleichzeitig erfassen kann. Die Ergebnisse werden anschließend konkateniert.
Attention löste das Problem langer Abhängigkeiten in Sequenzen, an dem recurrente Netze scheiterten. Der Rechenaufwand wächst quadratisch mit der Sequenzlänge, was Effizienzforschung zu einem aktiven Gebiet macht.
Attention-Variante, bei der eine Sequenz mit sich selbst interagiert, um interne Abhängigkeiten zu lernen.
Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.
Zwischenspeicher für Key- und Value-Vektoren der Attention, der autoregressive Generierung beschleunigt.
Maximale Anzahl Token, die ein Sprachmodell in einem Durchlauf verarbeiten und berücksichtigen kann.