Architektur

Attention (Aufmerksamkeitsmechanismus)

Mechanismus, der jedem Element einer Sequenz erlaubt, selektiv auf andere Elemente zu fokussieren.

Attention berechnet für jede Position in einer Sequenz eine gewichtete Summe aller anderen Positionen. Die Gewichte entstehen aus der Ähnlichkeit zwischen Query- und Key-Vektoren.

Multi-Head Attention führt diesen Vorgang parallel in mehreren Köpfen durch, sodass das Modell verschiedene Arten von Beziehungen gleichzeitig erfassen kann. Die Ergebnisse werden anschließend konkateniert.

Attention löste das Problem langer Abhängigkeiten in Sequenzen, an dem recurrente Netze scheiterten. Der Rechenaufwand wächst quadratisch mit der Sequenzlänge, was Effizienzforschung zu einem aktiven Gebiet macht.

Attention (Aufmerksamkeitsmechanismus)

Verwandte Begriffe

Attention (Aufmerksamkeitsmechanismus)

Verwandte Begriffe