Attention-Variante, bei der eine Sequenz mit sich selbst interagiert, um interne Abhängigkeiten zu lernen.
Bei Self-Attention stammen Query, Key und Value aus derselben Eingabesequenz. So kann jedes Token den Einfluss aller anderen Tokens auf seine eigene Repräsentation lernen.
Causal Self-Attention maskiert zukünftige Positionen, sodass beim autoregressiven Generieren kein Token auf noch nicht generierte Tokens schauen kann. Dies ist die Grundlage dekodierender Sprachmodelle.
Self-Attention ermöglicht es Transformers, komplexe syntaktische und semantische Beziehungen wie Koreferenz oder Subjekt-Verb-Übereinstimmung implizit zu lernen.
Mechanismus, der jedem Element einer Sequenz erlaubt, selektiv auf andere Elemente zu fokussieren.
Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.
Transformerteil, der Eingabesequenzen in kontextuelle Repräsentationen umwandelt.
Transformerteil, der autoregressive Ausgaben erzeugt, typischerweise Token für Token.