Architektur

Self-Attention

Attention-Variante, bei der eine Sequenz mit sich selbst interagiert, um interne Abhängigkeiten zu lernen.

Bei Self-Attention stammen Query, Key und Value aus derselben Eingabesequenz. So kann jedes Token den Einfluss aller anderen Tokens auf seine eigene Repräsentation lernen.

Causal Self-Attention maskiert zukünftige Positionen, sodass beim autoregressiven Generieren kein Token auf noch nicht generierte Tokens schauen kann. Dies ist die Grundlage dekodierender Sprachmodelle.

Self-Attention ermöglicht es Transformers, komplexe syntaktische und semantische Beziehungen wie Koreferenz oder Subjekt-Verb-Übereinstimmung implizit zu lernen.

Self-Attention

Verwandte Begriffe

Self-Attention

Verwandte Begriffe