Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.
Der Transformer wurde 2017 mit dem Paper 'Attention Is All You Need' eingeführt und ersetzte recurrente Architekturen durch parallele Attention-Mechanismen. Er ist heute die Grundlage nahezu aller großen KI-Modelle.
Die Architektur besteht aus Encoder- und Decoder-Blöcken, die jeweils Multi-Head Self-Attention und Feed-Forward-Schichten kombinieren. Residualverbindungen und Layer-Normalisierung stabilisieren das Training tiefer Netze.
Transformers skalieren gut: Größere Modelle mit mehr Parametern und mehr Trainingsdaten zeigen zuverlässig bessere Leistung. Dieses Skalierungsgesetz treibt die Entwicklung immer größerer Sprachmodelle.
Mechanismus, der jedem Element einer Sequenz erlaubt, selektiv auf andere Elemente zu fokussieren.
Attention-Variante, bei der eine Sequenz mit sich selbst interagiert, um interne Abhängigkeiten zu lernen.
Transformerteil, der Eingabesequenzen in kontextuelle Repräsentationen umwandelt.
Transformerteil, der autoregressive Ausgaben erzeugt, typischerweise Token für Token.