Transformer
Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.
Der Transformer wurde 2017 mit dem Paper 'Attention Is All You Need' eingeführt und ersetzte recurrente Architekturen durch parallele Attention-Mechanismen. Er ist heute die Grundlage nahezu aller großen KI-Modelle.
Die Architektur besteht aus Encoder- und Decoder-Blöcken, die jeweils Multi-Head Self-Attention und Feed-Forward-Schichten kombinieren. Residualverbindungen und Layer-Normalisierung stabilisieren das Training tiefer Netze.
Transformers skalieren gut: Größere Modelle mit mehr Parametern und mehr Trainingsdaten zeigen zuverlässig bessere Leistung. Dieses Skalierungsgesetz treibt die Entwicklung immer größerer Sprachmodelle.
Verwandte Begriffe
- Attention (Aufmerksamkeitsmechanismus)
Mechanismus, der jedem Element einer Sequenz erlaubt, selektiv auf andere Elemente zu fokussieren.
- Self-Attention
Attention-Variante, bei der eine Sequenz mit sich selbst interagiert, um interne Abhängigkeiten zu lernen.
- Encoder
Transformerteil, der Eingabesequenzen in kontextuelle Repräsentationen umwandelt.
- Decoder
Transformerteil, der autoregressive Ausgaben erzeugt, typischerweise Token für Token.