Architektur

Transformer

Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.

Der Transformer wurde 2017 mit dem Paper 'Attention Is All You Need' eingeführt und ersetzte recurrente Architekturen durch parallele Attention-Mechanismen. Er ist heute die Grundlage nahezu aller großen KI-Modelle.

Die Architektur besteht aus Encoder- und Decoder-Blöcken, die jeweils Multi-Head Self-Attention und Feed-Forward-Schichten kombinieren. Residualverbindungen und Layer-Normalisierung stabilisieren das Training tiefer Netze.

Transformers skalieren gut: Größere Modelle mit mehr Parametern und mehr Trainingsdaten zeigen zuverlässig bessere Leistung. Dieses Skalierungsgesetz treibt die Entwicklung immer größerer Sprachmodelle.

Transformer

Verwandte Begriffe

Transformer

Verwandte Begriffe