Decoder
Transformerteil, der autoregressive Ausgaben erzeugt, typischerweise Token für Token.
Der Decoder generiert Ausgaben schrittweise: Jedes neue Token wird auf Basis der bisherigen Ausgabe und optional einer Encoder-Repräsentation erzeugt. Dabei wird causal Masking eingesetzt.
Decoder-only-Modelle wie GPT verarbeiten Eingabe und Ausgabe in einem einzigen Kontextfenster. Das vereinfacht die Architektur und hat sich für generative Aufgaben bewährt.
Cross-Attention im Decoder erlaubt es, auf Encoder-Ausgaben zu fokussieren. Diese Kombination findet sich in Übersetzungsmodellen und multimodalen Systemen.
Verwandte Begriffe
- Encoder
Transformerteil, der Eingabesequenzen in kontextuelle Repräsentationen umwandelt.
- Transformer
Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.
- Self-Attention
Attention-Variante, bei der eine Sequenz mit sich selbst interagiert, um interne Abhängigkeiten zu lernen.
- Large Language Model (LLM)
Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.