Transformerteil, der autoregressive Ausgaben erzeugt, typischerweise Token für Token.
Der Decoder generiert Ausgaben schrittweise: Jedes neue Token wird auf Basis der bisherigen Ausgabe und optional einer Encoder-Repräsentation erzeugt. Dabei wird causal Masking eingesetzt.
Decoder-only-Modelle wie GPT verarbeiten Eingabe und Ausgabe in einem einzigen Kontextfenster. Das vereinfacht die Architektur und hat sich für generative Aufgaben bewährt.
Cross-Attention im Decoder erlaubt es, auf Encoder-Ausgaben zu fokussieren. Diese Kombination findet sich in Übersetzungsmodellen und multimodalen Systemen.
Transformerteil, der Eingabesequenzen in kontextuelle Repräsentationen umwandelt.
Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.
Attention-Variante, bei der eine Sequenz mit sich selbst interagiert, um interne Abhängigkeiten zu lernen.
Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.