Architektur

Decoder

Transformerteil, der autoregressive Ausgaben erzeugt, typischerweise Token für Token.

Der Decoder generiert Ausgaben schrittweise: Jedes neue Token wird auf Basis der bisherigen Ausgabe und optional einer Encoder-Repräsentation erzeugt. Dabei wird causal Masking eingesetzt.

Decoder-only-Modelle wie GPT verarbeiten Eingabe und Ausgabe in einem einzigen Kontextfenster. Das vereinfacht die Architektur und hat sich für generative Aufgaben bewährt.

Cross-Attention im Decoder erlaubt es, auf Encoder-Ausgaben zu fokussieren. Diese Kombination findet sich in Übersetzungsmodellen und multimodalen Systemen.

Decoder

Verwandte Begriffe

Decoder

Verwandte Begriffe