Transformerteil, der Eingabesequenzen in kontextuelle Repräsentationen umwandelt.
Der Encoder verarbeitet die gesamte Eingabesequenz bidirektional: Jedes Token kann auf alle anderen Tokens achten. Das Ergebnis sind kontextreiche Vektoren, die den Inhalt des Textes repräsentieren.
Encoder-only-Modelle wie BERT eignen sich besonders für Klassifikations- und Extraktionsaufgaben, bei denen das vollständige Verständnis der Eingabe wichtiger ist als die Textgenerierung.
In der klassischen Seq2Seq-Architektur kodiert der Encoder die Eingabe, die der Decoder dann nutzt, um die Ausgabe zu generieren. Reine Encoder werden heute häufig für Embedding-Modelle eingesetzt.
Transformerteil, der autoregressive Ausgaben erzeugt, typischerweise Token für Token.
Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.
Attention-Variante, bei der eine Sequenz mit sich selbst interagiert, um interne Abhängigkeiten zu lernen.
Spezialisiertes Modell, das Texte in dichte Vektoren für semantische Suche und RAG umwandelt.