ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Architektur

Transformer

Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.

Der Transformer wurde 2017 mit dem Paper 'Attention Is All You Need' eingeführt und ersetzte recurrente Architekturen durch parallele Attention-Mechanismen. Er ist heute die Grundlage nahezu aller großen KI-Modelle.

Die Architektur besteht aus Encoder- und Decoder-Blöcken, die jeweils Multi-Head Self-Attention und Feed-Forward-Schichten kombinieren. Residualverbindungen und Layer-Normalisierung stabilisieren das Training tiefer Netze.

Transformers skalieren gut: Größere Modelle mit mehr Parametern und mehr Trainingsdaten zeigen zuverlässig bessere Leistung. Dieses Skalierungsgesetz treibt die Entwicklung immer größerer Sprachmodelle.

Verwandte Begriffe

  • Attention (Aufmerksamkeitsmechanismus)

    Mechanismus, der jedem Element einer Sequenz erlaubt, selektiv auf andere Elemente zu fokussieren.

  • Self-Attention

    Attention-Variante, bei der eine Sequenz mit sich selbst interagiert, um interne Abhängigkeiten zu lernen.

  • Encoder

    Transformerteil, der Eingabesequenzen in kontextuelle Repräsentationen umwandelt.

  • Decoder

    Transformerteil, der autoregressive Ausgaben erzeugt, typischerweise Token für Token.