Maximale Anzahl Token, die ein Sprachmodell in einem Durchlauf verarbeiten und berücksichtigen kann.
Das Kontextfenster definiert den 'Arbeitspeicher' eines Sprachmodells. Alles, was außerhalb liegt, ist für das Modell nicht direkt sichtbar und muss durch externe Mechanismen wie RAG eingebracht werden.
Größere Kontextfenster ermöglichen längere Dokumente, komplexere Konversationen und mehr Few-Shot-Beispiele. Der Rechenaufwand von Self-Attention wächst jedoch quadratisch mit der Kontextlänge.
Trotz großer Kontextfenster zeigen Modelle oft einen 'Lost in the Middle'-Effekt: Informationen in der Mitte langer Kontexte werden schlechter verarbeitet als am Anfang oder Ende.
Zwischenspeicher für Key- und Value-Vektoren der Attention, der autoregressive Generierung beschleunigt.
Kleinste Verarbeitungseinheit eines Sprachmodells — meist Wortteile, Wörter oder Satzzeichen.
Architektur, die Sprachmodelle mit externer Wissenssuche kombiniert, um Antworten zu verankern.
Mechanismus, der jedem Element einer Sequenz erlaubt, selektiv auf andere Elemente zu fokussieren.