Kleinste Verarbeitungseinheit eines Sprachmodells — meist Wortteile, Wörter oder Satzzeichen.
Sprachmodelle verarbeiten Text nicht zeichenweise, sondern in Token-Einheiten. Ein Token entspricht je nach Sprache und Kontext einem Wort, einem Wortteil oder einzelnen Zeichen.
Tokenisierung beeinflusst, wie effizient ein Modell Texte verarbeitet. Komprimierte Sprachen wie Englisch benötigen weniger Token pro Information als agglutinative Sprachen.
Die Anzahl der Token im Kontextfenster bestimmt, wie viel Text ein Modell gleichzeitig verarbeiten kann. Kosten für API-Nutzung werden üblicherweise pro Token berechnet.
Komponente, die Text in Token-Sequenzen umwandelt und damit die Modell-Eingabe vorbereitet.
Maximale Anzahl Token, die ein Sprachmodell in einem Durchlauf verarbeiten und berücksichtigen kann.
Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.
Dichte Vektordarstellung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum.