Komponente, die Text in Token-Sequenzen umwandelt und damit die Modell-Eingabe vorbereitet.
Der Tokenizer ist die Brücke zwischen rohem Text und der numerischen Eingabe des Modells. Er zerlegt Text in Token und weist jedem Token eine eindeutige ID zu.
Verbreitete Algorithmen sind Byte Pair Encoding (BPE) und SentencePiece. Sie bauen ein Vokabular auf, das häufige Zeichenfolgen zusammenfasst und seltene aufteilt.
Der Tokenizer ist modellspezifisch: Verschiedene Modelle teilen Text unterschiedlich auf. Ein Tokenizer-Mismatch beim Fine-Tuning kann zu unerwartetem Verhalten führen.
Kleinste Verarbeitungseinheit eines Sprachmodells — meist Wortteile, Wörter oder Satzzeichen.
Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.
Dichte Vektordarstellung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum.
Erste Trainingsphase, in der ein Modell auf riesigen Textmengen grundlegendes Sprach- und Weltwissen erwirbt.