Tokenizer
Komponente, die Text in Token-Sequenzen umwandelt und damit die Modell-Eingabe vorbereitet.
Der Tokenizer ist die Brücke zwischen rohem Text und der numerischen Eingabe des Modells. Er zerlegt Text in Token und weist jedem Token eine eindeutige ID zu.
Verbreitete Algorithmen sind Byte Pair Encoding (BPE) und SentencePiece. Sie bauen ein Vokabular auf, das häufige Zeichenfolgen zusammenfasst und seltene aufteilt.
Der Tokenizer ist modellspezifisch: Verschiedene Modelle teilen Text unterschiedlich auf. Ein Tokenizer-Mismatch beim Fine-Tuning kann zu unerwartetem Verhalten führen.
Verwandte Begriffe
- Token
Kleinste Verarbeitungseinheit eines Sprachmodells — meist Wortteile, Wörter oder Satzzeichen.
- Large Language Model (LLM)
Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.
- Embedding (Einbettung)
Dichte Vektordarstellung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum.
- Pretraining (Vortraining)
Erste Trainingsphase, in der ein Modell auf riesigen Textmengen grundlegendes Sprach- und Weltwissen erwirbt.