LLM-Konzepte

Tokenizer

Komponente, die Text in Token-Sequenzen umwandelt und damit die Modell-Eingabe vorbereitet.

Der Tokenizer ist die Brücke zwischen rohem Text und der numerischen Eingabe des Modells. Er zerlegt Text in Token und weist jedem Token eine eindeutige ID zu.

Verbreitete Algorithmen sind Byte Pair Encoding (BPE) und SentencePiece. Sie bauen ein Vokabular auf, das häufige Zeichenfolgen zusammenfasst und seltene aufteilt.

Der Tokenizer ist modellspezifisch: Verschiedene Modelle teilen Text unterschiedlich auf. Ein Tokenizer-Mismatch beim Fine-Tuning kann zu unerwartetem Verhalten führen.

Tokenizer

Verwandte Begriffe

Tokenizer

Verwandte Begriffe