ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
LLM-Konzepte

Tokenizer

Komponente, die Text in Token-Sequenzen umwandelt und damit die Modell-Eingabe vorbereitet.

Der Tokenizer ist die Brücke zwischen rohem Text und der numerischen Eingabe des Modells. Er zerlegt Text in Token und weist jedem Token eine eindeutige ID zu.

Verbreitete Algorithmen sind Byte Pair Encoding (BPE) und SentencePiece. Sie bauen ein Vokabular auf, das häufige Zeichenfolgen zusammenfasst und seltene aufteilt.

Der Tokenizer ist modellspezifisch: Verschiedene Modelle teilen Text unterschiedlich auf. Ein Tokenizer-Mismatch beim Fine-Tuning kann zu unerwartetem Verhalten führen.

Verwandte Begriffe

  • Token

    Kleinste Verarbeitungseinheit eines Sprachmodells — meist Wortteile, Wörter oder Satzzeichen.

  • Large Language Model (LLM)

    Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.

  • Embedding (Einbettung)

    Dichte Vektordarstellung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum.

  • Pretraining (Vortraining)

    Erste Trainingsphase, in der ein Modell auf riesigen Textmengen grundlegendes Sprach- und Weltwissen erwirbt.