Maß dafür, wie gut ein Sprachmodell eine Textsequenz vorhersagt — niedrigere Werte sind besser.
Perplexität ist das geometrische Mittel der inversen Wahrscheinlichkeit jedes Tokens in einem Testtext. Sie misst, wie überraschend der Text für das Modell ist.
Als intrinsische Metrik misst Perplexität die Modellqualität direkt auf Texten, ohne externe Aufgaben zu benötigen. Sie korreliert aber nicht immer mit der Downstream-Aufgabenleistung.
Perplexität ist modell- und tokenizer-spezifisch: Modelle mit unterschiedlichen Vokabularen können nicht direkt verglichen werden. Als Entwicklungsmetrik ist sie dennoch nützlich, um Training-Fortschritt zu verfolgen.
Standardisierter Datensatz und Metrik zur vergleichbaren Bewertung von KI-Modellen.
Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.
Kleinste Verarbeitungseinheit eines Sprachmodells — meist Wortteile, Wörter oder Satzzeichen.
Mathematische Funktion, die den Fehler zwischen Modellvorhersage und tatsächlichem Zielwert misst.