Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.
LLMs sind neuronale Netze mit Milliarden von Parametern, die auf riesigen Textkorpora vortrainiert werden. Durch dieses Pretraining erwerben sie breites Weltwissen und sprachliche Kompetenz.
Die meisten modernen LLMs basieren auf der Transformer-Decoder-Architektur und generieren Text autoregessiv: Sie sagen das nächste Token auf Basis aller vorherigen voraus.
LLMs können durch Instruction Tuning und RLHF an menschliche Erwartungen angepasst werden. Die resultierenden Assistenzmodelle folgen Anweisungen, beantworten Fragen und erzeugen strukturierten Output.
Emergente Fähigkeiten wie Mehrschritt-Reasoning oder In-Context-Learning treten bei LLMs ab einer gewissen Größenschwelle auf und waren vorab schwer vorherzusagen.
Dominante neuronale Netzwerkarchitektur für Sprache, Bild und mehr, basierend auf dem Attention-Mechanismus.
Kleinste Verarbeitungseinheit eines Sprachmodells — meist Wortteile, Wörter oder Satzzeichen.
Dichte Vektordarstellung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum.
Erste Trainingsphase, in der ein Modell auf riesigen Textmengen grundlegendes Sprach- und Weltwissen erwirbt.