Zum Glossar
Multimodal

Vision-Language Model (VLM)

Modell, das Bilder und Text gemeinsam versteht und zum Beispiel Fragen zu Bildinhalten beantworten kann.

VLMs kombinieren einen Bildencoder mit einem Sprachmodell. Der Bildencoder extrahiert visuelle Features, die dann in den Kontext des Sprachmodells eingefügt werden.

Typische Aufgaben sind Visual Question Answering, Bildbeschreibung (Image Captioning), Dokumentenverständnis und optische Zeichenerkennung. Moderne VLMs beherrschen alle diese Aufgaben in einem Modell.

Die Leistung hängt stark von der Qualität des visuellen Encoders und dem Alignment-Training zwischen visuellen und sprachlichen Repräsentationen ab. CLIP-basierte Encoder sind weit verbreitet.

Verwandte Begriffe