Modell, das Bilder und Text gemeinsam versteht und zum Beispiel Fragen zu Bildinhalten beantworten kann.
VLMs kombinieren einen Bildencoder mit einem Sprachmodell. Der Bildencoder extrahiert visuelle Features, die dann in den Kontext des Sprachmodells eingefügt werden.
Typische Aufgaben sind Visual Question Answering, Bildbeschreibung (Image Captioning), Dokumentenverständnis und optische Zeichenerkennung. Moderne VLMs beherrschen alle diese Aufgaben in einem Modell.
Die Leistung hängt stark von der Qualität des visuellen Encoders und dem Alignment-Training zwischen visuellen und sprachlichen Repräsentationen ab. CLIP-basierte Encoder sind weit verbreitet.
KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.
Modell, das Bilder und Texte in einem gemeinsamen Embedding-Raum verknüpft durch kontrastives Training.
Neuronale Netzwerkarchitektur mit Faltungsoperationen, besonders geeignet für Bild- und Signalverarbeitung.
Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.