ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Multimodal

Vision-Language Model (VLM)

Modell, das Bilder und Text gemeinsam versteht und zum Beispiel Fragen zu Bildinhalten beantworten kann.

VLMs kombinieren einen Bildencoder mit einem Sprachmodell. Der Bildencoder extrahiert visuelle Features, die dann in den Kontext des Sprachmodells eingefügt werden.

Typische Aufgaben sind Visual Question Answering, Bildbeschreibung (Image Captioning), Dokumentenverständnis und optische Zeichenerkennung. Moderne VLMs beherrschen alle diese Aufgaben in einem Modell.

Die Leistung hängt stark von der Qualität des visuellen Encoders und dem Alignment-Training zwischen visuellen und sprachlichen Repräsentationen ab. CLIP-basierte Encoder sind weit verbreitet.

Verwandte Begriffe

  • Multimodal

    KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.

  • CLIP (Contrastive Language-Image Pretraining)

    Modell, das Bilder und Texte in einem gemeinsamen Embedding-Raum verknüpft durch kontrastives Training.

  • Convolutional Neural Network (CNN)

    Neuronale Netzwerkarchitektur mit Faltungsoperationen, besonders geeignet für Bild- und Signalverarbeitung.

  • Large Language Model (LLM)

    Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.