ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Multimodal

Multimodal

KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.

Multimodale Modelle können Eingaben aus verschiedenen Datentypen kombinieren und verstehen. Ein visuell-sprachliches Modell etwa analysiert sowohl Bilder als auch zugehörige Textfragen.

Die Integration verschiedener Modalitäten erfolgt meist durch Projektion in einen gemeinsamen Embedding-Raum, den ein Transformer dann verarbeitet. So können Beziehungen zwischen Modalitäten gelernt werden.

Multimodale Fähigkeiten erweitern den Anwendungsbereich enorm: von medizinischer Bildanalyse über Video-Verständnis bis hin zu Robotersteuerung, die visuelle und sprachliche Signale kombiniert.

Verwandte Begriffe

  • Vision-Language Model (VLM)

    Modell, das Bilder und Text gemeinsam versteht und zum Beispiel Fragen zu Bildinhalten beantworten kann.

  • CLIP (Contrastive Language-Image Pretraining)

    Modell, das Bilder und Texte in einem gemeinsamen Embedding-Raum verknüpft durch kontrastives Training.

  • Text-to-Image

    KI-Fähigkeit, aus Textbeschreibungen hochwertige Bilder zu generieren.

  • Large Language Model (LLM)

    Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.