Multimodal

Multimodal

KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.

Multimodale Modelle können Eingaben aus verschiedenen Datentypen kombinieren und verstehen. Ein visuell-sprachliches Modell etwa analysiert sowohl Bilder als auch zugehörige Textfragen.

Die Integration verschiedener Modalitäten erfolgt meist durch Projektion in einen gemeinsamen Embedding-Raum, den ein Transformer dann verarbeitet. So können Beziehungen zwischen Modalitäten gelernt werden.

Multimodale Fähigkeiten erweitern den Anwendungsbereich enorm: von medizinischer Bildanalyse über Video-Verständnis bis hin zu Robotersteuerung, die visuelle und sprachliche Signale kombiniert.

Verwandte Begriffe