KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.
Multimodale Modelle können Eingaben aus verschiedenen Datentypen kombinieren und verstehen. Ein visuell-sprachliches Modell etwa analysiert sowohl Bilder als auch zugehörige Textfragen.
Die Integration verschiedener Modalitäten erfolgt meist durch Projektion in einen gemeinsamen Embedding-Raum, den ein Transformer dann verarbeitet. So können Beziehungen zwischen Modalitäten gelernt werden.
Multimodale Fähigkeiten erweitern den Anwendungsbereich enorm: von medizinischer Bildanalyse über Video-Verständnis bis hin zu Robotersteuerung, die visuelle und sprachliche Signale kombiniert.
Modell, das Bilder und Text gemeinsam versteht und zum Beispiel Fragen zu Bildinhalten beantworten kann.
Modell, das Bilder und Texte in einem gemeinsamen Embedding-Raum verknüpft durch kontrastives Training.
KI-Fähigkeit, aus Textbeschreibungen hochwertige Bilder zu generieren.
Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.