Multimodal
KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.
Multimodale Modelle können Eingaben aus verschiedenen Datentypen kombinieren und verstehen. Ein visuell-sprachliches Modell etwa analysiert sowohl Bilder als auch zugehörige Textfragen.
Die Integration verschiedener Modalitäten erfolgt meist durch Projektion in einen gemeinsamen Embedding-Raum, den ein Transformer dann verarbeitet. So können Beziehungen zwischen Modalitäten gelernt werden.
Multimodale Fähigkeiten erweitern den Anwendungsbereich enorm: von medizinischer Bildanalyse über Video-Verständnis bis hin zu Robotersteuerung, die visuelle und sprachliche Signale kombiniert.
Verwandte Begriffe
- Vision-Language Model (VLM)
Modell, das Bilder und Text gemeinsam versteht und zum Beispiel Fragen zu Bildinhalten beantworten kann.
- CLIP (Contrastive Language-Image Pretraining)
Modell, das Bilder und Texte in einem gemeinsamen Embedding-Raum verknüpft durch kontrastives Training.
- Text-to-Image
KI-Fähigkeit, aus Textbeschreibungen hochwertige Bilder zu generieren.
- Large Language Model (LLM)
Ein großes, auf Text trainiertes Sprachmodell — das Fundament moderner generativer KI.