Zum Glossar
Multimodal

CLIP (Contrastive Language-Image Pretraining)

Modell, das Bilder und Texte in einem gemeinsamen Embedding-Raum verknüpft durch kontrastives Training.

CLIP wurde auf Hunderten Millionen Bild-Text-Paaren aus dem Internet trainiert. Es lernt, ähnliche Bilder und Texte nah beieinander im Embedding-Raum zu platzieren und unähnliche weit entfernt.

Durch das kontrastive Training kann CLIP Zero-Shot-Bildklassifikation: Bilder werden anhand von Textbeschreibungen klassifiziert, ohne aufgabenspezifisches Training.

CLIP-Encoder sind zu wichtigen Bausteinen in der multimodalen KI geworden. Diffusionsmodelle nutzen CLIP-Embeddings, um Text-Prompts in visuelle Generierung zu übersetzen.

Verwandte Begriffe