CLIP (Contrastive Language-Image Pretraining)
Modell, das Bilder und Texte in einem gemeinsamen Embedding-Raum verknüpft durch kontrastives Training.
CLIP wurde auf Hunderten Millionen Bild-Text-Paaren aus dem Internet trainiert. Es lernt, ähnliche Bilder und Texte nah beieinander im Embedding-Raum zu platzieren und unähnliche weit entfernt.
Durch das kontrastive Training kann CLIP Zero-Shot-Bildklassifikation: Bilder werden anhand von Textbeschreibungen klassifiziert, ohne aufgabenspezifisches Training.
CLIP-Encoder sind zu wichtigen Bausteinen in der multimodalen KI geworden. Diffusionsmodelle nutzen CLIP-Embeddings, um Text-Prompts in visuelle Generierung zu übersetzen.
Verwandte Begriffe
- Multimodal
KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.
- Vision-Language Model (VLM)
Modell, das Bilder und Text gemeinsam versteht und zum Beispiel Fragen zu Bildinhalten beantworten kann.
- Embedding (Einbettung)
Dichte Vektordarstellung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum.
- Diffusionsmodell
Generatives Modell, das Daten durch schrittweises Entrauschen aus zufälligem Rauschen erzeugt.