Modell, das Bilder und Texte in einem gemeinsamen Embedding-Raum verknüpft durch kontrastives Training.
CLIP wurde auf Hunderten Millionen Bild-Text-Paaren aus dem Internet trainiert. Es lernt, ähnliche Bilder und Texte nah beieinander im Embedding-Raum zu platzieren und unähnliche weit entfernt.
Durch das kontrastive Training kann CLIP Zero-Shot-Bildklassifikation: Bilder werden anhand von Textbeschreibungen klassifiziert, ohne aufgabenspezifisches Training.
CLIP-Encoder sind zu wichtigen Bausteinen in der multimodalen KI geworden. Diffusionsmodelle nutzen CLIP-Embeddings, um Text-Prompts in visuelle Generierung zu übersetzen.
KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.
Modell, das Bilder und Text gemeinsam versteht und zum Beispiel Fragen zu Bildinhalten beantworten kann.
Dichte Vektordarstellung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum.
Generatives Modell, das Daten durch schrittweises Entrauschen aus zufälligem Rauschen erzeugt.