ki.team
AgenturenKI-ToolsRessourcenGlossarÜber uns
Newsletter
ki.team

Dein deutschsprachiges Portal für Künstliche Intelligenz: aktuelle News, fundierte Analysen, Tutorials und Einblicke in die Welt der KI.

verzeichnisse

  • KI-Agenturen
  • KI-Tools
  • Ressourcen
  • Glossar

mitmachen

  • Agentur eintragen
  • Newsletter
  • Pro-Listing

rechtliches

  • Impressum
  • Datenschutz
  • Über uns

© 2026 ki.team. Alle Rechte vorbehalten.

RSS Feed
Zum Glossar
Multimodal

CLIP (Contrastive Language-Image Pretraining)

Modell, das Bilder und Texte in einem gemeinsamen Embedding-Raum verknüpft durch kontrastives Training.

CLIP wurde auf Hunderten Millionen Bild-Text-Paaren aus dem Internet trainiert. Es lernt, ähnliche Bilder und Texte nah beieinander im Embedding-Raum zu platzieren und unähnliche weit entfernt.

Durch das kontrastive Training kann CLIP Zero-Shot-Bildklassifikation: Bilder werden anhand von Textbeschreibungen klassifiziert, ohne aufgabenspezifisches Training.

CLIP-Encoder sind zu wichtigen Bausteinen in der multimodalen KI geworden. Diffusionsmodelle nutzen CLIP-Embeddings, um Text-Prompts in visuelle Generierung zu übersetzen.

Verwandte Begriffe

  • Multimodal

    KI-Systeme, die mehrere Modalitäten wie Text, Bild, Audio oder Video gleichzeitig verarbeiten.

  • Vision-Language Model (VLM)

    Modell, das Bilder und Text gemeinsam versteht und zum Beispiel Fragen zu Bildinhalten beantworten kann.

  • Embedding (Einbettung)

    Dichte Vektordarstellung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum.

  • Diffusionsmodell

    Generatives Modell, das Daten durch schrittweises Entrauschen aus zufälligem Rauschen erzeugt.