Dichte Vektordarstellung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum.
Embeddings kodieren semantische Ähnlichkeiten als geometrische Nähe: Ähnliche Konzepte liegen nah beieinander im Vektorraum. Diese Darstellung ermöglicht mathematische Operationen auf Bedeutungen.
Wort-Embeddings waren der erste große Durchbruch; heutige Kontextembeddings aus Sprachmodellen erfassen auch die Bedeutung im Satzkontext. Ein Wort kann je nach Verwendung unterschiedliche Vektoren haben.
Embeddings sind die Grundlage für semantische Suche und Retrieval-Augmented Generation. Ein Embedding-Modell kodiert Texte so, dass relevante Passagen in Vektordatenbanken effizient gefunden werden.
Spezialisiertes Modell, das Texte in dichte Vektoren für semantische Suche und RAG umwandelt.
Suche, die Bedeutungsähnlichkeit statt Schlüsselwort-Übereinstimmung nutzt, um relevante Ergebnisse zu finden.
Datenbanksystem, das hochdimensionale Vektoren speichert und effiziente Ähnlichkeitssuchen ermöglicht.
Kleinste Verarbeitungseinheit eines Sprachmodells — meist Wortteile, Wörter oder Satzzeichen.