Klassischer probabilistischer Retrieval-Algorithmus auf Basis von Term-Frequenz und inverser Dokumenthäufigkeit.
BM25 ist eine Weiterentwicklung von TF-IDF und gewichtet seltene Terme, die in einem Dokument häufig vorkommen, stärker. Es ist der Standard-Algorithmus in vielen Suchmaschinen und Elasticsearch.
Im Gegensatz zur semantischen Suche arbeitet BM25 rein lexikalisch: Synonyme und Paraphrasen werden nicht erkannt, aber exakte Schlüsselwörter zuverlässig gefunden.
BM25 bleibt relevant als Ergänzung zu semantischen Methoden. Hybride Suche, die beide Signale kombiniert, übertrifft oft jeden Einzelansatz, besonders bei Fachanfragen mit spezifischen Begriffen.
Kombination aus semantischer Vektorsuche und lexikalischer Schlüsselwortsuche für bessere Retrievalqualität.
Suche, die Bedeutungsähnlichkeit statt Schlüsselwort-Übereinstimmung nutzt, um relevante Ergebnisse zu finden.
Architektur, die Sprachmodelle mit externer Wissenssuche kombiniert, um Antworten zu verankern.
Modell, das initial abgerufene Dokumente nach tatsächlicher Relevanz zur Anfrage neu sortiert.