Retrieval & RAG

Chunking

Aufteilung langer Dokumente in kleinere Abschnitte, die effizient indexiert und abgerufen werden können.

Chunking ist ein kritischer Schritt in RAG-Pipelines: Da Embedding-Modelle und Kontextfenster begrenzte Längen haben, müssen lange Dokumente in handhabbare Einheiten aufgeteilt werden.

Naive Aufteilung nach fixer Zeichenanzahl reißt oft zusammenhängende Informationen auseinander. Semantisches Chunking orientiert sich an Absätzen, Sätzen oder thematischen Einheiten.

Überlappende Chunks verhindern, dass Information an Grenzen verloren geht. Hierarchisches Chunking mit zusammenfassenden übergeordneten Chunks verbessert das Retrieval bei komplexen Dokumenten.

Chunking

Verwandte Begriffe