İçeriğe geç

Chunking Stratejileri: Sabit · Recursive · Semantic · Document-Aware

Belgeleri parçalara nasıl bölersin? Sabit boyut, recursive, semantic, document-aware (markdown, code) chunking. Boyut + örtüşme.

Şükrü Yusuf KAYA
10 dakikalık okuma
Orta

Chunking: Belgeleri Bölme Sanatı

LLM bağlam penceresine sığacak şekilde belgeleri parçalara böleriz. Bu bölüm RAG'in en kritik kısmı.

4 Chunking Stratejisi#

Her N karakter / N token. En basit.
chunks = [text[i:i+1000] for i in range(0, len(text), 1000)]
✅ Basit, hızlı ❌ Cümle/paragraf ortasında kesebilir ❌ Bağlam kaybı
Geliştirme: Overlap (örtüşme) — chunkler arasında 100-200 karakter çakışsın.

Chunk Boyutu#

Küçük Chunks (200-500 token)#

✅ Hassas retrieval ✅ Daha çok chunk = daha çok seçenek ❌ Bağlam kaybı ❌ DB boyutu büyür
Kullan: FAQ, atomic fact extraction.

Büyük Chunks (1000-2000 token)#

✅ Bağlam korunur ✅ DB küçük ❌ Embedding kalitesi düşer ❌ "Lost-in-the-middle" riski
Kullan: Anlatı belgeler, hukuki sözleşmeler.
Sweet spot: 800-1200 token chunks + 100-150 token overlap. Recursive ile başla, eval'le tune et.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler

Bağlantılı Pillar Konular

Bu yazının bağlandığı pillar konular