Chunking Stratejileri: Sabit · Recursive · Semantic · Document-Aware
Belgeleri parçalara nasıl bölersin? Sabit boyut, recursive, semantic, document-aware (markdown, code) chunking. Boyut + örtüşme.
Şükrü Yusuf KAYA
10 min read
IntermediateChunking: Belgeleri Bölme Sanatı
LLM bağlam penceresine sığacak şekilde belgeleri parçalara böleriz. Bu bölüm RAG'in en kritik kısmı.
4 Chunking Stratejisi#
Her N karakter / N token. En basit.
chunks = [text[i:i+1000] for i in range(0, len(text), 1000)]
✅ Basit, hızlı
❌ Cümle/paragraf ortasında kesebilir
❌ Bağlam kaybı
Geliştirme: Overlap (örtüşme) — chunkler arasında 100-200 karakter çakışsın.
Chunk Boyutu#
Küçük Chunks (200-500 token)#
✅ Hassas retrieval
✅ Daha çok chunk = daha çok seçenek
❌ Bağlam kaybı
❌ DB boyutu büyür
Kullan: FAQ, atomic fact extraction.
Büyük Chunks (1000-2000 token)#
✅ Bağlam korunur
✅ DB küçük
❌ Embedding kalitesi düşer
❌ "Lost-in-the-middle" riski
Kullan: Anlatı belgeler, hukuki sözleşmeler.
Sweet spot: 800-1200 token chunks + 100-150 token overlap. Recursive ile başla, eval'le tune et.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
1. Temeller — Yapay Zekâ ve LLM'lere Giriş
Bu Eğitim Hakkında ve Verimli Çalışma Yöntemi
Start Learning1. Temeller — Yapay Zekâ ve LLM'lere Giriş
Yapay Zekâ → Üretken AI → LLM: Bağlamsal Harita
Start Learning1. Temeller — Yapay Zekâ ve LLM'lere Giriş
LLM'ler Aslında Nasıl Düşünür? (Token, Embedding, Attention)
Start LearningConnected pillar topics