Chunking Stratejileri: Sabit · Recursive · Semantic · Document-Aware

Belgeleri parçalara nasıl bölersin? Sabit boyut, recursive, semantic, document-aware (markdown, code) chunking. Boyut + örtüşme.

Şükrü Yusuf KAYA

10 min read

6/22/2026

Intermediate

Chunking: Belgeleri Bölme Sanatı#

LLM bağlam penceresine sığacak şekilde belgeleri parçalara böleriz. Bu bölüm RAG'in en kritik kısmı.

4 Chunking Stratejisi#

Her N karakter / N token. En basit.

chunks = [text[i:i+1000] for i in range(0, len(text), 1000)]

✅ Basit, hızlı ❌ Cümle/paragraf ortasında kesebilir ❌ Bağlam kaybı

Geliştirme: Overlap (örtüşme) — chunkler arasında 100-200 karakter çakışsın.

Chunk Boyutu#

Küçük Chunks (200-500 token)#

✅ Hassas retrieval ✅ Daha çok chunk = daha çok seçenek ❌ Bağlam kaybı ❌ DB boyutu büyür

Kullan: FAQ, atomic fact extraction.

Büyük Chunks (1000-2000 token)#

✅ Bağlam korunur ✅ DB küçük ❌ Embedding kalitesi düşer ❌ "Lost-in-the-middle" riski

Kullan: Anlatı belgeler, hukuki sözleşmeler.

Sweet spot: 800-1200 token chunks + 100-150 token overlap. Recursive ile başla, eval'le tune et.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

Pillar topics this article maps to

Pillar Topic

RAG (Retrieval-Augmented Generation) Architecture

RAG (Retrieval-Augmented Generation) is an architecture that grounds large-language-model answers in chunks retrieved from the organization's own documents or data sources, providing both freshness and citations.

Chunking Stratejileri: Sabit · Recursive · Semantic · Document-Aware

Chunking: Belgeleri Bölme Sanatı#

4 Chunking Stratejisi#

Chunk Boyutu#

Küçük Chunks (200-500 token)#

Büyük Chunks (1000-2000 token)#

Yorumlar & Soru-Cevap

Related Content

Bu Eğitim Hakkında ve Verimli Çalışma Yöntemi

Yapay Zekâ → Üretken AI → LLM: Bağlamsal Harita

LLM'ler Aslında Nasıl Düşünür? (Token, Embedding, Attention)

Pillar topics this article maps to

RAG (Retrieval-Augmented Generation) Architecture

Subscribe to Newsletter