Chunking nedir? Chunking (belge bölümleme), uzun bir metni bir dil modelinin ve vektör veritabanının işleyebileceği daha küçük, anlamlı parçalara (chunk) bölme işlemidir. RAG ve arama sistemlerinde her parça ayrı ayrı embedding'e çevrilip arandığı için, bu bölme işlemi doğru bilginin bulunmasını doğrudan belirler.

Bir belgeyi olduğu gibi modele vermek çoğu zaman mümkün değildir: belgeler bağlam penceresine sığmayacak kadar uzundur ve tümünü aramak hem pahalı hem de gürültülüdür. Chunking tam bu noktada devreye girer — belgeyi, tek başına anlamlı ve aranabilir birimlere böler. Bu rehber chunking nedir, neden rag performansının temeli olduğu, chunk boyutu ve chunk overlap kararları, semantik chunking dâhil türleri ve yaygın hataları uygulayıcı gözüyle ele alıyor.

Tanım

Chunking (Belge Bölümleme): Uzun bir metni, bir dil modelinin ve vektör veritabanının işleyebileceği daha küçük, anlamlı parçalara (chunk) bölme işlemi. RAG ve arama sistemlerinde her parça ayrı ayrı embedding'e çevrilip aranır; bu yüzden chunking, doğru bilginin getirilmesini ve yanıt kalitesini doğrudan belirleyen temel adımdır.; Ayrıca: Belge bölümleme, metin parçalama, chunk oluşturma, chunking

Chunking Neden RAG Performansının Temelidir?

Bir RAG sisteminde model yalnızca kendisine getirilen parçalara dayanarak cevap verir. Doğru bilgi belgede olsa bile, o bilgi yanlış bölünmüş bir parçanın içinde kaybolduysa arama onu bulamaz ve model bu bilgiyi hiç görmez. İşte bu yüzden rag performansının en büyük belirleyicisi çoğu zaman modelin gücü değil, chunking kalitesidir.

Bunu somutlaştıralım: bir ürün kılavuzunda "iade süresi 14 gündür" cümlesi, konu başlığından koparılıp alakasız bir teknik paragrafla aynı parçaya sıkıştırılırsa, "iade ne kadar sürede yapılır?" sorusu bu parçaya anlamsal olarak yeterince yakın çıkmayabilir. Sonuç: model doğru cevabı bilmediği için ya "bilmiyorum" der ya da uydurur. Kötü chunking, halüsinasyonun en sessiz ama en yaygın kaynağıdır. RAG mimarisinin bütününü RAG nedir rehberinde, dilin token bazlı işlenişini ise token nedir yazısında bulabilirsiniz.

Chunking Nasıl Çalışır?

Chunking, RAG hattının en başında, belgeler sisteme alınırken (ingestion) çalışan bir ön işleme adımıdır. Ham belge okunur, temizlenir ve belirli bir stratejiye göre parçalara ayrılır; ardından her parça embedding modeliyle bir vektöre çevrilip vektör veritabanına yazılır.

Nasıl Yapılır

Bir belgenin chunking süreci

Ham belgeden aranabilir parçalara kadar chunking'in izlediği temel adımlar.

1
Belgeyi al ve temizle
PDF, HTML veya metin belgesi okunur; başlık, sayfa numarası, gereksiz boşluk gibi gürültü temizlenir.
2
Bölme stratejisini seç
Belge türüne göre sabit boyutlu, özyinelemeli veya semantik chunking gibi bir strateji belirlenir.
3
Chunk boyutu ve overlap ayarla
Her parçanın hedef boyutu ve komşu parçalarla chunk overlap miktarı belirlenir.
4
Parçalara böl
Belge, seçilen stratejiye göre anlamlı sınırlardan parçalara ayrılır.
5
Embedding çıkar ve sakla
Her parça bir embedding vektörüne çevrilip metadata ile birlikte vektör veritabanına yazılır.

Bu akışın kritik yanı, chunking kararlarının sonradan değiştirilmesinin pahalı olmasıdır: strateji değişirse tüm belgelerin yeniden parçalanması ve yeniden embedding'e çevrilmesi gerekir. Bu yüzden chunking, sonradan yamanacak bir ayrıntı değil, en baştan doğru tasarlanması gereken bir mimari karardır. Getirme, yeniden sıralama ve üretim aşamalarının chunking ile birlikte nasıl kurgulandığını kurumsal RAG sistemleri çözümünde ele alıyoruz.

Chunk Boyutu Nasıl Seçilir?

Chunk boyutu, chunking'in en çok tartışılan kararıdır ve doğrudan bir dengedir. Parça çok büyük olursa, tek bir chunk içine birden fazla konu girer; arama bu parçayı getirdiğinde model alakasız bilgiyle (gürültüyle) birlikte doğru bilgiyi de alır ve bağlam penceresi gereksiz yere dolar. Parça çok küçük olursa, bir fikir birden çok parçaya bölünür; tek başına getirilen küçük parça bağlamdan yoksun kalır.

İyi bir chunk boyutu şu ilkeye dayanır: bir parça, tek bir bütün fikri taşıyacak kadar büyük, ama birbiriyle ilgisiz konuları karıştırmayacak kadar küçük olmalıdır. Pratikte doğru chunk boyutu masabaşında tahminle değil, gerçek kullanıcı sorularıyla ölçülerek bulunur. Aynı belgeyi farklı chunk boyutu değerleriyle deneyip hangisinin doğru parçayı daha sık getirdiğini karşılaştırmak, bu kararı verinin kendisine dayandırır. Chunk boyutu ne kadar dikkatli seçilirse, rag performansı o kadar tutarlı olur.

Chunk Overlap Nedir ve Neden Gerekir?

Chunk overlap (parça örtüşmesi), ardışık parçalar arasında bir miktar ortak metin bırakma tekniğidir. Belge yalnızca kesip yan yana dizilerek bölünürse, bir cümle ya da fikir tam parça sınırında ikiye bölünebilir; bu durumda her iki parça da o bilgiyi eksik taşır. Overlap, önceki parçanın son birkaç cümlesini sonraki parçanın başına ekleyerek bu sınır kaybını önler.

Örneğin bir sözleşme maddesinin ilk yarısı bir parçanın sonunda, ikinci yarısı diğer parçanın başında kalırsa, overlap sayesinde maddenin tümü en az bir parçada bütün olarak bulunur ve arama onu yakalayabilir. Ancak overlap'i abartmak da maliyeti ve tekrarı artırır; aynı bilgi birçok parçada tekrarlanırsa hem depolama hem de getirme verimsizleşir. Doğru chunk overlap, sınır güvenliği ile verimlilik arasında ölçülü bir dengedir.

Chunking Türleri Nelerdir?

Tek bir chunking yöntemi yoktur; belge türüne ve amaca göre farklı stratejiler kullanılır. Aşağıdaki tablo en yaygın chunking türlerini ve uygun oldukları senaryoları karşılaştırır.

Başlıca chunking türleri ve uygunluk alanları
Tür	Nasıl böler	Ne zaman uygun
Sabit boyutlu	Belirli karakter/token sayısına göre keser	Homojen, düz metinlerde; hızlı ve basit
Özyinelemeli (recursive)	Paragraf, cümle, kelime sırasıyla böler	Çoğu genel belge için sağlam varsayılan
Yapı-temelli	Başlık, tablo, liste sınırlarını korur	Kod, tablo, yapılandırılmış dokümantasyon
Semantik chunking	Anlam değiştiği noktalardan böler	Heterojen, uzun ve karmaşık içerik

Sabit boyutlu chunking en basit yöntemdir ama anlamı umursamaz; bir cümleyi ortasından bölebilir. Özyinelemeli chunking, önce paragraf, sonra cümle, sonra kelime gibi doğal sınırları sırayla deneyerek daha akıllı böler ve çoğu belge için iyi bir varsayılandır. Semantik chunking ise metni anlamın değiştiği noktalardan böler: birbirine yakın anlamlı cümleleri aynı parçada tutar, konu değişince yeni parça açar. Bu, anlam bütünlüğünü en iyi koruyan yöntemdir ama hesaplama açısından daha pahalıdır.

Chunking ile Tokenization Arasındaki Fark Nedir?

Chunking sık sık tokenization (belirteçleme) ile karıştırılır, ama ikisi RAG hattında farklı katmanlarda ve farklı amaçlarla çalışır. Tokenization, bir metni modelin işleyebileceği en küçük birimlere — token'lara — böler; bu, dil modelinin metni anlamasının temel ön koşuludur ve genellikle otomatik, gizli bir adımdır. Chunking ise bir belgeyi anlamlı, aranabilir parçalara böler; bu parça sonradan token'lara ayrılır. Yani token en küçük dilbilimsel birim, chunk ise anlamı taşıyan getirme birimidir.

Bu ayrım pratikte önemlidir çünkü chunk boyutu genellikle token cinsinden ölçülür: bir parçanın kaç token tuttuğu, hem modelin bağlam penceresini hem de embedding maliyetini etkiler. Token kavramının kendisini token nedir yazısında ayrıntılı ele alıyoruz; burada akılda tutulması gereken şudur: tokenization modelin metni okuma biçimidir, chunking ise sistemin bilgiyi hangi büyüklükte saklayıp getireceğine dair tasarım kararıdır. İkisini karıştırmak, chunk boyutu ayarlarken yanlış birim üzerinden düşünmeye yol açar.

Türkiye'de ve Sektörde Chunking Örnekleri

Chunking'in değeri soyut değildir; her kurumsal RAG uygulamasının sessiz temelini oluşturur. Türkiye bağlamında sık görülen üç örnek bunu netleştirir.

Bankacılık ve sigorta: Yüzlerce sayfalık ürün kılavuzları ve poliçe metinleri madde madde bölünür; her madde tek bir parça olarak tutulunca müşteri temsilcisi "bu poliçe X durumunu kapsıyor mu?" sorusuna doğru maddeyle yanıt alır.
E-ticaret destek: Sık sorulan sorular, iade ve kargo politikaları ayrı ayrı parçalara ayrılır; böylece chatbot doğru politikayı getirir. Bu senaryonun bütününü chatbot nedir yazısında ele alıyoruz.
Hukuk ve mevzuat: Kanun ve yönetmelik metinleri madde/fıkra yapısına göre bölünür; yapı-temelli chunking burada zorunludur, çünkü bir fıkranın ortadan bölünmesi hukuki anlamı bozar.

Bu örneklerin ortak yanı şudur: parçalama stratejisi belgenin kendi yapısına saygı gösterdiğinde sistem güvenilir çalışır; belgeye rağmen keyfî bölündüğünde ise en iyi model bile yanlış cevap verir.

Chunking ve KVKK: Parçalarda Kişisel Veri

Chunking yalnızca teknik bir karar değildir; kişisel veri içeren belgeler parçalandığında KVKK açısından da tasarlanmalıdır. Her chunk, kaynağını ve erişim iznini taşıyan metadata ile etiketlenmelidir; böylece bir kullanıcı yalnızca yetkili olduğu belgelere ait parçaları getirebilir. Metadata'sız, ayrımsız bir parça havuzu, erişim kontrolünü imkânsız kılar.

Ayrıca kişisel veri içeren parçaların maskeleme veya anonimleştirme ihtiyacı chunking aşamasında değerlendirilmelidir. Bir müşteri belgesinin tümü embedding'e çevrilip aranabilir hâle geldiğinde, kimlik numarası veya sağlık verisi gibi hassas alanların bu parçalara nasıl gireceği baştan planlanmalıdır. Doğru kurgulanmış chunking, hem doğru bilgiyi getirir hem de KVKK uyumunu parça düzeyinde mümkün kılar.

Chunking'de Yaygın Hatalar

Chunking basit görünür ama uygulamada en çok hatanın yapıldığı katmandır. En sık karşılaşılanlar şunlardır:

Anlamı umursamadan sabit boyutla bölmek: Cümleyi veya tabloyu ortasından kesmek, getirilen parçayı anlamsız hâle getirir.
Yanlış chunk boyutu: Ölçmeden seçilen çok büyük ya da çok küçük bir chunk boyutu, gürültü ya da bağlam kaybı üretir.
Chunk overlap'i tamamen atlamak veya abartmak: Sıfır overlap sınır bilgisini kaybettirir; aşırı overlap depolamayı ve tekrarı şişirir.
Yapıyı yok saymak: Tablo, kod ve listeleri düz metin gibi bölmek, yapılandırılmış içeriğin anlamını bozar.
Metadata eklememek: Kaynak, başlık ve erişim bilgisi taşımayan parçalar hem doğrulanamaz hem de KVKK açısından risklidir.

Bu hataların ortak sonucu tek kelimeyle özetlenebilir: model doğru cevaba sahip parçayı ya hiç görmez ya da gürültü içinde kaybeder. Bu yüzden RAG projelerinde iyileştirme çoğu zaman modeli değil, chunking ve getirme katmanını hedeflemelidir. Bu alanda derinleşmek için öğrenme merkezine ve uygulamalı eğitimlere göz atabilirsiniz.

Sıkça Sorulan Sorular

Chunking neden RAG için bu kadar önemli?

Çünkü model yalnızca getirilen parçaya dayanarak cevap verir. Doğru bilgi yanlış bölünmüş bir parçanın içinde kaybolursa, arama onu bulamaz ve model o bilgiyi hiç görmez. Bu yüzden rag performansının en büyük belirleyicisi çoğu zaman model değil, chunking kalitesidir.

İdeal chunk boyutu nedir?

Tek bir doğru değer yoktur; belge türüne ve kullanım senaryosuna bağlıdır. Genelde bir chunk, tek bir bütün fikri taşıyacak kadar büyük, ama alakasız içerik karıştırmayacak kadar küçük olmalıdır. Doğru chunk boyutu deneyle, gerçek sorular üzerinde ölçülerek bulunur.

Chunk overlap ne işe yarar?

Chunk overlap, ardışık parçalar arasında bir miktar ortak metin bırakır. Böylece bir cümle veya fikir tam parça sınırında kesildiğinde bağlam kaybolmaz; her iki parçada da yer alır. Bu, sınırda kalan bilginin arama tarafından bulunmasını kolaylaştırır.

Semantik chunking sabit boyutlu chunking'den daha mı iyi?

Çoğu zaman anlam bütünlüğü açısından daha iyidir, çünkü metni rastgele karakter sayısına göre değil, anlamlı sınırlardan böler. Ancak daha maliyetli ve karmaşıktır. Basit belgelerde özyinelemeli chunking yeterliyken, karmaşık ve heterojen içerikte semantik chunking fark yaratır.

Chunking'i tablo ve kod içeren belgelerde nasıl yaparım?

Tabloları, kod bloklarını ve listeleri ortasından bölmek anlamı bozar. Bu tür yapılandırılmış içerikte belge yapısına duyarlı (structure-aware) chunking kullanılır: tablo bir bütün olarak, başlık kendi bölümüyle birlikte tutulur. Aksi hâlde getirilen parça anlamsız hâle gelir.

Özetle: Chunking Nedir?

Özetle chunking nedir sorusunun cevabı şudur: uzun bir belgeyi RAG ve arama sistemlerinde işlenebilir, anlamlı parçalara bölme işlemi. Doğru chunk boyutu ve chunk overlap seçimi, uygun chunking türü (özellikle semantik chunking) ve belge yapısına saygı, rag performansını doğrudan belirler. Kötü parçalama en iyi modeli bile işe yaramaz kılarken, iyi kurgulanmış chunking güvenilir kurumsal yanıtların temelini atar. Bütünü görmek için RAG nedir ve LLM nedir rehberlerine göz atabilir, kurumsal bir sistem için yapay zeka danışmanlığı ile başlayabilirsiniz.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Çözüm Bazlı Sayfalar

Kurumsal RAG Sistemleri Gelistirme

Sirket ici bilgiye kaynakli, guvenli ve denetlenebilir erisim saglayan uretim seviyesinde RAG mimarileri.

kurumsal rag

Landing'i ac

Rol Bazlı Sayfalar

CTO'lar icin Kurumsal AI Mimari Danismanligi

PoC seviyesinde kalan AI girisimlerini guvenli, olceklenebilir ve production-ready mimarilere tasimak icin teknik liderlik danismanligi.

rag mimarisi

Landing'i ac

Çözüm Bazlı Sayfalar

AI Agent ve Workflow Otomasyonu

Tek adimli chatbot'larin otesine gecen; arac, kural ve insan onayi ile ilerleyen AI destekli is akislarina gecis.

Landing'i ac

Paylaş

Tüm Yazılar

Anahtar Çıkarımlar

Chunking (Belge Bölümleme) Nedir?

Chunking Neden RAG Performansının Temelidir?

Chunking Nasıl Çalışır?

Bir belgenin chunking süreci

Belgeyi al ve temizle

Bölme stratejisini seç

Chunk boyutu ve overlap ayarla

Parçalara böl

Embedding çıkar ve sakla

Chunk Boyutu Nasıl Seçilir?

Chunk Overlap Nedir ve Neden Gerekir?

Chunking Türleri Nelerdir?

Chunking ile Tokenization Arasındaki Fark Nedir?

Türkiye'de ve Sektörde Chunking Örnekleri

Chunking ve KVKK: Parçalarda Kişisel Veri

Chunking'de Yaygın Hatalar

Sıkça Sorulan Sorular

Chunking neden RAG için bu kadar önemli?

İdeal chunk boyutu nedir?

Chunk overlap ne işe yarar?

Semantik chunking sabit boyutlu chunking'den daha mı iyi?

Chunking'i tablo ve kod içeren belgelerde nasıl yaparım?

Özetle: Chunking Nedir?

Bu yazıya en yakın consulting sayfaları

Kurumsal RAG Sistemleri Gelistirme

CTO'lar icin Kurumsal AI Mimari Danismanligi

AI Agent ve Workflow Otomasyonu

Yorumlar

Yorumlar

Bu yazının bağlandığı pillar konular

RAG Çözüm Mimarisi

Bültenime Abone Olun