İçeriğe geç

Anahtar Çıkarımlar

  1. Chunking, uzun bir belgeyi RAG ve arama sistemlerinde işlenebilir, anlamlı parçalara bölme işlemidir; her parça ayrı ayrı embedding'e çevrilir ve aranır.
  2. Chunk boyutu kritik bir dengedir: çok büyük parça gürültü ve maliyet getirir, çok küçük parça bağlamı koparır; ikisi de rag performansını düşürür.
  3. Chunk overlap (parça örtüşmesi), komşu parçalar arasında ortak metin bırakarak sınırda kesilen bağlamın kaybolmasını engeller.
  4. Türleri: sabit boyutlu, özyinelemeli (recursive), belge yapısına dayalı ve semantik chunking; semantik chunking anlam bütünlüğünü korumaya çalışır.
  5. Kötü chunking, RAG hatalarının en yaygın kaynağıdır: model doğru cevaba sahip parçayı hiç görmediği için halüsinasyon üretir.

Chunking (Belge Bölümleme) Nedir?

Chunking nedir? Chunking (belge bölümleme), uzun bir metni RAG ve arama sistemlerinde işlenebilir, anlamlı parçalara (chunk) bölme işlemidir. Bu rehber: net tanım, chunking neden RAG performansının temeli, nasıl çalışır, chunk boyutu ve chunk overlap seçimi, sabit/özyinelemeli/semantik chunking türleri, Türkiye örnekleri, KVKK, yaygın hatalar ve sık sorulan sorular.

SYK
Şükrü Yusuf KAYA
AI Expert · Kurumsal AI Danışmanı

Chunking nedir? Chunking (belge bölümleme), uzun bir metni bir dil modelinin ve vektör veritabanının işleyebileceği daha küçük, anlamlı parçalara (chunk) bölme işlemidir. RAG ve arama sistemlerinde her parça ayrı ayrı embedding'e çevrilip arandığı için, bu bölme işlemi doğru bilginin bulunmasını doğrudan belirler.

Bir belgeyi olduğu gibi modele vermek çoğu zaman mümkün değildir: belgeler bağlam penceresine sığmayacak kadar uzundur ve tümünü aramak hem pahalı hem de gürültülüdür. Chunking tam bu noktada devreye girer — belgeyi, tek başına anlamlı ve aranabilir birimlere böler. Bu rehber chunking nedir, neden rag performansının temeli olduğu, chunk boyutu ve chunk overlap kararları, semantik chunking dâhil türleri ve yaygın hataları uygulayıcı gözüyle ele alıyor.

Tanım
Chunking (Belge Bölümleme)
Uzun bir metni, bir dil modelinin ve vektör veritabanının işleyebileceği daha küçük, anlamlı parçalara (chunk) bölme işlemi. RAG ve arama sistemlerinde her parça ayrı ayrı embedding'e çevrilip aranır; bu yüzden chunking, doğru bilginin getirilmesini ve yanıt kalitesini doğrudan belirleyen temel adımdır.
Ayrıca: Belge bölümleme, metin parçalama, chunk oluşturma, chunking

Chunking Neden RAG Performansının Temelidir?

Bir RAG sisteminde model yalnızca kendisine getirilen parçalara dayanarak cevap verir. Doğru bilgi belgede olsa bile, o bilgi yanlış bölünmüş bir parçanın içinde kaybolduysa arama onu bulamaz ve model bu bilgiyi hiç görmez. İşte bu yüzden rag performansının en büyük belirleyicisi çoğu zaman modelin gücü değil, chunking kalitesidir.

Bunu somutlaştıralım: bir ürün kılavuzunda "iade süresi 14 gündür" cümlesi, konu başlığından koparılıp alakasız bir teknik paragrafla aynı parçaya sıkıştırılırsa, "iade ne kadar sürede yapılır?" sorusu bu parçaya anlamsal olarak yeterince yakın çıkmayabilir. Sonuç: model doğru cevabı bilmediği için ya "bilmiyorum" der ya da uydurur. Kötü chunking, halüsinasyonun en sessiz ama en yaygın kaynağıdır. RAG mimarisinin bütününü RAG nedir rehberinde, dilin token bazlı işlenişini ise token nedir yazısında bulabilirsiniz.

Chunking Nasıl Çalışır?

Chunking, RAG hattının en başında, belgeler sisteme alınırken (ingestion) çalışan bir ön işleme adımıdır. Ham belge okunur, temizlenir ve belirli bir stratejiye göre parçalara ayrılır; ardından her parça embedding modeliyle bir vektöre çevrilip vektör veritabanına yazılır.

Nasıl Yapılır

Bir belgenin chunking süreci

Ham belgeden aranabilir parçalara kadar chunking'in izlediği temel adımlar.

  1. 1

    Belgeyi al ve temizle

    PDF, HTML veya metin belgesi okunur; başlık, sayfa numarası, gereksiz boşluk gibi gürültü temizlenir.

  2. 2

    Bölme stratejisini seç

    Belge türüne göre sabit boyutlu, özyinelemeli veya semantik chunking gibi bir strateji belirlenir.

  3. 3

    Chunk boyutu ve overlap ayarla

    Her parçanın hedef boyutu ve komşu parçalarla chunk overlap miktarı belirlenir.

  4. 4

    Parçalara böl

    Belge, seçilen stratejiye göre anlamlı sınırlardan parçalara ayrılır.

  5. 5

    Embedding çıkar ve sakla

    Her parça bir embedding vektörüne çevrilip metadata ile birlikte vektör veritabanına yazılır.

Bu akışın kritik yanı, chunking kararlarının sonradan değiştirilmesinin pahalı olmasıdır: strateji değişirse tüm belgelerin yeniden parçalanması ve yeniden embedding'e çevrilmesi gerekir. Bu yüzden chunking, sonradan yamanacak bir ayrıntı değil, en baştan doğru tasarlanması gereken bir mimari karardır. Getirme, yeniden sıralama ve üretim aşamalarının chunking ile birlikte nasıl kurgulandığını kurumsal RAG sistemleri çözümünde ele alıyoruz.

Chunk Boyutu Nasıl Seçilir?

Chunk boyutu, chunking'in en çok tartışılan kararıdır ve doğrudan bir dengedir. Parça çok büyük olursa, tek bir chunk içine birden fazla konu girer; arama bu parçayı getirdiğinde model alakasız bilgiyle (gürültüyle) birlikte doğru bilgiyi de alır ve bağlam penceresi gereksiz yere dolar. Parça çok küçük olursa, bir fikir birden çok parçaya bölünür; tek başına getirilen küçük parça bağlamdan yoksun kalır.

İyi bir chunk boyutu şu ilkeye dayanır: bir parça, tek bir bütün fikri taşıyacak kadar büyük, ama birbiriyle ilgisiz konuları karıştırmayacak kadar küçük olmalıdır. Pratikte doğru chunk boyutu masabaşında tahminle değil, gerçek kullanıcı sorularıyla ölçülerek bulunur. Aynı belgeyi farklı chunk boyutu değerleriyle deneyip hangisinin doğru parçayı daha sık getirdiğini karşılaştırmak, bu kararı verinin kendisine dayandırır. Chunk boyutu ne kadar dikkatli seçilirse, rag performansı o kadar tutarlı olur.

Chunk Overlap Nedir ve Neden Gerekir?

Chunk overlap (parça örtüşmesi), ardışık parçalar arasında bir miktar ortak metin bırakma tekniğidir. Belge yalnızca kesip yan yana dizilerek bölünürse, bir cümle ya da fikir tam parça sınırında ikiye bölünebilir; bu durumda her iki parça da o bilgiyi eksik taşır. Overlap, önceki parçanın son birkaç cümlesini sonraki parçanın başına ekleyerek bu sınır kaybını önler.

Örneğin bir sözleşme maddesinin ilk yarısı bir parçanın sonunda, ikinci yarısı diğer parçanın başında kalırsa, overlap sayesinde maddenin tümü en az bir parçada bütün olarak bulunur ve arama onu yakalayabilir. Ancak overlap'i abartmak da maliyeti ve tekrarı artırır; aynı bilgi birçok parçada tekrarlanırsa hem depolama hem de getirme verimsizleşir. Doğru chunk overlap, sınır güvenliği ile verimlilik arasında ölçülü bir dengedir.

Chunking Türleri Nelerdir?

Tek bir chunking yöntemi yoktur; belge türüne ve amaca göre farklı stratejiler kullanılır. Aşağıdaki tablo en yaygın chunking türlerini ve uygun oldukları senaryoları karşılaştırır.

Başlıca chunking türleri ve uygunluk alanları
TürNasıl bölerNe zaman uygun
Sabit boyutluBelirli karakter/token sayısına göre keserHomojen, düz metinlerde; hızlı ve basit
Özyinelemeli (recursive)Paragraf, cümle, kelime sırasıyla bölerÇoğu genel belge için sağlam varsayılan
Yapı-temelliBaşlık, tablo, liste sınırlarını korurKod, tablo, yapılandırılmış dokümantasyon
Semantik chunkingAnlam değiştiği noktalardan bölerHeterojen, uzun ve karmaşık içerik

Sabit boyutlu chunking en basit yöntemdir ama anlamı umursamaz; bir cümleyi ortasından bölebilir. Özyinelemeli chunking, önce paragraf, sonra cümle, sonra kelime gibi doğal sınırları sırayla deneyerek daha akıllı böler ve çoğu belge için iyi bir varsayılandır. Semantik chunking ise metni anlamın değiştiği noktalardan böler: birbirine yakın anlamlı cümleleri aynı parçada tutar, konu değişince yeni parça açar. Bu, anlam bütünlüğünü en iyi koruyan yöntemdir ama hesaplama açısından daha pahalıdır.

Chunking ile Tokenization Arasındaki Fark Nedir?

Chunking sık sık tokenization (belirteçleme) ile karıştırılır, ama ikisi RAG hattında farklı katmanlarda ve farklı amaçlarla çalışır. Tokenization, bir metni modelin işleyebileceği en küçük birimlere — token'lara — böler; bu, dil modelinin metni anlamasının temel ön koşuludur ve genellikle otomatik, gizli bir adımdır. Chunking ise bir belgeyi anlamlı, aranabilir parçalara böler; bu parça sonradan token'lara ayrılır. Yani token en küçük dilbilimsel birim, chunk ise anlamı taşıyan getirme birimidir.

Bu ayrım pratikte önemlidir çünkü chunk boyutu genellikle token cinsinden ölçülür: bir parçanın kaç token tuttuğu, hem modelin bağlam penceresini hem de embedding maliyetini etkiler. Token kavramının kendisini token nedir yazısında ayrıntılı ele alıyoruz; burada akılda tutulması gereken şudur: tokenization modelin metni okuma biçimidir, chunking ise sistemin bilgiyi hangi büyüklükte saklayıp getireceğine dair tasarım kararıdır. İkisini karıştırmak, chunk boyutu ayarlarken yanlış birim üzerinden düşünmeye yol açar.

Türkiye'de ve Sektörde Chunking Örnekleri

Chunking'in değeri soyut değildir; her kurumsal RAG uygulamasının sessiz temelini oluşturur. Türkiye bağlamında sık görülen üç örnek bunu netleştirir.

  • Bankacılık ve sigorta: Yüzlerce sayfalık ürün kılavuzları ve poliçe metinleri madde madde bölünür; her madde tek bir parça olarak tutulunca müşteri temsilcisi "bu poliçe X durumunu kapsıyor mu?" sorusuna doğru maddeyle yanıt alır.
  • E-ticaret destek: Sık sorulan sorular, iade ve kargo politikaları ayrı ayrı parçalara ayrılır; böylece chatbot doğru politikayı getirir. Bu senaryonun bütününü chatbot nedir yazısında ele alıyoruz.
  • Hukuk ve mevzuat: Kanun ve yönetmelik metinleri madde/fıkra yapısına göre bölünür; yapı-temelli chunking burada zorunludur, çünkü bir fıkranın ortadan bölünmesi hukuki anlamı bozar.

Bu örneklerin ortak yanı şudur: parçalama stratejisi belgenin kendi yapısına saygı gösterdiğinde sistem güvenilir çalışır; belgeye rağmen keyfî bölündüğünde ise en iyi model bile yanlış cevap verir.

Chunking ve KVKK: Parçalarda Kişisel Veri

Chunking yalnızca teknik bir karar değildir; kişisel veri içeren belgeler parçalandığında KVKK açısından da tasarlanmalıdır. Her chunk, kaynağını ve erişim iznini taşıyan metadata ile etiketlenmelidir; böylece bir kullanıcı yalnızca yetkili olduğu belgelere ait parçaları getirebilir. Metadata'sız, ayrımsız bir parça havuzu, erişim kontrolünü imkânsız kılar.

Ayrıca kişisel veri içeren parçaların maskeleme veya anonimleştirme ihtiyacı chunking aşamasında değerlendirilmelidir. Bir müşteri belgesinin tümü embedding'e çevrilip aranabilir hâle geldiğinde, kimlik numarası veya sağlık verisi gibi hassas alanların bu parçalara nasıl gireceği baştan planlanmalıdır. Doğru kurgulanmış chunking, hem doğru bilgiyi getirir hem de KVKK uyumunu parça düzeyinde mümkün kılar.

Chunking'de Yaygın Hatalar

Chunking basit görünür ama uygulamada en çok hatanın yapıldığı katmandır. En sık karşılaşılanlar şunlardır:

  • Anlamı umursamadan sabit boyutla bölmek: Cümleyi veya tabloyu ortasından kesmek, getirilen parçayı anlamsız hâle getirir.
  • Yanlış chunk boyutu: Ölçmeden seçilen çok büyük ya da çok küçük bir chunk boyutu, gürültü ya da bağlam kaybı üretir.
  • Chunk overlap'i tamamen atlamak veya abartmak: Sıfır overlap sınır bilgisini kaybettirir; aşırı overlap depolamayı ve tekrarı şişirir.
  • Yapıyı yok saymak: Tablo, kod ve listeleri düz metin gibi bölmek, yapılandırılmış içeriğin anlamını bozar.
  • Metadata eklememek: Kaynak, başlık ve erişim bilgisi taşımayan parçalar hem doğrulanamaz hem de KVKK açısından risklidir.

Bu hataların ortak sonucu tek kelimeyle özetlenebilir: model doğru cevaba sahip parçayı ya hiç görmez ya da gürültü içinde kaybeder. Bu yüzden RAG projelerinde iyileştirme çoğu zaman modeli değil, chunking ve getirme katmanını hedeflemelidir. Bu alanda derinleşmek için öğrenme merkezine ve uygulamalı eğitimlere göz atabilirsiniz.

Sıkça Sorulan Sorular

Chunking neden RAG için bu kadar önemli?

Çünkü model yalnızca getirilen parçaya dayanarak cevap verir. Doğru bilgi yanlış bölünmüş bir parçanın içinde kaybolursa, arama onu bulamaz ve model o bilgiyi hiç görmez. Bu yüzden rag performansının en büyük belirleyicisi çoğu zaman model değil, chunking kalitesidir.

İdeal chunk boyutu nedir?

Tek bir doğru değer yoktur; belge türüne ve kullanım senaryosuna bağlıdır. Genelde bir chunk, tek bir bütün fikri taşıyacak kadar büyük, ama alakasız içerik karıştırmayacak kadar küçük olmalıdır. Doğru chunk boyutu deneyle, gerçek sorular üzerinde ölçülerek bulunur.

Chunk overlap ne işe yarar?

Chunk overlap, ardışık parçalar arasında bir miktar ortak metin bırakır. Böylece bir cümle veya fikir tam parça sınırında kesildiğinde bağlam kaybolmaz; her iki parçada da yer alır. Bu, sınırda kalan bilginin arama tarafından bulunmasını kolaylaştırır.

Semantik chunking sabit boyutlu chunking'den daha mı iyi?

Çoğu zaman anlam bütünlüğü açısından daha iyidir, çünkü metni rastgele karakter sayısına göre değil, anlamlı sınırlardan böler. Ancak daha maliyetli ve karmaşıktır. Basit belgelerde özyinelemeli chunking yeterliyken, karmaşık ve heterojen içerikte semantik chunking fark yaratır.

Chunking'i tablo ve kod içeren belgelerde nasıl yaparım?

Tabloları, kod bloklarını ve listeleri ortasından bölmek anlamı bozar. Bu tür yapılandırılmış içerikte belge yapısına duyarlı (structure-aware) chunking kullanılır: tablo bir bütün olarak, başlık kendi bölümüyle birlikte tutulur. Aksi hâlde getirilen parça anlamsız hâle gelir.

Özetle: Chunking Nedir?

Özetle chunking nedir sorusunun cevabı şudur: uzun bir belgeyi RAG ve arama sistemlerinde işlenebilir, anlamlı parçalara bölme işlemi. Doğru chunk boyutu ve chunk overlap seçimi, uygun chunking türü (özellikle semantik chunking) ve belge yapısına saygı, rag performansını doğrudan belirler. Kötü parçalama en iyi modeli bile işe yaramaz kılarken, iyi kurgulanmış chunking güvenilir kurumsal yanıtların temelini atar. Bütünü görmek için RAG nedir ve LLM nedir rehberlerine göz atabilir, kurumsal bir sistem için yapay zeka danışmanlığı ile başlayabilirsiniz.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Yorumlar

Yorumlar

Bağlantılı Pillar Konular

Bu yazının bağlandığı pillar konular