İçeriğe geç

Uzun Belgeleri Özetleme ve Sentez

200 sayfalık raporlardan 1 sayfalık brief'e: map-reduce, anchored summarization ve faithfulness eval.

Şükrü Yusuf KAYA
12 dakikalık okuma
Orta
Map-reduce özetleme: parça → özet → birleştirilmiş özet

Uzun Belge ≠ Tek Prompt

Uzun belgelerde 'lost in the middle' problemi gerçektir. Strateji:
  • <200 sayfa: Tek bağlama sığar; yine de map-reduce daha güvenli.
  • 200-1000 sayfa: Map-reduce zorunlu.
  • 1000+ sayfa: RAG gerekir (Modül 11).
Map-reduce özet pipeline'ı
Map-reduce özet — parça → mini özet → birleşik özet.
python
# Map-reduce özet iskeleti
def chunk_text(text: str, max_chars: int = 25_000):
for i in range(0, len(text), max_chars):
yield text[i:i+max_chars]
 
def map_summary(chunk: str) -> str:
"""Tek parça için 200 kelimelik mini özet — Claude çağrısı (psödo)"""
...
 
def reduce_summary(mini_summaries: list[str]) -> str:
"""Tüm mini özetleri birleştir — başka bir Claude çağrısı"""
...
 
def summarize_long(text: str) -> str:
minis = [map_summary(c) for c in chunk_text(text)]
return reduce_summary(minis)
Map-reduce özet iskeleti — gerçek API çağrısını Modül 8'de yazacağız.
Boşluk doldur · text
Uzun belgelerde _____ in the middle problemi nedeniyle map-reduce kullanılır. İddiaların kaynak alıntıyla bağlandığı yaklaşıma _____ summarization denir. Sahteliği kontrol için _____ eval koşulur.

Sık Sorulan Sorular

Aslında ucuzluyor. Tek seferde 200K token doldurmak yerine küçük parçalarda Sonnet, son birleşmede Opus kullanmak çoğu zaman hem kalite hem maliyet açısından kazanç.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler