Long Document Summarization and Synthesis
From 200-page reports to a 1-page brief: map-reduce, anchored summarization, and faithfulness evaluation.
Şükrü Yusuf KAYA
12 min read
IntermediateUzun Belge ≠ Tek Prompt
Uzun belgelerde 'lost in the middle' problemi gerçektir. Strateji:
- <200 sayfa: Tek bağlama sığar; yine de map-reduce daha güvenli.
- 200-1000 sayfa: Map-reduce zorunlu.
- 1000+ sayfa: RAG gerekir (Modül 11).
python
# Map-reduce özet iskeletidef chunk_text(text: str, max_chars: int = 25_000): for i in range(0, len(text), max_chars): yield text[i:i+max_chars] def map_summary(chunk: str) -> str: """Tek parça için 200 kelimelik mini özet — Claude çağrısı (psödo)""" ... def reduce_summary(mini_summaries: list[str]) -> str: """Tüm mini özetleri birleştir — başka bir Claude çağrısı""" ... def summarize_long(text: str) -> str: minis = [map_summary(c) for c in chunk_text(text)] return reduce_summary(minis)Map-reduce özet iskeleti — gerçek API çağrısını Modül 8'de yazacağız.
Boşluk doldur · text
Uzun belgelerde _____ in the middle problemi nedeniyle map-reduce kullanılır. İddiaların kaynak alıntıyla bağlandığı yaklaşıma _____ summarization denir. Sahteliği kontrol için _____ eval koşulur.Frequently Asked Questions
Often cheaper. Sonnet on chunks + Opus on final reduce typically beats single-shot 200K both in quality and cost.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...