İçeriğe geç

Proje: RAG ile Doküman Sorgulama Sistemi

Şirket dokümantasyonu üzerinde RAG: chunking, embedding, retrieval, re-ranking, anchored answer.

Şükrü Yusuf KAYA
14 dakikalık okuma
İleri
RAG pipeline: chunk → embed → retrieve → rerank → answer

RAG'ın 6 Adımı

  1. Ingest: PDF, Markdown, HTML toplanır.
  2. Chunk: 300-1000 token parçalar (overlap 10-20%).
  3. Embed: Embedding modeli ile vektör.
  4. Index: Vector DB.
  5. Retrieve: Sorgu için top-K.
  6. Rerank + answer: Cross-encoder ile yeniden sırala, Claude'la cevapla.
RAG akışı: ingest → chunk → embed → index → retrieve → rerank → answer
RAG pipeline'ı.
python
# Yüksek seviye RAG fonksiyonu
def answer_with_rag(question: str, k: int = 5):
q_emb = embed(question)
candidates = vector_db.search(q_emb, top_k=50)
top = rerank(question, candidates)[:k]
context = "\n\n".join(f"[{c.id}] {c.text}" for c in top)
return claude_answer(question, context, citations_required=True)
RAG yüksek seviye — production'da chunk metadata + filter + caching ekle.
Boşluk doldur · text
RAG'ın 6 adımı: ingest, _____ , embed, index, _____ ve rerank+answer. Top-K daraltma için _____ kullanılır. Cevabın her cümlesi _____ ile bağlanır.

Sık Sorulan Sorular

RAG ölçek ve maliyet için kazanır. 1M context tek soru için pratik değil. Hibrit yaklaşım da popüler: küçük belgeler context'e, büyük olanlar RAG'a.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler

Bağlantılı Pillar Konular

Bu yazının bağlandığı pillar konular