RAG (Retrieval-Augmented Generation) Üretim Rehberi: Türk Şirketleri İçin Uçtan Uca Mimari
Retrieval-Augmented Generation (RAG) sistemlerinin tasarımı, ölçeklendirilmesi ve KVKK uyumlu üretime alınması için kapsamlı referans rehber. Türkçe embedding modeli seçimi, vektör DB karşılaştırması, chunking stratejileri, hybrid search, re-ranking, hallucination kontrolü, eval harness ve 3 anonim Türk şirketi vaka çalışması ile uçtan uca üretim mimarisi.
Tek cümlelik cevap: RAG, LLM’in sınırlı bilgisini sizin güncel verilerinizle genişleten — fine-tuning gerektirmeden doğruluk, izlenebilirlik ve maliyet kontrolü sağlayan üretim-odaklı bir AI mimarisidir.
- RAG, LLM cevaplarını sizin verilerinizle besleyen bir mimaridir — fine-tuning yerine, üretim AI sistemlerinin %80'inin tercih ettiği yaklaşımdır.
- RAG sistemleri 6 katmandan oluşur: yutkulama, parçalama, embedding, dizinleme, getirme, yanıtlama. Her katmanda yanlış karar üretime ulaşır.
- Türkçe RAG için tek bir doğru kombinasyon yoktur; BGE-M3 + Qdrant + GPT-5/Claude Opus 4.7 bugünkü en kararlı varsayılan başlangıç noktasıdır.
- Hallucination kontrolü, eval harness olmadan mümkün değildir. RAGAS, DeepEval ve özelleştirilmiş metrikler üretim-öncesi yatırımdır.
- KVKK uyumu bir tasarım kararıdır, sonradan eklenen bir özellik değildir — anonimleştirme, veri yerleşimi ve cross-border transfer ilk gün belirlenir.
1. RAG Nedir ve Niye Şu An En Önemli Mimari?
LLM'ler ne kadar büyük olursa olsun üç temel sınırla karşılaşır: (1) bilgileri eğitim kesim tarihiyle sınırlı (knowledge cutoff), (2) şirketinizin özel verilerini bilmezler, (3) kaynak göstermezler. Retrieval-Augmented Generation (RAG) bu üç sınırı tek bir mimari kararla çözer: LLM'in yanıt vermeden önce ilgili veriyi bir arama katmanından getirip prompt'a iliştirir.
- Retrieval-Augmented Generation (RAG)
- Bir LLM'in yanıt üretmeden önce, sorguya uygun belgeleri harici bir bilgi tabanından (vektör DB veya hibrit arama) getirip prompt'a ekleyen mimari kalıp. Sonuç: model kendi eğitim verisinin dışındaki güncel, özel ve doğrulanabilir bilgilere dayalı yanıt üretebilir.
- Ayrıca: RAG, Bilgi-Destekli Üretim
- Wikidata: Q123073860
2026 itibarıyla üretim AI sistemlerinin yaklaşık %80'i RAG mimarisini kullanır; bu, fine-tuning'in çok-ötesinde bir tercih oranıdır. Sebep basit: RAG, modelin "bilmediğini bilme" sorununu kısmen çözer, içerik güncellemesini saniyeler içinde mümkün kılar ve denetim izlerini doğal olarak üretir.
RAG mi, Fine-tuning mi?
İkisi rakip değil tamamlayıcıdır. Fine-tuning modelin stilini, tonunu, format alışkanlığını değiştirir; RAG ise modelin bildiği bilgiyi genişletir. Çoğu üretim sistemi önce RAG ile başlar, gerekirse fine-tuning'i tonu sabitlemek için ekler.
| Boyut | RAG | Fine-tuning | Prompt Engineering |
|---|---|---|---|
| Veri Güncelliği | Saniyeler içinde | Yeniden eğitim gerekli | Statik |
| Maliyet | Orta (vektör DB + LLM) | Yüksek (GPU saatleri) | Düşük |
| Kaynak Gösterme | Doğal | Yok | Yok |
| Domain Uyumu | Hızlı | Çok güçlü | Sınırlı |
| Halüsinasyon | Belirgin azalır | Hafif azalır | Değişmez |
| Ne Zaman | Bilgi tabanı + güncel veri | Stil/format/yapı | MVP, basit görevler |
2. RAG'ın Anatomisi: Altı Katman
Üretim-kalitesinde RAG sisteminin altı katmanı vardır. Her katmanda alınan zayıf karar, son cevaba kadar yansır.
2.1. Yutkulama (Ingestion)
Belgelerin sisteme akışını sağlayan katman. Kaynaklar: PDF'ler, web sayfaları, SharePoint, e-posta, Confluence, Notion, veritabanları, ticket sistemleri. Bu katmanda kritik kararlar: zamanlama (real-time vs batch), kimlik doğrulama, KVKK riski olan kişisel veri filtreleme.
2.2. Parçalama (Chunking)
Belgeleri model context window'una sığacak ve anlamlı semantik birimler oluşturacak şekilde böler. Kötü chunking, RAG'ın gizli katilidir.
2.3. Gömme (Embedding)
Her chunk'ı yüksek-boyutlu bir vektöre çevirir. Türkçe için doğru embedding modeli seçimi kritik; aşağıda detaylandırıyoruz.
2.4. Dizinleme (Indexing)
Vektörleri ve metadata'yı vektör DB'ye yazar. Vektör DB seçimi, ölçeklenme stratejisi ve update mekanizmaları burada belirlenir.
2.5. Getirme (Retrieval)
Kullanıcının sorgusu için ilgili chunk'ları bulur. Hybrid search (BM25 + vektör) + re-ranking ile başarı ciddi şekilde artar.
2.6. Yanıtlama (Generation)
LLM, getirilen bağlam ile birlikte cevabı oluşturur. Sistem prompt'u, hallucination dirençli bir tasarımla yazılır; kaynak göstermesi zorunlu kılınır.
3. RAG Mimari Kalıpları: Hangisi Sizin İçin?
Tek bir RAG yoktur; problem yapısına göre seçilen 5 ana kalıp vardır.
3.1. Naive RAG
En basit form: belge → chunk → embed → retrieve → LLM. MVP ve düşük-stake use-case'ler için yeterli. Üretim için genelde yetersiz.
3.2. Hybrid RAG
BM25 (anahtar kelime arama) + vektör arama paralel çalışır, skorlar birleştirilir. Türkçe sorgular için BM25 katkısı çok değerlidir — özel isimler, ürün kodları, regülasyon numaraları gibi kesin eşleşmeler vektör aramada zayıf, BM25'te güçlüdür.
3.3. RAG-Fusion
Tek soruyu çoklu varyasyona dönüştürür (sorgu genişletme), her birinden retrieval yapar, sonuçları Reciprocal Rank Fusion (RRF) ile birleştirir. Karmaşık sorularda recall'u %20-40 artırır.
3.4. Self-Query RAG
LLM, kullanıcı sorgusunu önce yapılandırılmış filtre + semantik arama parçalarına ayrıştırır. Örnek: "2024'te yayınlanan banka ürünleri" sorgusu → filter: {year: 2024, category: "banka"} + semantic: "ürünler". Metadata-zengin veri için kritik.
3.5. Agentic RAG
Bir agent, hangi kaynaktan getireceğini, ne zaman getireceğini ve gerekirse çoklu adım sorgu yapacağını otonom karar verir. Multi-document QA, karmaşık raporlama ve karar destek sistemleri için.
4. Türkçe için Embedding Modeli Seçimi
Embedding modeli, RAG'ın en alttaki ama en kritik kararıdır — değiştirmek pahalıdır (tüm indeksi yeniden oluşturmak gerekir).
| Model | Boyut | Türkçe Skoru | Maliyet | Yerel Kullanım |
|---|---|---|---|---|
| BGE-M3 (BAAI) | 1024 | Yüksek (multilingual) | Düşük (self-hosted) | ✓ |
| E5-mistral-7b-instruct | 4096 | Yüksek | Yüksek (GPU) | ✓ |
| OpenAI text-embedding-3-large | 3072 | Yüksek | Orta (API) | ✗ |
| Cohere embed-multilingual-v3 | 1024 | Orta-yüksek | Orta (API) | ✗ |
| jina-embeddings-v3 | 1024 | Orta | Düşük | Hibrit |
Pratik tavsiye. 2026'da Türkçe RAG için en kararlı varsayılan BGE-M3 (1024 boyut, multilingual, self-hosted, ücretsiz). Veri hassasiyeti çok düşükse OpenAI text-embedding-3-large API tercih edilebilir. Yüksek hassasiyetli kurumlarda BGE-M3 self-hosted + Türkçe fine-tune ideal.
4.1. Embedding Boyutu ve Maliyet
Boyut arttıkça arama kalitesi marjinal artar ama vektör DB maliyeti doğrusal büyür. 1024 boyut çoğu kurumsal RAG için yeterli ve maliyet-optimum.
5. Vektör Veritabanı Seçimi
| Vektör DB | Yerel Çalışma | Hybrid Search | Maliyet | Türk Bankası Onayı |
|---|---|---|---|---|
| Qdrant | Tam | Native (sparse + dense) | Düşük (open-source) | ✓ |
| Weaviate | Tam | Native | Orta | ✓ |
| Milvus | Tam | Native | Orta | ✓ |
| Pinecone | Yok | Native | Yüksek (managed) | ✗ |
| pgvector (Postgres) | Tam | SQL + HNSW | Çok düşük | ✓ |
| Elasticsearch | Tam | Mükemmel BM25 | Orta | ✓ |
Pratik tavsiye. KVKK + BDDK kısıtlı sektörler için Qdrant on-prem veya pgvector (mevcut Postgres'inizde). Hızlı MVP için Pinecone (cloud, ama Türk bankaları için tipik olarak veto edilir).
6. Chunking Stratejileri: RAG'ın Gizli Katili
Bir RAG sisteminin başarısını belirleyen en önemli karar — sıklıkla yetersiz dikkatle yapılan — chunking kararıdır.
Sabit Boyut (Fixed-size)
Her chunk N token (örn. 512). Basit ama anlamlı sınırları keser; özellikle Türkçe gibi morfolojik dilde paragraf yapısını bozar.
Tümce-Tabanlı (Sentence-aware)
Doğal cümle sınırlarında böler. spaCy veya nltk Türkçe destekli paketleri kullanılabilir.
Yapı-Tabanlı (Structural)
Belgenin başlık hiyerarşisini takip eder (Markdown headers, PDF outline). Hukuki belgeler, kullanım kılavuzları ve regülatif dokümanlar için ideal.
Semantik (Semantic)
Embedding benzerliği eşiğine göre döker. Yüksek kalite ama hesaplama maliyetli.
Overlap (Bindirme)
Chunk'lar arasında 10-20% bindirme, bağlam kaybını azaltır. Hemen her senaryoda öneriyorum.
7. Hybrid Search ve Re-ranking
Hybrid Search
Vektör araması anlam yakınlığını yakalar; BM25 tam eşleşmeleri yakalar. İkisini paralel çalıştırıp Reciprocal Rank Fusion (RRF) ile birleştirmek, vakaların büyük çoğunluğunda saf vektör aramadan %15-30 daha yüksek recall verir.
Re-ranking
İlk getirme 50-100 sonuç döndürür; cross-encoder re-ranker bunları LLM kalitesinde yeniden sıralar. Önerilen modeller: bge-reranker-v2-m3 (multilingual), Cohere rerank-v3, Voyage rerank-2. Maliyet düşük (her sorguda ~50ms eklenti), getiri yüksek.
8. LLM Katmanı ve Prompt Tasarımı
Model Seçimi
- Düşük gecikme + maliyet: GPT-4o-mini, Claude Haiku 4.5, Gemini Flash 3
- Yüksek kalite: GPT-5, Claude Opus 4.7, Gemini 3
- Açık kaynak: Llama 4 70B, Qwen 2.5, DeepSeek V3 (yerelde self-hosted)
Sistem Prompt'u Şablonu
Üretim RAG'da sistem prompt'u şu davranışları kilitlemelidir:
- "Sadece sağlanan bağlamı kullan, dış bilgi ekleme."
- "Cevabın hangi kaynağa dayandığını belirt (Kaynak: doc_id)."
- "Bağlamda yanıt yoksa, 'Bilmiyorum' de — uydurma."
- "Cevap dili kullanıcı sorgusunun dilidir."
9. Hallucination Kontrolü ve Eval Harness
Hallucination, RAG'ı üretimde yıkan en yaygın problemdir. Ölçemediğin halüsinasyonu kontrol edemezsin.
Temel Metrikler
- Faithfulness: Cevap, getirilen bağlama sadık mı?
- Context Precision: Getirilen chunk'lar gerçekten alakalı mı?
- Context Recall: Cevap için gerekli tüm bağlam getirildi mi?
- Answer Relevance: Cevap sorguya doğrudan yanıt veriyor mu?
Eval Araçları
RAGAS (en yaygın açık kaynak), DeepEval, TruLens, Langfuse evaluations. Üretim-öncesi minimum 100 sorudan oluşan bir eval seti zorunludur.
10. KVKK Uyumlu RAG Mimarisi
Türkiye'de RAG'ın birinci tasarım kararı KVKK uyumudur — sonradan eklenmez.
KVKK Riskini Azaltan 5 Karar
- Veri Yerleşimi. Vektör DB ve embedding hizmeti Türkiye veya AB'de hosted.
- Anonimleştirme Katmanı. Yutkulama sırasında kişisel veriler (TC kimlik no, ad-soyad, telefon, e-posta, adres) PII detection ile maskelenir.
- Açık Rıza & Amaç Sınırlaması. Kullanıcılarınızdan toplanan verilerin AI'da işleneceği bilgilendirme metninde yer almalı.
- Cross-border Transfer Kontrolü. OpenAI/Anthropic cloud çağrılarında kişisel veri gönderilmediği teyit edilir.
- Audit Log. Her RAG sorgusu (sorgu, getirilen chunk ID'leri, üretilen cevap) denetim için saklanır.
11. Vaka Çalışmaları (Anonim)
Vaka 1 — Türk Bankası: Müşteri Hizmetleri RAG
Problem. Çağrı merkezi temsilcilerinin müşteri sorularına 8-15 dakika içinde doğru cevap vermesi gerekiyor; ürün kataloğu, kampanya kuralları, regülatif değişiklikler haftalık güncelleniyor.
Çözüm. Hybrid RAG (BGE-M3 + Qdrant on-prem + BM25). Her sorguda 50 chunk getirildi, BGE re-ranker ile top-5'e indirildi, GPT-5 EU instance üzerinden yanıt. Anonimleştirme katmanı tüm müşteri verilerini maskeleyip vektörlemeden önce filtreliyor.
Sonuç. Temsilci cevap süresi 12 dk → 3 dk. Çağrı çözme oranı %18 arttı. RAG sistemi MAU 6.000 temsilcide kullanılıyor.
Vaka 2 — Hukuk Bürosu: Sözleşme Analizi
Problem. Avukatların sözleşmedeki risk maddelerini, emsal davaları ve regülatif değişiklikleri saatler içinde toplayıp özet rapor üretmesi gerekiyor.
Çözüm. Yapı-tabanlı chunking (Madde başına), self-query RAG (filtre: kanun türü, yıl, mahkeme). Re-ranker olarak Cohere rerank-v3. LLM: Claude Opus 4.7 (1M context, uzun sözleşmeler için).
Sonuç. Sözleşme analiz süresi 4 saat → 35 dakika. Avukatlar üretim-final cevabı doğrudan değil, kaynak gösterimi ile alıyor — bu, hukuk profesyonellerinde güven sağladı.
Vaka 3 — E-Ticaret Platformu: Ürün Sorgu Asistanı
Problem. Müşteri "kış için su geçirmez, 3000 TL altı, kadın bot" gibi yapılandırılmamış sorgular yapıyor; klasik filtre arayüzü yetersiz.
Çözüm. Self-query RAG + ürün metadata filtreleri. Embedding: jina-v3 (e-ticaret odaklı multilingual). Re-ranking: bge-reranker. Yanıt LLM: GPT-5.
Sonuç. Ürün sayfası dönüşüm oranı %23 arttı. Müşteri sorgu başına average 1.4 chat turu. Üretim trafiği günlük 80.000 sorgu.
12. Üretim Endişeleri
Gecikme (Latency)
Tipik hedef: <2 saniye p50, <5 saniye p95. Optimizasyonlar: cache (sorgu + cevap), streaming, paralel retrieval.
Maliyet
Maliyet üç katmandan oluşur: embedding (one-time + yenileme), vektör DB (storage + RAM), LLM (token başına). Tipik kurumsal RAG: aylık $1.500-$15.000 (10K-100K sorgu).
Observability
Her sorguda izleyin: latency, getirilen chunk skorları, LLM token kullanımı, eval skoru. Araçlar: Langfuse, Helicone, Arize Phoenix.
13. Sıkça Sorulan Sorular
14. Bir Sonraki Adım
RAG sisteminizi tasarlamak veya mevcut bir sistemi üretim kalitesine taşımak için:
- Mimari atölye. Use-case, veri kaynakları, gereksinimler, KVKK riski 4 saatlik bir oturumda netleşir; çıktı: hedef RAG mimari diyagramı ve 8-12 haftalık MVP planı.
- Eval harness kurulumu. Mevcut RAG'ınızın faithfulness, recall, precision skorlarını ölçeriz; iyileştirme yol haritası çıkartırız.
- Production audit. Yayında bir RAG sisteminiz varsa hallucination, gecikme, maliyet ve KVKK uyumu için 360 derece denetim.
İletişim için site üzerindeki contact formu kullanılabilir.
Kaynaklar
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — Lewis et al., NeurIPS ·
- BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity — Chen et al., BAAI ·
- RAGAS: Automated Evaluation of Retrieval Augmented Generation — Es et al., arXiv ·
- Lost in the Middle: How Language Models Use Long Contexts — Liu et al., arXiv ·
- Reciprocal Rank Fusion — Cormack, Clarke, Buettcher, SIGIR ·
- Databricks State of Data + AI 2025 — Databricks, Databricks ·
- Qdrant Documentation — Qdrant, Qdrant ·
- LangChain RAG Cookbook — LangChain, LangChain ·
- KVKK - 6698 Sayılı Kanun — T.C. KVKK, Türkiye Cumhuriyeti ·
- EU Artificial Intelligence Act — European Commission, EU ·
Bu rehber yaşayan bir belgedir; RAG ekosistemi (embedding modelleri, vektör DB'ler, eval araçları) her çeyrek değiştiği için çeyreklik olarak güncellenmektedir.
Danismanlik Baglantilari
Bu yazıya en yakın consulting sayfaları
Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.
Kurumsal RAG Sistemleri Gelistirme
Sirket ici bilgiye kaynakli, guvenli ve denetlenebilir erisim saglayan uretim seviyesinde RAG mimarileri.
AI Evaluation, Guardrails ve Observability
Yapay zeka sistemlerinin dogruluk, guvenlik ve performansini olcmek, izlemek ve kontrollu hale getirmek icin kapsamli degerlendirme katmani.
CTO'lar icin Kurumsal AI Mimari Danismanligi
PoC seviyesinde kalan AI girisimlerini guvenli, olceklenebilir ve production-ready mimarilere tasimak icin teknik liderlik danismanligi.