Few-Shot Learning ile Prompt Optimizasyonu 2026: Türkçe Derin Teknik Rehber — GPT-3'ten Modern LLM'lere
Few-Shot Learning prompt optimizasyonu için Türkçe en kapsamlı teknik rehber: akademik kökenler (Brown et al. 2020 GPT-3 paper, in-context learning keşfi), 8 örnek seçim stratejisi (random, similarity-based KATE, diversity, semantic, active learning), optimum örnek sayısı analizi (1 vs 3 vs 5 vs 10 vs 32), ordering effects (Lu et al. 2022 'lost in middle'), delimiter ve formatting best practices, Anthropic XML tags pattern, Few-Shot + CoT combination, recency bias + primacy bias, dynamic few-shot retrieval, Few-Shot prompt versionlama, A/B test framework, 25+ Türkçe pratik örnek, evaluation framework, production deployment.
Tek cümlelik cevap: Few-Shot Learning LLMlere 1-32 örnekle görev öğreten teknik — 2020 GPT-3 paper keşfi, 8 seçim stratejisi, 3-5 optimum sayı, ordering effect kritik, 2026 modern LLMlerde hala değerli.
- Few-Shot Learning — LLM'lere bir görevi 1-32 örnek (shots) ile gösterip benzer örnek üretmesini sağlayan in-context learning tekniği. 2020 GPT-3 paper'ında (Brown et al.) keşfedildi, modern prompt mühendisliğinin temel taşı.
- Zero-shot (örnek yok) vs One-shot (1 örnek) vs Few-shot (2-10+ örnek) farkı: GPT-3 175B SAT analojilerinde Zero-shot %53, One-shot %58, Few-shot 32 örnek %65 (10+ puan iyileşme tek prompt mühendisliği ile).
- Örnek seçim stratejileri 8 ana: (1) Random — basit, (2) Similarity-based — KATE algoritması, (3) Diversity — varyasyon, (4) Active learning, (5) Semantic embedding clustering, (6) Coverage — task variations, (7) Difficulty curriculum, (8) Dynamic retrieval (RAG-Few-Shot hybrid).
- Optimum örnek sayısı: 3-5 sweet spot çoğu task için. 1 örnek minimum. 10+ örnek 'diminishing returns' (Anthropic 2024 research). 32 örnek matematik gibi karmaşık görevler için.
- Ordering effect kritik: Lu et al. 2022 — 'lost in the middle' fenomeni — uzun bağlamda ORTADAKI örnekler unutuluyor. Sıralama: kritik örnekler BAŞA + SONA. Primacy + recency bias çalışıyor.
- 2026 modern LLMlerde few-shot daha az gerekli (GPT-5/Claude'un zero-shot zekası yüksek) AMA: domain-specific (Türkçe legal, medikal), structured output, custom format için hala değerli.
- 25+ Türkçe pratik örnek bu rehberde: sentiment classification, entity extraction (Türk şirketler), tone style transfer, structured output (JSON), kod generation, çeviri, summarization, custom instruction following.
1. Giriş: Few-Shot Learning Nedir?
- Few-Shot Learning (In-Context Learning)
- LLM'lere fine-tuning gerekmeden, prompt içinde 1-32 örnek (shots) göstererek görevi öğretme tekniği. Brown et al. 2020 GPT-3 paper'ında keşfedildi. 'In-context learning' adı verilir çünkü model parametre güncellemesi olmadan örneklerden 'öğreniyor' gibi davranıyor. Prompt mühendisliğinin temel tekniğidir.
1.1 Brown et al. 2020 — Tarihsel Önemi
1.2 Bu Rehberin Farkı
2. Zero-Shot vs One-Shot vs Few-Shot Detayı
2.1 Üç Seviyenin Tanımı
| Tipi | Örnek Sayısı | Karakteristik | En İyi Use Case |
|---|---|---|---|
| Zero-Shot | 0 | Sadece görev tanımı + soru | Basit, model native zeka yeterli |
| One-Shot | 1 | 1 örnek + soru | Format göstermek, dil ipucu |
| Few-Shot | 2-32+ | Birden çok örnek + soru | Karmaşık, kalıp gerekli, domain-specific |
2.2 Zero-Shot Örnek (Türkçe Sentiment Analysis)
Prompt:
"Aşağıdaki yorumun duygu durumunu pozitif, negatif veya nötr olarak sınıflandır.
Yorum: 'Bu ürün gerçekten çok kötü, paramı boşa harcadım.'
Cevap:"
Beklenen: "Negatif"
Zero-shot çoğu durumda işe yarar. Çünkü model genel sentiment analysis'i biliyor.
2.3 One-Shot Örnek
Prompt:
"Aşağıdaki yorumların duygu durumunu pozitif, negatif veya nötr olarak sınıflandır.
Yorum: 'Harika bir deneyim, çok memnun kaldım!' Cevap: Pozitif
Yorum: 'Bu ürün gerçekten çok kötü, paramı boşa harcadım.' Cevap:"
One örnek modele FORMAT'ı gösterir. Aynı yapıda cevap üretir.
2.4 Few-Shot Örnek (3-Shot)
Prompt:
"Aşağıdaki yorumların duygu durumunu pozitif, negatif veya nötr olarak sınıflandır.
Yorum: 'Harika bir deneyim, çok memnun kaldım!' Cevap: Pozitif
Yorum: 'Ortalama bir ürün, beklediğim kadar değil ama kötü de değil.' Cevap: Nötr
Yorum: 'Bu ürün gerçekten çok kötü, paramı boşa harcadım.' Cevap: Negatif
Yorum: 'Kargolama çok geç oldu, ürün sallanıyor.' Cevap:"
3 örnek hem format hem de NÜANS gösterir — "kötü değil ama beklediğim kadar değil" gibi nötr durumları.
2.5 Hangi Seviyeyi Kullanmalı?
3. 8 Örnek Seçim Stratejisi
3.1 Strateji 1: Random Selection
En basit yaklaşım. Veri setinden rastgele 3-5 örnek seç.
Avantajı: Bias yok, hızlı.
Dezavantajı: Optimum değil. Bazı örnekler çok benzer, bazıları irrelevant.
3.2 Strateji 2: Similarity-Based (KATE Algoritması)
- KATE (k-Nearest neighbor Approach to Task-specific Example selection)
- Liu et al. 2022 paper'ında tanıtılan algoritma. Test örneğine en YAKIN k adet örneği training setten seçer. Yakınlık: embedding (BERT/Sentence-BERT) cosine similarity. Görev-spesifik few-shot için en güçlü stratejilerden biri.
Mantık:
- Tüm training örnekleri için embedding hesapla
- Test örneği geldiğinde embedding hesapla
- Cosine similarity ile en yakın k örneği seç
- Bu k örneği prompt'ta kullan
Avantajı: Görev-spesifik, optimal context. Modern production'da yaygın.
Dezavantajı: Compute overhead (embedding hesapla), KVKK riski (embedding kaydetme).
3.3 Strateji 3: Diversity Selection
Tek tip örnek yerine farklı tipleri göster.
Örnek: Sentiment analysis için
- 1 örnek: çok pozitif yorum
- 1 örnek: çok negatif yorum
- 1 örnek: nötr yorum
- 1 örnek: karışık (mixed) yorum
- 1 örnek: sarcasm
Avantajı: Modeli edge case'lere hazırlar.
Dezavantajı: Tüm task tip'lerini bilmek gerekir.
3.4 Strateji 4: Active Learning
İnsan-eldeği etkileşim ile en bilgi açıcı örnekleri seç.
Mantık:
- Initial random örneklerle başla
- Modelin hata yaptığı yerleri tespit et
- Bu örnekleri few-shot'a ekle
- Tekrar değerlendir
Avantajı: İterative iyileşme, model zayıflıklarını hedefler.
Dezavantajı: Manuel emek + iterasyon süresi.
3.5 Strateji 5: Semantic Embedding Clustering
- Tüm training örneklerini embedding'le
- K-Means clustering (örn. k=5 cluster)
- Her cluster'dan 1 örnek seç (diversity garantili)
Avantajı: Diversity + similarity dengesi.
Dezavantajı: Cluster sayısı optimize etmek gerek.
3.6 Strateji 6: Coverage-Based
Task'ın olası TÜM varyasyonlarını kapsayan örnekler seç.
Örnek: Türkçe NER için
- Şirket adı
- Şehir
- Kişi adı
- Tarih
- Para birimi (TL, $, €)
- Telefon numarası
Avantajı: Comprehensive, tüm cases.
Dezavantajı: Çok shot gerekli (token cost).
3.7 Strateji 7: Difficulty Curriculum
Easy → Medium → Hard sırasıyla örnekler sun.
Mantık: Model basitten karmaşığa progressive öğrensin.
Avantajı: Curriculum learning prensibi, complex tasks için iyi.
Dezavantajı: Difficulty annotation gerek.
3.8 Strateji 8: Dynamic Few-Shot Retrieval (Production Hybrid)
RAG + Few-Shot kombinasyonu — modern production tekniği:
- Veritabanında binlerce annotated örnek tut
- Test query geldiğinde vector search ile en uygun 3-5 örneği getir
- Bu örnekleri few-shot prompt'a ekle
- LLM'e gönder
Avantajı: Sürekli güncel, query-spesifik, scalable.
Dezavantajı: Infra complexity (vector DB), latency.
3.9 Strateji Karşılaştırması
| Strateji | Kalite | Setup | Production Uygun? |
|---|---|---|---|
| Random | 6/10 | Çok kolay | Sınırlı |
| Similarity-based (KATE) | 9/10 | Orta | Evet (vector DB) |
| Diversity | 7/10 | Orta | Evet |
| Active Learning | 8/10 | Yüksek (manuel) | Sınırlı |
| Semantic Clustering | 8/10 | Yüksek | Evet |
| Coverage | 7/10 | Yüksek | Evet |
| Difficulty Curriculum | 7/10 | Yüksek | Sınırlı |
| Dynamic Retrieval | 10/10 | Çok yüksek | LİDER |
4. Optimum Örnek Sayısı
4.1 Akademik Bulgular
Brown et al. 2020 (GPT-3 paper) ana bulgu:
| Task | Zero | 1 | 8 | 32 | Marjinal artış |
|---|---|---|---|---|---|
| SAT Analojileri | %53.7 | %58.1 | %62.9 | %65.2 | Aza alan |
| WiC (Word in Context) | %0.0 | %48.6 | %55.3 | %55.3 | Plateau 8'de |
| TriviaQA | %64.3 | %68.0 | %71.2 | %71.2 | 8'de doygunluk |
| Arithmetic 2-digit | %76.9 | %92.2 | %99.6 | %99.6 | Hızlı doygunluk |
Sonuç: Çoğu task'ta 8 örnek ile doygunluk (saturation). 32 örnek marjinal kazanç.
4.2 Modern LLM'lerde Optimum
4.3 Pratik Rule of Thumb
| Görev Tipi | Önerilen Sayı | Sebep |
|---|---|---|
| Sentiment classification | 3 | Basit, az nüans |
| NER (entity extraction) | 5-8 | Çoklu entity tipi |
| Custom JSON output | 2-3 | Format göstermek yeterli |
| Translation | 3-5 | Tarz + tone gösterir |
| Summarization | 2-3 | Length + style göster |
| Sarcasm detection | 8-10 | Hassas nüans |
| Code generation (DSL) | 3-5 | Format + pattern |
| Multi-class classification (10+ class) | 10-20 | Her sınıf en az 1-2 örnek |
| Math problem | 5-8 (CoT ile) | Reasoning patterns |
| Edge case handling | 10+ | Specifically edge cases |
5. Ordering Effects — Sıralama Kritik
5.1 Lu et al. 2022 — "Lost in the Middle"
Paper: "Lost in the Middle: How Language Models Use Long Contexts" (Liu, Lin, Hewitt, Paranjape, Bevilacqua, Petroni, Liang — Stanford + Berkeley — 2023)
Ana bulgu: Uzun bağlamda model bilgiyi U-shape pattern'da kullanıyor:
- Başlangıçtaki bilgi → iyi hatırlanıyor (primacy effect)
- Sonundaki bilgi → iyi hatırlanıyor (recency effect)
- ORTADA olan bilgi → UNUTULUYOR
5.2 Few-Shot İçin Sıralama Önerileri
5.3 Anthropic XML Tags Pattern
Modern best practice — XML benzeri tagger ile örnekleri yapılandır:
\
Avantajı: Model XML structure'ı tanıyor, çıktıyı daha tutarlı parse edebiliyorsun.
6. Delimiter ve Format Best Practices
6.1 Delimiter Seçimi
| Delimiter | Kullanım | Kalite |
|---|---|---|
| Triple backticks (üç ters tırnak) | Code blocks | Yüksek |
| --- (horizontal rule) | Section separator | Yüksek |
| ### Header | Markdown header | Yüksek |
| XML tags | Anthropic recommended | En yüksek |
| JSON | Structured output | Yüksek |
| === boundary | Custom | Orta |
| #### Q: / A: | Q&A pattern | Yüksek |
| Numbered | Example 1, Example 2 | İyi |
6.2 Anthropic'in Önerdiği Format
Bu pattern Claude için sektör standardı, GPT-5 için de iyi çalışır.
7. Few-Shot + CoT Kombinasyon
En güçlü teknik — Few-Shot Chain-of-Thought.
Wei et al. 2022 paper'ın özü: Few-Shot içine MUHAKEME ADIMLARI ekle.
Örnek:
Q: Ahmet 5 elma aldı, 3 tanesini yedi. Kaç elması kaldı? A: Adım adım düşünelim. Ahmet 5 elma ile başladı. 3 tanesini yedi. 5 - 3 = 2. Cevap: 2.
Q: Bir kutuda 12 kalem var, 4'ünü kız kardeşine verdi. Kaç kalemi kaldı? A: Adım adım düşünelim. 12 kalemle başladı. 4'ünü verdi. 12 - 4 = 8. Cevap: 8.
Q: Ali 7 lira ile başladı. 3 lira harcadı, sonra 5 lira kazandı. Kaç lirası var? A:
Model bu pattern'ı görerek kendi CoT muhakemesini üretiyor. Few-Shot + CoT kombinasyonu en güçlü tekniktir.
8. 25+ Türkçe Pratik Few-Shot Örnek
8.1 Sentiment Classification — Türkçe
Görev: Trendyol ürün yorumlarını sınıflandır.
\
Yorum: "Kargolama biraz geç oldu ama ürün gayet iyi."
Bu prompt model'e mixed sentiment'ı da öğretir.
8.2 NER — Türk Şirket Adları
\
Metin: "Turkcell ve Vodafone 5G altyapısı için yatırım yaptı."
8.3 Translation — Türkçe → İngilizce Tone Style
\
Türkçe: "Maalesef bu ürün şu an stokta yok, üzgünüz."
Bu prompt resmi vs samimi tonu öğretiyor.
8.4 Customer Service Yanıt
\
Şikayet: "Ürün geldi ama paketi açtığımda kırılmıştı."
8.5 Code Generation (Python)
\
Açıklama: "Bir string'in tüm permütasyonlarını bulan fonksiyon"
8.6 JSON Structured Output
\
Metin: "Mehmet 42, İzmir, öğretmen."
8.7 Hukuki Kavram Sınıflandırma
\
Madde: "Sözleşmenin feshinde 3 aylık tazminat ödenir."
8.8 Medikal Sınıflandırma
\
⚠️ Uyarı: Bu örnek SADECE eğitim amaçlı. Gerçek medikal tanı için doktora başvurun.
8.9 Email Tone Adaptation
\
Orijinal: "Toplantı saatini değiştiremez miyiz?"
8.10 Diğer 15+ Türkçe Few-Shot Pattern Örnekleri
(11) Recipe parsing — Türk yemek tarifleri (12) Address parsing — Türkçe adres formatı (13) Phone number formatting — Turkey local (14) Date parsing — Turkish locale (DD.MM.YYYY) (15) Categorization — Türk e-commerce ürün kategorileri (16) Translation Turkish dialect (regional) (17) Pronoun resolution — Türkçe (sondan eklemeli yapı zor) (18) Sentiment in Turkish slang (19) Currency formatting (₺, TL ayrımı) (20) Time expressions in Turkish (21) Question answering with Turkish context (22) Headline generation Turkish style (23) Lyrics analysis Turkish songs (24) Recipe → ingredients list (25) Legal contract clause classification (26) Medical term extraction Turkish
(Her biri için detaylı few-shot prompt aynı yapıda hazırlanır)
9. Dynamic Few-Shot Retrieval — Production
9.1 Architecture
Dynamic Few-Shot Setup
- 1
Annotated dataset
1000-100K annotated örnek hazırla. Her örnek için: input + label/output + metadata.
- 2
Embedding
Tüm örnekleri embed et (OpenAI text-embedding-3, Cohere embed, BGE).
- 3
Vector DB
Pinecone, Weaviate, pgvector, Chroma'ya yükle.
- 4
Query time
User query gelince embed et + vector search top-5 örnek getir.
- 5
Prompt construction
Bu 5 örneği Few-Shot prompt'a inject et.
- 6
LLM call
Constructed prompt'u LLM'e gönder.
- 7
Evaluation loop
Output'u doğrula. Hatalı ise yeni örnek olarak dataset'e ekle.
9.2 Production Stack
| Component | Tool |
|---|---|
| Embedding model | OpenAI text-embedding-3-large veya BGE-M3 |
| Vector DB | Pinecone (managed) veya pgvector (self-host) |
| Retrieval framework | LangChain, LlamaIndex |
| LLM | Claude Sonnet 4.6 veya GPT-5 |
| Evaluation | LangSmith, Promptfoo, RAGAS |
| Monitoring | Helicone, Langfuse |
| Versionlama | Git + Anthropic Prompt Library |
10. Few-Shot Prompt Versionlama ve A/B Test
10.1 Version Control
Promptlar versiyonlanmalı, kod gibi:
prompts/
sentiment-analysis/
v1.0.md
v1.1.md
v2.0.md
CHANGELOG.md
ner-extraction/
v1.0.md
Her versiyon için:
- Few-shot örnek setı
- Performance metric (accuracy, F1)
- Token usage
- Notes (why this version)
10.2 A/B Test Framework
10.3 Evaluation Metrics
| Metric | Tanım | Hangi task için |
|---|---|---|
| Accuracy | Doğru / Toplam | Classification |
| F1 Score | Precision + Recall harmonic | Imbalanced classification |
| BLEU / ROUGE | Reference vs generated overlap | Translation, summarization |
| BERTScore | Semantic similarity | Open-ended generation |
| Exact Match | Identical string | Structured output |
| Custom LLM-as-judge | GPT-5 değerlendirir | Open-ended quality |
| Token usage | Input + output token | Maliyet |
| Latency | Response time | UX |
11. Token Economics
Few-shot örnekler token kullanımını artırır.
| Yaklaşım | Tipik Input Token/query | Aylık Maliyet (Claude Sonnet) |
|---|---|---|
| Zero-Shot | 200 | $6 |
| 1-Shot | 350 | $10 |
| 3-Shot | 600 | $18 |
| 5-Shot | 850 | $25 |
| 10-Shot | 1500 | $45 |
| Dynamic Few-Shot (RAG) | 700 + embedding $5 | $26 |
Optimizasyon:
- Kısa örnekler tercih
- Caching (Anthropic Cache Control)
- Dynamic retrieval (zero-shot fallback)
12. Yaygın Hatalar
13. Sık Sorulanlar
Soru: 2026'da Few-Shot hala değerli mi?
Soru: Few-Shot vs Fine-Tuning hangisi?
- Few-Shot: 10-50 örnekle, hızlı iterasyon, model değişmiyor
- Fine-tuning: 100-10K örnekle, kalıcı, model değişiyor
Pratik: 100 örnekten az → Few-Shot. 1000+ örnek + sürekli aynı task → Fine-tune.
Soru: KATE benzeri similarity yöntemi nasıl implement?
import openai
from sklearn.metrics.pairwise import cosine_similarity
# 1. Embed all training examples
training_embeddings = [embed(ex.text) for ex in training_set]
# 2. Query time
query_emb = embed(query)
similarities = cosine_similarity([query_emb], training_embeddings)[0]
top_k_indices = similarities.argsort()[-5:][::-1]
selected_examples = [training_set[i] for i in top_k_indices]
# 3. Construct few-shot prompt
Soru: Anthropic XML tags vs JSON?
Anthropic XML — Claude için tercih (training data'da yaygın). JSON — GPT-5 + structured output mode için ideal.
Soru: 32 örnek mantıklı mı?
Sınırlı senaryolarda. Çoğunlukla 3-5 yeter. 32 örnek bağlamı dolduruyor, ana query için yer azalıyor.
Soru: Türkçe Few-Shot İngilizce'den ne kadar farklı?
Aynı prensipler. AMA: Türkçe örnekler daha az online (training data), bu yüzden quality örnek seçimi önemli. Native Türk yazımı.
Soru: Production'da prompt değişikliği nasıl deploy?
Git-based (kod gibi). Prompt change → branch → PR → review → merge → A/B test → roll out.
Soru: Few-Shot + RAG nasıl entegre?
Two-stage: önce RAG ile bilgi getir, sonra Few-Shot ile format/style göster. Hybrid çok güçlü.
Soru: Hangi model Few-Shot'ta en iyi?
GPT-5 ve Claude Sonnet 4.6 yakın. Claude Anthropic XML pattern'de avantajlı. Gemini 2M context ile uzun few-shot mümkün.
Soru: Few-Shot prompt'ı agentik workflow'a nasıl entegre?
LangChain Few-Shot templates kullan. Her agent step'i için ayrı few-shot prompt. Dynamic retrieval ile uygun örnekleri her step için seç.
14. Sonuç
3 ana çıkarım:
-
Few-Shot Learning Brown et al. 2020'den beri modern prompt mühendisliğinin temel tekniği — 8 örnek seçim stratejisi, optimum 3-5 örnek sweet spot.
-
Ordering effects kritik — "Lost in the middle" prensibi, primacy + recency exploit et.
-
2026'da Modern LLM'lerde Few-Shot hala değerli — custom format, domain-specific, edge cases, Türkçe nüans için. Dynamic retrieval (RAG-Few-Shot hybrid) production lider.
Bu hafta yapılacaklar:
(1) Mevcut promptlarınıza 3-5 quality Few-Shot örneği ekle, before/after karşılaştır.
(2) Anthropic XML tags pattern'ini bir prompta uygula.
(3) Eğer 100+ annotated örnek varsa: Dynamic Few-Shot retrieval kurulumu düşün.
(4) Evaluation framework kur (Promptfoo veya LangSmith).
Kaynaklar
- Language Models are Few-Shot Learners (GPT-3 paper) — Brown, Mann, Ryder, Subbiah, Kaplan et al., NeurIPS 2020 / OpenAI ·
- Lost in the Middle — Liu, Lin, Hewitt, Paranjape, Bevilacqua, Petroni, Liang, Stanford ·
- KATE - What Makes Good In-Context Examples — Liu et al., ACL ·
- Fantastically Ordered Prompts — Lu, Bartolo, Moore, Riedel, Stenetorp, ACL ·
- Anthropic Few-Shot Examples — Anthropic, Anthropic ·
- OpenAI Few-Shot Examples — OpenAI, OpenAI ·
- LangChain Few-Shot Examples — LangChain, LangChain ·
- Promptfoo Eval Framework — Promptfoo, Promptfoo ·
- LangSmith — LangChain, LangChain ·
- DAIR.AI Few-Shot Guide — DAIR.AI, DAIR.AI ·
Danismanlik Baglantilari
Bu yazıya en yakın consulting sayfaları
Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.
Kurumsal Prompt Engineering Programlari
Ekiplerin üretken yapay zekayi rastgele degil, sistematik, kaliteli ve olculebilir sekilde kullanmasini saglayan kurumsal prompt engineering cercevesi.
Kurumsal RAG Sistemleri Gelistirme
Sirket ici bilgiye kaynakli, guvenli ve denetlenebilir erisim saglayan uretim seviyesinde RAG mimarileri.
CTO'lar icin Kurumsal AI Mimari Danismanligi
PoC seviyesinde kalan AI girisimlerini guvenli, olceklenebilir ve production-ready mimarilere tasimak icin teknik liderlik danismanligi.