Skip to content

Few-Shot Examples Economics: 0 vs 3 vs 8? The Cost vs Accuracy Trade-Off

Few-shot examples raise input tokens but improve output quality. What's the right number? This lesson compares test results with 0, 1, 3, 5, 8 examples and provides optimum recommendations by task type.

Şükrü Yusuf KAYA
16 min read
Intermediate
Few-Shot Examples Ekonomisi: 0 mı 3 mü 8 mi? Cost vs Accuracy Trade-Off'u
🧪 Bu ders bir deney
Few-shot'ın doğru sayısı evrensel değil. Görev tipi, model gücü, output formatı — hepsi değiştiriyor. Bu derste bir deney yapıp kendi use case'in için optimum'u nasıl bulacağını göstereceğim.

Few-Shot Nedir — Hızlı Hatırlatma#

In-context learning (ICL): Modele birkaç input-output çifti vererek istediğin formatta cevap almak.
Soru: "İade nasıl yapılır?" Cevap: "Profilinizde 'İade Talep Et'i tıklayın." Soru: "Kargo ne kadar sürer?" Cevap: "1-3 iş günü." Soru: "Ödeme yöntemleri neler?" Cevap: ... ← model bunu üretir, format öğrenir
Modellerin emergent ability'lerinin temel taşı. GPT-3'ten beri ana paradigma.

Deney — Türkçe Customer Support Classification#

Görev: Müşteri mesajını 5 kategoriden birine sınıflandır. Model: Sonnet 4.6 Eval set: 100 gerçek müşteri mesajı (insan-annotated ground truth)

Variants#

VariantExample sayısıInput tokensOutput tokens
Zero-shot01806
1-shot12806
3-shot34806
5-shot56806
8-shot89806

Sonuç tablosu#

VariantAccuracy$/istekAnnual cost (1M istek)
Zero-shot78%$0.000630$630
1-shot84%$0.000930$930
3-shot91%$0.001530$1.530
5-shot92%$0.002130$2.130
8-shot92%$0.003030$3.030

Gözlem#

  • 3-shot'a kadar accuracy hızla yükseliyor (+13 puan)
  • 3'ten 5'e: +1 puan (anlamsız)
  • 5'ten 8'e: 0 puan
Sweet spot 3-shot bu görev için. 5-shot ve 8-shot daha pahalı ama avantaj yok.
Few-shot accuracy diminishing returns
Accuracy 3-shot'a kadar dik yükselir, sonrası diminishing returns. Maliyet linearly artar.

Görev Tipine Göre Optimum Few-Shot Sayısı#

Test sonuçlarımdan çıkardığım pratik öneriler:
Görev tipiOptimum sayıSebep
Binary classification (yes/no)2-3Format basit, az örnek yeter
Multi-class classification (5-10 sınıf)3-5Her sınıftan en az 1 örnek
Entity extraction3-4Format göstermek için
Format-strict generation2-3Format örneği yeter
Tone/style mimicry5-8Style varyasyonu için fazla örnek
Complex reasoning0-1 + CoTReasoning kendisi tek başına yeter
Translation0-2Modeller already iyi
Code generation1-3Pattern göstermek için
Customer support response3-5Tone + format + örnek davranış

Example Kalitesi Sayıdan Daha Önemli#

8 vasat örnek vermek, 3 mükemmel örnekten kötü.

İyi örnek nedir?#

  • Çeşitli — farklı senaryoları kapsar
  • Edge case'leri içerir — tipik + atipik
  • Net format — model parse edebilir
  • Doğru output — yanlış örnek vermek model'i yanıltır

Anti-pattern — duplikat örnekler#

Soru: "İade?" Cevap: "Profilinizden tıklayın." Soru: "Geri verme?" Cevap: "Profilinizden tıklayın." Soru: "İade nasıl?" Cevap: "Profilinizden tıklayın."
Üç örnek de aynı şeyi öğretiyor — token israfı. Bir örnekle aynı sonuç.

Dinamik Few-Shot — En İlişkili Örneği Seç#

Statik 3 örnek yerine, kullanıcı sorgusuna en benzer 3 örneği seç (embedding-based retrieval).
# Önceden — example database hazırla example_db = [ {"input": "iade nasıl?", "output": "Profilinizden..."}, {"input": "kargo süresi", "output": "1-3 gün..."}, # ... 200 örnek ] example_embeddings = embed_all([e["input"] for e in example_db]) # Runtime'da def get_dynamic_examples(query, k=3): query_emb = embed(query) top_k = cosine_similarity_top_k(query_emb, example_embeddings, k=k) return [example_db[i] for i in top_k] # Prompt build examples = get_dynamic_examples(user_query, k=3) prompt = build_few_shot_prompt(examples, user_query)

Avantaj#

  • 200 örneği prompt'a hiç koymadan en iyi 3'ünü dinamik seç
  • Aynı 3 örnek değil her seferinde, kullanıcının sorgusu ile uyumlu
  • Token sayısı sabit (3 örnek), kalite çok daha yüksek

Maliyet#

  • Embedding cost: ~$0.0001/sorgu
  • Vector DB query: <10ms
  • Toplam ek maliyet: %5
  • Accuracy lift: tipik %5-15
Modül 12'de RAG bağlamında bunu işliyoruz.

Few-Shot'u Nereye Koymalı — System mi Message mi?#

İki pattern:

Pattern A — System içinde#

messages = [ {"role": "system", "content": f"...\n\nÖrnekler:\n{examples}"}, {"role": "user", "content": user_query}, ]

Pattern B — Message turn'leri olarak#

messages = [ {"role": "system", "content": "..."}, {"role": "user", "content": "iade nasıl?"}, {"role": "assistant", "content": "Profilinizden tıklayın."}, {"role": "user", "content": "kargo süresi"}, {"role": "assistant", "content": "1-3 gün."}, # ... daha çok {"role": "user", "content": user_query}, # gerçek soru ]

Hangisi daha iyi?#

Pattern B (turn-based) genelde daha iyi performans — modeller multi-turn conversation pattern'lerini eğitim sırasında çok gördü. Pattern A daha az token (system kompakt) ama Pattern B daha iyi accuracy.
Trade-off:
  • Pattern A: -%10 token, -%2 accuracy
  • Pattern B: standart token, +%2-5 accuracy
Cost-sensitive ise A, accuracy-critical ise B.

Few-Shot + Prompt Cache = Süper Verim#

Few-shot example'lar statik — kullanıcıdan kullanıcıya değişmiyor. Bu, Anthropic prompt cache için mükemmel candidate.
messages = [ { "role": "system", "content": [ {"type": "text", "text": "Rol talimatları..."}, {"type": "text", "text": few_shot_examples, "cache_control": {"type": "ephemeral"}}, # ← cache here ], }, {"role": "user", "content": user_query}, ]
Few-shot maliyeti %90 düşer. Modül 7'de detaylı.
🎯 Pratik öneri
Yeni bir görev için başlangıç: 3-shot statik examples + Anthropic prompt cache. Sonra eval set ile test et, 3'ten 5'e veya 5'ten 3'e değiştirme avantajını ölç. Çoğu durumda 3'te kalırsın.
▶️ Sıradaki ders
5.4 — Chain-of-Thought'un Maliyeti. CoT ("think step by step") büyük bir prompt tekniği — ama output token'ı katlar. Ne zaman değer, ne zaman pahalıya gelir?

Frequently Asked Questions

Never use real user data as examples. (1) Anonymize (name, phone, address → placeholders), (2) Synthesize (generate similar examples with LLM), (3) Use old/deleted data. High KVKK violation risk. Module 4.5.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content

Connected pillar topics

Pillar topics this article maps to