In-Context Learning'in Matematiği: Implicit Bayesian Inference ve Induction Heads
GPT-3'ün few-shot learning yeteneğinin matematiksel açıklamaları: implicit Bayesian inference (Xie 2022), induction heads mechanism (Olsson 2022), task identification ve learning algorithm emergence. Prompt'a örnek vermek niye çalışıyor, niye yeterince büyük modellerde, niye OOD'da çuvallıyor.
Şükrü Yusuf KAYA
55 dakikalık okuma
İleri🧩 LLM'in en şaşırtıcı yeteneğinin altında ne var?
GPT-3'ün 2020'de paper'ında gösterdiği şey her şeyi değiştirdi: modele birkaç örnek ver (few-shot), yeni task'ı gradient update olmadan öğreniyor. Bu 'olmaz' denilen şey gerçek olunca, herkes 'ama nasıl?' diye sordu. 5 yıl sonra cevap netleşmeye başladı. 55 dakika sonra: implicit Bayesian inference hipotezi, induction heads'in mechanistic role'ü, ICL'in matematiksel sınırları — hepsini bileceksin.
Ders Haritası#
- In-context learning fenomeni — ne, nasıl
- Klasik öğrenme vs ICL — gradient'siz öğrenme paradoksu
- Brown 2020 (GPT-3) — keşif
- Implicit Bayesian inference (Xie 2022) — ilk teorik çerçeve
- Induction heads (Olsson 2022) — mechanistic explanation
- Pattern matching vs task learning
- Emergent at scale — niye küçük modellerde yok
- In-context'te dağılım kayması (OOD)
- Chain-of-thought ICL — reasoning ile birleşme
- ICL'in production etkisi — few-shot prompt mühendisliği
- Limitler ve gelecek
1. In-Context Learning Fenomeni#
In-Context Learning (ICL): model'in prompt'tan birkaç örneğe bakıp yeni input'a uygulayabilmesi — gradient update olmadan.
Klasik example#
Input: "İngilizce → Türkçe çevir: apple → elma book → kitap dog → köpek cat → ?" Output: "kedi"
Model her test örneği için eğitilmedi. Ama prompt'taki pattern'i kavradı.
Çeşitleri#
- Zero-shot: hiç örnek yok, sadece task tanımı
- One-shot: 1 örnek
- Few-shot: birkaç örnek (2-10 tipik)
- Many-shot: 100+ örnek (modern long-context modellerde mümkün)
GPT-3 paper'ının iddiası#
"Few-shot performance fine-tuned BERT'le yarışıyor." Bu devrimsel: BERT için bir week+ fine-tuning training gereken görev, GPT-3 için 30 saniyelik prompt yeterli.
Pratik impact#
- Prompt engineering doğdu (Modül 2 ChatGPT Ustalığı, Modül 4 Prompt Engineering kursu)
- Fine-tuning paradigm shift: belki gereksiz, prompt yeter
- Rapid prototyping: yeni task için hızlı POC
2. Klasik Öğrenme vs ICL Paradoksu#
Klasik machine learning teorisi:
"Bir model gradient descent ile parametreleri günceller. Eğitim sırasında loss minimize edilir. Yeni task için: ek fine-tuning gerek."
ICL bu çerçeveyi kırıyor:
"Model inference sırasında prompt'tan yeni task öğreniyor. Parametreler değişmiyor. Eğitim verisi değişmiyor."
Paradoks: nasıl mümkün?#
Bir LLM fixed parameters ile sabit bir fonksiyon. Aynı input → aynı output (greedy ile). O zaman:
- Test input "cat → ?" tek başına verilse → bilinmeyen task
- Prompt + test verilse → doğru cevap
Fark: prompt'taki bilgi. Model bu bilgiyi "kullanıyor" — ama nasıl?
İlk açıklama denemeleri#
- "Memorization": prompt'taki örnekler training'de geçti, model hatırlıyor. Yanlış: novel task'lar da çalışıyor.
- "Pattern matching": model pattern'i copy ediyor. Kısmen doğru ama yetersiz — pattern transformations yeni input'a uygulanıyor.
- "Meta-learning": model "öğrenmeyi öğrenmiş". En yakın ama mechanism belirsiz.
3. Brown 2020 — GPT-3 Paper'ı#
"Language Models are Few-Shot Learners" (Brown, Mann, Ryder et al., NeurIPS 2020).
Ana bulgular#
-
Few-shot improves dramatically with scale
- 125M model: few-shot ≈ zero-shot (zayıf)
- 13B model: few-shot belirgin iyi
- 175B model: few-shot strong, fine-tuned models'la yarışıyor
-
Format sensitivity
- Format her şey: "apple → elma" vs "apple : elma" — accuracy değişiyor
- Order matters: hangi örnek önce
- Number of shots: genelde 5-10 optimum, sonra düz
-
Task diversity
- Translation, QA, arithmetic, logical reasoning — hepsi few-shot
- Bazıları daha iyi (translation), bazıları zayıf (multi-hop reasoning)
Sonraki paper'lar#
Brown 2020 fenomeni gösterdi. Mekanizma için yıllar geçti. Şimdiki anlayışın iki temel direği:
- Implicit Bayesian inference (Xie 2022) — fenomenolojik açıklama
- Induction heads (Olsson 2022) — mechanistic açıklama
4. Implicit Bayesian Inference (Xie 2022)#
Sang Michael Xie, Aditi Raghunathan, Percy Liang, Tengyu Ma — "An Explanation of In-context Learning as Implicit Bayesian Inference", ICLR 2022.
Hipotez#
Pretrain corpus latent task'lara göre düzenlenmiş. Model implicit olarak posterior P(task | examples) hesaplıyor, sonra P(output | task, input) ile tahmin yapıyor.
Yani: ICL aslında gizli bir Bayesian inference.
Matematiksel çerçeve#
Diyelim corpus latent topic/task ile generated:
TT ~ P(T) # task prior X_1, ..., X_n | T ~ P(X | T) # examples given task X_{n+1} | T ~ P(X | T) # next example
Model'in pretrain'de gördüğü distribution:
P(T | X_1, ..., X_n)Empirik destek#
Xie ve diğerleri synthetic data üzerinde gösterdiler: HMM-generated corpus'ta eğitilmiş bir LM mathematical olarak Bayesian inference yapıyor.
Sınırları#
- Sentetik gösterim: gerçek dil corpus'unda task latent yapısı bu kadar temiz değil
- Modern LLM'ler: bu çerçeveyi tam doğrulamıyor, ama bağdaşır observation
- Predictions match: more examples → better performance, format sensitivity, scale effect — Bayesian framework hepsini öngörür
Türkçe perspektifi#
Türkçe corpus'taki latent task structure İngilizce'den daha az çeşitlilik içeriyor (corpus daha küçük). Bu ICL'in Türkçe'de daha zayıf olduğunu öngörür — empirik gözlem doğrular.
5. Induction Heads (Olsson 2022) — Mechanistic Explanation#
Catherine Olsson, Nelson Elhage et al. (Anthropic) — "In-context Learning and Induction Heads", arxiv 2022.
Anthropic mechanistic interpretability ekibinin breakthrough'u. Transformer circuits'lerin nasıl ICL'i mümkün kıldığını somut olarak gösterdi.
Induction head nedir?#
Bir attention head ki şu pattern'i implement ediyor:
Sequence'tegörüyorsan,[A, B, ..., A, ?]için?'yi predict et.B
Yani: bir token'ın önceki occurrence'ında sonra ne geldiğini öğren, şimdi tekrarla.
İki katmanlı mekanizma#
- Previous token head (early layer): her token'a kendisinden önceki token'ın bilgisini ekler
- Induction head (later layer): pattern'i
A → next(A) gör → next(A)'yı predict
Empirik kanıt#
Olsson ekibi:
- Phase transition: training sırasında belirgin bir noktada (loss curve'da spike) induction heads ortaya çıkıyor
- ICL accuracy paralel olarak artıyor
- Induction heads ablation (ablasyon) yapılırsa, ICL dramatically düşüyor
Korelasyon ≠ nedensellik?#
Olsson'un argümanı: corelasyon + ablation kanıtı + mekanizma anlaması = nedensel ilişki güçlü.
Daha sofistike pattern'ler#
Induction heads basit copy-paste. Modern LLM'ler transform pattern'ler de öğreniyor:
- Type-level (lowercase → uppercase)
- Translation (English → Turkish)
- Arithmetic
Bunlar induction heads'in generalizations'ı — Anthropic interpretability ekibinin aktif araştırma alanı.
6. Pattern Matching vs Task Learning#
Sürekli tartışma: ICL gerçekten "öğreniyor mu" yoksa fancy pattern matching mı?
Pattern matching görüşü#
- Model'in pretrain'de gördüğü pattern'leri uyguluyor
- Yeni task değil, eski task'ın varyasyonu
- Empirik destek: novel task'ta zayıf
Task learning görüşü#
- Model abstract task representation'lar öğrenmiş
- Few-shot examples task identifier
- Yeni task'lara genelleme: bazı durumda var
Sentez (2024 anlayışı)#
Her ikisi de doğru, farklı seviyelerde:
- Sıklıkla görülen patterns: copy-paste-like (induction heads)
- Compositional: bilinen pattern'lerin kombinasyonu
- True novel: çok zayıf (modeller bu durumlarda çuvallıyor)
Test: counterfactual ICL#
Wu et al. 2024 "Counterfactual": pretrain'de hiç olmayan task'lar oluştur, ICL test et. Sonuç: performans dramatically düşüyor, ama sıfır da değil — model bazı genelleme yapıyor.
Pragmatic mesaj#
Production'da: prompt'taki pattern'in pretrain distribution'a yakın olduğundan emin ol. Çok exotic format'lar → düşük ICL performance.
7. Niye Sadece Büyük Modellerde?#
ICL küçük modellerde zayıf, büyük modellerde güçlü. Niye?
Empirik gözlem#
- GPT-2 small (124M): few-shot ≈ zero-shot
- GPT-3 1B: hafif improvement
- GPT-3 175B: dramatic improvement
Açıklama 1: Induction heads phase transition#
Olsson 2022: induction heads belli bir model boyutu/training adımının üstünde emerge ediyor. Daha küçük modellerde ya yok ya zayıf.
Açıklama 2: Implicit Bayesian inference kapasite#
Xie 2022: Bayesian posterior approximation karmaşık latent space'lerde çok parametre gerektiriyor. Küçük model bunu yapamaz.
Açıklama 3: Compositional capacity#
Brown 2020'den sonra: büyük model "Type ↔ Token", "Variable binding", "Compositional generalization" gibi abstract pattern'leri öğreniyor. Bunlar capacity-gated.
Açıklama 4: Distillation evidence#
Küçük model'i büyükten distill edersen → ICL kısmen kazanırsın. Bu, scale'in gerek olmasa da practical olarak önemli olduğunu gösteriyor.
2026 perspektifi#
Llama 3 8B bile iyi few-shot yapıyor. Yani threshold ~1-3B yıllarda inmiş. 70B+ models'da few-shot quality fine-tuned modellere yakın.
8. ICL'in Dağılım Kayması (OOD) Çuvallaması#
ICL distribution-friendly. Pretrain corpus'tan uzaklaştıkça hızla bozuluyor.
Empirik gözlem#
| Senaryo | ICL accuracy |
|---|---|
| Common task, normal format | Yüksek |
| Common task, unusual format | Orta |
| Rare task, normal format | Orta-düşük |
| Rare task, unusual format | Düşük |
| Adversarial format | Çok düşük |
Examples#
Format hassasiyeti
"Apple → Elma" → çalışıyor "APPLE -> ELMA" → çalışıyor "<<apple>> ⟹ <<elma>>" → daha az çalışıyor (unusual)
Counterfactual mappings
"apple → cat dog → tree horse → ?" # Model bazen "wolf" gibi semantically related cevap verir, training pattern'ini override edemez
Anlam#
ICL adapter değil probe gibi: training distribution'daki latent task'ı aktive ediyor. Yeni task icad etmiyor.
Production etki#
Yeni domain (örn. Türkçe medical jargon) için ICL yetersiz olabilir. Çözüm:
- Fine-tuning (Modül 20+)
- RAG ile domain knowledge inject (Modül 41)
- Tool use (Modül 39)
ICL bir başlangıç, fine-tuning final cevap çoğu domain'de.
9. Chain-of-Thought ICL — Reasoning ile Birleşme#
Wei 2022 — "Chain-of-Thought Prompting Elicits Reasoning". ICL'in reasoning'le birleşmesi.
Klasik few-shot#
Soru: 23 + 47 = ? Cevap: 70 Soru: 15 + 28 = ? Cevap: ?
CoT few-shot#
Soru: 23 + 47 = ? Düşünce: 23 + 47 = 23 + 40 + 7 = 63 + 7 = 70. Cevap: 70 Soru: 15 + 28 = ? Düşünce: ?
Model adım adım düşünmeyi öğreniyor.
Empirik etki#
Math, coding, logic benchmark'larında dramatic improvement:
- GSM8K: 18% → 57% (PaLM 540B)
- BBH: 51% → 65%
"Let's think step by step"#
Kojima 2022: zero-shot bile "Let's think step by step" eklemek (sihirli ifade) accuracy artırıyor. ICL'in reasoning mode'unu tetikliyor.
Modern reasoning model'lar#
o1, R1 (Modül 25): CoT'u internalize etmiş. Tek başına soruyu cevaplarken model dahili CoT yapıyor.
Türkçe için#
Türkçe CoT prompt'ları çalışıyor ama biraz daha zayıf:
- Math benchmark'larda gap %5-10
- Çözüm: İngilizce-Türkçe karışık prompts veya Türkçe-fine-tuned model
python
# ICL experimental testingfrom openai import OpenAIclient = OpenAI() def test_icl(task_description, examples, query, model="gpt-5-mini"): """Few-shot ICL test.""" prompt = task_description + "\n\n" for q, a in examples: prompt += f"Q: {q}\nA: {a}\n\n" prompt += f"Q: {query}\nA:" resp = client.chat.completions.create( model=model, messages=[{"role": "user", "content": prompt}], temperature=0.0, max_tokens=10, ) return resp.choices[0].message.content.strip() # Test 1: Common taskprint(test_icl( "İngilizce kelimeyi Türkçe'ye çevir.", [("apple", "elma"), ("book", "kitap"), ("dog", "köpek")], "cat")) # Beklenen: "kedi" # Test 2: Unusual formatprint(test_icl( "Apply the transformation.", [("apple", "ELMA"), ("book", "KITAP"), ("dog", "KÖPEK")], "cat")) # UPPERCASE Turkish bekleniyor # Test 3: Counterfactual mappingprint(test_icl( "Apply the mapping.", [("apple", "horse"), ("dog", "tree"), ("cat", "stone")], "book")) # Belirsiz — model semantically struggle eder # Test 4: Number sequenceprint(test_icl( "Find next number.", [("2, 4, 8", "16"), ("3, 6, 12", "24"), ("5, 10, 20", "40")], "7, 14, 28")) # Beklenen: "56"ICL experimental testing — common vs unusual patterns.
10. ICL'in Production Etkisi — Few-shot Prompt Mühendisliği#
ICL pratik mesajları:
1. Few-shot examples kritik#
Zero-shot çoğu task'ta yetersiz. 3-5 örnek sweet spot.
2. Örnek seçimi önemli#
- Diversity: çeşitli examples > monotonous
- Difficulty match: query difficulty'sine yakın examples
- Recency bias: son örnek pattern'i daha güçlü etki
3. Format consistency#
Tüm örnekler aynı format. Mixing format performansı düşürür.
4. Order matters#
Genel olarak: easy → hard sıralama daha iyi (Liu 2021).
5. Number of shots#
Genelde 3-10 sweet spot. 0 shot zayıf, 50 shot diminishing returns.
6. Many-shot ICL (2024+)#
Long context modellerle (1M+ token) 100-1000 örnek mümkün. Google paper'ı (Agarwal 2024): many-shot ICL fine-tuning'e yakın performans, ama 0 maliyetle (sadece prompt).
7. Türkçe için pratik#
- Türkçe examples Türkçe task'lar için (cross-lingual ICL zayıf)
- Domain-matched examples: hukuk task'a hukuk examples
- Daha çok example (Türkçe model zayıfsa)
11. Limitler ve Gelecek#
ICL'in bilinen sınırları#
- OOD task'larda zayıf
- Compositional generalization sınırlı
- Causal reasoning yok (pattern matching)
- Long-range dependencies: çok uzun prompt'larda model bazı example'ları "unutuyor"
- Hallucination risk: confident pattern matching but wrong fact
Gelecek#
2025-2026 trends:
- Many-shot ICL: 1M context window'larla yaygınlaşıyor
- Reasoning models (o1, R1): ICL + internal CoT entegre
- Mechanistic interpretability ilerliyor — daha fazla mechanism netleşiyor (Anthropic, OpenAI work)
Açık problemler:
- ICL gerçekten "öğrenme" mi yoksa retrieval mı?
- Programmatic ICL: model gerçekten algoritma öğrenebilir mi?
- Out-of-distribution generalization
Modül kursunda#
- Modül 8 (Attention): induction heads matematiği
- Modül 11 (Modern Architectures): scaling effects
- Modül 25 (Reasoning Models): CoT internalization
- ChatGPT Ustalığı Modül 3-4: few-shot prompt engineering pratiği
Felsefi mesaj#
ICL emergent capability. Bilgi-teorik olarak şaşırtıcı, mechanistic olarak açıklanıyor, pragmatik olarak çok yararlı. Modern LLM mühendisinin günlük araçlarından biri.
12. Mini Egzersizler#
-
Bayesian framework: Xie 2022'ye göre, ICL'de 'more examples → better accuracy' nedir matematiksel olarak?
-
Induction head test: Bir LLM'e "A1, B2, C3, D?" sorduğunda induction head pattern'i nasıl çalışıyor?
-
Scale phase transition: GPT-2 small vs GPT-3 175B ICL farkı niye dramatic? Üç sebep say.
-
Counterfactual prompt: "apple→cat, dog→tree, horse→?" — model nasıl bir cevap üretir? Niye?
-
Production öneri: Türkçe customer support için ICL prompt nasıl tasarlanır? 5 best practice.
Bu Derste Neler Öğrendik?#
✓ In-context learning fenomeni — gradient'siz few-shot learning
✓ Klasik ML vs ICL paradoksu
✓ Brown 2020 GPT-3 paper'ı — keşif ve ölçek bağı
✓ Implicit Bayesian inference (Xie 2022) — fenomenolojik açıklama
✓ Induction heads (Olsson 2022) — mechanistic explanation
✓ Pattern matching vs task learning sentezi
✓ Emergent at scale — neden büyük modellerde
✓ OOD failure — distribution-friendly bağ
✓ Chain-of-thought ICL — reasoning ile birleşme
✓ Production prompt engineering — 7 best practice
✓ Many-shot ICL 2024+ — long context fırsatı
Sıradaki Ders#
4.6 — Scaling Laws Sezgisi: Kaplan, Chinchilla ve Modern Revize
Modül 1.7'de KL divergence'ı, Modül 3.5'te scaling'in 2017-2026 evrimini gördük. Şimdi matematiksel detay: Kaplan 2020 power laws, Chinchilla 2022 compute-optimal, post-Chinchilla over-training (Llama 3.3), inference-aware scaling. Bir LLM'in eğitim bütçesini matematik olarak planlamak.
Sık Sorulan Sorular
Felsefi soru, technical cevap: **ikisi de**. ICL bilinen pattern'leri **abstract** olarak temsil edip **yeni input**'a uyguluyor — bu bir tür öğrenme. Ama gradient update yok, **parameters değişmiyor**. Klasik 'öğrenme' tanımıyla çelişiyor. Modern sentez: ICL **meta-learned function** — model pretrain'de 'how to learn from examples' öğrenmiş, inference'ta o function'ı çağırıyor. Bu görüş hem 'öğrenme' hem 'matching' aspect'lerini kapsıyor.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Modül 0: Kurs Çerçevesi ve Atölye Kurulumu
LLM Engineer Kimdir? Junior'dan Staff'a Yapay Zekâ Mühendisliği Kariyer Haritası
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu
Kurs Felsefesi: Neden Bu Yol, Neden Bu Sıra — 8 Aylık Müfredatın İskeleti
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu