Emergent Capabilities: 'Sudden' Yetenekler Gerçek mi, Ölçüm Artefaktı mı?
GPT-3 paper'ının 'emergent abilities' iddiası, Wei 2022'nin systematic çalışması, Schaeffer 2023'ün 'Are Emergent Abilities a Mirage?' meydan okuması. Threshold effects, metric design, smooth vs discontinuous capabilities. Hangi yetenek gerçekten emergent, hangisi ölçüm artefaktı?
Şükrü Yusuf KAYA
50 dakikalık okuma
Orta🪄 'Yetenek aniden çıktı' mı 'metrik kötü tasarlanmış' mı?
GPT-3 yayınlandığında 'modeller belli ölçeğe gelince aniden yeni yetenekler kazanıyor' iddiası vardı — emergent abilities. Bu hem heyecan verici hem korkutucu (kontrol edilemez AI senaryosu). Sonra Schaeffer 2023 sert eleştiri getirdi: 'Bu mirage'dir — metric design artefaktı'. 50 dakika sonra kim haklı, ne kadarı gerçek emergent, ne kadarı ölçüm yanılsaması — bilim cevabıyla bileceksin.
Ders Haritası#
- 'Emergent' nedir? Bilim ve felsefedeki anlamı
- Wei 2022 — emergent abilities çalışmasının metodolojisi
- Empirik gözlemler: hangi yetenekler "emergent" görünüyor
- Schaeffer 2023 — mirage hipotezi
- Discontinuous vs smooth metric'ler
- Log-likelihood gradual, accuracy step function
- Hangi yetenek gerçek emergent, hangisi artefakt?
- Reasoning capabilities — CoT'nin emergent doğası
- AGI tartışmasındaki yeri
- Pratik mesaj: production'da nasıl yararlanırız
1. 'Emergent' Nedir?#
Bilim felsefesinden klasik tanım:
Emergent property: Sistem'in bütününde ortaya çıkan ama parçalarında olmayan özellik.
Örnekler:
- Su molekülü ıslaklığı: tek H2O molekülü "ıslak" değil; trilyonlarca → ıslaklık
- Beyin'in bilinci: tek nöron "düşünmüyor"; 100 milyar bağlı → bilinç
- Toplum'un kültürü: bireysel davranışlar → ulusal kültür
LLM bağlamında#
Emergent capability (Wei 2022 tanımı):
"Bir yeteneğin küçük modellerde olmayan, belli bir ölçeği aşınca aniden ortaya çıkan özellik."
Görsel: x-axis model size, y-axis accuracy. Küçük modellerde flat-line, belli noktada step function gibi yükselme.
Bilim için önemi#
- Scaling predictability: scaling law predicts smooth improvement; emergent ona uymuyor
- AGI yol haritası: emergent capabilities → unexpected AGI
- Safety: emergent capabilities → kontrol edilemeyen yetenek riski
Felsefi tartışma#
Marvel veya mirage? Bunu netleştirmek için: birden çok kanıtın integration'ı gerek.
2. Wei 2022 — Emergent Abilities Sistematik Çalışması#
Jason Wei, Yi Tay, Rishi Bommasani et al. (Google + Stanford) — "Emergent Abilities of Large Language Models", TMLR 2022.
Metodoloji#
- 20+ LLM model: GPT-3 serisi, LaMDA, PaLM, Chinchilla
- 150+ tasks: BIG-Bench, MMLU, GSM8K, modular arithmetic, vb.
- Her görev için: model size vs accuracy plot
Bulgular#
Yaklaşık % 5'i "emergent" pattern gösteriyor — küçük modellerde near-random, trillion parameter civarında jump.
Örnekler#
- 3-digit addition: GPT-3 13B → ~0% accuracy. GPT-3 175B → ~80%
- MMLU: <10B → ~25% (random). 70B → 55%. 200B → 75%
- Word unscramble: küçük → 0%. Büyük → 60%+
- Multi-step word problem: <50B → 5%. >100B → 50%
- Modular arithmetic: küçük → 5%. Büyük → 70%
Wei'nin yorumu#
"Belli bir scale'e gelmeden önce model 'bilmiyor', sonra 'aniden biliyor'. Bu gerçek emergent capability."
Hipotezler (Wei tarafından önerilen)#
- Capacity threshold: yetenek için minimum parametre gerek
- Compositionality: bağımsız sub-skill'lerin bir araya gelmesi
- Multi-step computation: depth-limited computation budget
3. Schaeffer 2023 — Mirage Hipotezi#
Rylan Schaeffer, Brando Miranda, Sanmi Koyejo (Stanford) — "Are Emergent Abilities of Large Language Models a Mirage?", NeurIPS 2023 Best Paper Award.
Ana iddia#
Emergent capabilities büyük ölçüde 'metric design' artefaktı. Smooth metric kullanırsan, 'sudden jump' kaybolur.
Mekanizma#
Wei'nin "sudden jump" gördüğü metric: exact-match accuracy veya multi-token EM.
Schaeffer'in observation: bu metric'ler discontinuous nonlinear transformation'a sahip.
true model improvement: log-likelihood smoothly increasing metric output: accuracy step function — threshold üstünde 1, altında 0
Analoji#
Sayma testinde:
- Smooth metric: ortalama hata 0.5 → smoothly → 0.01
- Discontinuous metric: 5/10 (50% acc) → 8/10 (80%) → 10/10 (100%)
Discontinuous metric'le sudden jump görüyorsun. Ama gerçekte model continuously improvement.
Kanıt#
Schaeffer ekibi aynı task'ı smooth metric ile ölç:
- Brier score (probabilistic)
- Log-likelihood
- Token-level accuracy (yerine sequence)
Sonuç: sudden jump kayboluyor. Smooth curve görünüyor.
Sonuç#
Wei'nin "emergent" iddialarının çoğu metric artefaktı. GERÇEK emergent capability (smooth metric'le bile sudden) az.
4. Discontinuous vs Smooth Metric'ler#
Schaeffer'in temel insight'ı: metric tasarımı kritik.
Discontinuous metrics#
- Exact-match accuracy: cevap kelime-kelime doğru mu?
- Multi-step solution: tüm adımlar doğru mu?
- Code execution success: kod çalıştı mı?
Bu metric'ler nonlinear: küçük improvement görünmüyor, sonra yapboz parçaları yerine oturunca aniden başarı.
Smooth metrics#
- Log-likelihood: doğru cevabın olasılığının log'u (continuous)
- Token-level accuracy: kaç token doğru
- BLEU/ROUGE: continuous similarity
- Brier score: probability calibration
Bu metric'ler monotonically improving small improvements'ı bile yakalıyor.
Pratik öneri#
Hangi metric?
- Production: kullanıcının deneyimi → discontinuous (kullanıcı doğru/yanlış görüyor)
- Research: bilimsel ölçüm → smooth (improvement'ı yakalayan)
- Karar: ikisi de — discontinuous "user experience", smooth "model capability".
Modern eval#
Modern eval frameworks (lm-eval-harness, RAGAS) her iki metric sunuyor. Modül 53 (Evaluation) detayda.
5. Log-Likelihood Gradual, Accuracy Step Function#
Math soru örneği:
"What is 47 + 32?"
Model size 10B: belki "79" token'ına logprob -8 verir (P=0.0003, %0.03 confidence).
Model size 100B: logprob -2 (P=0.135, %13.5).
Model size 175B: logprob -0.5 (P=0.6, %60).
Log-likelihood smoothly rising: -8 → -2 → -0.5.
Ama greedy decoding accuracy:
- 10B: %0.03 → most likely başka bir token → wrong answer → 0% accuracy
- 100B: %13.5 → most likely yine başka → 0% accuracy
- 175B: %60 → most likely doğru → 100% accuracy
Accuracy step function: 0% → 0% → 100%. Gerçekte capability gradual ama metric discrete.
Diğer bir örnek: code generation#
10-line code:
- Her satırın bağımsız doğruluk olasılığı 0.7
- Tüm 10 satırın doğruluğu: 0.7^10 = 0.028
- Daha büyük model: per-line 0.9 → 0.9^10 = 0.349 (12x better)
- Per-line 0.95 → 0.95^10 = 0.599
Code execution accuracy nonlinearly improves. Per-line accuracy linearly.
Wei'in haklı yanı#
"Emergent capability mirage'dir" demek, "capability yok" demek değil. Capability gerçek, ama improvement smooth. Threshold effect mevcut ama metric/task tasarımından geliyor.
6. Hangi Yetenek Gerçek Emergent, Hangisi Artefakt?#
Schaeffer 2023 sonrası modern sentez:
Çoğu "emergent" capability artefakt#
- Modular arithmetic
- 3-digit addition
- Word unscramble
- Multi-step reasoning (kısmen)
- IPA transliteration
Bunlar smooth metric ile check edildiğinde gradient improvement gösteriyor. Wei'nin "sudden" görüntüsü metric kaynaklı.
Gerçek emergent görünenler#
Schaeffer paper'ında bile şunlar gerçek emergent gibi:
-
In-Context Learning (ICL): küçük modellerde gerçekten yok. Phase transition belirginleşmiş (Olsson 2022 induction heads çalışması ile bağdaşır).
-
Chain-of-Thought reasoning (kısmen): "Let's think step by step" küçük modellerde işe yaramıyor, büyükte dramatically iyileştiriyor.
-
Complex multi-step planning: tools, agents — küçük modeller yapamıyor, belli scale'den sonra "kullanılabilir".
-
Self-correction: hataları fark edip düzeltme — sadece large models'da.
Niye bu gerçek emergent?#
Bu yetenekler multiple sub-skill gerektiriyor. Her sub-skill smooth ama compositions tek sub-skill başarısı olmadan çalışmıyor. AND condition.
Pratik mesaj#
Production'da bir capability kullanıyorsan:
- Küçük modelde test et: çalışıyor mu? Eğer ✗ → ICL/CoT/agent emergent threshold problemi.
- Hesaplama gerek mi? Smooth metric ile küçük modeli iyileştir.
7. Reasoning Capabilities — CoT'nin Emergent Doğası#
Wei 2022 (CoT paper'ı, ayrı bir paper) — "Chain-of-Thought Prompting Elicits Reasoning":
GSM8K math benchmark:
- 540M: %5 (random)
- 8B: %20
- 62B: %25
- 540B: 57%
Sudden jump at 100B+. Bu gerçek emergent.
Niye?#
CoT için model 3 ayrı yetenek gerek:
- Multi-step memory: ilk adım sonucu son adıma aktarma
- Sub-goal decomposition: "47+32" → "40+30" + "7+2"
- Self-verification: "Sonuç mantıklı mı?"
Bu 3'ünün kombinasyonu ancak büyük modelde stabil. Her biri smooth ama AND = step-like.
Reasoning model'ların (o1, R1) cevabı#
Bu emergent capability'i internalize etmek istiyorlar. Pretrain + RL ile küçük modelde de elde edilsin diye.
DeepSeek-R1-Distill 7B: GSM8K %85+ — büyük model performansı küçükte. Distillation emergent capability'i transfer ediyor.
Pratik#
- Reasoning task'ta küçük model çalışmıyorsa: scale up veya distilled reasoning model kullan
- 7B Llama 3 GSM8K %50, 7B R1-Distill GSM8K %85 — büyük fark, küçük model
Modül 25 (Reasoning Models) detayda.
8. AGI Tartışmasındaki Yeri#
Emergent capabilities AGI tartışmalarında merkezi.
Hawkish perspective (Hinton, Hassabis)#
"Emergent capabilities AGI'nın ipuçları. Daha çok scale → daha çok emergent → eninde sonunda AGI."
Skeptical perspective (LeCun, Marcus)#
"Emergent capabilities mirage (Schaeffer'in argümanı) veya yararlı pattern matching. AGI için architectural innovation gerek."
Modern sentez (2025-2026)#
Pure scaling diminishing returns gösteriyor. Yeni axes:
- Test-time compute (reasoning models)
- Multimodal integration
- Agent capabilities (tools, planning)
- Continual learning (post-training adaptation)
AGI'a giden yol scaling'den multi-axis architectural progress'e kayıyor.
Türkçe ekosistem etkisi#
Türkiye'de "AGI yarışı" görünür değil — biz uygulama tarafındayız. Bu avantaj: frontier risk almıyoruz, ama emergent capabilities'i kullanan ürünler yapıyoruz.
9. Pratik Mesaj — Production'da Nasıl Yararlanırız?#
Production LLM mühendisi için emergent capability tartışması:
1. Capability check#
Yeni model çıktığında kendi task'larında test et. Marketing claim'lerine güvenme. Specific:
- ICL capability
- CoT reasoning
- Tool use ability
- Multi-step planning
- Code generation in domain
2. Threshold tahmin et#
Eğer task küçük modelde çalışmıyorsa:
- Distillation alternatives (DeepSeek-R1-Distill, Phi-3)
- Fine-tuning (5-10x scale gap'i kapatır bazen)
- Tool use (calculator, search ile küçük model güçlü)
3. Smooth metric ile track et#
A/B test'lerde:
- ✗ Sadece accuracy
- ✓ Accuracy + log-likelihood + BLEU + user satisfaction
Modelin gradual improvement'ını yakala, sudden jump beklemeden.
4. Capability roadmap#
Yıllık planlamada:
- Q1: frontier model değerlendir (yeni emergent capabilities?)
- Q2: kendi domain'inde fine-tune ile gap kapat
- Q3: distilled küçük modelle inference cost düşür
- Q4: hybrid (small + reasoning model) cascade
Modül 47 (Cost Engineering) bu pattern'i detaylandırıyor.
10. Mini Egzersizler#
-
Discontinuous metric: 3-digit toplama task'ı. Schaeffer'a göre sudden jump nasıl mirage? Smooth metric önerisi?
-
Threshold tahmin: Yeni task'ın küçük modellerde %5, büyükte %80 accuracy. Capability nasıl identify edersin (gerçek emergent vs mirage)?
-
Production carry-over: Bir capability frontier model'da çalışıyor, kendi modelinde değil. 3 stratejyi say.
-
Reasoning model effect: DeepSeek-R1-Distill 7B niye GSM8K'da Llama 3 8B'yi geçiyor? Emergent argument'la açıkla.
-
Smooth vs discontinuous: Customer support intent classification için hangi metric? Niye?
Bu Derste Neler Öğrendik?#
✓ Emergent definition: bütünde olan parçada olmayan
✓ Wei 2022 systematic study — 20+ model, 150+ task
✓ Schaeffer 2023 mirage critique — NeurIPS Best Paper
✓ Discontinuous vs smooth metrics ayrımı
✓ Log-likelihood smooth, accuracy step function
✓ Gerçek emergent: ICL, CoT reasoning, multi-step planning, self-correction
✓ Reasoning model'lar emergent capability'i internalize ediyor
✓ AGI tartışmasındaki konumu ve modern sentez
✓ Production practical: capability check, threshold, distillation, fine-tuning
Sıradaki Ders#
4.8 — Memorization vs Generalization: Paraphrase Testleri ve Sınırlar
LLM training'de model corpus'u 'ezberliyor' mu yoksa 'öğreniyor' mu? Paraphrase test'leri, exact match'in vs semantic preservation. Eval'de bu farkın önemi.
Sık Sorulan Sorular
Hayır — **kısmen**. Schaeffer 2023 emergent capabilities'in **büyük bir kısmının** metric artefaktı olduğunu gösterdi. Ama **bazıları gerçek** (özellikle ICL, multi-step reasoning). Modern bilim sentezi: 'Wei abartılı, Schaeffer abartılı, gerçek arada'. Pratik mesaj: 'sudden capability' görüyorsan, **önce metric'i sorgula**. Smooth metric ile hâlâ sudden ise gerçek emergent.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Modül 0: Kurs Çerçevesi ve Atölye Kurulumu
LLM Engineer Kimdir? Junior'dan Staff'a Yapay Zekâ Mühendisliği Kariyer Haritası
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu
Kurs Felsefesi: Neden Bu Yol, Neden Bu Sıra — 8 Aylık Müfredatın İskeleti
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu