Will AGI come 'suddenly' or gradually?

Scientific answer: **unclear**. Hawkish: aggregation of emergent capabilities will yield AGI suddenly. Skeptical: AGI is gradual, no obvious emergent moment. Modern reality: 2022-2026 has been **gradual** progress (except ChatGPT moment). Hard to predict 2030+. **Practical**: AGI debate isn't useful in production — focus on measuring usable capability.

Do emergent capabilities arrive later in Turkish models?

Yes, scale-adjusted. Turkish pretrain corpus is smaller → emergent threshold at higher model size. Empirical: GPT-3 175B has ~50% capability in Turkish vs ~80% in English. Turkish-optimized fine-tuned models (Trendyol-LLM, Cosmos) **shrink** emergent threshold (partially). Practical: when testing Turkish emergent capability, control both model size and Turkish data quality.

Does distillation really transfer emergent capabilities?

**Partially.** DeepSeek-R1-Distill example: R1 (671B) → 7B distilled. Big improvement on reasoning benchmarks (vs 7B baseline). But: (1) Not full transfer — captures 70-80% of base R1. (2) Specific tasks (unseen by R1) weak. (3) Limited out-of-distribution. So: distillation is a **shortcut** but not silver bullet. Modules 12 (Quantization) and 25 (Reasoning) detail.

Which capabilities should I test before putting into production?

Use case dependent but core checklist: (1) **ICL**: can it learn new tasks from 3-5 few-shot examples? (2) **CoT**: does 'Let's think step by step' help on multi-step problems? (3) **Tool use**: function calling works? (4) **Self-correction**: can it correct after wrong answer? (5) **Domain-specific knowledge**: Turkish law, medical, etc. (6) **Long context**: efficient at 100K+ tokens? (7) **Safety**: robust to prompt injection? Module 53 (Eval Engineering) systematizes this.

Emergent Capabilities: Are 'Sudden' Abilities Real or Measurement Artifacts?

GPT-3 paper's 'emergent abilities' claim, Wei 2022's systematic study, Schaeffer 2023's 'Are Emergent Abilities a Mirage?' challenge. Threshold effects, metric design, smooth vs discontinuous capabilities. Which abilities are truly emergent, which are measurement artifacts?

Şükrü Yusuf KAYA

50 min read

5/13/2026

Intermediate

Emergent Capabilities: 'Sudden' Yetenekler Gerçek mi, Ölçüm Artefaktı mı?

🪄 'Yetenek aniden çıktı' mı 'metrik kötü tasarlanmış' mı?

GPT-3 yayınlandığında 'modeller belli ölçeğe gelince aniden yeni yetenekler kazanıyor' iddiası vardı — emergent abilities. Bu hem heyecan verici hem korkutucu (kontrol edilemez AI senaryosu). Sonra Schaeffer 2023 sert eleştiri getirdi: 'Bu mirage'dir — metric design artefaktı'. 50 dakika sonra kim haklı, ne kadarı gerçek emergent, ne kadarı ölçüm yanılsaması — bilim cevabıyla bileceksin.

Ders Haritası#

'Emergent' nedir? Bilim ve felsefedeki anlamı
Wei 2022 — emergent abilities çalışmasının metodolojisi
Empirik gözlemler: hangi yetenekler "emergent" görünüyor
Schaeffer 2023 — mirage hipotezi
Discontinuous vs smooth metric'ler
Log-likelihood gradual, accuracy step function
Hangi yetenek gerçek emergent, hangisi artefakt?
Reasoning capabilities — CoT'nin emergent doğası
AGI tartışmasındaki yeri
Pratik mesaj: production'da nasıl yararlanırız

1. 'Emergent' Nedir?#

Bilim felsefesinden klasik tanım:

Emergent property: Sistem'in bütününde ortaya çıkan ama parçalarında olmayan özellik.

Örnekler:

Su molekülü ıslaklığı: tek H2O molekülü "ıslak" değil; trilyonlarca → ıslaklık
Beyin'in bilinci: tek nöron "düşünmüyor"; 100 milyar bağlı → bilinç
Toplum'un kültürü: bireysel davranışlar → ulusal kültür

LLM bağlamında#

Emergent capability (Wei 2022 tanımı):

"Bir yeteneğin küçük modellerde olmayan, belli bir ölçeği aşınca aniden ortaya çıkan özellik."

Görsel: x-axis model size, y-axis accuracy. Küçük modellerde flat-line, belli noktada step function gibi yükselme.

Bilim için önemi#

Scaling predictability: scaling law predicts smooth improvement; emergent ona uymuyor
AGI yol haritası: emergent capabilities → unexpected AGI
Safety: emergent capabilities → kontrol edilemeyen yetenek riski

Felsefi tartışma#

Marvel veya mirage? Bunu netleştirmek için: birden çok kanıtın integration'ı gerek.

2. Wei 2022 — Emergent Abilities Sistematik Çalışması#

Jason Wei, Yi Tay, Rishi Bommasani et al. (Google + Stanford) — "Emergent Abilities of Large Language Models", TMLR 2022.

Metodoloji#

20+ LLM model: GPT-3 serisi, LaMDA, PaLM, Chinchilla
150+ tasks: BIG-Bench, MMLU, GSM8K, modular arithmetic, vb.
Her görev için: model size vs accuracy plot

Bulgular#

Yaklaşık % 5'i "emergent" pattern gösteriyor — küçük modellerde near-random, trillion parameter civarında jump.

Örnekler#

3-digit addition: GPT-3 13B → ~0% accuracy. GPT-3 175B → ~80%
MMLU: <10B → ~25% (random). 70B → 55%. 200B → 75%
Word unscramble: küçük → 0%. Büyük → 60%+
Multi-step word problem: <50B → 5%. >100B → 50%
Modular arithmetic: küçük → 5%. Büyük → 70%

Wei'nin yorumu#

"Belli bir scale'e gelmeden önce model 'bilmiyor', sonra 'aniden biliyor'. Bu gerçek emergent capability."

Hipotezler (Wei tarafından önerilen)#

Capacity threshold: yetenek için minimum parametre gerek
Compositionality: bağımsız sub-skill'lerin bir araya gelmesi
Multi-step computation: depth-limited computation budget

3. Schaeffer 2023 — Mirage Hipotezi#

Rylan Schaeffer, Brando Miranda, Sanmi Koyejo (Stanford) — "Are Emergent Abilities of Large Language Models a Mirage?", NeurIPS 2023 Best Paper Award.

Ana iddia#

Emergent capabilities büyük ölçüde 'metric design' artefaktı. Smooth metric kullanırsan, 'sudden jump' kaybolur.

Mekanizma#

Wei'nin "sudden jump" gördüğü metric: exact-match accuracy veya multi-token EM.

Schaeffer'in observation: bu metric'ler discontinuous nonlinear transformation'a sahip.

true model improvement: log-likelihood smoothly increasing
metric output: accuracy step function — threshold üstünde 1, altında 0

Analoji#

Sayma testinde:

Smooth metric: ortalama hata 0.5 → smoothly → 0.01
Discontinuous metric: 5/10 (50% acc) → 8/10 (80%) → 10/10 (100%)

Discontinuous metric'le sudden jump görüyorsun. Ama gerçekte model continuously improvement.

Kanıt#

Schaeffer ekibi aynı task'ı smooth metric ile ölç:

Brier score (probabilistic)
Log-likelihood
Token-level accuracy (yerine sequence)

Sonuç: sudden jump kayboluyor. Smooth curve görünüyor.

Sonuç#

Wei'nin "emergent" iddialarının çoğu metric artefaktı. GERÇEK emergent capability (smooth metric'le bile sudden) az.

4. Discontinuous vs Smooth Metric'ler#

Schaeffer'in temel insight'ı: metric tasarımı kritik.

Discontinuous metrics#

Exact-match accuracy: cevap kelime-kelime doğru mu?
Multi-step solution: tüm adımlar doğru mu?
Code execution success: kod çalıştı mı?

Bu metric'ler nonlinear: küçük improvement görünmüyor, sonra yapboz parçaları yerine oturunca aniden başarı.

Smooth metrics#

Log-likelihood: doğru cevabın olasılığının log'u (continuous)
Token-level accuracy: kaç token doğru
BLEU/ROUGE: continuous similarity
Brier score: probability calibration

Bu metric'ler monotonically improving small improvements'ı bile yakalıyor.

Pratik öneri#

Hangi metric?

Production: kullanıcının deneyimi → discontinuous (kullanıcı doğru/yanlış görüyor)
Research: bilimsel ölçüm → smooth (improvement'ı yakalayan)
Karar: ikisi de — discontinuous "user experience", smooth "model capability".

Modern eval#

Modern eval frameworks (lm-eval-harness, RAGAS) her iki metric sunuyor. Modül 53 (Evaluation) detayda.

5. Log-Likelihood Gradual, Accuracy Step Function#

Math soru örneği:

"What is 47 + 32?"

Model size 10B: belki "79" token'ına logprob -8 verir (P=0.0003, %0.03 confidence). Model size 100B: logprob -2 (P=0.135, %13.5). Model size 175B: logprob -0.5 (P=0.6, %60).

Log-likelihood smoothly rising: -8 → -2 → -0.5.

Ama greedy decoding accuracy:

10B: %0.03 → most likely başka bir token → wrong answer → 0% accuracy
100B: %13.5 → most likely yine başka → 0% accuracy
175B: %60 → most likely doğru → 100% accuracy

Accuracy step function: 0% → 0% → 100%. Gerçekte capability gradual ama metric discrete.

Diğer bir örnek: code generation#

10-line code:

Her satırın bağımsız doğruluk olasılığı 0.7
Tüm 10 satırın doğruluğu: 0.7^10 = 0.028
Daha büyük model: per-line 0.9 → 0.9^10 = 0.349 (12x better)
Per-line 0.95 → 0.95^10 = 0.599

Code execution accuracy nonlinearly improves. Per-line accuracy linearly.

Wei'in haklı yanı#

"Emergent capability mirage'dir" demek, "capability yok" demek değil. Capability gerçek, ama improvement smooth. Threshold effect mevcut ama metric/task tasarımından geliyor.

6. Hangi Yetenek Gerçek Emergent, Hangisi Artefakt?#

Schaeffer 2023 sonrası modern sentez:

Çoğu "emergent" capability artefakt#

Modular arithmetic
3-digit addition
Word unscramble
Multi-step reasoning (kısmen)
IPA transliteration

Bunlar smooth metric ile check edildiğinde gradient improvement gösteriyor. Wei'nin "sudden" görüntüsü metric kaynaklı.

Gerçek emergent görünenler#

Schaeffer paper'ında bile şunlar gerçek emergent gibi:

In-Context Learning (ICL): küçük modellerde gerçekten yok. Phase transition belirginleşmiş (Olsson 2022 induction heads çalışması ile bağdaşır).
Chain-of-Thought reasoning (kısmen): "Let's think step by step" küçük modellerde işe yaramıyor, büyükte dramatically iyileştiriyor.
Complex multi-step planning: tools, agents — küçük modeller yapamıyor, belli scale'den sonra "kullanılabilir".
Self-correction: hataları fark edip düzeltme — sadece large models'da.

Niye bu gerçek emergent?#

Bu yetenekler multiple sub-skill gerektiriyor. Her sub-skill smooth ama compositions tek sub-skill başarısı olmadan çalışmıyor. AND condition.

Pratik mesaj#

Production'da bir capability kullanıyorsan:

Küçük modelde test et: çalışıyor mu? Eğer ✗ → ICL/CoT/agent emergent threshold problemi.
Hesaplama gerek mi? Smooth metric ile küçük modeli iyileştir.

7. Reasoning Capabilities — CoT'nin Emergent Doğası#

Wei 2022 (CoT paper'ı, ayrı bir paper) — "Chain-of-Thought Prompting Elicits Reasoning":

GSM8K math benchmark:

540M: %5 (random)
8B: %20
62B: %25
540B: 57%

Sudden jump at 100B+. Bu gerçek emergent.

Niye?#

CoT için model 3 ayrı yetenek gerek:

Multi-step memory: ilk adım sonucu son adıma aktarma
Sub-goal decomposition: "47+32" → "40+30" + "7+2"
Self-verification: "Sonuç mantıklı mı?"

Bu 3'ünün kombinasyonu ancak büyük modelde stabil. Her biri smooth ama AND = step-like.

Reasoning model'ların (o1, R1) cevabı#

Bu emergent capability'i internalize etmek istiyorlar. Pretrain + RL ile küçük modelde de elde edilsin diye.

DeepSeek-R1-Distill 7B: GSM8K %85+ — büyük model performansı küçükte. Distillation emergent capability'i transfer ediyor.

Pratik#

Reasoning task'ta küçük model çalışmıyorsa: scale up veya distilled reasoning model kullan
7B Llama 3 GSM8K %50, 7B R1-Distill GSM8K %85 — büyük fark, küçük model

Modül 25 (Reasoning Models) detayda.

8. AGI Tartışmasındaki Yeri#

Emergent capabilities AGI tartışmalarında merkezi.

Hawkish perspective (Hinton, Hassabis)#

"Emergent capabilities AGI'nın ipuçları. Daha çok scale → daha çok emergent → eninde sonunda AGI."

Skeptical perspective (LeCun, Marcus)#

"Emergent capabilities mirage (Schaeffer'in argümanı) veya yararlı pattern matching. AGI için architectural innovation gerek."

Modern sentez (2025-2026)#

Pure scaling diminishing returns gösteriyor. Yeni axes:

Test-time compute (reasoning models)
Multimodal integration
Agent capabilities (tools, planning)
Continual learning (post-training adaptation)

AGI'a giden yol scaling'den multi-axis architectural progress'e kayıyor.

Türkçe ekosistem etkisi#

Türkiye'de "AGI yarışı" görünür değil — biz uygulama tarafındayız. Bu avantaj: frontier risk almıyoruz, ama emergent capabilities'i kullanan ürünler yapıyoruz.

9. Pratik Mesaj — Production'da Nasıl Yararlanırız?#

Production LLM mühendisi için emergent capability tartışması:

1. Capability check#

Yeni model çıktığında kendi task'larında test et. Marketing claim'lerine güvenme. Specific:

ICL capability
CoT reasoning
Tool use ability
Multi-step planning
Code generation in domain

2. Threshold tahmin et#

Eğer task küçük modelde çalışmıyorsa:

Distillation alternatives (DeepSeek-R1-Distill, Phi-3)
Fine-tuning (5-10x scale gap'i kapatır bazen)
Tool use (calculator, search ile küçük model güçlü)

3. Smooth metric ile track et#

A/B test'lerde:

✗ Sadece accuracy
✓ Accuracy + log-likelihood + BLEU + user satisfaction

Modelin gradual improvement'ını yakala, sudden jump beklemeden.

4. Capability roadmap#

Yıllık planlamada:

Q1: frontier model değerlendir (yeni emergent capabilities?)
Q2: kendi domain'inde fine-tune ile gap kapat
Q3: distilled küçük modelle inference cost düşür
Q4: hybrid (small + reasoning model) cascade

Modül 47 (Cost Engineering) bu pattern'i detaylandırıyor.

10. Mini Egzersizler#

Discontinuous metric: 3-digit toplama task'ı. Schaeffer'a göre sudden jump nasıl mirage? Smooth metric önerisi?
Threshold tahmin: Yeni task'ın küçük modellerde %5, büyükte %80 accuracy. Capability nasıl identify edersin (gerçek emergent vs mirage)?
Production carry-over: Bir capability frontier model'da çalışıyor, kendi modelinde değil. 3 stratejyi say.
Reasoning model effect: DeepSeek-R1-Distill 7B niye GSM8K'da Llama 3 8B'yi geçiyor? Emergent argument'la açıkla.
Smooth vs discontinuous: Customer support intent classification için hangi metric? Niye?

Bu Derste Neler Öğrendik?#

✓ Emergent definition: bütünde olan parçada olmayan ✓ Wei 2022 systematic study — 20+ model, 150+ task ✓ Schaeffer 2023 mirage critique — NeurIPS Best Paper ✓ Discontinuous vs smooth metrics ayrımı ✓ Log-likelihood smooth, accuracy step function ✓ Gerçek emergent: ICL, CoT reasoning, multi-step planning, self-correction ✓ Reasoning model'lar emergent capability'i internalize ediyor ✓ AGI tartışmasındaki konumu ve modern sentez ✓ Production practical: capability check, threshold, distillation, fine-tuning

Sıradaki Ders#

4.8 — Memorization vs Generalization: Paraphrase Testleri ve Sınırlar LLM training'de model corpus'u 'ezberliyor' mu yoksa 'öğreniyor' mu? Paraphrase test'leri, exact match'in vs semantic preservation. Eval'de bu farkın önemi.

Frequently Asked Questions

No — **partially**. Schaeffer 2023 showed **most** emergent capabilities are metric artifacts. But **some are real** (especially ICL, multi-step reasoning). Modern synthesis: 'Wei exaggerated, Schaeffer exaggerated, truth in middle'. Practical: if you see 'sudden capability', **first question the metric**. If still sudden with smooth metric, real emergent.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...