Transformer Sonrası 8 Yıl: 'Attention Is All You Need'ten GPT-5'e Tam Anatomi
Vaswani 2017'den 2026 GPT-5'e transformer'ın 8 yıllık evrim haritası: BERT, GPT serisi, T5, BART, Llama, Claude, DeepSeek, Mistral, Qwen. Pre-training paradigmasının yerleşmesi, scaling laws, RLHF, multimodal yetenek, reasoning model'lar.
Şükrü Yusuf KAYA
60 dakikalık okuma
Orta🌟 Modül 3'ün son ve en büyük dersi
8 yılda sektör 1000x büyüdü, parametre sayısı 100M'den 10T+'a çıktı, ürünler 100M+ kullanıcıya ulaştı. Bu derste 2017-2026 transformer evrim haritasını mimari + paradigma + ürün üç açıdan inceleyeceğiz. 60 dakika sonra Llama 3'ün config.json'unu okurken her parametrenin tarihsel köküne kadar bakabileceksin.
Ders Haritası#
- Vaswani 2017 — Original Transformer'ın anatomisi
- 2018 Sürpriz Yıl: BERT vs GPT — encoder vs decoder
- 2019-2020: GPT-2, GPT-3, T5, BART, scaling
- 2021: Codex, InstructGPT preprint, scaling laws maturity
- 2022: ChatGPT moment, Chinchilla, RLHF
- 2023: Llama, Claude, multimodal — açık-kaynak yarış
- 2024: o1 (reasoning), MCP, Llama 3, Computer Use
- 2025: DeepSeek-V3/R1 patlaması, Llama 4, GPT-4o ailesi
- 2026 (Şu an): GPT-5, agentic-by-default, native multimodal
- Tarihten 10 ders LLM mühendisine
1. Vaswani 2017 — Original Transformer#
Haziran 2017, Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin — Google Brain (Vaswani Tomeur).
Mimari (orijinal)#
Encoder: 6 × [Multi-head self-attention → FFN] Decoder: 6 × [Masked self-attention → Cross-attention → FFN]
7 Yeniliği#
- Multi-head attention: 8 paralel "head", her biri farklı subspace'te attention
- Scaled dot-product: — sayısal stabilite
softmax(QK^T / √d) V - Positional encoding: sinüsoidal (RNN değil, sıra bilgisi gerekli)
- Residual connections + LayerNorm (ResNet'ten)
- Position-wise FFN: her position'da independent 2-layer MLP
- Encoder-decoder cross attention: Bahdanau'nun direct successor'u
- Paralelleştirilebilir: tüm tokens aynı anda, RNN gibi sequential değil
Sonuç#
WMT 2014 En-De: 28.4 BLEU (önceki SOTA 26.3).
Training: 8 GPU × 3.5 gün (LSTM seq2seq haftalar alırdı).
Felsefi mesaj#
Başlık "Attention Is All You Need" — RNN/LSTM'in 25 yıllık hakimiyetini "lazım değilsin" diyerek bitirdi. Geriye dönüp baktığımızda doğru.
2. 2018 Sürpriz Yıl — BERT vs GPT#
Ekim 2018: BERT#
Devlin, Chang, Lee, Toutanova (Google AI) — "Pre-training of Deep Bidirectional Transformers for Language Understanding".
- Encoder-only transformer (decoder yok)
- Masked language modeling (MLM): random %15 token'ı [MASK]'le, tahmin et
- Next sentence prediction (NSP): iki cümle ardışık mı?
- Pretrain + fine-tune paradigması
BERT-base: 110M parameter. BERT-large: 340M.
Sonuç: 11 NLP task'ta state-of-the-art. NLP'nin AlexNet moment'ı.
Haziran 2018: GPT-1#
Radford, Narasimhan, Salimans, Sutskever (OpenAI) — "Improving Language Understanding by Generative Pre-Training".
- Decoder-only transformer
- Causal language modeling: sonraki token'ı tahmin et
- Pretrain on BookCorpus → fine-tune on downstream
GPT-1: 117M parameter. Daha az atıf aldı çünkü BERT 4 ay sonra daha güçlü çıktı.
Encoder vs Decoder felsefi ayrımı#
- BERT (encoder-only): anlama görevleri (classification, NER, QA)
- GPT (decoder-only): üretim görevleri (generation, completion)
- T5 / BART (encoder-decoder): çeviri, summarization
2022'ye kadar BERT NLP'de dominantdı. ChatGPT sonrası decoder-only galip geldi.
3. 2019-2020 — Scaling Era Başlıyor#
Şubat 2019: GPT-2#
OpenAI: 1.5B parameter (10x GPT-1). Initially "too dangerous to release" diye lansman yapılmadı (9 ay sonra full).
Sonuç: coherent uzun metin üretimi. Bu LLM'in "dilbilgisi'ni öğrendi" anlatısı yerleştirdi.
2019 Diğer#
- RoBERTa (Facebook): BERT iyileştirmesi — daha iyi training
- XLNet (CMU): permutation language modeling
- ALBERT (Google): parameter sharing
- DistilBERT (HuggingFace): BERT'in distilled küçük versiyonu
Ekim 2019: T5 (Text-To-Text Transfer Transformer)#
Raffel et al. (Google). Tüm NLP task'larını "text-to-text" olarak formüle et.
"translate English to German: Hello" → "Hallo" "summarize: ..." → "summary" "answer question: ..." → "answer"
11B parameter (büyük), encoder-decoder. Multi-task pretraining paradigmasını öne sürdü.
Mayıs 2020: GPT-3#
Brown et al. (OpenAI) — "Language Models are Few-Shot Learners".
- 175B parameter (100x GPT-2)
- Few-shot learning: prompt'a örnek ver, model task'i kavrayıp uygula
- API üzerinden access
Bu paradigma değişikliği:
- Önceden: pretrain + fine-tune for each task
- Şimdi: pretrain + prompt for any task
GPT-3 fine-tune gerek olmadan mantık, çeviri, kod, hikâye yapabiliyor.
Ocak 2020: Kaplan Scaling Laws#
Kaplan et al. (OpenAI) — "Scaling Laws for Neural Language Models".
Loss = f(N, D, C) — parametre N, data D, compute C ile power law ilişkisi:
Bu, frontier lab'ların "sadece büyüt" felsefesinin bilimsel temelini kurdu.
4. 2021 — Codex, Agentic Tohumlar#
Temmuz 2021: Codex#
OpenAI: GPT-3 fine-tune for code (GitHub data). GitHub Copilot'ın altyapısı. Kod üretiminde frontier.
Ocak 2021: CLIP, DALL-E#
OpenAI Vision: CLIP (text-image contrastive) + DALL-E (text-to-image). Multimodal AI'ın doğuşu.
Mayıs 2021: Switch Transformer#
Google: trillion-parameter sparse MoE. Modern Mixtral, DeepSeek-V3 atası.
Ekim 2021: Anthropic Founding#
Dario Amodei, Daniela Amodei, Tom Brown, Sam McCandlish, Jared Kaplan, Jack Clarke OpenAI'dan ayrılıp Anthropic kuruyor — safety-focused AI lab.
Aralık 2021: InstructGPT Preprint#
Ouyang et al. (OpenAI) — RLHF ile GPT-3'ü kullanıcıya hizalama. Bu, ChatGPT'nin altyapısı.
5. 2022 — ChatGPT Moment#
Mart 2022: Chinchilla#
Hoffmann et al. (DeepMind) — "Training Compute-Optimal Large Language Models".
Kaplan 2020'yi düzeltti: compute-optimal model size'ı bilmek için model + data eşit ölçeklendirmek lazım. Pratik: 20× model parameter kadar token.
Sonuç: Kaplan'a göre eğitilmiş modeller (GPT-3, Gopher) "under-trained". Aynı compute'la daha küçük, daha çok data eğitilmiş model daha iyi.
Bu, Llama 1-4'ün eğitim stratejisini belirledi.
Nisan 2022: DALL-E 2 + Imagen#
Multimodal patlama: AI sanat herkesin ulaşımında.
Mayıs 2022: PaLM#
Google: 540B parameter, "Pathways" infrastructure. Kapalı kalsa da scaling iddialarını destekledi.
Kasım 2022: ChatGPT Lansmanı#
OpenAI GPT-3.5 (turbo) üzerine RLHF + sohbet UI. 30 Kasım 2022.
- 5 günde 1M kullanıcı
- 2 ayda 100M kullanıcı
- Tarihteki en hızlı tüketici uygulaması
Sosyal etki: AI tartışması mainstream'e indi. Microsoft $10B Anthropic alternatifi seçti — OpenAI'ya yatırım.
6. 2023 — Açık-Kaynak Yarış#
Şubat 2023: Llama 1#
Meta AI — 7B-65B parameter, açık-kaynak (research-only ama leak oldu). NLP topluluğu hızla adopte etti. Türk LLM'leri (Trendyol-LLM, KanarYa, Cosmos) hep bunun üzerine.
Mart 2023: GPT-4#
OpenAI: multimodal (text + image), 32K context, daha akıllı. Mimari açıklanmadı — tahmin 1.7T parameter sparse MoE.
Mart 2023: Claude (Anthropic)#
Constitutional AI yaklaşımıyla. Safety-focused.
Temmuz 2023: Llama 2#
Meta, daha açık lisans (ticari kullanım OK). NLP araştırmacıların favorisi.
Eylül 2023: Mistral 7B#
Mistral AI (Fransa): 7B parameter, sliding window attention, Apache 2.0 lisans. Llama 2 7B'yi geçti birçok benchmark'ta. Avrupa'nın AI sahnesindeki çıkışı.
Kasım 2023: GPT-4 Turbo, Custom GPTs#
OpenAI Dev Day: 128K context, JSON mode, Assistants API. GPT Store ile agent ecosystem başladı.
Aralık 2023: Mixtral 8x7B#
Mistral: sparse MoE (8 expert, 2 active). GPT-3.5'i geçti birçok benchmark'ta.
2023'ün dersi#
Açık-kaynak Llama + Mistral, kapalı model'lerle rekabet edebilecek seviyeye geldi. Türkiye dahil her ülke kendi LLM ekosistemini kurabilir hâle geldi.
7. 2024 — Reasoning ve Agent Yılı#
Şubat 2024: Llama 3#
Meta: 8B-70B parameter, 15T token training (Chinchilla-optimal'in 5x üstü). Çok aggressive. Açık-kaynak frontier.
Mart 2024: Claude 3 Family#
Anthropic: Haiku, Sonnet, Opus. Opus GPT-4 ile yarışıyor.
Mayıs 2024: GPT-4o (Omni)#
OpenAI: doğal sesli mod, native multimodal, gerçek zamanlı. Bu, AI ile konuşma deneyimini değiştirdi.
Eylül 2024: o1 (Reasoning Model)#
OpenAI — test-time compute paradigması. Chain-of-thought training ile karmaşık problemler (math olympiad, coding).
Bu paradigma değişikliği:
- Önceden: scaling = parameter + data + compute (training)
- Şimdi: scaling = + test-time thinking compute
Ekim 2024: Computer Use (Claude 3.5 Sonnet)#
Anthropic: Claude'un ekranı kullanması. Browser, file system, terminal. Modern agentic AI'ın başlangıcı.
Kasım 2024: MCP (Model Context Protocol)#
Anthropic: AI ile dış servisler arasında standart protokol. USB-C of AI tools. Modül 43'te detayda.
Aralık 2024: DeepSeek-V3#
DeepSeek AI (Çin): 671B sparse MoE, FP8 native training. Kapalı modellerle yarışan açık-kaynak. Türkçe dahil her dilde rekabetçi.
8. 2025 — DeepSeek Patlaması, Llama 4#
Ocak 2025: DeepSeek-R1#
DeepSeek: GRPO ile RL reasoning. Açık-kaynak o1-class reasoning model. AGI yarışı yeniden açıldı.
Llama 3, Mistral, Qwen, Gemini'nin yanına DeepSeek eklendi. Frontier 5 lab değil 8+ lab oldu.
Şubat-Mart 2025: Stargate Project#
OpenAI + Microsoft + Oracle: $500B compute infrastructure. ABD-Çin AI yarışı netleşti.
Nisan 2025: Llama 4 ailesi#
Meta: Maverick, Scout, Behemoth. Multimodal-native (text + image + audio + video). Açık-kaynak. Türk LLM ekosistemi için new baseline.
Haziran 2025: o3-mini, GPT-4.5#
Reasoning model'lar yaygınlaştı. Routing (basit soru → fast model, kompleks → reasoning) yaygın.
Eylül 2025: Anthropic Computer Use 2.0#
Long-horizon agentic tasks (8+ saat sürebilen). Production-grade browser agents.
Aralık 2025: Multimodal mainstream#
Sora 2, Veo 3, Kling. Native multimodal LLM'ler text + image + video tek modelle.
9. 2026 — Şu An: GPT-5 Çağı#
Ocak 2026: GPT-5#
OpenAI: tek model, otomatik routing.
- "1+1 nedir?" → fast mode, milisaniyeler
- "Bu paper'ı analiz et" → thinking mode, saniyeler
- "Bir startup pitch'i hazırla" → agentic mode, dakikalar
Türkçe Ekosistem 2026#
- TÜBİTAK Cosmos 2 — 70B Türkçe foundation model, açık-kaynak
- Trendyol-LLM geniş Türkçe ticari modeller
- Aselsan AI: defense + government focused
- Yapı Kredi GenAI: bankacılık özelinde
- OpenAI Türkiye operasyonu açıldı (Şubat 2026)
Şu anki trendler#
- Agentic-by-default: model her zaman tool kullanabilir
- Multimodal-native: text/image/audio/video tek mimari
- Personalization: kullanıcı memory'si, kalıcı state
- Constitutional AI yaygın: safety guardrails standart
- Open-source frontier: DeepSeek, Llama 4, Mistral comparable to closed
- Inference cost düşüşü: FP8, quantization, distillation yaygın
- Hardware specialization: B200, Trainium, MI400X yaygın
- EU AI Act etkisi: high-risk sistem'ler regulasyona tabi
10. 8 Yıldan 10 Ders LLM Mühendisine#
1. Scaling kazanır — ama sınırlı#
Kaplan 2020 - Chinchilla 2022 - DeepSeek-V3 2024 — her seferinde "scaling daha çok kazanır" doğru çıktı. Ama 2025'ten itibaren diminishing returns belirginleşti. Pure scaling yerine architectural innovation (reasoning, MoE) artık eşit önemli.
2. Açık-kaynak frontier'a yakın#
2018'de OpenAI/Google 2 yıl önde. 2026'da DeepSeek, Llama, Mistral ile fark birkaç ay. Açık-kaynak ML'in demokratikleşme yolu.
3. Pretrain + post-train ayrımı kritik#
Pretrain (foundation) ve post-train (instruction, RLHF) iki ayrı dünya. Bir LLM mühendisi her ikisinde de çalışabilmeli.
4. Multimodal yan etki değil ana yön#
2022'de niş, 2026'da default. Text-only LLM'in zamanı geçiyor.
5. Inference > training (zamansal)#
2024-2026'da inference compute > training compute. Production performance ve cost engineering kritik.
6. Reasoning model'lar yeni paradigma#
o1/R1 sonrası test-time compute scaling yeni dimension. Modül 25'te detayda.
7. Agent + Tool use = pratik mainstream#
LLM'ler tek başına yetmez; tool kullanmalı, dış servisle çalışmalı. Modül 39-44'te detayda.
8. Veri kalitesi her zamankinden önemli#
2020'de "her veri iyi", 2026'da curated, synthetic, filtered data zorunlu. Modül 14-15.
9. Safety + governance gerekli#
EU AI Act, KVKK, çeşitli regülasyonlar artık production'ın parçası. Modül 56-57.
10. Türkçe ekosistem fırsat#
Frontier 12-18 ay gerideyiz ama yakalanabilir. Türkiye'de AI mühendisi olmak şu anda çok değerli. Bu kurs sana o yolu hazırlıyor.
11. Mini Egzersizler#
-
2017 → 2026 parametre sayısı: Original Transformer (~65M) → GPT-5 (söylenti: 10T+). Kaç misli? Bu kadar büyüme ne tarafından kaldı?
-
Encoder vs Decoder seçim: 2026'da bir Türkçe Q&A system için (sorulara cevap), hangisi tercih edersin? BERT-style encoder mı GPT-style decoder mı? Niye?
-
Chinchilla vs Kaplan: Kaplan 2020 ile Chinchilla 2022 arasındaki fark nedir? Hangisi daha doğru? Modern LLM'ler hangisine göre eğitiliyor?
-
MoE ne zaman: Switch Transformer 2021, Mixtral 2023, DeepSeek-V3 2024. MoE kullanmanın kazancı nedir, ne zaman dense modeli tercih edersin?
-
Reasoning model trade-off: o1/R1 reasoning model'lar daha yavaş ve pahalı. Hangi senaryolarda kullan, hangisinde fast model? Karar matrisi yaz.
Bu Derste Neler Öğrendik?#
✓ 2017 Vaswani Transformer: 7 yeniliği — modern LLM'in temeli
✓ 2018 BERT vs GPT: encoder vs decoder ayrımı
✓ 2019-2020 GPT-3 + Scaling Laws: few-shot era, scaling matematiği
✓ 2021 Codex + Anthropic + Switch Transformer: MoE doğuşu
✓ 2022 ChatGPT moment + Chinchilla: 100M kullanıcı, compute-optimal training
✓ 2023 Llama + Mistral + multimodal: açık-kaynak frontier
✓ 2024 o1 + MCP + Llama 3 + DeepSeek-V3: reasoning, agent, FP8
✓ 2025 DeepSeek-R1 + Llama 4 + Stargate: pure RL reasoning, multimodal-native
✓ 2026 GPT-5 ailesi: agentic-by-default, native multimodal
✓ 10 ders LLM mühendisine: scaling, açık-kaynak, multimodal, inference, reasoning, agent, veri, safety, Türkiye fırsatı
🎉 Modül 3 Tamamlandı!#
5 ders, ~265 dk içerik. Tarihten bugüne, bugünden yarına — derin öğrenmenin felsefi haritası tamamlandı.
Sıradaki Modül#
Modül 4 — LLM'lerin Zihinsel Modeli
Pure mimari konuya geçiş: LLM bir conditional probability machine. Token, embedding, sampling (temperature/top-k/top-p), in-context learning matematiği, emergent capabilities tartışması. Bir LLM "ne biliyor", "nasıl düşünüyor" sorularına matematik temelinde cevap.
Sık Sorulan Sorular
Üç sebep: (1) **Standalone mimari**: Bahdanau attention LSTM içine ekleme, transformer **pure attention**. Bu **paradigm shift**. (2) **Mühendislik ayrıntıları**: multi-head, scaled dot-product, positional encoding, residual + LN — hepsi birlikte çalışan bir paket. Önceki attention paper'ları RNN içinde küçük yenilikler, transformer bütün bir sistem. (3) **Empirik kanıt**: WMT 2014 BLEU benchmark'ında net üstünlük + 5-10× hızlı training. Topluluk hemen replicate edebildi. **Doğru zaman, doğru paper, doğru benchmark** kombinasyonu — bilim tarihinin nadir an'ları.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Modül 0: Kurs Çerçevesi ve Atölye Kurulumu
LLM Engineer Kimdir? Junior'dan Staff'a Yapay Zekâ Mühendisliği Kariyer Haritası
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu
Kurs Felsefesi: Neden Bu Yol, Neden Bu Sıra — 8 Aylık Müfredatın İskeleti
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu