İçeriğe geç

Yapay Sinir Ağlarının 70 Yıllık Yolculuğu: McCulloch-Pitts'ten GPT-5'e

Derin öğrenmenin tarihi: 1943 McCulloch-Pitts nöronları, 1958 Perceptron, 1986 backprop popülerizasyonu, 1989 LeCun ZIP-code CNN, 1997 LSTM, 2006 Hinton'un DBN paper'ı, 2012 AlexNet, 2017 Transformer, 2022 ChatGPT, 2026 GPT-5. Her milestone'un teknik ve sosyal bağlamı.

Şükrü Yusuf KAYA
50 dakikalık okuma
Başlangıç
Yapay Sinir Ağlarının 70 Yıllık Yolculuğu: McCulloch-Pitts'ten GPT-5'e
📜 Şu an 'AI çağı' yaşıyoruz dediklerinde...
Bilmek isteyelim: nereden geldi, neden şimdi, neye benziyor 70 yıl önce. Bu ders bir tarih değil — bir mühendisin tarihi: hangi teknik kısıt ne zaman aşıldı, hangi paper hangi paradigmanın altyapısını kurdu, AI Winter'larından neyi öğrendik. 50 dakika sonra paper okurken neyin gerçekten yeni neyin tekrar keşif olduğunu ayırt edebileceksin.

Ders Haritası#

  1. 1943-1958: Doğum — McCulloch-Pitts ve Perceptron
  2. 1969-1986: İlk AI Winter — Minsky-Papert ve XOR
  3. 1986-1995: Backprop popülerleşmesi + 1. yeniden doğuş
  4. 1995-2006: SVM çağı + 2. AI Winter (NN'ler için)
  5. 2006-2012: Hinton ve "deep learning" terimi
  6. 2012: AlexNet — büyük patlama
  7. 2013-2017: Convnet hegemonyası
  8. 2017: "Attention Is All You Need"
  9. 2018-2022: BERT, GPT, scaling laws
  10. 2022-2026: ChatGPT, multimodal, agentic
  11. Tarihten 8 ders

1. 1943-1958: Sinir Ağlarının Doğumu#

1943 — McCulloch & Pitts: İlk Yapay Nöron#

Warren McCulloch (sinirbilimci) ve Walter Pitts (mantık matematikçisi), "A Logical Calculus of the Ideas Immanent in Nervous Activity" makalesini yayınladılar. Önerdikleri threshold nöron modeli:
y={1if iwixiθ0otherwisey = \begin{cases} 1 & \text{if } \sum_i w_i x_i \geq \theta \\ 0 & \text{otherwise} \end{cases}
Bu, boolean fonksiyonları (AND, OR, NOT) implement edebiliyordu. McCulloch'un iddiası: Turing-complete olabilen bir nöron ağıyla "her hesaplanabilir fonksiyon" hesaplanabilir.
Bağlam: 2. Dünya Savaşı sonrası, bilgisayar bilimi henüz yeni doğuyor. Turing 1936 paper'ı 7 yaşında. Eniac 3 yaşında.

1949 — Donald Hebb: Öğrenme#

"The Organization of Behavior" kitabında Hebbian learning: "Cells that fire together, wire together." Yani: iki nöron birlikte ateşliyorsa, aralarındaki bağlantı güçlenir.
Bu, öğrenmenin yerel bir kural olabileceğinin ilk önerisi. Backpropagation 30 yıl uzakta ama temel sezgi burada.

1958 — Frank Rosenblatt: Perceptron#

Cornell Aeronautical Lab'da Rosenblatt Perceptron'u inşa etti. McCulloch-Pitts nöronuna öğrenme ekledi:
1. Input al 2. Çıktı hesapla 3. Hatayı bul (target - prediction) 4. Ağırlıkları güncelle: w_i ← w_i + η · (target - pred) · x_i
Bu modern SGD'nin atası. Rosenblatt donanımla inşa etti — "Mark I Perceptron" 400 fotosel ile görüntü tanıma yapabiliyordu.
Sosyal bağlam: New York Times manşeti (1958): "New Navy Device Learns by Doing" — "elektronik beyin yakında yürüyecek, konuşacak, görecek." Bu AI hype'ının ilk dalgası.

2. 1969-1986: İlk AI Winter#

1969 — Minsky & Papert: "Perceptrons"#

MIT'den Marvin Minsky (AI'ın babası olarak bilinir) ve Seymour Papert, "Perceptrons" kitabını yayınladılar. Matematiksel olarak ispatladılar:
Tek katmanlı Perceptron, XOR fonksiyonunu öğrenemez.
XOR:
(0,0)→0, (0,1)→1, (1,0)→1, (1,1)→0
. Bu 4 nokta lineer ayrılmaz → Perceptron çuvallar.
Çok katmanlı Perceptron çözebilir (gizli katmanla XOR'u modelle), AMA o zaman nasıl eğitileceği bilinmiyordu.

Sonuç: AI Winter#

Funding kuruyor. DARPA NN araştırmasını kesiyor. 1970'lerde symbolic AI (expert systems, LISP) baskın paradigma haline geliyor.
İlginç yan: Minsky kitap yazarken Rosenblatt'la kişisel rekabeti vardı. Rosenblatt 1971'de ani ölünce, NN topluluğu hem teorik darbe hem önderlik kaybı yaşadı.

1980 — Fukushima: Neocognitron#

Japon araştırmacı Kunihiko Fukushima Neocognitron'u önerdi — CNN'in atası. Konvolüsyon + pooling konseptlerini 1980'de tanıttı. Backprop yoktu ama feature extraction katmanlı çalışıyordu.

1985 — Hopfield Networks ve Boltzmann Machines#

John Hopfield ve Geoffrey Hinton Boltzmann machine'leri tanıttı — recurrent NN'ler statistical mechanics ile. Pratik olarak yavaş ama teorik olarak güçlü.

1986 — Backprop'un Yeniden Keşfi#

Rumelhart, Hinton, Williams "Learning representations by back-propagating errors" yayınladı. Multi-layer perceptron'u backprop ile eğitmek mümkün olduğunu net olarak gösterdiler.
(Aslında backprop 1970'lerde Seppo Linnainmaa ve diğerlerince keşfedilmişti, ama 1986 paper'ı paradigma değişikliği yarattı.)
NeurIPS (o zamanlar NIPS) 1987'de kurulu. Connectionism revival başlıyor.

3. 1986-1995: Yeniden Doğuş — Connectionism Revival#

1989 — Yann LeCun: ZIP Code Reader#

LeCun (AT&T Bell Labs) backprop'u CNN ile birleştirdi. Posta zip code'larını okuyan bir sistem yaptı — endüstride çalışan ilk NN.
Mimari: konvolüsyon + max-pool + fully connected. Bu LeNet-5'in atası (1998).

1991 — Universal Approximation Theorem#

Cybenko, Hornik, Funahashi: tek gizli katmanlı sınırsız nöronlu MLP herhangi bir sürekli fonksiyona ihtiyaç kadar yakınlaşabilir.
Bu teorik bir sonuç: NN'lerin "neyi temsil edebileceğini" gösterdi. Ama "nasıl eğitileceğini" değil.

1993 — Bengio'nun PhD Tezi#

Yoshua Bengio (Hinton'un öğrencisi) NN'lerle sequence modelleme. RNN'lerin vanishing gradient problemini formalize etti.

1995 — Convnet Algorithms Working#

LeNet variants — handwritten digit recognition'da SVM ile yarışıyor.

1997 — LSTM Doğdu#

Sepp Hochreiter (Schmidhuber'in öğrencisi) Long Short-Term Memory önerdi. Vanishing gradient problemini gating mechanism ile çözüyor.
LSTM 2014-2017 arası NLP'nin omurgasıydı (machine translation, language modeling). Transformer onu emekli edene kadar.

Ama sonra: SVM Çağı#

1995-2010 arası NN'ler hâlâ niş. SVM (Vapnik 1995), kernel methods, random forests baskın. Niye?
  1. NN'leri eğitmek zor (lokal minima, vanishing gradient, hyperparameter)
  2. SVM kernel trick ile non-linearity garantili
  3. Bilgisayar gücü düşük
  4. Veri az
  5. Theorist'ler SVM'i seviyor (convex optimization)

4. 2006-2012: Hinton, "Deep Learning" ve Pre-training#

2006 — Hinton'un Atışı#

Geoffrey Hinton, Ruslan Salakhutdinov ile "Reducing the Dimensionality of Data with Neural Networks" yayınladı. Deep Belief Network (DBN) — derin NN'leri greedy layer-wise pre-training ile başarıyla eğitti.
Terim: 2006'dan itibaren "deep learning" terimi planlı kullanılıyor. Hinton bilinçli olarak "neural networks" yerine "deep learning" diyor — NN'lerin "AI Winter damgasından" kurtulması için.

2009 — ImageNet Yayınlandı#

Fei-Fei Li (Stanford) ImageNet'i yayınladı — 14 milyon etiketli görüntü, 22,000 kategori. AI tarihinin en önemli dataset'i.
Bu kadar büyük dataset olmadan deep learning olamazdı. Fei-Fei Li'nin vizyonu: "büyük veri, büyük model" — bu fikir o zaman çok devrimseldi.

2010-2011 — GPU'larda NN Eğitimi#

Stanford'da Andrew Ng ve Quoc Le, GPU'larda NN eğitiminin 10-30x hızlandığını gösterdi. Bu, deep learning revolution'ın infrastructure katmanı.

2012 — Big Bang: AlexNet#

Alex Krizhevsky (Hinton'un öğrencisi), Ilya Sutskever, Geoffrey Hinton AlexNet'i ImageNet Large Scale Visual Recognition Challenge'da yarışmaya soktu.
Sonuç: %16.4 top-5 error (önceki en iyi: %26.2). Bir gecelik %10 puan iyileştirme — bilim tarihinde nadir.
Kullandıkları teknikler:
  • 5 konvolüsyon + 3 fully connected katman
  • ReLU activation (sigmoid yerine — kritik)
  • Dropout (yeni regularization)
  • 2 GPU paralel training (NVIDIA GTX 580)
  • Data augmentation
Sosyal etki: ImageNet 2012 yarışmasından sonra NIPS 2012, NeurIPS 2013 dönüşümsel — endüstri NN'lere döndü. Google, Facebook, Microsoft AI labları kurdular.

5. 2013-2017: Convnet Hegemonyası ve LSTM Saltanatı#

Vision'da convnet patlaması#

  • 2014: VGGNet (Simonyan, Zisserman) — daha derin (16-19 layer)
  • 2014: GoogLeNet/Inception (Szegedy) — inception modülleri
  • 2014: GAN (Goodfellow) — generative adversarial network
  • 2015: ResNet (He et al., Microsoft) — residual connections ile 152 layer mümkün
  • 2015: Batch Normalization (Ioffe, Szegedy)
ResNet kritik: derin NN'lerin gradient vanishing'i skip connections ile çözdü. Modern transformer'larda residual block hâlâ aynı temel fikir.

NLP: LSTM dominant, ama gergin#

  • 2013: Word2Vec (Mikolov) — distributed word representations
  • 2014: Seq2Seq (Sutskever) — encoder-decoder LSTM ile machine translation
  • 2014-2015: Attention mechanism (Bahdanau, Luong) — encoder-decoder attention
  • 2016: Google Neural Machine Translation — production'da LSTM + attention

2014 — DeepMind ve Reinforcement Learning#

DeepMind DQN (Deep Q-Network) ile Atari oyunlarında insan-üstü performance. End-to-end deep RL — pixel'lerden action'a.

2016 — AlphaGo#

DeepMind AlphaGo, Lee Sedol'u 4-1 yendi. Go oyunu, "AI'nın final challenge'ı" olarak görülürdü — 10⁷⁰ state-space. CNN + MCTS + RL kombinasyonu.
Sosyal etki: AlphaGo, ChatGPT öncesinin "iPhone moment"'ıydı — sonra deep learning herkesin radarında.

2017 — Transformer Devrimi#

Haziran 2017, Vaswani et al. (Google Brain) "Attention Is All You Need" yayınladı.
İddia: RNN/LSTM olmadan, sadece attention ile sequence modelleme. Paralelleştirilebilir, daha hızlı eğitiliyor, daha iyi sonuçlar.
Hemen tüm NLP topluluğu bu mimariyi adopte etti. 2018-2026 arasındaki her LLM transformer based.

6. 2018-2022: Pre-training Era — BERT, GPT, Scaling#

2018 — BERT ve GPT-1#

Ekim 2018, Google BERT (Bidirectional Encoder Representations from Transformers) yayınladı. Pre-training + fine-tuning paradigmasını standartlaştırdı. 11 NLP benchmark'ında state-of-the-art.
Aynı yıl OpenAI GPT-1 — generative pretraining, autoregressive transformer. BERT'in encoder versiyonunun aksine, GPT decoder-only.
İkisi de transfer learning devrimini başlattı: büyük corpus üzerinde pre-train, sonra task-specific fine-tune.

2019 — GPT-2#

Şubat 2019, GPT-2 (1.5B parametre). OpenAI o kadar gerçekçi metin üretti ki tam modeli 9 ay yayınlamadı — "tehlikeli" diye.
Geriye dönüp baktığımızda komik gelse de o zaman gerçekten devrimseldi. Few-shot learning ipucu burada başladı.

2020 — GPT-3 ve Scaling Laws#

Mayıs 2020, GPT-3 (175B parametre). Few-shot learning netleşti: modele örnek vererek, ince ayar yapmadan yeni görevler öğretebilirdin.
Aynı yıl Kaplan et al. "Scaling Laws for Neural Language Models" yayınladı. Model size + data + compute'un loss'a etkisi predictable power laws.
Bu paper, frontier lab'ların "sadece büyüt" felsefesini bilimsel temellere oturttu.

2021 — Codex ve Copilot#

GPT-3 fine-tune ile Codex — kod yazımı. GitHub Copilot'ın altyapısı.

2022 — InstructGPT, DALL-E 2, ChatGPT#

Mart 2022, InstructGPT paper'ı — RLHF (Reinforcement Learning from Human Feedback) ile GPT-3'ü kullanıcıya hizalama. Bu, ChatGPT'nin altyapısı.
Nisan 2022, DALL-E 2 — text-to-image. AI sanatın patlama yılı.
Kasım 2022, ChatGPT lansmanı. GPT-3.5 üzerine RLHF. 5 günde 1M kullanıcı, 2 ayda 100M — tarihte en hızlı büyüyen tüketici uygulaması.

Chinchilla Update#

Mart 2022, DeepMind Chinchilla paper'ı. Kaplan'ın scaling laws'ını güncelledi: veri daha kritik. Modeller "under-trained" idi.
Chinchilla-optimal: model_size ≈ 20 × tokens. Bu, Llama, Mistral, Qwen pretrain stratejilerine yön verdi.

7. 2022-2026: ChatGPT Sonrası — Frontier Era#

2023 — GPT-4, Llama, Claude#

Mart 2023, GPT-4 — multimodal (vision), uzun bağlam (32K). Üzerinde build edilen birçok ürün (Codex, Copilot, Claude).
Şubat 2023, Meta Llama 1 — açık-kaynak frontier model. 7B-65B parametre. Türkiye'deki çoğu LLM çalışmasının temeli.
Mart 2023, Anthropic Claude. Constitutional AI yaklaşımıyla safety-focused.
Temmuz 2023, Llama 2 — daha açık lisans, fine-tune dostu. Türkçe için Trendyol-LLM, KanarYa, Cosmos hep buradan başladı.

2024 — Multimodal, Agents, Reasoning#

Şubat 2024, Llama 3 — 70B model, daha çok pre-training data (15T token), daha agresif scaling.
Mayıs 2024, GPT-4o — gerçek zamanlı sesli mod, native multimodal.
Eylül 2024, OpenAI o1 — reasoning model. Chain-of-thought training ile test-time compute paradigması.
Kasım 2024, Anthropic Computer Use (Claude 3.5 Sonnet) — ekran kullanan agent.
Kasım 2024, MCP (Model Context Protocol) — Anthropic'in ortaya attığı standard.
Aralık 2024, DeepSeek-V3 — 671B sparse MoE, FP8 pretrain, kapalı modellerle karşılaştırılır. Açık-kaynak ileride.

2025 — Agentic Year#

Ocak 2025, DeepSeek-R1 — GRPO ile pure RL reasoning. Frontier reasoning model'i açık-kaynak.
Llama 4 (rumored multimodal native), Llama 4 Maverick / Behemoth — 2025 ortası.
OpenAI o3 — daha gelişmiş reasoning. AGI eligibility tartışmaları.

2026 — Şu An#

GPT-5 ailesi — tek model, otomatik routing (basit soruda fast, kompleks soruda thinking).
Multimodal-native (text + image + audio + video tek modelle).
Agentic-by-default — model her zaman tool kullanabilir, computer use yapabilir.
Türkçe ekosistemde: TÜBİTAK BİLGEM Cosmos2, Aselsan AI, Trendyol-LLM Türkçe genişleme.

8. Tarihten 8 Ders#

1. Hype dalgaları geçicidir, temel ilerleme kalıcı#

1958'deki Perceptron hype'ı 11 yıl içinde Winter'a döndü. 2012 AlexNet hype'ı 10+ yıldır sürüyor. Fark: gerçek işe yarar ürünler ve infrastructure (GPU, data).

2. Algoritma değil, scale kazanır#

Backprop 1986'da vardı, ama 2012'de patladı. Aradaki fark: GPU + ImageNet + 25 yıllık altyapı birikimi. Algoritmik fikir tek başına yetmiyor.

3. Theorist çoğunlukla yanılıyor#

  • Minsky 1969: "Perceptron yetmez" → doğru ama yanlış sonuç (multi-layer çözer)
  • 1990'lar SVM teorisi: "NN ölü" → tamamen yanlış
  • 2017 öncesi: "attention sadece yardımcı" → AGI'ya yaklaşan teknoloji oldu
Empirik sonuçlar paradigma kırıcıdır.

4. Pre-training devrim, fine-tuning evrim#

2018 BERT pre-training paradigmasıyla NLP'yi dönüştürdü. Fine-tuning sadece "uygulama detayı" oldu.

5. Veri her şey#

ImageNet (2009) AlexNet'i (2012) mümkün kıldı. Common Crawl + curated data GPT-3'ü mümkün kıldı. İyi algoritma + kötü data << kötü algoritma + iyi data.

6. AI'ın gerçek motoru hardware#

Transistor density artışı (Moore), GPU evolution (CUDA 2007), TPU (2016), H100 (2022). Mühendisliği bilmeyen ML'i bilmez.

7. Türkiye perspektifi#

1990'lardan beri Türk akademik AI ekosistemi var ama endüstri 2022 ChatGPT sonrası uyandı. 2024'ten itibaren büyük şirketlerin AI yatırımı agresif. Şu an fırsat penceresi.

8. Önümüz 5 yıl#

2026-2030 muhtemelen agentic-AI, embodied-AI, robotik dönemi. Bugünün bilgisi 3 yılda eskir; öğrenme alışkanlığı kalıcı.

9. Tek Sayfa Zaman Çizelgesi#

YılKilometre TaşıKimNeden Önemli
1943İlk yapay nöronMcCulloch, PittsNN'in matematiksel kavramı
1958PerceptronRosenblattİlk öğrenebilen NN
1969"Perceptrons" kitapMinsky, Papert1. AI Winter başlangıcı
1986Backprop popülerleşmesiRumelhart, Hinton, WilliamsMulti-layer NN eğitilebilir
1989ZIP-code CNNLeCunEndüstride NN
1997LSTMHochreiter, SchmidhuberLong-range sequence
2006DBN, "deep learning" terimiHintonNN'in markası yeniden
2009ImageNetFei-Fei LiBüyük veri
2012AlexNetKrizhevsky, Sutskever, HintonBig Bang — yeni AI çağı
2014Seq2seq, GANSutskever, GoodfellowGenerative + translation
2015ResNetHe et al.100+ layer NN'ler mümkün
2016AlphaGoDeepMindAI'ın insan üstü oyun zekası
2017TransformerVaswani et al.Şimdinin temel mimarisi
2018BERT, GPT-1Devlin / RadfordPre-train + fine-tune
2020GPT-3 + Scaling LawsBrown / KaplanFew-shot, scaling power laws
2022ChatGPTOpenAITüketici AI patlaması
2023GPT-4, LlamaOpenAI, MetaMultimodal + açık-kaynak
2024o1, MCP, Llama 3, DeepSeek-V3ÇokluReasoning + agent + FP8
2025DeepSeek-R1, Llama 4, GPT-5 prepÇokluRL reasoning, multimodal-native
2026GPT-5 (auto routing), agentic-by-defaultOpenAI vd.Şu an

10. Mini Egzersizler#

  1. AlexNet niye 2012'de: Neden 1989'da değil? Hangi 3 koşul vardı 2012'de?
  2. Backprop tarihi: Linnainmaa 1970, Werbos 1974, Rumelhart 1986. Niye 1986 paper'ı 'devrim' sayılıyor?
  3. Türkiye gecikme: ChatGPT'den sonra Türk AI ekosistemi ne kadar gerideydi? 2022'den 2026'ya nasıl yakalandı (yakalandı mı)?
  4. Hype dalgaları: 1958, 1986, 2012, 2017 — her birinde 'AI yakında her şeyi çözecek' diye konuşuldu. Bu sefer farklı mı?
  5. Sıradaki paradigma: Transformer 2017'den beri dominant. Onu nasıl bir şey emekli ettirir? Adayların var mı?

Bu Derste Neler Öğrendik?#

1943-2026: McCulloch-Pitts'ten GPT-5'e 70 yıllık yolculuk ✓ 2 AI Winter ve nedenleri (Minsky-Papert + SVM çağı) ✓ 1986 backprop revival, 2006 deep learning terimi, 2012 AlexNet patlaması2017 Transformer, 2018 pre-training era, 2022 ChatGPT moment2024-2026 frontier: reasoning model'lar, MCP, agentic AI ✓ Tarihten 8 ders: hype geçici, scale kazanır, theorist yanılıyor, vb. ✓ Türkiye perspektifi: 2022 sonrası agresif yakalama

Sıradaki Ders#

3.2 — Connectionism vs Symbolic: 60 Yıllık Bitmeyen Tartışma LISP'çiler ile NN'ciler arasındaki felsefi savaş, "Bitter Lesson" (Sutton 2019), neuro-symbolic hybridler, LLM'lerin reasoning yeteneklerinin bu tartışmadaki yeri. Chain-of-thought sembolik manipülasyon mu?

Sık Sorulan Sorular

Kısmen. Akademik fund ciddi azaldı (DARPA kesti), büyük labların çoğu NN'lerden uzaklaştı. Ama: (1) **Underground devam etti**: Schmidhuber, Hinton, LeCun gibi figürler çalışıyorlardı. (2) **Sovyet/Avrupa tarafında** NN araştırması durmadı (Bryson, Ho). (3) **Diğer alanlarda** (pattern recognition, statistics) NN-vari yöntemler vardı. Yani 'NN'ler öldü' anlatısı abartılı. 1986 revival ise pratik kanıt + community organizasyonu (NIPS conference) ile gerçekleşti. Sosyal dinamik teknik içerik kadar önemliydi.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler