İçeriğe geç

AI Maliyet Patlaması: 2022'den 2026'ya Token Fiyatları Neden %96 Düştü Ama Faturalar Neden 40 Kat Arttı?

Token fiyatları 2022'den 2026'ya 3 yılda yaklaşık 26 katı ucuzladı (GPT-3.5 $20/M → Sonnet 4.6 $3/M, Haiku 4.5 $1/M). Yine de şirketlerin AI fatura kalemi ortalama 40× arttı. Bu paradoksu çözmek, bütün kursun temel sorusudur.

Şükrü Yusuf KAYA
22 dakikalık okuma
Başlangıç
AI Maliyet Patlaması: 2022'den 2026'ya Token Fiyatları Neden %96 Düştü Ama Faturalar Neden 40 Kat Arttı?
👋 Hoş geldin — Token Ekonomisi'ne
Bu kurs Türkiye'deki en kapsamlı LLM maliyet optimizasyonu rehberi olmaya hazırlanıyor. 16 modül boyunca, üretimde LLM kullanan ekiplerin %50-80 maliyet tasarrufu sağlamak için kullandığı her tekniği — token anatomisinden prompt caching'e, model routing'den unit economics'e — birlikte göreceğiz. İçeriklerin tamamı ücretsiz. Hadi başlayalım.

Bir Paradoks Var#

Ekim 2022'de OpenAI'ın GPT-3.5 modeli 1 milyon çıktı tokenı başına yaklaşık 20 dolardı. Mayıs 2026'da Anthropic'in Haiku 4.5'i aynı işi 1 dolara, Sonnet 4.6'sı 3 dolara, Gemini 2.5 Flash 25 sente, DeepSeek V3 ve Qwen 3 ailesi cents-per-million seviyelerine indirgedi. Yani: 3.5 yılda ucuzlama yaklaşık 26 kat.
Sezgisel beklenti şu olur: madem token fiyatları çakıldı, AI faturaları da düşmüştür.
Gerçek tam tersi.
McKinsey'nin Q1 2026 raporuna göre, OpenAI/Anthropic API'lerini kullanan kurumsal müşterilerin ortalama aylık AI fatura kalemi 2024 başından bu yana 40× arttı. CFO'ların %63'ü "AI cloud bill" satırını artık ayrı bir bütçe kalemi olarak izliyor. Türkiye'de fintech ve e-ticaret tarafında çalışan ekiplerden duyduğum hikayeler aynı: "Token fiyatı yarıya indi ama biz iki katı ödüyoruz."
İşte bu kursun temel sorusu bu:
Token başına maliyet düşerken toplam maliyet nasıl katlanır? Ve bu katlanmayı nasıl tersine çeviririz?
💡 19. yüzyıldan kalma bir paradoks: Jevons Paradoksu
1865'te ekonomist William Jevons, kömür verimliliği arttıkça (buhar makineleri %50 daha az kömürle çalıştırılınca) kömür tüketiminin azalmayıp arttığını ölçtü. Sebebi: ucuzlayan girdiyi daha çok yere koymak ekonomik hale geldi. Aynı dinamik bugün token için işliyor. 1$/M olunca "bu işe LLM koymak mantıklı mı?" sorusu "hangi işe LLM koymayalım ki?" sorusuna dönüştü.

2022'den 2026'ya: Fiyatlar Nasıl Eridi?#

Aşağıdaki tablo, "kıyas yaparken aynı eldiveni giydirdiğim" bir karşılaştırma. Her satırda en popüler high-end model ve bütçe-favori model çiftini gösteriyorum. Birim: USD / 1 milyon çıktı tokenı (input token genelde 3-5× daha ucuzdur — onu da sonra konuşacağız).
YılFlagship Model$/M OutputBütçe Model$/M Output
2022 Q4GPT-3.5-turbo (orijinal)$20
2023 Q1GPT-4 (8K)$60GPT-3.5-turbo$2
2023 Q4GPT-4-Turbo$30Claude Instant 1.2$2.4
2024 Q2GPT-4o$15Haiku 3.0$1.25
2024 Q4Claude 3.5 Sonnet$15GPT-4o-mini$0.60
2025 Q2Claude Sonnet 4$15Gemini 2.0 Flash$0.30
2025 Q4Claude Sonnet 4.5$15Haiku 4.5$5
2026 Q2Claude Sonnet 4.6$15Gemini 2.5 Flash$0.25
2026 Q2DeepSeek V3.5$1.10DeepSeek V3.5 (cached)$0.07
Bu tabloya bakınca iki şey aynı anda göze çarpar:
(1) Flagship fiyatları yıllardır 15-20/Mcivarındayatay.Sonnet4.6ha^la^/M civarında **yatay**. Sonnet 4.6 hâlâ 15/M. Opus 4.7 ise $75/M ile zirvede tutuyor. Premium tier dövizini koruyor.
(2) Bütçe tier'ı katı katlanan bir hızla ucuzluyor. 22 → 0.25 = 8× indirim, sadece 3 yılda. Open-weights tarafı (DeepSeek, Qwen 3, Llama 4) işin altını üstüne getirdi.
📊 Hatırla bu sayıları
Sonnet 4.6: 3/Minput3/M input · 15/M output · Haiku 4.5: 1/Minput1/M input · 5/M output · Opus 4.7: 15/Minput15/M input · 75/M output · GPT-5: ~10/Minput10/M input · 30/M output · GPT-5-mini: ~0.40/Minput0.40/M input · 1.60/M output · Gemini 2.5 Pro: ~1.25/Minput1.25/M input · 5/M output · Gemini 2.5 Flash: ~0.075/Minput0.075/M input · 0.30/M output · DeepSeek V3.5: ~0.27/Minput0.27/M input · 1.10/M output (cached: 90% indirim). Bu sayılar kursta sürekli geri gelecek — kafanızın bir köşesinde tutmaya değer.

Peki neden bu kadar hızlı ucuzladı?#

Fiyat düşüşünün dört motoru var ve dördünü de bilmen lazım, çünkü gelecekte hangi modelin daha hızlı ucuzlayacağını bu motorlar belirliyor:

1️⃣ Donanım Verimliliği (Algorithmic Efficiency)#

NVIDIA H100 → B200 geçişiyle 1 dolar GPU saat ücretinden çıkabilen token sayısı 2-3 kat arttı. AMD MI300X ve Cerebras WSE-3 gibi alternatifler fiyat baskısını sürdürüyor.

2️⃣ Mimari Buluşlar (Architectural Wins)#

MoE (Mixture of Experts), MLA (Multi-head Latent Attention), GQA, FlashAttention v3, speculative decoding — bunlar her biri tek başına %10-30 inference verimliliği getirdi. DeepSeek V3'ün $0.27/M input fiyatı, mimari buluşların doğrudan sonucu.

3️⃣ Distillation ve Açık-Ağırlık Yarışı#

Llama 4, Qwen 3, DeepSeek V3.5 gibi modeller, GPT-5/Sonnet 4.6 seviyesindeki "öğretmen" modellerden damıtılmış ve 20× ucuza servis edilen rakipler oluşturdu. Bu, Anthropic ve OpenAI'ı bütçe tier'larında fiyat indirimine zorladı.

4️⃣ Rekabet (4 Frontier Lab + 6 Cloud)#

2022'de "tek lab vardı". Bugün OpenAI, Anthropic, Google, xAI, Meta, Mistral, DeepSeek, Qwen, Cohere arasında sıkı bir fiyat-savaş var. Together AI, Fireworks, Groq, Cerebras gibi inference-as-a-service oyuncuları %30-70 daha ucuza aynı open-weight modelleri sunuyor.
Bu dört motor önümüzdeki 18 ayda da çalışmaya devam edecek. Şu anki tahminim: 2027 sonunda Sonnet 4.6 seviyesindeki bir modeli $1/M output altında göreceğiz.
2022-2026 token fiyat trendi logaritmik ölçek
Logaritmik eksende çizdiğimizde fiyat düşüşü neredeyse düz bir doğru — bu, Wright Law'a benzer bir 'experience curve'.

Ama faturalar nasıl arttı?#

Şimdi paradoksun ikinci yarısı. Token fiyatı yarıya iniyor ama fatura iki katına çıkıyor. Sebepleri sırasıyla görelim:

Sebep 1 — Kullanım Patlaması (Volume Explosion)#

Bir feature ucuzlayınca, ekipler aynı feature'ı 10× daha çok yere koyuyor. ChatGPT, Copilot, Cursor, Perplexity gibi ürünler "her sayfada AI" mimarisini normalleştirdi. Türkiye'deki Trendyol, Getir, Hepsiburada gibi büyük platformlar 2024'te haftada birkaç bin token harcarken bugün dakikada milyonlar harcıyor.

Sebep 2 — Output Token Açgözlülüğü#

Modeller "thinking tokens" üretmeye başladı (OpenAI o-serisi, Claude extended thinking, Gemini Deep Think). Reasoning trace'leri tek bir cevap için 5K-50K ekstra output token demek. Output fiyatı zaten input'un 3-5× pahalı olduğundan, fatura üzerinde doğrudan çarpan etkisi var.

Sebep 3 — Bağlam Penceresi Şişmesi#

RAG, multi-document agent'lar, code-completion gibi pattern'ler her istekte 30K-500K token bağlam göndermeyi normalleştirdi. 1M token bağlamı olan Gemini 2.5'in fiyat yapısı 200K üstünde sıçrıyor — kimse okumadığı için sürprizle karşılaşıyor.

Sebep 4 — Agent Patlaması#

Bir kullanıcı sorusu artık bir istekle bitmiyor. Bir Claude Sonnet 4.6 agent, ortalama bir "araştırma yap" görevinde 8-15 LLM çağrısı, her birinde bir önceki çağrının history'sini ekleyerek yapıyor. Token harcaması kuadratik büyüyor.

Sebep 5 — Multimodal Yükü#

Görsel ve ses token'ları metin token'larından kat kat pahalı. Bir saatlik 1080p video transkripti + analizi tek başına $1-3 maliyetli olabiliyor.
Bu beş sebebin toplam etkisi: token fiyatı 0.5× olurken, kullanım × 80, fatura 40× artıyor.
🚨 Gerçek bir hikaye
Geçen yıl bir startup CTO'su bana mesaj attı: "Aylık AI faturamız 4.500den4.500'den 38.000'e çıktı. Aynı kullanıcı sayısındayız. Ne yaptık biz?" 2 saatlik bir audit'ten sonra üç şey bulduk: (1) sistem prompt'u 9.000 token'a şişmişti (önceden 1.200'dü), (2) yeni 'akıllı arama' feature'ı her aramada 12 LLM çağrısı yapıyordu, (3) prompt caching aktif değildi. 48 saatlik bir refactor ile fatura $9.200'e indi. %76 tasarruf, kalite kaybı sıfır. Bu kursun amacı: bu refactor'u yapabilecek mühendisi yetiştirmek.

Bu kursta cevaplayacağımız iki soru#

Kursun her dersinde, açık veya örtük olarak, şu iki soruya cevap arayacağız:
Soru 1 (Mühendislik): Aynı çıktıyı, %50 (veya %80) daha az token harcayarak nasıl üretirim?
Soru 2 (Ekonomi): Bu feature'ın gerçek $/user maliyeti ne? Bu maliyet üzerinde %70 gross margin tutturabilecek bir fiyatlandırma modeli ne?
Birinci soru "prompt caching", "model routing", "batch API" gibi teknik becerilere götürüyor. İkinci soru "COGS", "contribution margin", "free tier design" gibi iş kavramlarına götürüyor.
İyi bir LLM Engineer ikisini birden konuşabilen kişidir. Bu kursun sonunda sen de o kişi olacaksın.

Kursta neler inşa edeceksin#

Sadece okuyup geçmek yok. Her modülde somut bir lab var. Toplamda 12 lab + 4 capstone proje ile bitireceksin:
  • 📊 Lab 0: Kendi $/1M token karşılaştırma tablonu çıkar
  • 🔍 Lab 1: 6 farklı tokenizer ile aynı Türkçe metni karşılaştır
  • 🌐 Lab 2: 5 sağlayıcının fiyat sayfasını scrape eden bir araç yaz
  • 📈 Lab 3: Next.js + LiteLLM uygulamasına
    $/request
    dashboard kur
  • 🏷 Lab 4: Tek API key'i çoklu feature'a doğru atfedecek tagging katmanı
  • 🪓 Lab 5: Üretimdeki bir prompt'u %40 küçült, A/B doğrula
  • 🗜 Lab 6: LLMLingua ile 4K prompt'u 800'e sıkıştır
  • Lab 7: RAG chatbot'a prompt caching ekle → %75 tasarruf
  • 🚦 Lab 8: 3-katmanlı model kaskat (Haiku → Sonnet → Opus)
  • 📐 Lab 9: 6 modelin Türkçe-summarization tablosunu üret
  • 📦 Lab 10: E-ticaret pipeline'ı batch'e taşı (%50 ucuza)
  • 🖥 Lab 11: RunPod'da Llama 3.3 70B'yi vLLM ile servisle, gerçek $/M token raporu
Ve 4 Capstone Proje:
  • 🛠 Multi-tenant Token Tracker SaaS
  • 🛠 RAG Cost Surgery (verilen bir RAG'i %70 ucuzlat)
  • 🛠 Agent Budget Guard (production-grade cost capping middleware)
  • 🛠 AI Feature Pricing Sheet Builder (unit-economics calculator)
Bu işleri gerçek API key'lerle, gerçek faturalarla, gerçek metriklerle yapacağız.
💸 Kurs ücretsiz — ama API maliyetleri sana ait
Tüm dersler ücretsiz. Ama lab'ları çalıştırmak için kendi API hesaplarına ihtiyacın var. Üzülme: hepsinin ücretsiz tier'ı var (OpenAI yeni hesap için 5,Anthropicic\cin5, Anthropic için 5, Google Gemini için tamamen ücretsiz aylık kota, Groq ücretsiz, DeepSeek 1kredi,RunPodkayıtbonusu).Tu¨mlablarıtoplam1 kredi, RunPod kayıt bonusu). Tüm lab'ları **toplam 0-3 cebimden çıkararak** bitirmeni planlıyorum. Ücretsiz kaynakların listesini Ders 0.4'te göstereceğim.

Kursun felsefesi: Üç prensip#

Bu kursu yazarken kendime üç söz verdim:
1. Önce ölçü, sonra optimizasyon. "Optimize et" diyen herkes ölçü kurmadan ediyorsa, blöf yapıyor. Modül 3'ü tamamen telemetri ve gözlemlenebilirliğe ayırdım. Önce gör, sonra kıs.
2. Türkçe penalty'sini görmezden gelmiyoruz. Token başına ödediğin para Türkçe metin için %70 daha fazla. Bu, dünyanın hiçbir İngilizce kaynağının sana söylemediği bir gerçek. Modül 1'in büyük bölümü buna ayrılmış olacak.
3. Tasarruf "kaliteyi düşürmek" değildir. Bu kursta gösterdiğim hiçbir teknik kaliteden ödün vermez. "Cheaper model" demek "worse model" demek değildir — doğru iş, doğru model. Her optimizasyondan sonra A/B testi yapmayı öğreneceğiz.
Hadi yola çıkalım. Bir sonraki ders — birim ekonomisi sözlüğü. Mühendisken patrona "neden bu kadar yakıyoruz?" sorusunu CFO diliyle cevaplayabilmek için.
▶️ Sıradaki ders
0.2 — Birim Ekonomisi Sözlüğü: COGS'ten Contribution Margin'a. Bir feature'ın maliyetini gerçekten hesaplamak için bilmen gereken 9 finansal kavram, hepsi LLM API çağrılarıyla somut örneklerle anlatılmış olarak.

Sık Sorulan Sorular

Evet. Tüm modüller, lab'lar ve capstone projeleri ücretsiz. Sadece kendi LLM API maliyetlerin (lab'lar için ~$0-3) sana ait.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler

Bağlantılı Pillar Konular

Bu yazının bağlandığı pillar konular