Token Ekonomisi & LLM Cost Optimization
Token fiyatları 2022'den 2026'ya 3 yılda yaklaşık 26 katı ucuzladı (GPT-3.5 $20/M → Sonnet 4.6 $3/M, Haiku 4.5 $1/M). Yine de şirketlerin AI fatura kalemi ortalama 40× arttı. Bu paradoksu çözmek, bütün kursun temel sorusudur.
İçindekiler
Modül 0: Neden Maliyet, Neden Şimdi?
- 1
AI Maliyet Patlaması: 2022'den 2026'ya Token Fiyatları Neden %96 Düştü Ama Faturalar Neden 40 Kat Arttı?
Token fiyatları 2022'den 2026'ya 3 yılda yaklaşık 26 katı ucuzladı (GPT-3.5 $20/M → Sonnet 4.6 $3/M, Haiku 4.5 $1/M). Yine de şirketlerin AI fatura kalemi ortalama 40× arttı. Bu paradoksu çözmek, bütün kursun temel sorusudur.
- 2
Birim Ekonomisi Sözlüğü: COGS, Gross Margin, $/User, Contribution Margin — Mühendisin Bilmesi Gereken 9 Finansal Kavram
AI ürününün gerçek maliyetini hesaplamak için bilmen gereken 9 finansal kavram: COGS, Gross Margin, $/Request, $/User, $/MAU, Contribution Margin, CAC, LTV, Payback Period. Her biri somut LLM örnekleriyle.
- 3
Atölyemizin Aletleri: Kurs Boyunca Kullanacağımız 11 Aracın Hızlı Turu
Kursta kullanacağımız 11 anahtar aracın hızlı tanıtımı: tiktoken (token sayımı), anthropic-tokenizer, Langfuse (telemetry), Helicone (proxy), LiteLLM (provider abstraction), vLLM (self-hosting), RouteLLM (routing), LLMLingua (compression), GPTCache (semantic cache), tldraw (mimari diyagramları), Python uv. Her biri için: ne işe yarar, ne zaman devreye girer, ücretli mi.
- 4
Atölye Kurulumu: 20 Dakikada Python, uv, API Keyleri, İlk LLM Çağrısı ve Langfuse Trace
Kursun lab'ları için tam atölye kurulumu: Python 3.12, uv, virtual env, OpenAI/Anthropic/Gemini/DeepSeek/Groq API key'leri (hepsi ücretsiz kredi ile), Langfuse cloud hesabı, ilk LLM çağrısı ve ilk telemetry trace'i.
Modül 1: Token Anatomisi — Bir Tokenin İçinde Ne Var?
- 1
Karakter, Kelime, Token: Faturanı Belirleyen 3 Birim ve Aralarındaki Şaşırtıcı Farklar
Token, LLM'lerin metni gördüğü temel birim. Karakter sayısı ile, kelime sayısı ile, ve token sayısı ile aynı metin **çok farklı** sonuçlar verir. Bu dersin sonunda 'şu paragraf kaç token?' sorusunu kafadan tahminle %10 yanılgıyla cevaplayabileceksin.
- 2
Tokenizer Savaşları: GPT, Claude, Gemini, Llama, Mistral ve DeepSeek Aynı Türkçe Metni Nasıl Bölüyor?
Aynı 3 Türkçe metin, 6 farklı tokenizer. Token sayıları arasında %35'e varan fark çıkıyor. Bu fark senin faturanda doğrudan görünür. Bu derste 'aynı görev için hangi model token-ekonomisi açısından en verimli?' sorusunun ön cevabını koyacağız.
- 3
Türkçe Penalty: Neden Türkçe Metniniz Faturada 1.7× Daha Pahalı ve Bununla Nasıl Yaşarız?
Türkçe agglutinative (eklemeli) bir dil olduğu için BPE tokenizer'ları kelimeleri çok parçalara bölüyor. Aynı semantik bilgi için %70 fazla token = doğrudan %70 fazla fatura. Bu derste fenomenin matematiğini, gerçek dünya etkisini ve 4 azaltma stratejisini göreceğiz.
- 4
Input vs Output Token: 5× Pahalı Olan Hangisi ve Bunu Neden Bilmen Senin İçin Para Kazandırır?
Tüm büyük LLM'ler input token'ı output token'dan 3-5× daha ucuz fiyatlandırıyor. Bu fark teknik bir tesadüf değil — temelde GPU ekonomisi var ve mühendislik kararlarını doğrudan şekillendiriyor. 'Çok input, az output' tasarımı %40-60 tasarruf demek.
- 5
Context Window Ekonomisi: 200K, 1M, 10M Token Bağlam — Para Yangını mı, Süper Güç mü?
Modern LLM'lerin context window'u 200K-10M tokena uzandı. Ama büyük bağlam ucuz değil: 200K'lık tek bir Sonnet 4.6 çağrısı $0.60. 'Tüm kitabı prompt'a koy' yaklaşımının gerçek maliyetini, ne zaman değdiğini, ne zaman katil olduğunu inceliyoruz.
- 6
Multimodal Token: Görsel, Ses, Video LLM'lerde Nasıl Fiyatlandırılır?
Metin tek başına değil — 2026'da neredeyse her LLM görsel, ses, video alabilir. Bir görsel kaç token? Bir saat ses kaç dolar? Bir 4K video pahalı mı? Sağlayıcıların radikal farklı yaklaşımları, hesap formülleri, gerçek lab örnekleriyle.
Modül 2: Fiyatlandırma Manzarası 2026
- 1
OpenAI Fiyat Şeması Tam Analizi: 7 Tier, 12 Ürün, 3 İndirim — Hangisini Ne Zaman?
OpenAI'ın fiyat sayfasında 12 ürün, her birinde 3-5 ek seçenek var: standart, cached input, batch (50% indirim), fine-tuning, embedding, image, audio, realtime, image generation. Her tier'ı gerçek hesap örnekleriyle döküyoruz.
- 2
Anthropic Fiyat Şeması: Prompt Caching'in 90% İndirim Sihri ve Extended Thinking Faturası
Claude Haiku/Sonnet/Opus fiyat tablosu, prompt caching'in 1.25× yazma / 0.10× okuma matematiği, extended thinking'in gizli output maliyeti, Batch API ve Anthropic'in Türkçe için neden en ekonomik seçim olduğu.
- 3
Google Gemini Fiyat Şeması: Ucuz Görünümün Altındaki Tier Tuzakları ve 1M Context'in Gerçek Maliyeti
Gemini 2.5 Pro/Flash/Flash-Lite fiyat tablosu, 200K üstü 2× zam, kontekst caching mekanizması, ücretsiz tier'ın gerçek limitleri, Vertex AI enterprise farkı ve Google'ın Türkçe ekosistemindeki etkisi.
- 4
Open-Weight Inference: Together, Fireworks, Groq, Cerebras, DeepSeek — Frontier'in %5'i Fiyata Aynı Kalite?
Llama 4, Mistral, Qwen 3, DeepSeek V3.5 gibi açık-ağırlık modelleri servisleyen sağlayıcılar — Together AI, Fireworks, Groq, Cerebras, Replicate, DeepSeek native. Fiyat karşılaştırması, latency/throughput trade-off, hangi sağlayıcı hangi iş için.
- 5
AWS Bedrock, Azure OpenAI, Vertex AI: Enterprise Fiyat Manzarası ve Compliance Premium'u
AWS Bedrock, Azure OpenAI Service, Google Vertex AI — enterprise cloud LLM seçenekleri. Standart on-demand fiyatları, provisioned throughput, region pricing, KVKK uyumluluk premium'u ve hangi durumda enterprise cloud'a geçmeli.
- 6
Self-Hosted LLM Gerçek Maliyet: GPU Saatten $/M Token'a Tam Çevrim Formülü
Llama 3.3 70B'yi RunPod'da H100 ile çalıştırınca gerçek $/M token nedir? GPU saat × throughput × MFU formülü, vLLM continuous batching etkisi, ve hangi volume'da self-host frontier API'lerden ucuz hale gelir.
- 7
Faturayı Şişiren Gizli Maliyetler: Tool Use, Structured Output, Thinking, Web Search ve Daha Fazlası
LLM faturalarında 'fiyat sayfasında olmayan' ama gerçek kalemler: tool definition input'a eklenir, structured output prefill, reasoning thinking gizli output, web search tool $30/1K, vision detail mode 9× zam. Bu derste faturanın görünmez köşelerini açıyoruz.
Modül 3: Maliyet Telemetrisi — Önce Gör, Sonra Optimize Et
- 1
If You Can't Measure It, You Can't Optimize It: LLM Telemetry'nin Felsefesi ve İlk Baseline'ını Kurmak
Mühendislik tarihinin en eski mottosu LLM'lerde de geçerli: önce ölç, sonra optimize et. Bu derste neden telemetry'siz optimizasyon kör bir savaş, hangi 5 metriği zorunlu izlemen gerekir, ve ilk baseline'ı 30 günde nasıl kurarsın.
- 2
API Response'daki "usage" Objesinin Anatomi: OpenAI, Anthropic, Gemini Karşılaştırması
Her LLM API yanıtında bir 'usage' objesi var — input_tokens, output_tokens, cached_input, reasoning_tokens vs. Bu alanların hepsi sağlayıcılar arası farklı. Bu derste her birinin yapısını döküp, telemetry için doğru parse pattern'ini gösteriyoruz.
- 3
Streaming Token Sayım Tuzakları: Üretimde Sıkça Karşılaşılan 7 Hata
Stream mode kullanırken token sayımı kolayca yanlış gider: cancelled stream'lerde partial output sayımı, last-chunk usage'ı atlamak, idle timeout sırasındaki token kayıpları. Production'da en sık 7 hatayı çözümleriyle açıyoruz.
- 4
Telemetry Araçları Tam Karşılaştırma: Langfuse vs Helicone vs LangSmith vs Phoenix vs OTel
5 ana LLM observability aracını yan yana koyup karşılaştırıyoruz: feature setleri, fiyatlar, self-host opsiyonları, KVKK uyum, entegrasyon kolaylığı. Karar matrisiyle 'hangisini benim case'imde kullanmalıyım' sorusunun cevabı.
- 5
Sıfırdan Self-Hosted LLM Observability: ClickHouse + Grafana ile $/Request Dashboard
Üçüncü-parti aracı yerine kendi observability stack'ini kur: ClickHouse + Grafana + LiteLLM Webhook. Adım adım Docker setup, schema tasarımı, dashboard JSON'u ve Slack alert kurulumu — production-grade, sınırsız ölçek, KVKK uyumlu.
- 6
Enterprise APM'lerle LLM Cost Entegrasyonu: Sentry, Datadog, New Relic Pattern'leri
Mevcut APM altyapın varsa (Sentry, Datadog, New Relic) LLM telemetry'i ayrı bir tool'a koymak yerine onları extend edebilirsin. Bu derste 3 enterprise APM'in LLM-specific feature'ları, custom metric pattern'leri ve cost attribution stratejilerini görüyoruz.
Modül 4: Maliyet Atfı (Cost Attribution)
- 1
Multi-Tenant SaaS'ta Cost Attribution: Aynı API Key ile 1000 Müşterinin Maliyetini Doğru Atfetmek
B2B SaaS'ta tek bir OpenAI API key'i kullanıp 1000 müşterinin maliyetini ayrı ayrı raporlayabilmek gerekiyor. Bu derste tenant_id propagation, metadata injection, ve dashboard segmentation pattern'lerini görüyoruz.
- 2
Feature-Flag → Cost-Flag: A/B Testin Gerçek $/User Farkını Mühendislik Düzeyinde Ölçmek
Yeni AI feature'ı %50 kullanıcıya göstermek istiyorsun, etki ölçeceksin. Conversion ölçüm kolay — ama maliyet farkı? Bu derste her A/B variant'a cost-flag eklemek, statistical significance ve LTV ile karar verme rehberi.
- 3
LiteLLM Virtual Keys: Production-Grade Multi-Tenant Cost Attribution Altyapısı
LiteLLM Proxy'de virtual key yaratma, per-key budget, rate limit, model whitelist, ve admin API'nin tam kullanımı. Her tenant'ın kendi key'i = otomatik attribution + otomatik kontrol.
- 4
İç Ekiplere ve Kurumsal Müşterilere Chargeback Raporlama: PDF, CSV, Invoice Generation
Engineering team aylık $4K LLM yakıyor — bunu hangi proje, hangi feature, hangi mühendisin yazdığı kod yedi? Kurumsal müşteriye AI usage faturası nasıl gönderilir? Bu derste chargeback raporlama otomasyonunun anatomi.
- 5
Cost-Driven Abuse: Prompt-Injection Attack'ları, Bot Traffic ve Maliyet Saldırılarına Karşı Savunma
Bir saldırgan AI ürününe prompt injection ile saldırıp **özellikle maliyetinizi şişirebilir**. Bu derste cost-based attack vectors (prompt explosion, recursive tool calling, expensive context flooding), tespit yöntemleri, ve production mitigation.
Modül 5: Prompt Mühendisliğinin Maliyet Boyutu
- 1
"Prompt'umu 4× Yapıp Token'ı 2× Aldım": Üretimde En Sık Görülen 8 Prompt Maliyeti Hatası
Prompt mühendisliği genelde kalite optikten yazılıyor — ama her ekstra token doğrudan faturana yansır. Bu derste üretimde en sık görülen 8 hatayı, gerçek prompt örnekleriyle ve önce/sonra token sayımıyla işliyoruz.
- 2
Sistem Prompt'unu Yarıya İndirmenin 7 Tekniği: Pratik, Test Edilmiş, Kalite-Korumalı
Önceki dersin hatalarını ortadan kaldırdıktan sonra: prompt'unu **kalite kaybetmeden** ek %50 küçültmek mümkün. 7 ileri tekniği gerçek prompt before/after örnekleriyle gösteriyoruz.
- 3
Few-Shot Examples Ekonomisi: 0 mı 3 mü 8 mi? Cost vs Accuracy Trade-Off'u
Few-shot example'lar input token'ı artırır ama output kalitesini iyileştirir. Doğru sayı kaç? Bu derste 0, 1, 3, 5, 8 örnekle yapılan testlerin sonuçlarını karşılaştırıp, görev tipine göre optimum example sayısı önerilerini veriyoruz.
- 4
Chain-of-Thought'un Maliyeti: "Adım Adım Düşün" Demek Faturanı 3-10× Şişirebilir
CoT (chain-of-thought) prompting bazı görevlerde accuracy'i %20-40 artırır. Ama output token'ı 3-10× artırır. Bu derste 5 görev tipinde CoT'un cost vs accuracy karşılaştırması ve hangi durumda kullanılmalı.
- 5
Structured Output Tuzakları: JSON Mode Token Açgözlülüğü ve Tool-Use Forçalamanın Gerçek Maliyeti
JSON mode kullanmak "daha az token" demek değildir — çoğunda **daha çok token** kullanır. Schema kompleksitesi, field name uzunluğu, escape karakterler — hepsi gizli token kalemleri. Bu derste cost-aware structured output tasarımı.
- 6
Output Kısaltma Teknikleri: max_tokens, Stop Sequences ve "Be Terse" Promptun Gerçek Etkisi
Output 3-5× pahalı olduğundan, output'u küçültmek faturana doğrudan etki eder. Bu derste max_tokens stratejisi, stop sequence'lerin doğru kullanımı, "be terse" prompt'larının ölçülmüş etkisi ve format-driven kısıtlamalar.
Modül 6: Prompt Sıkıştırma (Prompt Compression)
- 1
LLMLingua, LongLLMLingua, Selective-Context: Otomatik Prompt Sıkıştırma Aileleri Karşılaştırma
Microsoft Research'ün LLMLingua serisi prompt'ları %50-90 sıkıştırıp kalite kaybını %2-5'te tutuyor. Bu derste LLMLingua-1, LLMLingua-2, LongLLMLingua, Selective-Context ve LongHeads karşılaştırması, kurulum, ilk Türkçe örnekler.
- 2
Gisting ve Soft-Prompt Tuning: Prompt'u Embedding Vektörlerine Sıkıştırmak
LLMLingua %60-90 sıkıştırma yaparken, gisting **1/100'e kadar** indirir. Mantık: prompt'u token sequence yerine **dense embedding vector** olarak temsil etmek. Bu derste gisting, soft prompt tuning, ve hangi sınırlarda gerçekçi olduğunun analizi.
- 3
Embedding-Based Selection: Bağlamdan İlişkisiz Parçaları Atmanın En Pratik Yolu
RAG'da retrieved chunks'ın çoğu (~%50-70'i) gerçekte cevaba katkı yapmıyor. Embedding similarity ile question-irrelevant kısımları atmak %50-80 token tasarrufu sağlar. Bu derste implementasyon, threshold seçimi ve LLM-as-judge ile doğrulama.
- 4
Prompt Distillation: Büyük Modelin Promptunu Küçük Modele Aktarmak ve %95 Maliyet Düşüşü
Sonnet 4.6 ile çalışan kompleks prompt'u Haiku 4.5'e fine-tuning ile aktararak aynı kaliteyi %95 daha ucuza alabilirsin. Bu derste distillation pipeline'ı, eval setup ve break-even analizi.
- 5
Kalite-Monitored Compression: Sıkıştırma Sınırını Bilimsel Olarak Bulmak
Compression %50 mi, %70 mi, %90 mı? Bunu "hisle" bilemezsin — eval framework gerek. Bu derste LLM-as-judge, golden test set, A/B test production rollout ve regression detection pattern'leri.
Modül 7: Prompt Caching — 2026'nın Tek En Büyük Tasarruf Kaldıracı
- 1
Anthropic Prompt Caching Derinlemesine: 1.25× Yazma, 0.10× Okuma — Matematiği Maksimum Tasarrufa Çevirmek
Anthropic'in caching matematiği basit gibi: write 1.25×, read 0.10×. Ama production'da %90 tasarruf almak için breakpoint sayısı, TTL seçimi, çoklu cache layering ve refresh stratejilerini bilmen gerek. Bu derste tam usta düzeyi.
- 2
OpenAI Automatic Cached Input: "Sihirli" Otomatik Cache'i Maksimize Etmek
OpenAI cached input %50-87 indirim sağlar (modele göre) ama otomatik tetikler — kontrol sınırlı. Bu derste tetikleme koşulları, maksimize stratejileri, cache hit tespiti ve Anthropic ile karşılaştırma.
- 3
Gemini Context Caching: Storage Fee + Read Fee Modeli ve Düşük-Trafik Avantajı
Gemini'nin caching pricing'i unique: cache create normal, sonra **$1/M token/saat storage fee** + 0.25× read fee. Düşük-trafik düşük-frequency senaryolarında Anthropic'ten ekonomik olabilir.
- 4
Cache-Friendly Mimari: Statik Baş, Dinamik Kuyruk Prensibi
Cache verimi prompt'un yapısına bağlı: hangi parça nerede? Bu derste evrensel "static prefix → dynamic suffix" pattern'i, conversation history yönetimi, RAG chunks placement ve tool definitions sıralaması.
- 5
Cache Hit-Rate Ölçümü ve Optimizasyon: %50'den %85'e Nasıl Çıkarırız?
Cache açtın ama hit-rate'in %50'de takılmış. Bu, prompt mimarisinde bir sorun olduğunu gösterir. Bu derste hit-rate ölçüm dashboard'u, miss neden analizi, A/B test ile iterate, ve %85'e çıkarma pattern'leri.
- 6
Cache Invalidation: System Prompt, Tools, FAQ Güncellenirken Stale Cache'ten Kaçınmak
Production'da cache açtın. Bir gün system prompt'u güncellemen lazım — eski cache geçersiz. Bu derste dual-write pattern, gradual rollout, cache versioning ve emergency invalidation.