Prompt Caching & Context Engineering
Türkiye'nin en kapsamlı Prompt Caching & Context Engineering eğitimine hoş geldin. Şükrü Yusuf KAYA'dan; uçtan uca, ücretsiz, Türkçe ve production odaklı. Bu derste yol haritası, ön koşullar ve neden bu konunun 2026'nın en kritik AI mühendisliği becerisi olduğunu öğreneceksin.
İçindekiler
1. Temeller — Context Penceresi Ekonomisi
- 1
Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?
Türkiye'nin en kapsamlı Prompt Caching & Context Engineering eğitimine hoş geldin. Şükrü Yusuf KAYA'dan; uçtan uca, ücretsiz, Türkçe ve production odaklı. Bu derste yol haritası, ön koşullar ve neden bu konunun 2026'nın en kritik AI mühendisliği becerisi olduğunu öğreneceksin.
- 2
Token Ekonomisi 101: Input vs Output Cost Asimetrisi
LLM faturaları neden böyle çıkıyor? Input vs output token fiyatları neden farklı? Cache'lenmiş token neden 10× ucuz? Bu derste tüm büyük provider'ların fiyat modelini, token sayma yöntemlerini ve caching'in matematiksel temelini öğreneceksin.
- 3
Context Window Evrimi: 4K'dan 1M'a 5 Yılda Ne Oldu?
GPT-2'nin 1024 token'ından Gemini 2.5'in 2M token'ına. Context window neden bu kadar hızlı büyüdü? Bu derste evrimsel tarihçeyi, teknik kırılma noktalarını (RoPE, ALiBi, sliding window, ring attention) ve uzun context'in maliyet-performans dengesini öğreneceksin.
- 4
Context is the New System Prompt: Paradigma Değişimi
RAG mı, fine-tuning mi, prompt caching mi? Üç teknik, üç farklı problemi çözer. Bu derste karar matrisini, hibrit mimarileri ve neden 2026'da 'context engineering' başlı başına bir disiplin olduğunu göreceksin.
- 5
İlk Lab: Cache ON vs OFF — Gerçek Dolar Karşılaştırma
Teori bitti, kollar sıvanır zamanı. Bu derste Anthropic API ile aynı uzun prompt'u 100 kez göndereceğiz; biri cache açık, biri kapalı. Gerçek maliyet, gerçek latency, gerçek hit rate metriklerini göreceksin.
- 6
Modül 1 Bitirme Sınavı
Modül 1'i kapatma sınavı. 10 gerçek soru, %70 ile geçme. Token ekonomisi, context evolution, RAG-vs-Caching karar matrisi ve ilk lab içeriklerinden hazırlandı.
2. KV Cache Anatomisi — Caching'in Matematiksel Temeli
- 1
Self-Attention Recap: Q, K, V Matrisleri Yeniden
Caching'i içeriden anlamak için Q (query), K (key), V (value) matrislerinin ne yaptığını net görmeliyiz. Bu derste formülleri, sezgiyi ve görsel bir intuition kuruyoruz — kod ile birlikte.
- 2
Autoregressive Decoding ve O(n²) → O(n) Sihri
LLM'ler tokenları teker teker üretir. Her yeni token için tüm geçmişe attention atılır. Naif yaklaşım O(n²) — patlama. KV cache trick'i bunu O(n)'e indirir. Bu dersi bitirince LLM inference'ın 'asıl optimizasyon noktası'nı göreceksin.
- 3
KV Cache Memory Layout: 200K Context Kaç GB?
KV cache mantığını biliyoruz; ama gerçek bir model için bellekte ne kadar yer kaplıyor? Bu derste Llama-3-70B ve Claude Sonnet için gerçek hesaplar yapacak ve neden GPU bellek darboğazı caching'i provider tarafında karmaşık yaptığını göreceksin.
- 4
Prefix Sharing Teoremi: Aynı Prefix → Aynı KV
Caching'in matematiksel doğruluğu. Bir sorgudaki ilk N token başka bir sorgudaki ilk N token ile aynıysa, KV matrisleri özdeştir — kanıtlıyoruz. Bu teorem, prompt caching'in 'sihir' değil 'matematik' olduğunu gösterir.
- 5
Pratik Lab: 50 Satırda KV Cache Implementasyonu
Teorinin sonunda kod var. PyTorch ile minik bir transformer attention layer'ı yazacağız, KV cache'i açık/kapalı toggle edip 10× hızlanma göreceğiz. Bu lab, transformer'ı 'içeriden' anlamanın kestirme yolu.
- 6
PagedAttention: vLLM'in Bellek Sihri
Self-hosted production'da kim aynı GPU'da 100 kullanıcıya hizmet veriyor? vLLM. Nasıl? PagedAttention. Bu derste OS sanal belleğinden esinlenen bu zarif tekniği sezgisel öğreneceksin.
- 7
Modül 2 Bitirme Sınavı
KV cache, autoregressive decoding, prefix sharing teoremi, memory layout ve PagedAttention'ı kapatma sınavı. 10 soru, %70 ile geç.
3. Provider API'leri — Anthropic, OpenAI, Gemini'de Caching
- 1
Anthropic Prompt Caching: cache_control ve Breakpoint'ler
Anthropic'in caching mekanizması: cache_control breakpoint'leri, ephemeral TTL, 4 breakpoint limiti. Bu derste API yapısını, TTL stratejilerini ve telemetry'yi öğreneceksin.
- 2
Anthropic Lab: 4 Breakpoint, %90+ Saving Hedefli
Bir önceki dersi koda dökeceğiz: gerçek bir 'müşteri destek asistanı' kuracağız ve 4 breakpoint mimarisiyle 50 sorguda %90+ cache hit rate'e ulaşacağız. Telemetri logları + cost report dahil.
- 3
OpenAI Automatic Caching: Implicit, 1024+ Prefix
OpenAI'ın caching felsefesi Anthropic'in tam tersi: hiçbir şey yapma, prefix tekrarlanırsa otomatik %50 indirim. Bu derste API anatomisini, cached_tokens telemetry'sini ve OpenAI'a özel pattern'leri öğreneceksin.
- 4
Gemini Explicit Context Caching: Manuel Cache Yönetimi
Google Gemini'nin caching API'si üçüncü bir yaklaşım: explicit ama persistent. CachedContent objelerini manuel oluşturur, TTL ile saatlik storage ücreti ödersin. 1M-2M context'te oyunu değiştiren teknik.
- 5
Gemini Lab: 1M Token Doküman + 100 Soru
Gemini 2.5 Pro'nun 1M context'inde gerçek bir kullanım: kalın bir teknik dokümana 100 farklı soru. Caching açık vs kapalı maliyet ve latency karşılaştırması.
- 6
OpenRouter: Multi-Provider Routing & Caching
Tek bir API ile Claude, GPT, Gemini, Llama'ya erişim. OpenRouter'ın caching desteği nasıl? Provider'lar arasında otomatik fallback. Türk geliştirici için neden kritik bir araç?
- 7
Karşılaştırma: Anthropic vs OpenAI vs Gemini — Karar Matrisi
Üç sağlayıcının caching mekanizmalarını yan yana koyup hangi senaryoda hangisinin seçileceğini somutlaştırıyoruz. Fiyat, kontrol, ölçeklenebilirlik, ekosistem boyutlarında karar matrisi.
- 8
Combined Lab: Aynı Uygulama, 3 Provider — A/B/C Comparison
Bir Türkçe sürüm geliştirici asistanı kuralım. Aynı 30K kod tabanı + 50 soru. Anthropic, OpenAI, Gemini'de cost + latency + accuracy yan yana ölçelim.
- 9
Modül 3 Bitirme Sınavı
Anthropic cache_control, OpenAI automatic caching, Gemini explicit cache ve OpenRouter konularını kapatma sınavı. 12 soru, %70 ile geç.
4. Cache Hit Rate'i Maksimize Etme
- 1
Cache Miss Anatomisi: Tek Karakter Bile Cache'i Kırar
Cache'in en hassas tarafı: exact-prefix kuralı. Bir trailing whitespace bile cache'i sıfırlar. Bu derste cache miss'in tüm anatomisini, en sık karşılaşılan tuzakları ve nasıl debug edileceğini öğreneceksin.
- 2
Altın Kural: Static-First, Dynamic-Last
Prompt yapısının golden rule'u. En statik olanı üstte, en dinamik olanı altta. Bu kural caching'in temel pratik kuralı — basit ama her yere uygulanır. Bu derste pratik örneklerle nasıl uygulayacağını göreceksin.
- 3
System + Tools + Few-Shot: İçeride Doğru Sıralama
Prompt'un büyük blokları içindeki sıralama da kritik. System içinde KB ve instructions hangi sırada? Tools nereye? Few-shot examples cache'lenir mi? Bu derste mikro-yapı kararlarını sistematik öğreneceksin.
- 4
1, 2, 4 Breakpoint Stratejileri: Hangisi Ne Zaman?
Anthropic'te 1-4 arası cache breakpoint koyabilirsin. Hangi senaryoda hangisi optimaldir? Bu derste 3 strateji karar matrisini ve TTL hesaplarını sistematik öğreneceksin.
- 5
Pratik: Kötü %5 Hit → İyi %92 Hit Dönüşümü
Gerçek bir kod örneği: %5 cache hit rate gösteren bir asistanı %92'ye çıkarmak için 5 değişiklik yapacağız. Her adımda telemetri ve cost gösterimi.
- 6
Tool Definitions Caching: 50 Tool'lu Agent'ta Strateji
Modern agent'larda 20-50 tool var. Her tool definition ortalama 200-500 token. Toplam 10-25K token sadece tool listesi. Bu derste tool cache stratejilerini, dinamik tool seçimini ve sıralama trick'lerini öğreneceksin.
- 7
Modül 4 Bitirme Sınavı
Cache miss anatomisi, static-first kuralı, breakpoint stratejileri ve tool caching'i kapatma sınavı. 10 soru, %70 ile geç.
5. Context Engineering Prensipleri
- 1
Context Engineering Nedir? Prompt Engineering'in Ötesi
Andrej Karpathy'nin 2024'te ortaya attığı 'context engineering' terimi neyi tanımlıyor? Prompt engineering'den farkı, neden ayrı disiplin, ve bir AI mühendisinin bilmesi gereken temel mantık.
- 2
Context'in 6 Katmanı: Bir LLM Çağrısının Anatomisi
Production LLM uygulamalarında context 6 standart katmandan oluşur: system, tools, RAG, history, user query, output schema. Bu derste her katmanın amacını, token bütçesini ve caching açısından önemini öğreneceksin.
- 3
Token Budget Allocation: Bütçeni Nasıl Dağıtırsın?
200K context window küçük gibi duruyor mu? Yanlış. Bütçen sınırlı ve her tokenı tasarlamalısın. Bu derste 'budget per layer' kararlarını sistematik vereceksin.
- 4
Lost in the Middle: Pozisyon Bias'ı ve Sonuçları
LLM'ler context'in başını ve sonunu daha iyi hatırlıyor — orta kısmı sıklıkla 'kayboluyor'. Bu derste 2023'teki Stanford araştırmasını, sonraki benchmarkları ve pratik öneriler.
- 5
Attention Sinks: İlk Token'ların Gizli Rolü
MIT'nin 2023'te yayınladığı StreamingLLM araştırması: ilk birkaç tokeni atarsan model çöker. Neden? 'Attention sinks' — modelin attention'ını boşaltacak yer. Bu, context engineering'de unutulmaması gereken bir kural.
- 6
Lab: Needle-in-Haystack — Bilgi Pozisyonu Testi
100K tokenlık context'te tek bir 'needle' (kritik bilgi) sakla, farklı pozisyonlarda accuracy testi yap. Lost-in-the-middle fenomenini kendi gözlerinle göreceksin.
- 7
Context Compression: Bilgiyi Küçültme Teknikleri
Bütçe yetmiyor mu? Compression. Summarization, extraction, semantic deduplication ve LLM-based summarization teknikleri. Hangisi ne zaman?
- 8
Modül 5 Bitirme Sınavı
Context engineering temelleri, 6 katman, token budget, lost-in-the-middle, attention sinks ve compression konularını kapatma sınavı. 10 soru, %70 ile geç.
6. Long-Context Mimarileri: 200K, 1M, 10M
- 1
Long-Context Teknikleri: Sparse, Sliding, Ring, RoPE Scaling
200K-2M context'leri mümkün kılan 4 ana teknik: sparse attention, sliding window, ring attention, RoPE scaling. Hangisi hangi modelde? Her birinin trade-off'u.
- 2
Major Modellerin Long-Context Altyapıları
Claude 200K-1M, GPT 128K-1M, Gemini 1M-2M, Llama 128K, MiniMax 4M. Hangi model hangi tekniği nasıl kullanıyor? Pricing ve quality karakteristikleri.
- 3
Context Rot: Tokenlar Arttıkça Reasoning Neden Bozulur?
200K context'te needle bulunur, ama 'reasoning over context' sorularında accuracy düşer. Bu derste 'context rot'un anatomisini, RULER ve LongBench benchmark'larını öğreneceksin.
- 4
Lab: 10K vs 50K vs 200K — Accuracy Karşılaştırma
Aynı reasoning task'ını 10K, 50K, 200K context'te çalıştır, accuracy karşılaştırması yap. Context rot'u kendi gözlerinle gör.
- 5
Long-Context + Caching: 200K Statik + 1K Dinamik Pattern
Long-context'in en güçlü kullanım pattern'i: büyük statik doc'u cache'le, küçük dinamik sorgular yap. Bu derste optimizasyon trick'lerini ve sınırları öğreneceksin.
- 6
Modül 6 Bitirme Sınavı
Long-context teknikleri, major modellerin altyapısı, context rot ve long-context caching'i kapatma sınavı.
7. RAG + Caching: Hybrid Mimari
- 1
Cache mi, Retrieve mi? Tradeoff Analizi
Statik bilgi context'te cache mi olmalı, yoksa vector DB'den retrieve mi? Karar matrisi, sınırlar ve hybrid'ın kaçınılmazlığı.
- 2
Static Cache + Dynamic Retrieval: Hybrid'ın Çekirdek Yapısı
Hybrid pattern'in temel yapısı: system + tools + KB cache, retrieved doc'lar dinamik. Bu derste kod yapısını ve cache hit hesabını öğreneceksin.
- 3
CAG: Cache-Augmented Generation — RAG'ın Alternatifi mi?
2024'te ortaya çıkan CAG (Cache-Augmented Generation) yaklaşımı: tüm bilgiyi context'e koy ve cache'le, retrieval gerek değil. RAG'ı tamamen değiştirebilir mi?
- 4
Hot/Cold Cache Pattern: Production Hybrid Mimarisi
Frequently-retrieved doc'ları cache, long-tail için RAG. Bu pattern Perplexity, Notion AI'ın temel mimarisi. Implementasyon detayları.
- 5
Lab: Saf RAG vs Hybrid — Cost + Latency Karşılaştırma
50 dokümanlık knowledge base. 100 user sorgu. Saf RAG ile hybrid yan yana — gerçek dolar ve milisaniye sonuçları.
- 6
Cache Poisoning: Yanlış Bilgi Cache'lendi, Nasıl Düzeltirsin?
Cache'e yanlış doc'lar yazıldı, eski bilgi var. Cache invalidation stratejileri. Anthropic / OpenAI / Gemini için ne mümkün?
- 7
Modül 7 Bitirme Sınavı
Cache vs RAG, hybrid pattern, CAG, hot/cold mimari, cache invalidation'ı kapatma sınavı.
8. Multi-Turn Conversational Caching
- 1
Conversation Cache: Growing-Prefix Yapısı + Incremental Caching
Multi-turn chat'lerin doğal yapısı: her turn'de history büyüyor. Bu derste growing-prefix mantığını ve Anthropic incremental caching'i öğreneceksin.
- 2
OpenAI Rolling Cache: Implicit Multi-Turn Mekaniği
OpenAI'da multi-turn caching otomatik. Mesaj array büyüse de cache hit kalır. Bu derste OpenAI'a özel rolling cache pattern'ini öğreneceksin.
- 3
Lab: 50 Turn Diyalog, Cache Hit Rate Trend
Gerçek 50 turn'lük bir destek diyaloğu simüle et, her turn'de hit rate'i izle. Cache cost trend grafiği.
- 4
Memory Management: Context Limit'e Yaklaşan Conversation
Conversation 100 turn'e ulaştı, context 100K oldu. Eski mesajları silmeli ama cache'i bozmadan. Memory eviction stratejileri.
- 5
Summarization-Based Memory: Pratik Uygulama
Conversation özetleme tekniğinin production uygulaması. Hangi model, hangi prompt template, ne sıklıkta? Cache friendly summary tasarımı.
- 6
Modül 8 Bitirme Sınavı
Multi-turn caching, growing prefix, OpenAI rolling cache, memory management ve summarization'ı kapatma sınavı.
9. Agentic Workloads ve Caching
- 1
Agent Loop'unda Token Patlaması: 20 Tool Call = 200K Input
LLM agent'lar tool çağrı zinciri yapar. Her adımda context büyür. Caching olmadan token patlaması yaşanır. Bu derste matematiği ve çözümleri öğreneceksin.
- 2
Tool Definitions vs Tool Results: İki Farklı Cache Kararı
Tool definitions statik cache'lenir; tool results dinamik. Ama tool result'lar context'te birikiyor — onlar history cache'inin parçası. Pattern netleştirmesi.
- 3
Anthropic Skills + Caching: Agent Primitif'i
Anthropic Skills (2025) agent geliştirme için yeni primitive. Cache'le doğal entegrasyon. Bu derste Skills mantığını ve cache stratejisini öğreneceksin.
- 4
ReAct vs Plan-and-Execute: Caching Açısından Karşılaştırma
Agent reasoning'in iki temel paradigması: ReAct (step-by-step) ve Plan-and-Execute (plan first). Caching açısından hangisi avantajlı?
- 5
Lab: 10 Adımlı Agent'ın Cost'unu %85 Düşürme
Bir e-ticaret 'sipariş asistanı' agent'ı 10 adımda görev tamamlıyor. Caching açık vs kapalı maliyet karşılaştırması.
- 6
Multi-Agent Caching: Shared Context Paylaşımı
Orchestrator + worker agent'ların shared context'i nasıl cache'lediği. CrewAI, AutoGen, LangGraph patterns'ları.
- 7
Modül 9 Bitirme Sınavı
Agent token patlaması, tool def vs result, Anthropic Skills, ReAct vs Plan-Execute, multi-agent caching'i kapatma sınavı.
10. Self-Hosted Inference + Caching
- 1
vLLM Prefix Caching: Hash-Based Automatic Caching
vLLM (open-source production inference engine) prefix caching mekanizması: hash-based, automatic, block-level. Modül 2'de gördüğümüz PagedAttention bilgisinin uygulanışı.
- 2
Lab: vLLM Llama-3.1-8B Caching Açık vs Kapalı
vLLM ile Llama-3.1-8B host edip, caching açık ve kapalı senaryolarda throughput + latency karşılaştırması.
- 3
SGLang RadixAttention: Tree-Based Cache Management
SGLang LMSYS'den çıkan vLLM alternatifi. RadixAttention ile prefix sharing'i tree yapısı üzerinde yönetiyor. Bazı senaryolarda vLLM'den hızlı.
- 4
TensorRT-LLM: NVIDIA Enterprise Inference
NVIDIA'nın production-grade inference solution'ı. KV cache reuse, FP8 quantization, multi-GPU. Enterprise senaryolar için.
- 5
Multi-Tenant Cache: İzolasyon ve Paylaşım Stratejileri
Self-hosted bir LLM service'i 100 farklı şirkete hizmet veriyor. Her şirketin kendi context'i, ama altta paylaşılan model. Cache izolasyonu nasıl?
- 6
GPU Memory Ekonomisi: Cache vs Throughput Tradeoff
VRAM sınırlı. Modele ne kadar, cache'e ne kadar, batch'e ne kadar ayırırsın? Bu derste GPU bütçesini tasarlamayı öğreneceksin.
- 7
Modül 10 Bitirme Sınavı
Self-hosted inference, vLLM, SGLang, TRT-LLM, multi-tenant cache, GPU memory ekonomisini kapatma sınavı.
11. Production Economics & Observability
- 1
Cost Modeling: Cache Hit/Miss'i Dolar'a Çevir
Cache hit rate ve cost arasındaki matematiksel ilişki. Spreadsheet template + Python hesaplayıcı. Yöneticine 'caching ne kadar tasarruf ediyor' raporu vermek için.
- 2
TTL Stratejileri: 5m vs 1h Break-Even Analizi
Anthropic'te 5m TTL ucuz yazma, 1h TTL pahalı yazma. Hangisini seçeceğin trafik yoğunluğuna bağlı. Bu derste optimal TTL formülünü öğreneceksin.
- 3
Cache Warming: Soğuk Başlangıç Problemini Çöz
Sistem başlangıcında ilk kullanıcı 30sn bekler. Cache warming ile bunu önlersin. Pattern'ler: scheduled warmup, traffic-driven, lazy.
- 4
Cache Monitoring: Dashboard ve Alerting
Production cache stack'inde ne ölçersin? Cache hit rate, p50/p95 latency, cost per request, regression detection. Grafana dashboard JSON example.
- 5
Lab: Docker Compose ile Cache Observability Stack
Lokal olarak Prometheus + Grafana + custom exporter stack'ini Docker Compose ile kuruyoruz. Production-ready bir başlangıç noktası.
- 6
A/B Testing Caching Stratejilerini
Yeni cache TTL veya breakpoint strateji denemek istiyorsun. Production trafiğini risk almadan nasıl test edersin? A/B testing patterns.
- 7
Modül 11 Bitirme Sınavı
Cost modeling, TTL, cache warming, monitoring, observability, A/B testing'i kapatma sınavı.
12. Anti-Patterns ve Tuzaklar
- 1
PII/Sensitive Data Cache'leme: KVKK/GDPR Riski
Kullanıcı verilerini (TCKN, email, kart no) cache'lemek hukuki tehlikeler doğurur. Compliance pattern'leri ve PII redaction stratejileri.
- 2
Invisible Regression: Cache Hit Sessizce Düşünce
Yeni bir feature push ettin. Test geçti. Production'da haftalarca cache hit rate %90'dan %5'e düştü, kimse fark etmedi. Bu sessiz regression'ı önleme stratejileri.
- 3
Cross-Tenant Cache Leak: Multi-Tenant Güvenlik Açığı
Bir tenant'ın cache'inin başka tenant'a sızması. Modül 10'da değindik; şimdi exploit senaryoları + önleme.
- 4
Cache Stampede: Yeni Model/Version Deploy Sonrası
Cache anında geçersiz olduğunda (model değişti, KB versionu artırdın) tüm trafik prefill'e gider. Cache stampede.
- 5
Modül 12 Bitirme Sınavı
PII caching riski, invisible regression, cross-tenant leak, cache stampede'i kapatma sınavı.
13. Vaka Çalışmaları: Gerçek Sistemler
- 1
Cursor: Codebase'i Nasıl Cache'liyor?
Cursor (popüler AI code editor) milyonlarca tokenlık codebase'leri tek tıkla parse edip 'Cmd+K, ask anything' yapıyor. Bunu nasıl ekonomik tutuyor? Cursor'ın caching mimarisi.
- 2
Claude Code: Skills + Tools Cache Mimarisi
Anthropic'in resmi CLI'sı Claude Code, Skills primitive'i + sophisticated caching ile çalışıyor. Bu derste mimarisini inceleyeceğiz.
- 3
GitHub Copilot Workspace: Long-Context Code Strategy
GitHub Copilot Workspace, OpenAI tabanlı, 'plan then code' yaklaşımıyla çalışıyor. Long-context caching'i nasıl kullanıyor?
- 4
Perplexity: Search + LLM Cache Mimarisi
Perplexity sorgu başına web search + LLM. Web kaynakları her zaman değişiyor. Bu dinamik scenario'da caching nasıl?
- 5
Notion AI: Workspace Context Engineering
Notion AI workspace içinde 'Q&A from your docs'. Her user'ın binlerce sayfası var. Bunu uçtan uca cache'lemek pratik mi?
- 6
Türkçe Vaka: Trendyol Tarzı E-Ticaret Asistanı
Bir Türk e-ticaret platformuna LLM asistan tasarımı. Trendyol, Hepsiburada, Çiçeksepeti gibi 10M+ kullanıcı için scale, caching, KVKK uyumu.
- 7
Türkçe Vaka: Bankacılık Knowledge Assistant + KVKK
Türk bankacılık sektöründe (Akbank/Garanti/Yapı Kredi benzeri) LLM tabanlı asistan. BDDK, KVKK, PCI-DSS şartları altında caching mimarisi.
- 8
Modül 13 Bitirme Sınavı
Cursor, Claude Code, GitHub Copilot Workspace, Perplexity, Notion AI ve Türk vakaları sınavı.
14. Final Proje + Sertifika
- 1
Final Proje Brief: 200K Dokümantasyon Q&A Asistanı
Final proje: 200K tokenlık bir dokümantasyona Q&A yapan production-grade asistan kur. Tüm modüllerden öğrendiklerini bir araya getir.
- 2
Adım 1: Context Taxonomisi ve Breakpoint Planlaması
Final projenin context yapısını tasarla. Hangi katman ne kadar token, hangi cache TTL, breakpoint sayısı?
- 3
Adım 2: Implementation + Monitoring
Asistanı kur. Anthropic SDK + Prometheus + cost tracking. Production-grade code.
- 4
Adım 3: Cost Report ve Post-Mortem
Asistanı 1 hafta production'da koştur, gerçek metrikleri topla. Beklenen vs gerçek karşılaştırma, post-mortem yaz.
- 5
Sertifika Sınavı: 60 Soru, %75 ile Geçme
Prompt Caching & Context Engineering eğitimini tamamlama sınavı. 60 soru, %75 ile geçince blockchain doğrulamalı sertifika.