Google Gemini Pricing Schema: Tier Traps Behind the Cheap Look and the Real Cost of 1M Context
Gemini 2.5 Pro/Flash/Flash-Lite pricing table, 2× zam above 200K, context caching mechanism, real limits of the free tier, Vertex AI enterprise difference, and Google's impact on the Turkish ecosystem.
Şükrü Yusuf KAYA
20 min read
Intermediate🟦 Gemini'nin paradoksu
Gemini en ucuz görünen sağlayıcı. Ama fiyat sayfasının yıldız işaretlerini okumadıysan, sürprize gelirsin. Bu derste tier yapısını, ücretsiz tier'ı ve gizli zamları açıyoruz.
Gemini 2.5 fiyat tablosu (Mayıs 2026)#
| Model | Input ≤200K ($/M) | Input >200K ($/M) | Output ≤200K | Output >200K | Context |
|---|---|---|---|---|---|
| Gemini 2.5 Pro | $1.25 | $2.50 | $5.00 | $10.00 | 2M |
| Gemini 2.5 Flash | $0.075 | $0.15 | $0.30 | $0.60 | 1M |
| Gemini 2.5 Flash-Lite | $0.04 | $0.08 | $0.16 | $0.32 | 1M |
| Gemini 2.5 Flash Image | 0.30 (image gen) | — | — | — | 1M |
Kritik dipnot#
⚠️ 200K token üstüne çıkarsan fiyat 2× zam. Bu, Gemini'nin "1M context!" reklamının arkasındaki ekonomik gerçek. Eğer 500K context kullanıyorsan, ilk 200K 2.50/M. Average: 3 ile karşılaştırılabilir seviye.
🚨 Tier tuzağı
1M context kullanıp "ucuz" sandığın anda, gerçek fiyat 2× Pro = 3) ile arada %16'lık fark kalıyor — ama Sonnet'in prompt caching avantajı (10× indirim) Gemini'yi rahatlıkla geçer.
Gemini Context Caching#
Gemini'nin caching mekanizması Anthropic'ten farklı çalışıyor:
| Adım | Maliyet |
|---|---|
Cache oluşturma (cachedContent | 1× normal input |
| Cache storage | $1 / 1M token / saat (ayrı) |
| Cache read | 0.25× normal input |
Sonnet vs Gemini cache karşılaştırma#
| Metrik | Anthropic | Gemini |
|---|---|---|
| Yazma çarpan | 1.25× | 1× |
| Okuma çarpan | 0.10× | 0.25× |
| Storage | yok | $1/M/saat |
| TTL kontrolü | 5dk veya 1h | esnek (sen seç) |
| Breakpoint sayısı | 4 | 1 |
Hangisi ekonomik?#
Senaryo: 10K context, 1 saat aktif, 200 read ANTHROPIC SONNET 4.6: - Write (1h TTL): 1 × 10K × $6/M = $0.06 - Reads: 200 × 10K × $0.30/M = $0.60 - TOPLAM: $0.66 GEMINI 2.5 PRO: - Write: 1 × 10K × $1.25/M = $0.0125 - Storage: 10K × $1/M × 1 saat = $0.01 - Reads: 200 × 10K × $0.3125/M = $0.625 - TOPLAM: $0.6475
Yaklaşık eşit. Anthropic biraz daha iyi yüksek-trafik için. Gemini storage'a göre maliyet öder — düşük trafik için daha iyi olabilir.
Ücretsiz Tier — Gerçek limitler#
Gemini'nin gerçekten ücretsiz kullanılabilir tier'ı var:
| Model | RPM (req/dk) | TPM (token/dk) | RPD (req/gün) |
|---|---|---|---|
| Gemini 2.5 Pro (free) | 5 | 250K | 100 |
| Gemini 2.5 Flash (free) | 10 | 1M | 1.500 |
| Gemini 2.5 Flash-Lite (free) | 15 | 1M | 1.500 |
Ücretsiz tier'da dikkat#
⚠️ Ücretsiz tier'da gönderdiğin prompt'lar Google tarafından eğitim için kullanılabilir. KVKK / GDPR / production data için kullanma.
⚠️ Ücretsiz tier "test ve öğrenme amaçlı". Production'a uygun değil — kotalar.
✅ Kursun çoğu lab'ını ücretsiz tier'da bitirebilirsin. Production tarafına geçince paid'e geç.
Vertex AI — Enterprise Gemini#
Vertex AI = Google Cloud'da Gemini. Aynı modeller, farklı fiyat yapısı.
Farkları#
| Özellik | AI Studio (geliştirici) | Vertex AI (enterprise) |
|---|---|---|
| Fiyat | 2.50/M | %5-10 daha pahalı |
| SLA | yok | 99.9% |
| Data residency | US/global | EU, US, Asia, multi-region |
| KVKK uyum | sınırlı | tam destek |
| Auth | API key | IAM, service account |
| Provisioned Throughput | yok | var (committed capacity) |
| VPC private endpoints | yok | var |
Provisioned Throughput — Committed Capacity#
Vertex'te en güçlü maliyet kontrolü: provisioned throughput satın alabilirsin.
Senaryo: Aylık 50M token kullanım On-demand: $62.50 Provisioned: ~$45-50 (committed yıllık)
~%25 indirim. Büyük müşteriler için anlamlı. Modül 15'te enterprise pricing strateji."
Gemini diğer modaliteler#
Embedding (text-embedding-004)#
- $0.025/M token (Flash-Lite seviyesinde)
- 768 boyut
- Multi-language çok iyi (Türkçe dahil)
Image generation (Gemini 2.5 Flash Image, "Nano Banana")#
- $0.30 / image (1024×1024)
- Multi-turn image editing destekliyor
- DALL-E ile karşılaştırılabilir kalite
Audio (Gemini native)#
- Audio input: ~$1.25/M token equivalent (32 tok/sec, audio için 200K üstü tier hâlâ uygulanır)
- 1 saatlik ses ≈ 115K token → $0.144 (200K altı)
Gemini 2.5 Thinking — "Reasoning Effort"#
Gemini 2.5 modellerinde parametresi:
thinkingConfigresponse = client.generate_content( model="gemini-2.5-pro", contents="...", config=GenerateContentConfig( thinking_config=ThinkingConfig( thinking_budget=1024, # 0-32768 ), ), )
Thinking token'lar output fiyatından ücretlendirilir, OpenAI/Anthropic gibi.
Default değer#
- Gemini 2.5 Pro: 8.192 thinking tokens default. Bunu bilmiyorsan büyük fatura sürprizi.
- Gemini 2.5 Flash: 1.024 default.
- Disable: .
thinking_budget=0
Maliyet etkisi#
8K default thinking × 0.08 / istek**. 100K istek = $8.000/ay.
Default'unu 0 olarak override etmek standart pratiktir, sadece gerekli olduğu görevlerde aç.
💡 Pro tip: Flash-Lite'ı keşfet
Gemini 2.5 Flash-Lite ($0.04/M input) muhtemelen 2026'nın dolar başına en iyi modeli. Basit task'larda (classification, extraction, simple summarization) Flash'tan 2× ucuza yaklaşık aynı kalite. Default seçimin bu olsun, kalite yetmezse Flash, sonra Pro.
Vaka: Görsel ağırlıklı pipeline#
Aylık 1M görsel + kısa metin açıklama (e-ticaret tipik):
| Model | Görsel/req | Toplam/ay |
|---|---|---|
| GPT-5 + vision | 0.005 (text) | $13.000 |
| Sonnet 4.6 | 0.003 | $7.200 |
| Gemini 2.5 Flash | 0.00006 | $79 |
| Gemini 2.5 Flash-Lite | 0.00003 | $40 |
GPT-5 → Gemini Flash-Lite: 325× ucuza. Aynı görev, ufak kalite farkı (tartışmalı), büyük fatura farkı.
Modül 8'de kalite/cost karşılaştırması yapacağız — bu fiyat farkını kabul etmen gerekmiyor.
Gemini'yi ne zaman seçmeli?#
✅ Görsel/video ağırlıklı iş yükü (Anthropic/OpenAI'dan 100-300× ucuz)
✅ Çok büyük context gerek (1M-2M)
✅ Ücretsiz başlangıç (free tier cömert)
✅ Multi-lingual (100+ dil çok iyi)
✅ Google ekosistem entegrasyonu (BigQuery, Cloud Storage)
❌ Yüksek-trafik aynı sistem prompt (Anthropic prompt cache daha güçlü)
❌ KVKK / data residency (Vertex'a geç, fiyat artar)
❌ Türkçe için saf tokenizer verimi (Claude marginal daha iyi)
▶️ Sıradaki ders
2.4 — Open-Weight Inference: Together, Fireworks, Groq, Cerebras, DeepSeek. Llama, Mistral, Qwen, DeepSeek modellerini servisleyen "inference-as-a-service" sağlayıcılarının fiyat manzarası. Bazıları frontier model fiyatından %95 daha ucuz.
Frequently Asked Questions
Technically yes, but bad idea: (1) Data may be used for training (KVKK/privacy risk), (2) No SLA, (3) Low rate limits — production traffic would blast the quota. In production, always use paid tier or move to Vertex.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
Module 0: Why Cost, Why Now?
The AI Cost Explosion: Why Token Prices Fell 96% from 2022 to 2026 — Yet Bills Grew 40×
Start LearningModule 0: Why Cost, Why Now?
Unit Economics Vocabulary: COGS, Gross Margin, $/User, Contribution Margin — 9 Financial Concepts Every AI Engineer Must Know
Start LearningModule 0: Why Cost, Why Now?