Is Gemini in Vertex AI the same as in AI Studio?

Yes as models, but some features in Vertex are released 1-2 weeks late. Also some parameters like 'system_instruction' may have different names. SDK differences are small but exist.

Google Gemini Pricing Schema: Tier Traps Behind the Cheap Look and the Real Cost of 1M Context

Gemini 2.5 Pro/Flash/Flash-Lite pricing table, 2× zam above 200K, context caching mechanism, real limits of the free tier, Vertex AI enterprise difference, and Google's impact on the Turkish ecosystem.

Şükrü Yusuf KAYA

20 min read

5/14/2026

Intermediate

Google Gemini Fiyat Şeması: Ucuz Görünümün Altındaki Tier Tuzakları ve 1M Context'in Gerçek Maliyeti

🟦 Gemini'nin paradoksu

Gemini en ucuz görünen sağlayıcı. Ama fiyat sayfasının yıldız işaretlerini okumadıysan, sürprize gelirsin. Bu derste tier yapısını, ücretsiz tier'ı ve gizli zamları açıyoruz.

Gemini 2.5 fiyat tablosu (Mayıs 2026)#

Model	Input ≤200K ($/M)	Input >200K ($/M)	Output ≤200K	Output >200K	Context
Gemini 2.5 Pro	$1.25	$2.50	$5.00	$10.00	2M
Gemini 2.5 Flash	$0.075	$0.15	$0.30	$0.60	1M
Gemini 2.5 Flash-Lite	$0.04	$0.08	$0.16	$0.32	1M
Gemini 2.5 Flash Image	$0.075 (text) +$ 0.30 (image gen)	—	—	—	1M

Kritik dipnot#

⚠️ 200K token üstüne çıkarsan fiyat 2× zam. Bu, Gemini'nin "1M context!" reklamının arkasındaki ekonomik gerçek. Eğer 500K context kullanıyorsan, ilk 200K

1.25/M, sonraki 300K

2.50/M. Average:

1.75/M — Sonnet 4.6'nın

3 ile karşılaştırılabilir seviye.

🚨 Tier tuzağı

1M context kullanıp "ucuz" sandığın anda, gerçek fiyat 2× Pro =

2.50/M. Sonnet 4.6 (

3) ile arada %16'lık fark kalıyor — ama Sonnet'in prompt caching avantajı (10× indirim) Gemini'yi rahatlıkla geçer.

Gemini Context Caching#

Gemini'nin caching mekanizması Anthropic'ten farklı çalışıyor:

Adım	Maliyet
Cache oluşturma ( `cachedContent` )	1× normal input
Cache storage	$1 / 1M token / saat (ayrı)
Cache read	0.25× normal input

Sonnet vs Gemini cache karşılaştırma#

Metrik	Anthropic	Gemini
Yazma çarpan	1.25×	1×
Okuma çarpan	0.10×	0.25×
Storage	yok	$1/M/saat
TTL kontrolü	5dk veya 1h	esnek (sen seç)
Breakpoint sayısı	4	1

Hangisi ekonomik?#

Senaryo: 10K context, 1 saat aktif, 200 read

ANTHROPIC SONNET 4.6:
- Write (1h TTL): 1 × 10K × $6/M = $0.06
- Reads: 200 × 10K × $0.30/M = $0.60
- TOPLAM: $0.66

GEMINI 2.5 PRO:
- Write: 1 × 10K × $1.25/M = $0.0125
- Storage: 10K × $1/M × 1 saat = $0.01
- Reads: 200 × 10K × $0.3125/M = $0.625
- TOPLAM: $0.6475

Yaklaşık eşit. Anthropic biraz daha iyi yüksek-trafik için. Gemini storage'a göre maliyet öder — düşük trafik için daha iyi olabilir.

Ücretsiz Tier — Gerçek limitler#

Gemini'nin gerçekten ücretsiz kullanılabilir tier'ı var:

Model	RPM (req/dk)	TPM (token/dk)	RPD (req/gün)
Gemini 2.5 Pro (free)	5	250K	100
Gemini 2.5 Flash (free)	10	1M	1.500
Gemini 2.5 Flash-Lite (free)	15	1M	1.500

Ücretsiz tier'da dikkat#

⚠️ Ücretsiz tier'da gönderdiğin prompt'lar Google tarafından eğitim için kullanılabilir. KVKK / GDPR / production data için kullanma.

⚠️ Ücretsiz tier "test ve öğrenme amaçlı". Production'a uygun değil — kotalar.

✅ Kursun çoğu lab'ını ücretsiz tier'da bitirebilirsin. Production tarafına geçince paid'e geç.

Vertex AI — Enterprise Gemini#

Vertex AI = Google Cloud'da Gemini. Aynı modeller, farklı fiyat yapısı.

Farkları#

Özellik	AI Studio (geliştirici)	Vertex AI (enterprise)
Fiyat	$1.25/M-$ 2.50/M	%5-10 daha pahalı
SLA	yok	99.9%
Data residency	US/global	EU, US, Asia, multi-region
KVKK uyum	sınırlı	tam destek
Auth	API key	IAM, service account
Provisioned Throughput	yok	var (committed capacity)
VPC private endpoints	yok	var

Provisioned Throughput — Committed Capacity#

Vertex'te en güçlü maliyet kontrolü: provisioned throughput satın alabilirsin.

Senaryo: Aylık 50M token kullanım
On-demand: $62.50
Provisioned: ~$45-50 (committed yıllık)

~%25 indirim. Büyük müşteriler için anlamlı. Modül 15'te enterprise pricing strateji."

Gemini diğer modaliteler#

Embedding (text-embedding-004)#

$0.025/M token (Flash-Lite seviyesinde)
768 boyut
Multi-language çok iyi (Türkçe dahil)

Image generation (Gemini 2.5 Flash Image, "Nano Banana")#

$0.30 / image (1024×1024)
Multi-turn image editing destekliyor
DALL-E ile karşılaştırılabilir kalite

Audio (Gemini native)#

Audio input: ~$1.25/M token equivalent (32 tok/sec, audio için 200K üstü tier hâlâ uygulanır)
1 saatlik ses ≈ 115K token → $0.144 (200K altı)

Gemini 2.5 Thinking — "Reasoning Effort"#

Gemini 2.5 modellerinde

thinkingConfig

parametresi:

response = client.generate_content(
    model="gemini-2.5-pro",
    contents="...",
    config=GenerateContentConfig(
        thinking_config=ThinkingConfig(
            thinking_budget=1024,  # 0-32768
        ),
    ),
)

Thinking token'lar output fiyatından ücretlendirilir, OpenAI/Anthropic gibi.

Default değer#

Gemini 2.5 Pro: 8.192 thinking tokens default. Bunu bilmiyorsan büyük fatura sürprizi.
Gemini 2.5 Flash: 1.024 default.
Disable:
thinking_budget=0
.

Maliyet etkisi#

8K default thinking ×

10/M output (>200K tier'da) = **

0.08 / istek**. 100K istek = $8.000/ay.

Default'unu 0 olarak override etmek standart pratiktir, sadece gerekli olduğu görevlerde aç.

💡 Pro tip: Flash-Lite'ı keşfet

Gemini 2.5 Flash-Lite ($0.04/M input) muhtemelen 2026'nın dolar başına en iyi modeli. Basit task'larda (classification, extraction, simple summarization) Flash'tan 2× ucuza yaklaşık aynı kalite. Default seçimin bu olsun, kalite yetmezse Flash, sonra Pro.

Vaka: Görsel ağırlıklı pipeline#

Aylık 1M görsel + kısa metin açıklama (e-ticaret tipik):

Model	Görsel/req	Toplam/ay
GPT-5 + vision	$0.008 +$ 0.005 (text)	$13.000
Sonnet 4.6	$0.0042 +$ 0.003	$7.200
Gemini 2.5 Flash	$0.0000189 +$ 0.00006	$79
Gemini 2.5 Flash-Lite	$0.0000101 +$ 0.00003	$40

GPT-5 → Gemini Flash-Lite: 325× ucuza. Aynı görev, ufak kalite farkı (tartışmalı), büyük fatura farkı.

Modül 8'de kalite/cost karşılaştırması yapacağız — bu fiyat farkını kabul etmen gerekmiyor.

Gemini'yi ne zaman seçmeli?#

✅ Görsel/video ağırlıklı iş yükü (Anthropic/OpenAI'dan 100-300× ucuz) ✅ Çok büyük context gerek (1M-2M) ✅ Ücretsiz başlangıç (free tier cömert) ✅ Multi-lingual (100+ dil çok iyi) ✅ Google ekosistem entegrasyonu (BigQuery, Cloud Storage)

❌ Yüksek-trafik aynı sistem prompt (Anthropic prompt cache daha güçlü) ❌ KVKK / data residency (Vertex'a geç, fiyat artar) ❌ Türkçe için saf tokenizer verimi (Claude marginal daha iyi)

▶️ Sıradaki ders

2.4 — Open-Weight Inference: Together, Fireworks, Groq, Cerebras, DeepSeek. Llama, Mistral, Qwen, DeepSeek modellerini servisleyen "inference-as-a-service" sağlayıcılarının fiyat manzarası. Bazıları frontier model fiyatından %95 daha ucuz.

Frequently Asked Questions

Technically yes, but bad idea: (1) Data may be used for training (KVKK/privacy risk), (2) No SLA, (3) Low rate limits — production traffic would blast the quota. In production, always use paid tier or move to Vertex.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...