Cached input'a manuel olarak müdahale edebilir miyim?

Hayır. OpenAI cached input tamamen otomatik. Prefix aynıysa cache hit. Kontrol için Anthropic'i seç (manuel breakpoint var). Modül 7 (caching) detaylı.

OpenAI Fiyat Şeması Tam Analizi: 7 Tier, 12 Ürün, 3 İndirim — Hangisini Ne Zaman?

OpenAI'ın fiyat sayfasında 12 ürün, her birinde 3-5 ek seçenek var: standart, cached input, batch (50% indirim), fine-tuning, embedding, image, audio, realtime, image generation. Her tier'ı gerçek hesap örnekleriyle döküyoruz.

Şükrü Yusuf KAYA

22 dakikalık okuma

14.05.2026

Orta

OpenAI Fiyat Şeması Tam Analizi: 7 Tier, 12 Ürün, 3 İndirim — Hangisini Ne Zaman?

💼 Bu ders bir CFO mektup-tablosu

OpenAI'ın fiyat sayfasını (https://openai.com/api/pricing) bir kişi olarak okumak rüyalardadır. Bu derste her satırı sırasıyla geçeceğiz: hangi indirim ne zaman uygulanır, kaçırılan kalemler neler, hangi seçim hangi kullanım için ekonomik.

OpenAI fiyat şeması — 7 ana tier#

OpenAI fiyatlandırması 7 ana eksenden oluşur:

Standart Chat Completions (gerçek zamanlı, sürekli rate)
Cached Input (~50% indirim — otomatik tetiklenir)
Batch API (50% indirim, 24h SLA)
Fine-tuning (eğitim + hosted inference)
Embedding (text-embedding-3-small, -large)
Image (DALL-E ve gpt-image)
Audio (Whisper, TTS, gpt-4o audio, realtime)

Şimdi tek tek...

1️⃣ Standart Chat Completions#

2026 Mayıs itibarıyla aktif model fiyatları:

Model	Input ($/M)	Output ($/M)	Context
GPT-5	$10.00	$30.00	256K
GPT-5-mini	$0.40	$1.60	128K
GPT-5-nano	$0.10	$0.40	64K
GPT-4.1 (legacy)	$2.50	$10.00	128K
GPT-4o (legacy)	$2.50	$10.00	128K
GPT-4o-mini (legacy)	$0.15	$0.60	128K
o3 (reasoning)	$2	$8 + thinking	200K
o3-mini	$1.10	$4.40 + thinking	128K
o1 (legacy)	$15	$60 + thinking	200K

Önemli notlar#

⚠️ Reasoning modelleri (o3, o1, gpt-5-thinking): "thinking" output token'ları görünmez ama faturalanır. Default olarak

reasoning_effort: "medium"

ile ~2-5K ek thinking token bekle.

⚠️ Legacy modeller: GPT-4o, GPT-4o-mini hâlâ destekleniyor ama yeni projelerde GPT-5-mini, GPT-5-nano kullan — aynı kalite, 6× daha ucuz.

2️⃣ Cached Input — OpenAI'ın "%50 İndirim Sihri"#

2024 sonu eklenen feature. Aynı prefix'i tekrar gönderdiğinde OpenAI sunucusu otomatik cache hit yapar ve %50 indirim uygular.

Nasıl çalışır?#

Sistem prompt + few-shot örnekleri = sabit (örn: 3.000 token)
Kullanıcı sorusu = dinamik
1. istekte sabit kısım cache'lenmiş = input'un yarısı %50 indirimli

Cached input fiyatları#

Model	Standart Input	Cached Input	İndirim
GPT-5	$10.00	$1.25	-87% ⭐
GPT-5-mini	$0.40	$0.10	-75%
GPT-5-nano	$0.10	$0.025	-75%
GPT-4.1	$2.50	$0.625	-75%
o3	$2.00	$0.50	-75%

GPT-5'in cached input fiyatı dramatik (

10 →

1.25). Bu, OpenAI'ın yeni stratejisi: cache'i bilen kullansın.

Tetiklenme koşulu#

Prefix en az 1024 token uzunluğunda olmalı
TTL: 5-10 dakika (Anthropic'in 5dk-1h kontrolünden farklı, kullanıcı kontrol edemez)
Bir önceki istekle birebir aynı başlangıç token'ları gerekli
Tools, response_format, system message hepsi prefix'in parçası

Pro tip#

Prompt'unu sabit prefix → dinamik suffix olarak yapılandır. Tools listesini sırala (alfabetik). Kullanıcı verisini sona koy.

📊 Cache karşılaştırması: OpenAI vs Anthropic

OpenAI cached input: otomatik tetiklenir, 5-10dk TTL, ~50% indirim, kontrol yok. Anthropic prompt cache: breakpoint'lerle manuel, 5dk veya 1h TTL, 90% indirim, kontrol var. Anthropic daha güçlü ama daha fazla mühendislik gerektirir. Modül 7'de derinlemesine ele alacağız.

3️⃣ Batch API — %50 İndirim, 24h SLA#

Batch API mantığı:

my_requests.jsonl

dosyasında 10.000 istek topla, OpenAI'a yükle, 24 saatte cevaplarını al, standart fiyatın yarısı.

Uygunluk kontrolü#

✅ Real-time UI'a bağlı olmayan iş yükleri
✅ Embeddings batch'leri
✅ Toplu özetleme, sınıflandırma, etiketleme
✅ Eval/test setleri çalıştırmak
❌ Chatbot
❌ Kullanıcı bekleyen herhangi bir iş

Batch fiyatları#

Tüm modellerde Batch input/output standart fiyatın 50%'si. Yani:

Model	Standart In/Out	Batch In/Out
GPT-5	$10 /$ 30	$5 /$ 15
GPT-5-mini	$0.40 /$ 1.60	$0.20 /$ 0.80
GPT-5-nano	$0.10 /$ 0.40	$0.05 /$ 0.20

Batch + Cached input birleşir mi?#

Hayır. Batch API cache'i atlar. Ama Batch indirimi tek başına %50, cached input + standart kullanımı çoğu zaman daha iyidir karma iş yükünde.

Pratik örnek#

Aylık 1M embedding üretiyorsun (10M token):

Standart: 10M × $0.13/M = **$ 1.30**
Batch: 10M × $0.065/M = **$ 0.65**

Yıllık $7.80 tasarruf. Ufak ama compound — daha büyük iş yüklerinde kritik.

4️⃣ Fine-Tuning Fiyatları#

Fine-tune iki ana maliyet kalemi:

Eğitim maliyeti (bir kerelik)
Inference maliyeti (sonsuza kadar — biraz daha pahalı)

Eğitim fiyatları#

Model	Eğitim ($/M token)
GPT-5-mini	$25
GPT-5-nano	$8
GPT-4o	$25 (legacy)
GPT-4o-mini	$8 (legacy)

Inference fiyatları (fine-tuned modelde)#

Model	Input ($/M)	Output ($/M)	Standart fiyat etkisi
FT GPT-5-mini	$0.60	$2.40	1.5× zam
FT GPT-5-nano	$0.20	$0.80	2× zam

Break-even hesabı#

Diyelim 100K eğitim örneği × ortalama 1K token = 100M training tokens.

Eğitim: 100M × $8 = **$ 800** (GPT-5-nano FT)
Inference: $0.20/M input (vs standart$ 0.10/M)

Fine-tuned modeli 4M istek × ortalama 1K input token kullanırsan:

Eğitim ekstra: $800
Inference ekstra: 4M × 1K × ( $0.20-$ 0.10) = $400

Toplam ek maliyet $1.200 — ama eğer fine-tuning kalite kazandırıp daha küçük prompt'la çalışmana izin verirse (örn. 5K → 1K), tasarruf çıkar. Modül 13'te bu hesabı kapsamlı işliyoruz.

5️⃣ Embedding Fiyatları#

OpenAI embedding modelleri:

Model	Boyut	Fiyat ($/M token)
text-embedding-3-large	3072	$0.13
text-embedding-3-small	1536	$0.02
text-embedding-ada-002 (legacy)	1536	$0.10

Ne zaman small, ne zaman large?#

small: Sınıflandırma, basit RAG, semantic search çoğunluğu. Default'un bu olsun.
large: Kompleks domain (legal, medical), multilingual yoğun, üst düzey RAG kalitesi.

Maliyet kıyaslaması#

1 milyon doküman × 500 token ortalama = 500M embed token:

text-embedding-3-small: 500M × $0.02/M = **$ 10**
text-embedding-3-large: 500M × $0.13/M = **$ 65**

6.5× fark. Çoğu zaman small yeterli. Modül 12'de Türkçe için BGE-M3, Voyage, Cohere alternatifleriyle karşılaştıracağız.

Embedding + Batch#

Embedding'i de Batch API'ye gönderebilirsin: +%50 ek indirim. 500M token small embed = $5.

6️⃣ Image — Image Generation Fiyatları#

gpt-image-1 (DALL-E'nin halefi, 2025 sonu çıktı)#

Çözünürlük	Kalite	Fiyat / image
1024×1024	Standart	$0.040
1024×1024	HD	$0.080
1792×1024 / 1024×1792	Standart	$0.080
1792×1024 / 1024×1792	HD	$0.120

Image input (vision) fiyatı#

Ders 1.6'da gösterdik —

detail="low"

: 85 token sabit.

detail="high"

: 85 + 170×(tile sayısı).

Image editing (gpt-image-1)#

Mevcut bir görseli düzenle (inpainting): 2× standart fiyat. 1024×1024 standard düzenleme = $0.080.

7️⃣ Audio — Whisper, TTS, Realtime#

Whisper (Speech-to-Text)#

Whisper API: $0.006 / dakika
1 saatlik ses transkripsiyonu = $0.36

Text-to-Speech (TTS)#

tts-1: $15 / M karakter
tts-1-hd: $30 / M karakter

1000 kelimelik makaleyi sesli yapsan ~5500 karakter ×

0.000015 =

0.0825.

GPT-4o audio (native input + output)#

Bu, audio token'ı LLM'in doğrudan içine yedirir. Çok pahalı:

Tip	Fiyat ($/M token)
Audio input	$40
Audio output	$80

Native audio LLM, transkript + text LLM'den 5-10× pahalı. Sadece duygu/ton kritik ise.

Realtime API (Live conversation, WebSocket)#

Audio input: $40/M
Audio output: $80/M
Text input: standart Chat Completion fiyatları

⚠️ Realtime API gerçek-zaman ses sohbet için (Siri tarzı).

0.06/dakika ortalamayı vur. Aylık 1000 aktif kullanıcı, ortalama 5 dakika sohbet =

300/ay.

OpenAI'da bilmiyorsan kaçırdığın 5 ek kalem#

1. Tool/function calling tokens#

Tool tanımlarının her isteğin input'una eklendiğini biliyor musun? 5 tool × 200 token tanım = 1000 ek input/istek. 100K istek = 100M ekstra token.

2. JSON mode/structured output prefill#

response_format={"type": "json_schema"}

kullandığında OpenAI ek prefill yapıyor — küçük ama ölçülebilir.

3. System fingerprint değişiklikleri#

Aynı modeli aynı promptla çağırırken

system_fingerprint

değişirse cache hit miss. OpenAI bunu üst seviyede document etmiyor.

4. Reasoning effort default#

o3

ile

reasoning_effort

belirtmezsen "medium" — ortalama 2K-5K thinking token. Aylık 10K istek × 3K thinking ×

8/M = **

240 fark**.

5. Web search tool#

ChatGPT-mode "web search" tool kullanılırsa: $30 / 1000 search. Agent'da uygunsuz kullanıldıkça hızlı şişer.

OpenAI seçim karar ağacı#

Real-time UX gerekli mi?
├── EVET → Standart Chat Completion
│   ├── Aynı prefix tekrarlanıyor mu?
│   │   ├── EVET → Cached input devrede (otomatik %50 indirim)
│   │   └── HAYIR → Standart fiyat
│   └── Reasoning gerekli mi? → o3-mini veya o3
└── HAYIR (24h beklerim)
    └── Batch API (%50 indirim)

Embedding ise → text-embedding-3-small + Batch
Audio transkript → Whisper API (cheap, kaliteli)
Audio sohbet (native ses) → Realtime API (pahalı, ama UX süper)

🎯 Önemli stratejik gözlem

OpenAI'ın GPT-5 cached input %87 indirim stratejisi 2026'nın oyun değiştiren özelliği. Bir RAG pipeline'ı, sistem prompt 3K + retrieved chunks 5K + soru 200 token şeklinde yapılandırılırsa, ilk 8K'sı cached olur → maliyetin %87'si silinir. Modül 7'de bu pattern'i detayda.

Hesaplama Egzersizi#

Senaryo: Aylık 500K istek, ortalama:

4K input token (3K sabit sistem + 1K dinamik)
500 output token
GPT-5 ile

Aşağıdaki 4 senaryoyu hesapla:

Tüm istekler standart fiyatla
Sabit kısım cached input (3K sabit, 1K dinamik)
Tümü Batch API
Cached input + Batch optimum karışım

Cevaplar bir sonraki derste — ya da kendin Python ile yaz, doğrula. Lab 2'nin temellerinden biri olacak.

▶️ Sıradaki ders

2.2 — Anthropic Fiyat Şeması. Claude ailesinin tier yapısı + prompt caching'in 90% indirim sihri + extended thinking + Batch API. OpenAI'dan farklı olarak Anthropic'in caching'i kontrol edilebilir — bu farkın ekonomisi büyük.

Sık Sorulan Sorular

Üç sebep: (1) Reasoning token'lar görünmez ama faturalanır, (2) Tool definition'lar her isteğe input olarak eklenir, (3) Cached input otomatik tetiklenir ama fatura bunu ayrıştırıyor. Modül 3'te Langfuse ile bu kalemleri ayrıntılı izleyeceğiz.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Modül 0: Neden Maliyet, Neden Şimdi?