Can I manually intervene in cached input?

No. OpenAI cached input is fully automatic. Same prefix = cache hit. For control, choose Anthropic (manual breakpoints). Module 7 (caching) details.

OpenAI Pricing Schema Deep Dive: 7 Tiers, 12 Products, 3 Discounts — What to Use When

OpenAI's pricing page has 12 products, each with 3-5 options: standard, cached input, batch (50% off), fine-tuning, embedding, image, audio, realtime, image generation. We break down every tier with real calculation examples.

Şükrü Yusuf KAYA

22 min read

6/24/2026

Intermediate

OpenAI Fiyat Şeması Tam Analizi: 7 Tier, 12 Ürün, 3 İndirim — Hangisini Ne Zaman?

💼 Bu ders bir CFO mektup-tablosu

OpenAI'ın fiyat sayfasını (https://openai.com/api/pricing) bir kişi olarak okumak rüyalardadır. Bu derste her satırı sırasıyla geçeceğiz: hangi indirim ne zaman uygulanır, kaçırılan kalemler neler, hangi seçim hangi kullanım için ekonomik.

OpenAI fiyat şeması — 7 ana tier#

OpenAI fiyatlandırması 7 ana eksenden oluşur:

Standart Chat Completions (gerçek zamanlı, sürekli rate)
Cached Input (~50% indirim — otomatik tetiklenir)
Batch API (50% indirim, 24h SLA)
Fine-tuning (eğitim + hosted inference)
Embedding (text-embedding-3-small, -large)
Image (DALL-E ve gpt-image)
Audio (Whisper, TTS, gpt-4o audio, realtime)

Şimdi tek tek...

1️⃣ Standart Chat Completions#

2026 Mayıs itibarıyla aktif model fiyatları:

Model	Input ($/M)	Output ($/M)	Context
GPT-5	$10.00	$30.00	256K
GPT-5-mini	$0.40	$1.60	128K
GPT-5-nano	$0.10	$0.40	64K
GPT-4.1 (legacy)	$2.50	$10.00	128K
GPT-4o (legacy)	$2.50	$10.00	128K
GPT-4o-mini (legacy)	$0.15	$0.60	128K
o3 (reasoning)	$2	$8 + thinking	200K
o3-mini	$1.10	$4.40 + thinking	128K
o1 (legacy)	$15	$60 + thinking	200K

Önemli notlar#

⚠️ Reasoning modelleri (o3, o1, gpt-5-thinking): "thinking" output token'ları görünmez ama faturalanır. Default olarak

reasoning_effort: "medium"

ile ~2-5K ek thinking token bekle.

⚠️ Legacy modeller: GPT-4o, GPT-4o-mini hâlâ destekleniyor ama yeni projelerde GPT-5-mini, GPT-5-nano kullan — aynı kalite, 6× daha ucuz.

2️⃣ Cached Input — OpenAI'ın "%50 İndirim Sihri"#

2024 sonu eklenen feature. Aynı prefix'i tekrar gönderdiğinde OpenAI sunucusu otomatik cache hit yapar ve %50 indirim uygular.

Nasıl çalışır?#

Sistem prompt + few-shot örnekleri = sabit (örn: 3.000 token)
Kullanıcı sorusu = dinamik
1. istekte sabit kısım cache'lenmiş = input'un yarısı %50 indirimli

Cached input fiyatları#

Model	Standart Input	Cached Input	İndirim
GPT-5	$10.00	$1.25	-87% ⭐
GPT-5-mini	$0.40	$0.10	-75%
GPT-5-nano	$0.10	$0.025	-75%
GPT-4.1	$2.50	$0.625	-75%
o3	$2.00	$0.50	-75%

GPT-5'in cached input fiyatı dramatik (

10 →

1.25). Bu, OpenAI'ın yeni stratejisi: cache'i bilen kullansın.

Tetiklenme koşulu#

Prefix en az 1024 token uzunluğunda olmalı
TTL: 5-10 dakika (Anthropic'in 5dk-1h kontrolünden farklı, kullanıcı kontrol edemez)
Bir önceki istekle birebir aynı başlangıç token'ları gerekli
Tools, response_format, system message hepsi prefix'in parçası

Pro tip#

Prompt'unu sabit prefix → dinamik suffix olarak yapılandır. Tools listesini sırala (alfabetik). Kullanıcı verisini sona koy.

📊 Cache karşılaştırması: OpenAI vs Anthropic

OpenAI cached input: otomatik tetiklenir, 5-10dk TTL, ~50% indirim, kontrol yok. Anthropic prompt cache: breakpoint'lerle manuel, 5dk veya 1h TTL, 90% indirim, kontrol var. Anthropic daha güçlü ama daha fazla mühendislik gerektirir. Modül 7'de derinlemesine ele alacağız.

3️⃣ Batch API — %50 İndirim, 24h SLA#

Batch API mantığı:

my_requests.jsonl

dosyasında 10.000 istek topla, OpenAI'a yükle, 24 saatte cevaplarını al, standart fiyatın yarısı.

Uygunluk kontrolü#

✅ Real-time UI'a bağlı olmayan iş yükleri
✅ Embeddings batch'leri
✅ Toplu özetleme, sınıflandırma, etiketleme
✅ Eval/test setleri çalıştırmak
❌ Chatbot
❌ Kullanıcı bekleyen herhangi bir iş

Batch fiyatları#

Tüm modellerde Batch input/output standart fiyatın 50%'si. Yani:

Model	Standart In/Out	Batch In/Out
GPT-5	$10 /$ 30	$5 /$ 15
GPT-5-mini	$0.40 /$ 1.60	$0.20 /$ 0.80
GPT-5-nano	$0.10 /$ 0.40	$0.05 /$ 0.20

Batch + Cached input birleşir mi?#

Hayır. Batch API cache'i atlar. Ama Batch indirimi tek başına %50, cached input + standart kullanımı çoğu zaman daha iyidir karma iş yükünde.

Pratik örnek#

Aylık 1M embedding üretiyorsun (10M token):

Standart: 10M × $0.13/M = **$ 1.30**
Batch: 10M × $0.065/M = **$ 0.65**

Yıllık $7.80 tasarruf. Ufak ama compound — daha büyük iş yüklerinde kritik.

4️⃣ Fine-Tuning Fiyatları#

Fine-tune iki ana maliyet kalemi:

Eğitim maliyeti (bir kerelik)
Inference maliyeti (sonsuza kadar — biraz daha pahalı)

Eğitim fiyatları#

Model	Eğitim ($/M token)
GPT-5-mini	$25
GPT-5-nano	$8
GPT-4o	$25 (legacy)
GPT-4o-mini	$8 (legacy)

Inference fiyatları (fine-tuned modelde)#

Model	Input ($/M)	Output ($/M)	Standart fiyat etkisi
FT GPT-5-mini	$0.60	$2.40	1.5× zam
FT GPT-5-nano	$0.20	$0.80	2× zam

Break-even hesabı#

Diyelim 100K eğitim örneği × ortalama 1K token = 100M training tokens.

Eğitim: 100M × $8 = **$ 800** (GPT-5-nano FT)
Inference: $0.20/M input (vs standart$ 0.10/M)

Fine-tuned modeli 4M istek × ortalama 1K input token kullanırsan:

Eğitim ekstra: $800
Inference ekstra: 4M × 1K × ( $0.20-$ 0.10) = $400

Toplam ek maliyet $1.200 — ama eğer fine-tuning kalite kazandırıp daha küçük prompt'la çalışmana izin verirse (örn. 5K → 1K), tasarruf çıkar. Modül 13'te bu hesabı kapsamlı işliyoruz.

5️⃣ Embedding Fiyatları#

OpenAI embedding modelleri:

Model	Boyut	Fiyat ($/M token)
text-embedding-3-large	3072	$0.13
text-embedding-3-small	1536	$0.02
text-embedding-ada-002 (legacy)	1536	$0.10

Ne zaman small, ne zaman large?#

small: Sınıflandırma, basit RAG, semantic search çoğunluğu. Default'un bu olsun.
large: Kompleks domain (legal, medical), multilingual yoğun, üst düzey RAG kalitesi.

Maliyet kıyaslaması#

1 milyon doküman × 500 token ortalama = 500M embed token:

text-embedding-3-small: 500M × $0.02/M = **$ 10**
text-embedding-3-large: 500M × $0.13/M = **$ 65**

6.5× fark. Çoğu zaman small yeterli. Modül 12'de Türkçe için BGE-M3, Voyage, Cohere alternatifleriyle karşılaştıracağız.

Embedding + Batch#

Embedding'i de Batch API'ye gönderebilirsin: +%50 ek indirim. 500M token small embed = $5.

6️⃣ Image — Image Generation Fiyatları#

gpt-image-1 (DALL-E'nin halefi, 2025 sonu çıktı)#

Çözünürlük	Kalite	Fiyat / image
1024×1024	Standart	$0.040
1024×1024	HD	$0.080
1792×1024 / 1024×1792	Standart	$0.080
1792×1024 / 1024×1792	HD	$0.120

Image input (vision) fiyatı#

Ders 1.6'da gösterdik —

detail="low"

: 85 token sabit.

detail="high"

: 85 + 170×(tile sayısı).

Image editing (gpt-image-1)#

Mevcut bir görseli düzenle (inpainting): 2× standart fiyat. 1024×1024 standard düzenleme = $0.080.

7️⃣ Audio — Whisper, TTS, Realtime#

Whisper (Speech-to-Text)#

Whisper API: $0.006 / dakika
1 saatlik ses transkripsiyonu = $0.36

Text-to-Speech (TTS)#

tts-1: $15 / M karakter
tts-1-hd: $30 / M karakter

1000 kelimelik makaleyi sesli yapsan ~5500 karakter ×

0.000015 =

0.0825.

GPT-4o audio (native input + output)#

Bu, audio token'ı LLM'in doğrudan içine yedirir. Çok pahalı:

Tip	Fiyat ($/M token)
Audio input	$40
Audio output	$80

Native audio LLM, transkript + text LLM'den 5-10× pahalı. Sadece duygu/ton kritik ise.

Realtime API (Live conversation, WebSocket)#

Audio input: $40/M
Audio output: $80/M
Text input: standart Chat Completion fiyatları

⚠️ Realtime API gerçek-zaman ses sohbet için (Siri tarzı).

0.06/dakika ortalamayı vur. Aylık 1000 aktif kullanıcı, ortalama 5 dakika sohbet =

300/ay.

OpenAI'da bilmiyorsan kaçırdığın 5 ek kalem#

1. Tool/function calling tokens#

Tool tanımlarının her isteğin input'una eklendiğini biliyor musun? 5 tool × 200 token tanım = 1000 ek input/istek. 100K istek = 100M ekstra token.

2. JSON mode/structured output prefill#

response_format={"type": "json_schema"}

kullandığında OpenAI ek prefill yapıyor — küçük ama ölçülebilir.

3. System fingerprint değişiklikleri#

Aynı modeli aynı promptla çağırırken

system_fingerprint

değişirse cache hit miss. OpenAI bunu üst seviyede document etmiyor.

4. Reasoning effort default#

o3

ile

reasoning_effort

belirtmezsen "medium" — ortalama 2K-5K thinking token. Aylık 10K istek × 3K thinking ×

8/M = **

240 fark**.

5. Web search tool#

ChatGPT-mode "web search" tool kullanılırsa: $30 / 1000 search. Agent'da uygunsuz kullanıldıkça hızlı şişer.

OpenAI seçim karar ağacı#

Real-time UX gerekli mi?
├── EVET → Standart Chat Completion
│   ├── Aynı prefix tekrarlanıyor mu?
│   │   ├── EVET → Cached input devrede (otomatik %50 indirim)
│   │   └── HAYIR → Standart fiyat
│   └── Reasoning gerekli mi? → o3-mini veya o3
└── HAYIR (24h beklerim)
    └── Batch API (%50 indirim)

Embedding ise → text-embedding-3-small + Batch
Audio transkript → Whisper API (cheap, kaliteli)
Audio sohbet (native ses) → Realtime API (pahalı, ama UX süper)

🎯 Önemli stratejik gözlem

OpenAI'ın GPT-5 cached input %87 indirim stratejisi 2026'nın oyun değiştiren özelliği. Bir RAG pipeline'ı, sistem prompt 3K + retrieved chunks 5K + soru 200 token şeklinde yapılandırılırsa, ilk 8K'sı cached olur → maliyetin %87'si silinir. Modül 7'de bu pattern'i detayda.

Hesaplama Egzersizi#

Senaryo: Aylık 500K istek, ortalama:

4K input token (3K sabit sistem + 1K dinamik)
500 output token
GPT-5 ile

Aşağıdaki 4 senaryoyu hesapla:

Tüm istekler standart fiyatla
Sabit kısım cached input (3K sabit, 1K dinamik)
Tümü Batch API
Cached input + Batch optimum karışım

Cevaplar bir sonraki derste — ya da kendin Python ile yaz, doğrula. Lab 2'nin temellerinden biri olacak.

▶️ Sıradaki ders

2.2 — Anthropic Fiyat Şeması. Claude ailesinin tier yapısı + prompt caching'in 90% indirim sihri + extended thinking + Batch API. OpenAI'dan farklı olarak Anthropic'in caching'i kontrol edilebilir — bu farkın ekonomisi büyük.

Frequently Asked Questions

Three reasons: (1) Reasoning tokens are invisible but billed, (2) Tool definitions get added to each request as input, (3) Cached input auto-triggers but the bill breaks it out separately. We'll track these line items with Langfuse in Module 3.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...