OpenAI Pricing Schema Deep Dive: 7 Tiers, 12 Products, 3 Discounts — What to Use When
OpenAI's pricing page has 12 products, each with 3-5 options: standard, cached input, batch (50% off), fine-tuning, embedding, image, audio, realtime, image generation. We break down every tier with real calculation examples.
Şükrü Yusuf KAYA
22 min read
Intermediate💼 Bu ders bir CFO mektup-tablosu
OpenAI'ın fiyat sayfasını (https://openai.com/api/pricing) bir kişi olarak okumak rüyalardadır. Bu derste her satırı sırasıyla geçeceğiz: hangi indirim ne zaman uygulanır, kaçırılan kalemler neler, hangi seçim hangi kullanım için ekonomik.
OpenAI fiyat şeması — 7 ana tier#
OpenAI fiyatlandırması 7 ana eksenden oluşur:
- Standart Chat Completions (gerçek zamanlı, sürekli rate)
- Cached Input (~50% indirim — otomatik tetiklenir)
- Batch API (50% indirim, 24h SLA)
- Fine-tuning (eğitim + hosted inference)
- Embedding (text-embedding-3-small, -large)
- Image (DALL-E ve gpt-image)
- Audio (Whisper, TTS, gpt-4o audio, realtime)
Şimdi tek tek...
1️⃣ Standart Chat Completions#
2026 Mayıs itibarıyla aktif model fiyatları:
| Model | Input ($/M) | Output ($/M) | Context |
|---|---|---|---|
| GPT-5 | $10.00 | $30.00 | 256K |
| GPT-5-mini | $0.40 | $1.60 | 128K |
| GPT-5-nano | $0.10 | $0.40 | 64K |
| GPT-4.1 (legacy) | $2.50 | $10.00 | 128K |
| GPT-4o (legacy) | $2.50 | $10.00 | 128K |
| GPT-4o-mini (legacy) | $0.15 | $0.60 | 128K |
| o3 (reasoning) | $2 | $8 + thinking | 200K |
| o3-mini | $1.10 | $4.40 + thinking | 128K |
| o1 (legacy) | $15 | $60 + thinking | 200K |
Önemli notlar#
⚠️ Reasoning modelleri (o3, o1, gpt-5-thinking): "thinking" output token'ları görünmez ama faturalanır. Default olarak ile ~2-5K ek thinking token bekle.
reasoning_effort: "medium"⚠️ Legacy modeller: GPT-4o, GPT-4o-mini hâlâ destekleniyor ama yeni projelerde GPT-5-mini, GPT-5-nano kullan — aynı kalite, 6× daha ucuz.
2️⃣ Cached Input — OpenAI'ın "%50 İndirim Sihri"#
2024 sonu eklenen feature. Aynı prefix'i tekrar gönderdiğinde OpenAI sunucusu otomatik cache hit yapar ve %50 indirim uygular.
Nasıl çalışır?#
- Sistem prompt + few-shot örnekleri = sabit (örn: 3.000 token)
- Kullanıcı sorusu = dinamik
-
- istekte sabit kısım cache'lenmiş = input'un yarısı %50 indirimli
Cached input fiyatları#
| Model | Standart Input | Cached Input | İndirim |
|---|---|---|---|
| GPT-5 | $10.00 | $1.25 | -87% ⭐ |
| GPT-5-mini | $0.40 | $0.10 | -75% |
| GPT-5-nano | $0.10 | $0.025 | -75% |
| GPT-4.1 | $2.50 | $0.625 | -75% |
| o3 | $2.00 | $0.50 | -75% |
GPT-5'in cached input fiyatı dramatik (1.25). Bu, OpenAI'ın yeni stratejisi: cache'i bilen kullansın.
Tetiklenme koşulu#
- Prefix en az 1024 token uzunluğunda olmalı
- TTL: 5-10 dakika (Anthropic'in 5dk-1h kontrolünden farklı, kullanıcı kontrol edemez)
- Bir önceki istekle birebir aynı başlangıç token'ları gerekli
- Tools, response_format, system message hepsi prefix'in parçası
Pro tip#
Prompt'unu sabit prefix → dinamik suffix olarak yapılandır. Tools listesini sırala (alfabetik). Kullanıcı verisini sona koy.
📊 Cache karşılaştırması: OpenAI vs Anthropic
OpenAI cached input: otomatik tetiklenir, 5-10dk TTL, ~50% indirim, kontrol yok. Anthropic prompt cache: breakpoint'lerle manuel, 5dk veya 1h TTL, 90% indirim, kontrol var. Anthropic daha güçlü ama daha fazla mühendislik gerektirir. Modül 7'de derinlemesine ele alacağız.
3️⃣ Batch API — %50 İndirim, 24h SLA#
Batch API mantığı: dosyasında 10.000 istek topla, OpenAI'a yükle, 24 saatte cevaplarını al, standart fiyatın yarısı.
my_requests.jsonlUygunluk kontrolü#
- ✅ Real-time UI'a bağlı olmayan iş yükleri
- ✅ Embeddings batch'leri
- ✅ Toplu özetleme, sınıflandırma, etiketleme
- ✅ Eval/test setleri çalıştırmak
- ❌ Chatbot
- ❌ Kullanıcı bekleyen herhangi bir iş
Batch fiyatları#
Tüm modellerde Batch input/output standart fiyatın 50%'si. Yani:
| Model | Standart In/Out | Batch In/Out |
|---|---|---|
| GPT-5 | 30 | 15 |
| GPT-5-mini | 1.60 | 0.80 |
| GPT-5-nano | 0.40 | 0.20 |
Batch + Cached input birleşir mi?#
Hayır. Batch API cache'i atlar. Ama Batch indirimi tek başına %50, cached input + standart kullanımı çoğu zaman daha iyidir karma iş yükünde.
Pratik örnek#
Aylık 1M embedding üretiyorsun (10M token):
- Standart: 10M × 1.30**
- Batch: 10M × 0.65**
Yıllık $7.80 tasarruf. Ufak ama compound — daha büyük iş yüklerinde kritik.
4️⃣ Fine-Tuning Fiyatları#
Fine-tune iki ana maliyet kalemi:
- Eğitim maliyeti (bir kerelik)
- Inference maliyeti (sonsuza kadar — biraz daha pahalı)
Eğitim fiyatları#
| Model | Eğitim ($/M token) |
|---|---|
| GPT-5-mini | $25 |
| GPT-5-nano | $8 |
| GPT-4o | $25 (legacy) |
| GPT-4o-mini | $8 (legacy) |
Inference fiyatları (fine-tuned modelde)#
| Model | Input ($/M) | Output ($/M) | Standart fiyat etkisi |
|---|---|---|---|
| FT GPT-5-mini | $0.60 | $2.40 | 1.5× zam |
| FT GPT-5-nano | $0.20 | $0.80 | 2× zam |
Break-even hesabı#
Diyelim 100K eğitim örneği × ortalama 1K token = 100M training tokens.
- Eğitim: 100M × 800** (GPT-5-nano FT)
- Inference: 0.10/M)
Fine-tuned modeli 4M istek × ortalama 1K input token kullanırsan:
- Eğitim ekstra: $800
- Inference ekstra: 4M × 1K × (0.10) = $400
Toplam ek maliyet $1.200 — ama eğer fine-tuning kalite kazandırıp daha küçük prompt'la çalışmana izin verirse (örn. 5K → 1K), tasarruf çıkar. Modül 13'te bu hesabı kapsamlı işliyoruz.
5️⃣ Embedding Fiyatları#
OpenAI embedding modelleri:
| Model | Boyut | Fiyat ($/M token) |
|---|---|---|
| text-embedding-3-large | 3072 | $0.13 |
| text-embedding-3-small | 1536 | $0.02 |
| text-embedding-ada-002 (legacy) | 1536 | $0.10 |
Ne zaman small, ne zaman large?#
- small: Sınıflandırma, basit RAG, semantic search çoğunluğu. Default'un bu olsun.
- large: Kompleks domain (legal, medical), multilingual yoğun, üst düzey RAG kalitesi.
Maliyet kıyaslaması#
1 milyon doküman × 500 token ortalama = 500M embed token:
- text-embedding-3-small: 500M × 10**
- text-embedding-3-large: 500M × 65**
6.5× fark. Çoğu zaman small yeterli. Modül 12'de Türkçe için BGE-M3, Voyage, Cohere alternatifleriyle karşılaştıracağız.
Embedding + Batch#
Embedding'i de Batch API'ye gönderebilirsin: +%50 ek indirim. 500M token small embed = $5.
6️⃣ Image — Image Generation Fiyatları#
gpt-image-1 (DALL-E'nin halefi, 2025 sonu çıktı)#
| Çözünürlük | Kalite | Fiyat / image |
|---|---|---|
| 1024×1024 | Standart | $0.040 |
| 1024×1024 | HD | $0.080 |
| 1792×1024 / 1024×1792 | Standart | $0.080 |
| 1792×1024 / 1024×1792 | HD | $0.120 |
Image input (vision) fiyatı#
Ders 1.6'da gösterdik — : 85 token sabit. : 85 + 170×(tile sayısı).
detail="low"detail="high"Image editing (gpt-image-1)#
Mevcut bir görseli düzenle (inpainting): 2× standart fiyat. 1024×1024 standard düzenleme = $0.080.
7️⃣ Audio — Whisper, TTS, Realtime#
Whisper (Speech-to-Text)#
- Whisper API: $0.006 / dakika
- 1 saatlik ses transkripsiyonu = $0.36
Text-to-Speech (TTS)#
- tts-1: $15 / M karakter
- tts-1-hd: $30 / M karakter
1000 kelimelik makaleyi sesli yapsan ~5500 karakter × 0.0825.
GPT-4o audio (native input + output)#
Bu, audio token'ı LLM'in doğrudan içine yedirir. Çok pahalı:
| Tip | Fiyat ($/M token) |
|---|---|
| Audio input | $40 |
| Audio output | $80 |
Native audio LLM, transkript + text LLM'den 5-10× pahalı. Sadece duygu/ton kritik ise.
Realtime API (Live conversation, WebSocket)#
- Audio input: $40/M
- Audio output: $80/M
- Text input: standart Chat Completion fiyatları
⚠️ Realtime API gerçek-zaman ses sohbet için (Siri tarzı). 300/ay.
OpenAI'da bilmiyorsan kaçırdığın 5 ek kalem#
1. Tool/function calling tokens#
Tool tanımlarının her isteğin input'una eklendiğini biliyor musun? 5 tool × 200 token tanım = 1000 ek input/istek. 100K istek = 100M ekstra token.
2. JSON mode/structured output prefill#
response_format={"type": "json_schema"}3. System fingerprint değişiklikleri#
Aynı modeli aynı promptla çağırırken değişirse cache hit miss. OpenAI bunu üst seviyede document etmiyor.
system_fingerprint4. Reasoning effort default#
o3reasoning_effort5. Web search tool#
ChatGPT-mode "web search" tool kullanılırsa: $30 / 1000 search. Agent'da uygunsuz kullanıldıkça hızlı şişer.
OpenAI seçim karar ağacı#
Real-time UX gerekli mi? ├── EVET → Standart Chat Completion │ ├── Aynı prefix tekrarlanıyor mu? │ │ ├── EVET → Cached input devrede (otomatik %50 indirim) │ │ └── HAYIR → Standart fiyat │ └── Reasoning gerekli mi? → o3-mini veya o3 └── HAYIR (24h beklerim) └── Batch API (%50 indirim) Embedding ise → text-embedding-3-small + Batch Audio transkript → Whisper API (cheap, kaliteli) Audio sohbet (native ses) → Realtime API (pahalı, ama UX süper)
🎯 Önemli stratejik gözlem
OpenAI'ın GPT-5 cached input %87 indirim stratejisi 2026'nın oyun değiştiren özelliği. Bir RAG pipeline'ı, sistem prompt 3K + retrieved chunks 5K + soru 200 token şeklinde yapılandırılırsa, ilk 8K'sı cached olur → maliyetin %87'si silinir. Modül 7'de bu pattern'i detayda.
Hesaplama Egzersizi#
Senaryo: Aylık 500K istek, ortalama:
- 4K input token (3K sabit sistem + 1K dinamik)
- 500 output token
- GPT-5 ile
Aşağıdaki 4 senaryoyu hesapla:
- Tüm istekler standart fiyatla
- Sabit kısım cached input (3K sabit, 1K dinamik)
- Tümü Batch API
- Cached input + Batch optimum karışım
Cevaplar bir sonraki derste — ya da kendin Python ile yaz, doğrula. Lab 2'nin temellerinden biri olacak.
▶️ Sıradaki ders
2.2 — Anthropic Fiyat Şeması. Claude ailesinin tier yapısı + prompt caching'in 90% indirim sihri + extended thinking + Batch API. OpenAI'dan farklı olarak Anthropic'in caching'i kontrol edilebilir — bu farkın ekonomisi büyük.
Frequently Asked Questions
Three reasons: (1) Reasoning tokens are invisible but billed, (2) Tool definitions get added to each request as input, (3) Cached input auto-triggers but the bill breaks it out separately. We'll track these line items with Langfuse in Module 3.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
Module 0: Why Cost, Why Now?
The AI Cost Explosion: Why Token Prices Fell 96% from 2022 to 2026 — Yet Bills Grew 40×
Start LearningModule 0: Why Cost, Why Now?
Unit Economics Vocabulary: COGS, Gross Margin, $/User, Contribution Margin — 9 Financial Concepts Every AI Engineer Must Know
Start LearningModule 0: Why Cost, Why Now?