Skip to content

OpenAI Pricing Schema Deep Dive: 7 Tiers, 12 Products, 3 Discounts — What to Use When

OpenAI's pricing page has 12 products, each with 3-5 options: standard, cached input, batch (50% off), fine-tuning, embedding, image, audio, realtime, image generation. We break down every tier with real calculation examples.

Şükrü Yusuf KAYA
22 min read
Intermediate
OpenAI Fiyat Şeması Tam Analizi: 7 Tier, 12 Ürün, 3 İndirim — Hangisini Ne Zaman?
💼 Bu ders bir CFO mektup-tablosu
OpenAI'ın fiyat sayfasını (https://openai.com/api/pricing) bir kişi olarak okumak rüyalardadır. Bu derste her satırı sırasıyla geçeceğiz: hangi indirim ne zaman uygulanır, kaçırılan kalemler neler, hangi seçim hangi kullanım için ekonomik.

OpenAI fiyat şeması — 7 ana tier#

OpenAI fiyatlandırması 7 ana eksenden oluşur:
  1. Standart Chat Completions (gerçek zamanlı, sürekli rate)
  2. Cached Input (~50% indirim — otomatik tetiklenir)
  3. Batch API (50% indirim, 24h SLA)
  4. Fine-tuning (eğitim + hosted inference)
  5. Embedding (text-embedding-3-small, -large)
  6. Image (DALL-E ve gpt-image)
  7. Audio (Whisper, TTS, gpt-4o audio, realtime)
Şimdi tek tek...

1️⃣ Standart Chat Completions#

2026 Mayıs itibarıyla aktif model fiyatları:
ModelInput ($/M)Output ($/M)Context
GPT-5$10.00$30.00256K
GPT-5-mini$0.40$1.60128K
GPT-5-nano$0.10$0.4064K
GPT-4.1 (legacy)$2.50$10.00128K
GPT-4o (legacy)$2.50$10.00128K
GPT-4o-mini (legacy)$0.15$0.60128K
o3 (reasoning)$2$8 + thinking200K
o3-mini$1.10$4.40 + thinking128K
o1 (legacy)$15$60 + thinking200K

Önemli notlar#

⚠️ Reasoning modelleri (o3, o1, gpt-5-thinking): "thinking" output token'ları görünmez ama faturalanır. Default olarak
reasoning_effort: "medium"
ile ~2-5K ek thinking token bekle.
⚠️ Legacy modeller: GPT-4o, GPT-4o-mini hâlâ destekleniyor ama yeni projelerde GPT-5-mini, GPT-5-nano kullan — aynı kalite, 6× daha ucuz.

2️⃣ Cached Input — OpenAI'ın "%50 İndirim Sihri"#

2024 sonu eklenen feature. Aynı prefix'i tekrar gönderdiğinde OpenAI sunucusu otomatik cache hit yapar ve %50 indirim uygular.

Nasıl çalışır?#

  • Sistem prompt + few-shot örnekleri = sabit (örn: 3.000 token)
  • Kullanıcı sorusu = dinamik
    1. istekte sabit kısım cache'lenmiş = input'un yarısı %50 indirimli

Cached input fiyatları#

ModelStandart InputCached Inputİndirim
GPT-5$10.00$1.25-87%
GPT-5-mini$0.40$0.10-75%
GPT-5-nano$0.10$0.025-75%
GPT-4.1$2.50$0.625-75%
o3$2.00$0.50-75%
GPT-5'in cached input fiyatı dramatik (1010 → 1.25). Bu, OpenAI'ın yeni stratejisi: cache'i bilen kullansın.

Tetiklenme koşulu#

  • Prefix en az 1024 token uzunluğunda olmalı
  • TTL: 5-10 dakika (Anthropic'in 5dk-1h kontrolünden farklı, kullanıcı kontrol edemez)
  • Bir önceki istekle birebir aynı başlangıç token'ları gerekli
  • Tools, response_format, system message hepsi prefix'in parçası

Pro tip#

Prompt'unu sabit prefix → dinamik suffix olarak yapılandır. Tools listesini sırala (alfabetik). Kullanıcı verisini sona koy.
📊 Cache karşılaştırması: OpenAI vs Anthropic
OpenAI cached input: otomatik tetiklenir, 5-10dk TTL, ~50% indirim, kontrol yok. Anthropic prompt cache: breakpoint'lerle manuel, 5dk veya 1h TTL, 90% indirim, kontrol var. Anthropic daha güçlü ama daha fazla mühendislik gerektirir. Modül 7'de derinlemesine ele alacağız.

3️⃣ Batch API — %50 İndirim, 24h SLA#

Batch API mantığı:
my_requests.jsonl
dosyasında 10.000 istek topla, OpenAI'a yükle, 24 saatte cevaplarını al, standart fiyatın yarısı.

Uygunluk kontrolü#

  • ✅ Real-time UI'a bağlı olmayan iş yükleri
  • ✅ Embeddings batch'leri
  • ✅ Toplu özetleme, sınıflandırma, etiketleme
  • ✅ Eval/test setleri çalıştırmak
  • ❌ Chatbot
  • ❌ Kullanıcı bekleyen herhangi bir iş

Batch fiyatları#

Tüm modellerde Batch input/output standart fiyatın 50%'si. Yani:
ModelStandart In/OutBatch In/Out
GPT-510/10 / 305/5 / 15
GPT-5-mini0.40/0.40 / 1.600.20/0.20 / 0.80
GPT-5-nano0.10/0.10 / 0.400.05/0.05 / 0.20

Batch + Cached input birleşir mi?#

Hayır. Batch API cache'i atlar. Ama Batch indirimi tek başına %50, cached input + standart kullanımı çoğu zaman daha iyidir karma iş yükünde.

Pratik örnek#

Aylık 1M embedding üretiyorsun (10M token):
  • Standart: 10M × 0.13/M=0.13/M = **1.30**
  • Batch: 10M × 0.065/M=0.065/M = **0.65**
Yıllık $7.80 tasarruf. Ufak ama compound — daha büyük iş yüklerinde kritik.

4️⃣ Fine-Tuning Fiyatları#

Fine-tune iki ana maliyet kalemi:
  1. Eğitim maliyeti (bir kerelik)
  2. Inference maliyeti (sonsuza kadar — biraz daha pahalı)

Eğitim fiyatları#

ModelEğitim ($/M token)
GPT-5-mini$25
GPT-5-nano$8
GPT-4o$25 (legacy)
GPT-4o-mini$8 (legacy)

Inference fiyatları (fine-tuned modelde)#

ModelInput ($/M)Output ($/M)Standart fiyat etkisi
FT GPT-5-mini$0.60$2.401.5× zam
FT GPT-5-nano$0.20$0.80 zam

Break-even hesabı#

Diyelim 100K eğitim örneği × ortalama 1K token = 100M training tokens.
  • Eğitim: 100M × 8=8 = **800** (GPT-5-nano FT)
  • Inference: 0.20/Minput(vsstandart0.20/M input (vs standart 0.10/M)
Fine-tuned modeli 4M istek × ortalama 1K input token kullanırsan:
  • Eğitim ekstra: $800
  • Inference ekstra: 4M × 1K × (0.200.20-0.10) = $400
Toplam ek maliyet $1.200 — ama eğer fine-tuning kalite kazandırıp daha küçük prompt'la çalışmana izin verirse (örn. 5K → 1K), tasarruf çıkar. Modül 13'te bu hesabı kapsamlı işliyoruz.

5️⃣ Embedding Fiyatları#

OpenAI embedding modelleri:
ModelBoyutFiyat ($/M token)
text-embedding-3-large3072$0.13
text-embedding-3-small1536$0.02
text-embedding-ada-002 (legacy)1536$0.10

Ne zaman small, ne zaman large?#

  • small: Sınıflandırma, basit RAG, semantic search çoğunluğu. Default'un bu olsun.
  • large: Kompleks domain (legal, medical), multilingual yoğun, üst düzey RAG kalitesi.

Maliyet kıyaslaması#

1 milyon doküman × 500 token ortalama = 500M embed token:
  • text-embedding-3-small: 500M × 0.02/M=0.02/M = **10**
  • text-embedding-3-large: 500M × 0.13/M=0.13/M = **65**
6.5× fark. Çoğu zaman small yeterli. Modül 12'de Türkçe için BGE-M3, Voyage, Cohere alternatifleriyle karşılaştıracağız.

Embedding + Batch#

Embedding'i de Batch API'ye gönderebilirsin: +%50 ek indirim. 500M token small embed = $5.

6️⃣ Image — Image Generation Fiyatları#

gpt-image-1 (DALL-E'nin halefi, 2025 sonu çıktı)#

ÇözünürlükKaliteFiyat / image
1024×1024Standart$0.040
1024×1024HD$0.080
1792×1024 / 1024×1792Standart$0.080
1792×1024 / 1024×1792HD$0.120

Image input (vision) fiyatı#

Ders 1.6'da gösterdik —
detail="low"
: 85 token sabit.
detail="high"
: 85 + 170×(tile sayısı).

Image editing (gpt-image-1)#

Mevcut bir görseli düzenle (inpainting): 2× standart fiyat. 1024×1024 standard düzenleme = $0.080.

7️⃣ Audio — Whisper, TTS, Realtime#

Whisper (Speech-to-Text)#

  • Whisper API: $0.006 / dakika
  • 1 saatlik ses transkripsiyonu = $0.36

Text-to-Speech (TTS)#

  • tts-1: $15 / M karakter
  • tts-1-hd: $30 / M karakter
1000 kelimelik makaleyi sesli yapsan ~5500 karakter × 0.000015=0.000015 = 0.0825.

GPT-4o audio (native input + output)#

Bu, audio token'ı LLM'in doğrudan içine yedirir. Çok pahalı:
TipFiyat ($/M token)
Audio input$40
Audio output$80
Native audio LLM, transkript + text LLM'den 5-10× pahalı. Sadece duygu/ton kritik ise.

Realtime API (Live conversation, WebSocket)#

  • Audio input: $40/M
  • Audio output: $80/M
  • Text input: standart Chat Completion fiyatları
⚠️ Realtime API gerçek-zaman ses sohbet için (Siri tarzı). 0.06/dakikaortalamayıvur.Aylık1000aktifkullanıcı,ortalama5dakikasohbet=0.06/dakika ortalamayı vur. Aylık 1000 aktif kullanıcı, ortalama 5 dakika sohbet = 300/ay.

OpenAI'da bilmiyorsan kaçırdığın 5 ek kalem#

1. Tool/function calling tokens#

Tool tanımlarının her isteğin input'una eklendiğini biliyor musun? 5 tool × 200 token tanım = 1000 ek input/istek. 100K istek = 100M ekstra token.

2. JSON mode/structured output prefill#

response_format={"type": "json_schema"}
kullandığında OpenAI ek prefill yapıyor — küçük ama ölçülebilir.

3. System fingerprint değişiklikleri#

Aynı modeli aynı promptla çağırırken
system_fingerprint
değişirse cache hit miss. OpenAI bunu üst seviyede document etmiyor.

4. Reasoning effort default#

o3
ile
reasoning_effort
belirtmezsen "medium" — ortalama 2K-5K thinking token. Aylık 10K istek × 3K thinking × 8/M=8/M = **240 fark**.

5. Web search tool#

ChatGPT-mode "web search" tool kullanılırsa: $30 / 1000 search. Agent'da uygunsuz kullanıldıkça hızlı şişer.

OpenAI seçim karar ağacı#

Real-time UX gerekli mi? ├── EVET → Standart Chat Completion │ ├── Aynı prefix tekrarlanıyor mu? │ │ ├── EVET → Cached input devrede (otomatik %50 indirim) │ │ └── HAYIR → Standart fiyat │ └── Reasoning gerekli mi? → o3-mini veya o3 └── HAYIR (24h beklerim) └── Batch API (%50 indirim) Embedding ise → text-embedding-3-small + Batch Audio transkript → Whisper API (cheap, kaliteli) Audio sohbet (native ses) → Realtime API (pahalı, ama UX süper)
🎯 Önemli stratejik gözlem
OpenAI'ın GPT-5 cached input %87 indirim stratejisi 2026'nın oyun değiştiren özelliği. Bir RAG pipeline'ı, sistem prompt 3K + retrieved chunks 5K + soru 200 token şeklinde yapılandırılırsa, ilk 8K'sı cached olur → maliyetin %87'si silinir. Modül 7'de bu pattern'i detayda.

Hesaplama Egzersizi#

Senaryo: Aylık 500K istek, ortalama:
  • 4K input token (3K sabit sistem + 1K dinamik)
  • 500 output token
  • GPT-5 ile
Aşağıdaki 4 senaryoyu hesapla:
  1. Tüm istekler standart fiyatla
  2. Sabit kısım cached input (3K sabit, 1K dinamik)
  3. Tümü Batch API
  4. Cached input + Batch optimum karışım
Cevaplar bir sonraki derste — ya da kendin Python ile yaz, doğrula. Lab 2'nin temellerinden biri olacak.
▶️ Sıradaki ders
2.2 — Anthropic Fiyat Şeması. Claude ailesinin tier yapısı + prompt caching'in 90% indirim sihri + extended thinking + Batch API. OpenAI'dan farklı olarak Anthropic'in caching'i kontrol edilebilir — bu farkın ekonomisi büyük.

Frequently Asked Questions

Three reasons: (1) Reasoning tokens are invisible but billed, (2) Tool definitions get added to each request as input, (3) Cached input auto-triggers but the bill breaks it out separately. We'll track these line items with Langfuse in Module 3.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content