İçeriğe geç

OpenAI Fiyat Şeması Tam Analizi: 7 Tier, 12 Ürün, 3 İndirim — Hangisini Ne Zaman?

OpenAI'ın fiyat sayfasında 12 ürün, her birinde 3-5 ek seçenek var: standart, cached input, batch (50% indirim), fine-tuning, embedding, image, audio, realtime, image generation. Her tier'ı gerçek hesap örnekleriyle döküyoruz.

Şükrü Yusuf KAYA
22 dakikalık okuma
Orta
OpenAI Fiyat Şeması Tam Analizi: 7 Tier, 12 Ürün, 3 İndirim — Hangisini Ne Zaman?
💼 Bu ders bir CFO mektup-tablosu
OpenAI'ın fiyat sayfasını (https://openai.com/api/pricing) bir kişi olarak okumak rüyalardadır. Bu derste her satırı sırasıyla geçeceğiz: hangi indirim ne zaman uygulanır, kaçırılan kalemler neler, hangi seçim hangi kullanım için ekonomik.

OpenAI fiyat şeması — 7 ana tier#

OpenAI fiyatlandırması 7 ana eksenden oluşur:
  1. Standart Chat Completions (gerçek zamanlı, sürekli rate)
  2. Cached Input (~50% indirim — otomatik tetiklenir)
  3. Batch API (50% indirim, 24h SLA)
  4. Fine-tuning (eğitim + hosted inference)
  5. Embedding (text-embedding-3-small, -large)
  6. Image (DALL-E ve gpt-image)
  7. Audio (Whisper, TTS, gpt-4o audio, realtime)
Şimdi tek tek...

1️⃣ Standart Chat Completions#

2026 Mayıs itibarıyla aktif model fiyatları:
ModelInput ($/M)Output ($/M)Context
GPT-5$10.00$30.00256K
GPT-5-mini$0.40$1.60128K
GPT-5-nano$0.10$0.4064K
GPT-4.1 (legacy)$2.50$10.00128K
GPT-4o (legacy)$2.50$10.00128K
GPT-4o-mini (legacy)$0.15$0.60128K
o3 (reasoning)$2$8 + thinking200K
o3-mini$1.10$4.40 + thinking128K
o1 (legacy)$15$60 + thinking200K

Önemli notlar#

⚠️ Reasoning modelleri (o3, o1, gpt-5-thinking): "thinking" output token'ları görünmez ama faturalanır. Default olarak
reasoning_effort: "medium"
ile ~2-5K ek thinking token bekle.
⚠️ Legacy modeller: GPT-4o, GPT-4o-mini hâlâ destekleniyor ama yeni projelerde GPT-5-mini, GPT-5-nano kullan — aynı kalite, 6× daha ucuz.

2️⃣ Cached Input — OpenAI'ın "%50 İndirim Sihri"#

2024 sonu eklenen feature. Aynı prefix'i tekrar gönderdiğinde OpenAI sunucusu otomatik cache hit yapar ve %50 indirim uygular.

Nasıl çalışır?#

  • Sistem prompt + few-shot örnekleri = sabit (örn: 3.000 token)
  • Kullanıcı sorusu = dinamik
    1. istekte sabit kısım cache'lenmiş = input'un yarısı %50 indirimli

Cached input fiyatları#

ModelStandart InputCached Inputİndirim
GPT-5$10.00$1.25-87%
GPT-5-mini$0.40$0.10-75%
GPT-5-nano$0.10$0.025-75%
GPT-4.1$2.50$0.625-75%
o3$2.00$0.50-75%
GPT-5'in cached input fiyatı dramatik (1010 → 1.25). Bu, OpenAI'ın yeni stratejisi: cache'i bilen kullansın.

Tetiklenme koşulu#

  • Prefix en az 1024 token uzunluğunda olmalı
  • TTL: 5-10 dakika (Anthropic'in 5dk-1h kontrolünden farklı, kullanıcı kontrol edemez)
  • Bir önceki istekle birebir aynı başlangıç token'ları gerekli
  • Tools, response_format, system message hepsi prefix'in parçası

Pro tip#

Prompt'unu sabit prefix → dinamik suffix olarak yapılandır. Tools listesini sırala (alfabetik). Kullanıcı verisini sona koy.
📊 Cache karşılaştırması: OpenAI vs Anthropic
OpenAI cached input: otomatik tetiklenir, 5-10dk TTL, ~50% indirim, kontrol yok. Anthropic prompt cache: breakpoint'lerle manuel, 5dk veya 1h TTL, 90% indirim, kontrol var. Anthropic daha güçlü ama daha fazla mühendislik gerektirir. Modül 7'de derinlemesine ele alacağız.

3️⃣ Batch API — %50 İndirim, 24h SLA#

Batch API mantığı:
my_requests.jsonl
dosyasında 10.000 istek topla, OpenAI'a yükle, 24 saatte cevaplarını al, standart fiyatın yarısı.

Uygunluk kontrolü#

  • ✅ Real-time UI'a bağlı olmayan iş yükleri
  • ✅ Embeddings batch'leri
  • ✅ Toplu özetleme, sınıflandırma, etiketleme
  • ✅ Eval/test setleri çalıştırmak
  • ❌ Chatbot
  • ❌ Kullanıcı bekleyen herhangi bir iş

Batch fiyatları#

Tüm modellerde Batch input/output standart fiyatın 50%'si. Yani:
ModelStandart In/OutBatch In/Out
GPT-510/10 / 305/5 / 15
GPT-5-mini0.40/0.40 / 1.600.20/0.20 / 0.80
GPT-5-nano0.10/0.10 / 0.400.05/0.05 / 0.20

Batch + Cached input birleşir mi?#

Hayır. Batch API cache'i atlar. Ama Batch indirimi tek başına %50, cached input + standart kullanımı çoğu zaman daha iyidir karma iş yükünde.

Pratik örnek#

Aylık 1M embedding üretiyorsun (10M token):
  • Standart: 10M × 0.13/M=0.13/M = **1.30**
  • Batch: 10M × 0.065/M=0.065/M = **0.65**
Yıllık $7.80 tasarruf. Ufak ama compound — daha büyük iş yüklerinde kritik.

4️⃣ Fine-Tuning Fiyatları#

Fine-tune iki ana maliyet kalemi:
  1. Eğitim maliyeti (bir kerelik)
  2. Inference maliyeti (sonsuza kadar — biraz daha pahalı)

Eğitim fiyatları#

ModelEğitim ($/M token)
GPT-5-mini$25
GPT-5-nano$8
GPT-4o$25 (legacy)
GPT-4o-mini$8 (legacy)

Inference fiyatları (fine-tuned modelde)#

ModelInput ($/M)Output ($/M)Standart fiyat etkisi
FT GPT-5-mini$0.60$2.401.5× zam
FT GPT-5-nano$0.20$0.80 zam

Break-even hesabı#

Diyelim 100K eğitim örneği × ortalama 1K token = 100M training tokens.
  • Eğitim: 100M × 8=8 = **800** (GPT-5-nano FT)
  • Inference: 0.20/Minput(vsstandart0.20/M input (vs standart 0.10/M)
Fine-tuned modeli 4M istek × ortalama 1K input token kullanırsan:
  • Eğitim ekstra: $800
  • Inference ekstra: 4M × 1K × (0.200.20-0.10) = $400
Toplam ek maliyet $1.200 — ama eğer fine-tuning kalite kazandırıp daha küçük prompt'la çalışmana izin verirse (örn. 5K → 1K), tasarruf çıkar. Modül 13'te bu hesabı kapsamlı işliyoruz.

5️⃣ Embedding Fiyatları#

OpenAI embedding modelleri:
ModelBoyutFiyat ($/M token)
text-embedding-3-large3072$0.13
text-embedding-3-small1536$0.02
text-embedding-ada-002 (legacy)1536$0.10

Ne zaman small, ne zaman large?#

  • small: Sınıflandırma, basit RAG, semantic search çoğunluğu. Default'un bu olsun.
  • large: Kompleks domain (legal, medical), multilingual yoğun, üst düzey RAG kalitesi.

Maliyet kıyaslaması#

1 milyon doküman × 500 token ortalama = 500M embed token:
  • text-embedding-3-small: 500M × 0.02/M=0.02/M = **10**
  • text-embedding-3-large: 500M × 0.13/M=0.13/M = **65**
6.5× fark. Çoğu zaman small yeterli. Modül 12'de Türkçe için BGE-M3, Voyage, Cohere alternatifleriyle karşılaştıracağız.

Embedding + Batch#

Embedding'i de Batch API'ye gönderebilirsin: +%50 ek indirim. 500M token small embed = $5.

6️⃣ Image — Image Generation Fiyatları#

gpt-image-1 (DALL-E'nin halefi, 2025 sonu çıktı)#

ÇözünürlükKaliteFiyat / image
1024×1024Standart$0.040
1024×1024HD$0.080
1792×1024 / 1024×1792Standart$0.080
1792×1024 / 1024×1792HD$0.120

Image input (vision) fiyatı#

Ders 1.6'da gösterdik —
detail="low"
: 85 token sabit.
detail="high"
: 85 + 170×(tile sayısı).

Image editing (gpt-image-1)#

Mevcut bir görseli düzenle (inpainting): 2× standart fiyat. 1024×1024 standard düzenleme = $0.080.

7️⃣ Audio — Whisper, TTS, Realtime#

Whisper (Speech-to-Text)#

  • Whisper API: $0.006 / dakika
  • 1 saatlik ses transkripsiyonu = $0.36

Text-to-Speech (TTS)#

  • tts-1: $15 / M karakter
  • tts-1-hd: $30 / M karakter
1000 kelimelik makaleyi sesli yapsan ~5500 karakter × 0.000015=0.000015 = 0.0825.

GPT-4o audio (native input + output)#

Bu, audio token'ı LLM'in doğrudan içine yedirir. Çok pahalı:
TipFiyat ($/M token)
Audio input$40
Audio output$80
Native audio LLM, transkript + text LLM'den 5-10× pahalı. Sadece duygu/ton kritik ise.

Realtime API (Live conversation, WebSocket)#

  • Audio input: $40/M
  • Audio output: $80/M
  • Text input: standart Chat Completion fiyatları
⚠️ Realtime API gerçek-zaman ses sohbet için (Siri tarzı). 0.06/dakikaortalamayıvur.Aylık1000aktifkullanıcı,ortalama5dakikasohbet=0.06/dakika ortalamayı vur. Aylık 1000 aktif kullanıcı, ortalama 5 dakika sohbet = 300/ay.

OpenAI'da bilmiyorsan kaçırdığın 5 ek kalem#

1. Tool/function calling tokens#

Tool tanımlarının her isteğin input'una eklendiğini biliyor musun? 5 tool × 200 token tanım = 1000 ek input/istek. 100K istek = 100M ekstra token.

2. JSON mode/structured output prefill#

response_format={"type": "json_schema"}
kullandığında OpenAI ek prefill yapıyor — küçük ama ölçülebilir.

3. System fingerprint değişiklikleri#

Aynı modeli aynı promptla çağırırken
system_fingerprint
değişirse cache hit miss. OpenAI bunu üst seviyede document etmiyor.

4. Reasoning effort default#

o3
ile
reasoning_effort
belirtmezsen "medium" — ortalama 2K-5K thinking token. Aylık 10K istek × 3K thinking × 8/M=8/M = **240 fark**.

5. Web search tool#

ChatGPT-mode "web search" tool kullanılırsa: $30 / 1000 search. Agent'da uygunsuz kullanıldıkça hızlı şişer.

OpenAI seçim karar ağacı#

Real-time UX gerekli mi? ├── EVET → Standart Chat Completion │ ├── Aynı prefix tekrarlanıyor mu? │ │ ├── EVET → Cached input devrede (otomatik %50 indirim) │ │ └── HAYIR → Standart fiyat │ └── Reasoning gerekli mi? → o3-mini veya o3 └── HAYIR (24h beklerim) └── Batch API (%50 indirim) Embedding ise → text-embedding-3-small + Batch Audio transkript → Whisper API (cheap, kaliteli) Audio sohbet (native ses) → Realtime API (pahalı, ama UX süper)
🎯 Önemli stratejik gözlem
OpenAI'ın GPT-5 cached input %87 indirim stratejisi 2026'nın oyun değiştiren özelliği. Bir RAG pipeline'ı, sistem prompt 3K + retrieved chunks 5K + soru 200 token şeklinde yapılandırılırsa, ilk 8K'sı cached olur → maliyetin %87'si silinir. Modül 7'de bu pattern'i detayda.

Hesaplama Egzersizi#

Senaryo: Aylık 500K istek, ortalama:
  • 4K input token (3K sabit sistem + 1K dinamik)
  • 500 output token
  • GPT-5 ile
Aşağıdaki 4 senaryoyu hesapla:
  1. Tüm istekler standart fiyatla
  2. Sabit kısım cached input (3K sabit, 1K dinamik)
  3. Tümü Batch API
  4. Cached input + Batch optimum karışım
Cevaplar bir sonraki derste — ya da kendin Python ile yaz, doğrula. Lab 2'nin temellerinden biri olacak.
▶️ Sıradaki ders
2.2 — Anthropic Fiyat Şeması. Claude ailesinin tier yapısı + prompt caching'in 90% indirim sihri + extended thinking + Batch API. OpenAI'dan farklı olarak Anthropic'in caching'i kontrol edilebilir — bu farkın ekonomisi büyük.

Sık Sorulan Sorular

Üç sebep: (1) Reasoning token'lar görünmez ama faturalanır, (2) Tool definition'lar her isteğe input olarak eklenir, (3) Cached input otomatik tetiklenir ama fatura bunu ayrıştırıyor. Modül 3'te Langfuse ile bu kalemleri ayrıntılı izleyeceğiz.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler