Whisper local çalıştırmak için minimum hardware ne?

Whisper large-v3: 10GB VRAM (RTX 3080 12GB, RTX 4070, RTX 4090). Whisper medium: 5GB. RTX 4090'da Türkçe konuşmayı 30x realtime ile transkripte eder. KVKK uyumlu pipeline için harika seçenek.

Multimodal token'ları output olarak da görebilir miyim?

OpenAI ve Gemini multimodal output (image generation, audio generation) ayrı API'lerde — bu derste işlemedik. Onlar genelde sabit fiyat (per image, per audio second) ve text token fiyatından bağımsız. Modül 16'da product economics bağlamında işleyeceğiz.

Multimodal Token: Görsel, Ses, Video LLM'lerde Nasıl Fiyatlandırılır?

Metin tek başına değil — 2026'da neredeyse her LLM görsel, ses, video alabilir. Bir görsel kaç token? Bir saat ses kaç dolar? Bir 4K video pahalı mı? Sağlayıcıların radikal farklı yaklaşımları, hesap formülleri, gerçek lab örnekleriyle.

Şükrü Yusuf KAYA

22 dakikalık okuma

14.05.2026

Orta

Multimodal Token: Görsel, Ses, Video LLM'lerde Nasıl Fiyatlandırılır?

🎨🎵🎬 Üç yeni modalite, üç yeni maliyet senaryosu

Görsel: kabaca 100-1.500 token / fotoğraf. Ses: 50-100 token / saniye. Video: 100-300 token / saniye (frame + audio). Her sağlayıcının kendi formülü var. Bu derste o formülleri açacağız.

1️⃣ Görsel Token — Bir resim kaç token?#

Cevap modele göre çok değişir.

OpenAI (GPT-4o, GPT-5)#

Formül:

tile-based pricing

. Görsel 512×512 piksel "tile"lara bölünür.

Detail "low": 85 token sabit (image küçültülür, tek tile)
Detail "high": 85 + (170 × tile_count) token

Örnek: 1024×1024 görsel, detail high

Tile count = 4 (2×2)
Token = 85 + (170 × 4) = 765 token

Anthropic (Claude)#

Formül:

(width × height) / 750

token

1024×1024 görsel = (1024×1024) / 750 = 1.398 token

⚠️ En pahalı. Claude görsel başına Sonnet 4.6'da ~

0.0042 (

3/M × 1400).

Google Gemini#

Formül:

258 token / görsel

sabit (≤384×384 sonra resize)

Herhangi bir görsel: 258 token

✨ En ucuz. Görsel başına Gemini 2.5 Flash'ta $0.000019.

Karşılaştırma tablosu#

Sağlayıcı	1024×1024 görsel	Maliyet
GPT-5	765 token	$0.00765
Sonnet 4.6	1.398 token	$0.0042
Opus 4.7	1.398 token	$0.021
Gemini 2.5 Flash	258 token	$0.000019
Gemini 2.5 Pro	258 token	$0.000322

Aynı görsel için 1.100× fiyat farkı (Gemini Flash vs Opus). Bu, "görsel-yoğun" iş yüklerinde model seçiminin ne kadar kritik olduğunu gösteriyor.

💡 Pro tip: detail=low için cep harçlığı

OpenAI'da

detail="low"

her görseli 85 token'a düşürür. Yüksek çözünürlük gerekmiyorsa (örn: "görselde araba var mı?"), 9× ucuza aynı işi yaparsın. Modül 5'te bu prensibi detaylı işleyeceğiz.

Gerçek hayat görsel senaryosu#

Senaryo: Bir e-ticaret sitesi, kullanıcılar tarafından yüklenen ürün fotoğraflarından otomatik açıklama üretiyor. Aylık 100K görsel.

Model seçimi etkisi#

Model	Görsel başına maliyet	Aylık
Opus 4.7	$0.021 +$ 0.015 (output) = $0.036	$3.600
Sonnet 4.6	$0.0042 +$ 0.003 = $0.0072	$720
GPT-5	$0.0077 +$ 0.006 = $0.0137	$1.370
GPT-5-mini	$0.0003 +$ 0.0003 = $0.0006	$60
Gemini 2.5 Flash	$0.00002 +$ 0.00006 = $0.00008	$8

Opus → Gemini Flash farkı: 450×. Same task, same image, neredeyse aynı kalite (basit ürün açıklaması).

Görsel maliyet stratejileri#

Strateji 1 — Çözünürlük downsize#

Görsel önişleme: PIL/Pillow ile boyut küçült API'ye gönderirken.

from PIL import Image
img = Image.open("photo.jpg")
img.thumbnail((1024, 1024))  # max 1024 kenar
img.save("photo_small.jpg", quality=85)

5MB 4K görselden 200KB 1024px görsele = %95 boyut. Görsel token'ları %50-70 azalır.

Strateji 2 — Detail control#

OpenAI'da

detail="low"

(basit görev) veya

detail="auto"

(model karar versin).

Strateji 3 — Pre-filtering#

Her görseli LLM'e göndermeden önce bir CV modeli ile filtrele:

Bu görselde X var mı? → küçük CNN ile evet/hayır
Sadece evet'lerin LLM'e gönder

Modül 6'da bu pattern'i detaylı işleyeceğiz.

Strateji 4 — Gemini-first for vision#

Gemini Flash görsel için muhteşem ucuz. Görsel ağırlıklı pipeline'ında default olsun.

2️⃣ Ses Token — Saniye başına ne öderiz?#

Ses iki şekilde işlenir:

Transcript (Whisper, Deepgram, AssemblyAI gibi STT servisleri)
Native audio (GPT-4o audio, Gemini audio — LLM doğrudan dinler)

Transcript yaklaşımı#

Sağlayıcı	Fiyat	Notlar
OpenAI Whisper API	$0.006/dakika	Çok düşük latency, mükemmel kalite
Deepgram Nova-3	$0.0043/dakika	Türkçe destek var, çoklu speaker
AssemblyAI	$0.005/dakika	Speaker diarization dahil
Local Whisper (large-v3)	$0 (GPU saat)	Open source, self-host

Bir saatlik ses transkripsiyonu: ~

0.30-0.40 (cloud) veya ~

0.05 (self-host).

Native audio yaklaşımı#

Model	Audio input token rate
GPT-4o audio	32 token/saniye
Gemini 2.5 (audio)	32 token/saniye

Bir saatlik ses → 32 × 3600 = 115.200 token.

Gemini 2.5 Pro: 115K × $1.25/M = **$ 0.144** (sadece input)
GPT-4o audio: 115K × $40/M (audio özel fiyat) = **$ 4.60**

⚠️ OpenAI'ın audio input fiyatı text input'tan 5-10× yüksek. Anthropic henüz native audio sunmuyor (2026 Q2).

Ses pipeline karar matrisi#

Transcript yeterli mi? (sadece ne söylendiği önemli)

✅ Evet → Whisper/Deepgram + text LLM = $0.30/saat
❌ Hayır (ton, duygu, speaker önemli) → native audio LLM = $4-5/saat

Self-host edilebilir mi? (data privacy, KVKK)

✅ Evet → local Whisper large-v3 (1 RTX 4090 = saatte 60 saat ses transkripsiyonu)

Anlık latency önemli mi?

✅ Evet → Deepgram streaming ($0.005/dk + 100ms latency)
❌ Hayır → batch Whisper

🎯 Pro öneri

Üretimdeki ses iş yüklerinin %90'ında transcript yaklaşımı yeterli ve dramatik ucuz. Native audio sadece duygu/ton/speaker-attribution gibi gerçekten ses-spesifik işlerde değer. Default'unu transcript + text LLM yap.

3️⃣ Video Token — Saniye başına maliyet patlaması#

Video = görsel sekansı + ses. Maliyet hızla katlanır.

Gemini 2.5 video#

Gemini natively video alır. Formül:

Default mode (low-res): 1 frame/saniye, 258 token/frame, 32 token/sn audio = 290 token/saniye
High-res mode: 1 frame/saniye, 1024 token/frame = 1.056 token/saniye

Video uzunluğu	Default	High-res
1 dakika	17.400 token	63.360 token
10 dakika	174K	633K
1 saat	1.04M	3.8M

Maliyet (Gemini 2.5 Pro, default mode)#

1 dakika: 17K × $1.25/M = **$ 0.022**
10 dakika: 174K × $1.25/M = **$ 0.218**
1 saat: 1.04M × $2.50/M (200K üstü tier!) = **$ 2.60**

GPT-5 video (frame extraction)#

GPT-5 native video desteklemiyor (2026 Q2). Onun yerine:

Video'yu ffmpeg ile frame'lere ayır
Her frame'i image olarak gönder

Bir dakikalık video, 30 fps:

1800 frame × 765 token = 1.4M token
$1.4M ×$ 10/M (GPT-5) = $14/dakika ⚠️ ölümcül pahalı

GPT-5 video için Gemini'den 600× daha pahalı.

Anthropic video#

Native video desteği yok (2026 Q2). Multi-image olarak parçalanır.

🎬 Video uyarısı

Video iş yüklerinde sağlayıcı seçimi belirleyici. Gemini Pro / Flash neredeyse default seçim. GPT/Claude video için kullanmak (multi-image fallback) 8-50× pahalıya gelir. Eğer use case'in video ise, Gemini'yi öncelik yap.

Video maliyet stratejileri#

Strateji 1 — Frame skipping#

30 fps videodan saniyede 1 frame al → token sayısı 30× azalır. Çoğu video analizi için yeterli (snapshot kalitesi).

Strateji 2 — Audio-first approach#

Eğer videoda asıl içerik konuşma ise:

Audio'yu çıkar (ffmpeg
-vn
flag)
Whisper ile transkript et ($0.006/dk)
Sadece transkripti LLM'e gönder

90% maliyet düşüşü birçok use case'te.

Strateji 3 — Önişleme#

Video'yu önce CV ile filtrele:

Sahne değişikliklerini tespit et
Sadece değişen sahneleri LLM'e gönder

Strateji 4 — Düşük çözünürlük#

1080p → 480p resize: %75 token tasarrufu

Strateji 5 — Gemini'nin native video API'sini kullan#

Frame-by-frame işleme yerine Gemini'nin video processing'ini kullan — built-in batching ile %30 daha ucuz.

Lab — Multimodal maliyet hesaplayıcısı yaz#

Aşağıdaki fonksiyonu kendin yaz, test et:

python

def multimodal_cost(
    text_input_tokens: int = 0,
    text_output_tokens: int = 0,
    image_count: int = 0,
    image_resolution: tuple = (1024, 1024),
    audio_seconds: int = 0,
    video_seconds: int = 0,
    model: str = "gemini-2.5-flash",
) -> dict:
    """Multimodal istek maliyetini tahmin eder."""
 
    # Model fiyatları (sadeleştirilmiş)
    MODELS = {
        "gpt-5":          {"in": 10.0, "out": 30.0, "img_token": "tile", "audio_token_per_sec": 32, "video_native": False},
        "sonnet-4.6":     {"in": 3.0,  "out": 15.0, "img_token": "anth", "audio_token_per_sec": None, "video_native": False},
        "gemini-2.5-pro": {"in": 1.25, "out": 5.0,  "img_token": 258, "audio_token_per_sec": 32, "video_native": True},
        "gemini-2.5-flash": {"in": 0.075, "out": 0.30, "img_token": 258, "audio_token_per_sec": 32, "video_native": True},
    }
    m = MODELS[model]
 
    # Görsel token hesabı
    if m["img_token"] == "tile":
        # OpenAI tile-based
        w, h = image_resolution
        tiles = max(1, ((w + 511) // 512) * ((h + 511) // 512))
        img_tokens = image_count * (85 + 170 * tiles)
    elif m["img_token"] == "anth":
        w, h = image_resolution
        img_tokens = image_count * (w * h // 750)
    else:
        img_tokens = image_count * m["img_token"]
 
    # Ses token hesabı
    audio_tokens = 0
    if m["audio_token_per_sec"] and audio_seconds:
        audio_tokens = audio_seconds * m["audio_token_per_sec"]
 
    # Video token hesabı (Gemini native)
    video_tokens = 0
    if m["video_native"] and video_seconds:
        video_tokens = video_seconds * 290  # default mode
 
    total_in = text_input_tokens + img_tokens + audio_tokens + video_tokens
    input_cost = total_in / 1_000_000 * m["in"]
    output_cost = text_output_tokens / 1_000_000 * m["out"]
 
    return {
        "model": model,
        "text_in": text_input_tokens,
        "img_tokens": img_tokens,
        "audio_tokens": audio_tokens,
        "video_tokens": video_tokens,
        "total_input": total_in,
        "input_cost_usd": round(input_cost, 5),
        "output_cost_usd": round(output_cost, 5),
        "total_cost_usd": round(input_cost + output_cost, 5),
    }
 
# Test: 10 dakikalık video analizi
for model in ["gemini-2.5-flash", "gemini-2.5-pro", "gpt-5", "sonnet-4.6"]:
    cost = multimodal_cost(
        text_input_tokens=500,
        text_output_tokens=300,
        video_seconds=600,
        model=model,
    )
    print(f"{cost['model']:18}: ${cost['total_cost_usd']:.4f}")

Multimodal cost calculator — 4 modelde 10 dakikalık video analizi karşılaştırması.

Özet — Multimodal seçim kuralları#

Modalite	Default seçim	Sebep
Görsel (ucuz iş)	Gemini Flash	$0.00002/görsel — neredeyse ücretsiz
Görsel (kaliteli analiz)	Sonnet 4.6	Görsel anlamada sınıfın en iyisi
Ses (transkript)	Whisper API	$0.006/dk, mükemmel kalite
Ses (native, duygu)	Gemini 2.5 Pro	Native audio + ucuz
Video	Gemini 2.5 (native)	Frame-by-frame'den 10-50× ucuza

Kursta sürekli dönüp duracağımız temel: doğru iş, doğru model.

🎉 Modül 1 Tamamlandı

Token anatomisini artık biliyorsun: ne, neden, kim daha verimli, Türkçe penalty, input vs output, context window, multimodal. Bu temel olmadan bundan sonraki teknik modüllerin hiçbiri tam oturmaz. Şimdi Lab 1'i yapma zamanı.

🧪 Lab 1 — Token Karşılaştırma Tablosu (Çalışmasını Bekliyorum)#

Görev: 10 kendi Türkçe metnin için 6 tokenizer'da token sayım tablonu üret.

Adımlar:

tokenizer_compare.py
scriptini al (Ders 1.2)
10 metin seç — kendi domain'inden (e-ticaret/fintech/sağlık/eğitim — sana göre)
Hepsini scriptten geçir
Sonuçları CSV'ye yaz:
text_id, char, word, gpt, claude, gemini, llama, mistral, deepseek
En verimli ve en verimsiz tokenizer'ı kayıt altına al
(Bonus) Aynı metinlerin İngilizce çevirilerini yapıp Türkçe Penalty tablosunu çıkar

Çıktı: Bir CSV dosyası + 1 paragraf gözlem. Modül 2'ye giderken bu tabloyu yanında bulundur — orada fiyat hesaplarını yaparken kullanacağız.

🚀 Modül 2'ye hazır mısın?

Modül 2: Fiyatlandırma Manzarası 2026. Şu ana kadar parça parça gördüğümüz fiyatları sistematik tabloya dökeceğiz: OpenAI 7 tier, Anthropic 4 tier, Gemini 3 tier, AWS/Azure enterprise, self-host break-even. Bütün fiyat sayfalarını biz okuyacağız ki sen okumayasın.

Sık Sorulan Sorular

Kuralım: kullanıcı sadece 'görselde ne var' tipi cevap istiyorsa low. Sayı okuma, metin transkripsiyon, küçük detay analizi gerekiyorsa high. Auto modunda OpenAI çoğunlukla "high" seçer — kontrolü ele al, default'u low yap, gerektiğinde override et.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Modül 0: Neden Maliyet, Neden Şimdi?

1️⃣ Görsel Token — Bir resim kaç token?#

OpenAI (GPT-4o, GPT-5)#

Anthropic (Claude)#

Google Gemini#

Karşılaştırma tablosu#

Gerçek hayat görsel senaryosu#

Model seçimi etkisi#

Görsel maliyet stratejileri#

Strateji 1 — Çözünürlük downsize#

Strateji 2 — Detail control#

Strateji 3 — Pre-filtering#

Strateji 4 — Gemini-first for vision#

2️⃣ Ses Token — Saniye başına ne öderiz?#

Transcript yaklaşımı#

Native audio yaklaşımı#

Ses pipeline karar matrisi#

3️⃣ Video Token — Saniye başına maliyet patlaması#

Gemini 2.5 video#

Maliyet (Gemini 2.5 Pro, default mode)#

GPT-5 video (frame extraction)#

Anthropic video#

Video maliyet stratejileri#

Strateji 1 — Frame skipping#

Strateji 2 — Audio-first approach#

Strateji 3 — Önişleme#

Strateji 4 — Düşük çözünürlük#

Strateji 5 — Gemini'nin native video API'sini kullan#

Lab — Multimodal maliyet hesaplayıcısı yaz#

Özet — Multimodal seçim kuralları#

🧪 Lab 1 — Token Karşılaştırma Tablosu (Çalışmasını Bekliyorum)#

Sık Sorulan Sorular

Görsel detail=low / detail=high seçimini ne zaman değiştirmeli?

Whisper local çalıştırmak için minimum hardware ne?

Multimodal token'ları output olarak da görebilir miyim?

Yorumlar & Soru-Cevap

İlgili İçerikler

AI Maliyet Patlaması: 2022'den 2026'ya Token Fiyatları Neden %96 Düştü Ama Faturalar Neden 40 Kat Arttı?

Birim Ekonomisi Sözlüğü: COGS, Gross Margin, $/User, Contribution Margin — Mühendisin Bilmesi Gereken 9 Finansal Kavram

Atölyemizin Aletleri: Kurs Boyunca Kullanacağımız 11 Aracın Hızlı Turu