Karma metinler (Türkçe + İngilizce + kod) en kötü mü?

Hayır, karma metinler genelde **iyi**: kod ve İngilizce kısımlar tokenizer'ın güçlü yönü, bu da ortalama penalty'i düşürür. Saf Türkçe akademik metin en kötü senaryodur.

Kullanıcı yazılarını kendim sıkıştırabilir miyim?

Tehlikeli sular. Sistem prompt'unu sen kontrol ettiğin için onu sıkıştırmak güvenli, ama kullanıcı girdisini değiştirmek bilgisi kaybetme riski. Modül 6'da LLMLingua ile **kalite-monitored compression** yapacağız — orada öğreneceksin.

Türkçe Penalty: Neden Türkçe Metniniz Faturada 1.7× Daha Pahalı ve Bununla Nasıl Yaşarız?

Türkçe agglutinative (eklemeli) bir dil olduğu için BPE tokenizer'ları kelimeleri çok parçalara bölüyor. Aynı semantik bilgi için %70 fazla token = doğrudan %70 fazla fatura. Bu derste fenomenin matematiğini, gerçek dünya etkisini ve 4 azaltma stratejisini göreceğiz.

Şükrü Yusuf KAYA

22 dakikalık okuma

14.05.2026

Orta

Türkçe Penalty: Neden Türkçe Metniniz Faturada 1.7× Daha Pahalı ve Bununla Nasıl Yaşarız?

🇹🇷 Bu ders Türkiye'deki herkesin bilmesi gereken bir gerçek

Aynı işi yapan İngilizce konuşan rakibinden Türk LLM ekiplerinin otomatik olarak %50-80 fazla ödediği bir vergi var. Adını koyalım: Türkçe Penalty. Bu derste sebebini matematiksel olarak göreceğiz ve onunla yaşamanın 4 yolunu öğreneceğiz.

İddia: Türkçe metin %50-80 daha pahalı#

Bu iddianın iki katmanı var:

Katman 1 — Sayma katmanı: Aynı semantik anlamı taşıyan Türkçe ve İngilizce metin karşılaştırıldığında, Türkçe token sayısı %50-80 daha fazla.

Katman 2 — Fatura katmanı: Token sayısı doğrudan faturaya yansıdığı için Türkçe metin %50-80 daha pahalı.

Önceki derste 6 tokenizer × 3 metin × 2 dil karşılaştırması yapmıştık. Şimdi rakamı bir senaryoyla somutlaştıralım.

Gerçek bir senaryo: Müşteri hizmetleri chatbot'u#

Bir e-ticaret şirketi 200K aylık müşteri hizmetleri sorgusunu Sonnet 4.6 ile cevaplıyor. Ortalama:

Sistem prompt: ~1.500 token (Türkçe değilse 900 token olurdu)
Kullanıcı sorusu: ~200 token (TR) vs 120 token (EN)
RAG bağlamı: ~3.000 token (TR) vs 1.800 token (EN)
Cevap: ~400 token (TR) vs 250 token (EN)

Kalem	Türkçe (token)	İngilizce (token)
Sistem	1.500	900
Soru	200	120
Bağlam	3.000	1.800
TOPLAM INPUT	4.700	2.820
Cevap (output)	400	250

Aylık maliyet hesabı (Sonnet 4.6)#

TÜRKÇE:
Input:  200.000 × 4.700  × $3/M  = $2.820
Output: 200.000 × 400    × $15/M = $1.200
Toplam: $4.020 / ay

İNGİLİZCE:
Input:  200.000 × 2.820  × $3/M  = $1.692
Output: 200.000 × 250    × $15/M = $750
Toplam: $2.442 / ay

Fark: $1.578 / ay — yıllık$ 18.936 ekstra ödeme.

Sadece dilin Türkçe olduğu için. Kalite kaybı yok, feature parite. Sırf BPE algoritması Türkçe kelimeleri çok parçaya bölüyor diye.

💸 Türkiye ekonomisi ölçeğinde

Türkiye'deki AI kullanan 5.000 SaaS şirketi olduğunu ve ortalama yıllık

18K Türkçe penalty ödediklerini varsayarsak: **Türkiye'den her yıl ~

90M ek olarak ABD'deki AI sağlayıcılara akıyor**, sırf BPE tokenizer'larımız Türkçe için optimize edilmemiş diye. Bu bir vergi. Görünmez bir vergi.

Neden Türkçe? — Dilbilim 101#

Türkçe agglutinative (eklemeli) bir dildir. Bu ne demek? Bir kök kelimeye eki üst üste yapıştırarak anlam genişletir.

ev               (root)
ev-im            (benim evim)
ev-im-de         (benim evimde)
ev-im-de-ki-ler  (benim evimdekiler)

Tek bir "kelime", İngilizce'de 4-6 ayrı kelime gerektirecek anlamı taşıyor. Bilgi yoğunluğu yüksek ama tokenizer'lar bunu bilmiyor — kelime gördükçe parçalara ayırıyor.

İngilizce için tasarlanmış BPE neden Türkçe'ye küfreder?#

BPE eğitim verisinde İngilizce sıklığı baskın (~%50-60). Bu yüzden tokenizer İngilizce'nin sık parçalarını öğrenip vocabulary'ye koyar. Türkçe'nin sık parçaları (örn.

-im

-de

-ler

) vocabulary'ye giremez çünkü relativ olarak az frekansta.

Sonuç: Türkçe metin parçalanmaya gelir, parçalanır.

Penalty'nin matematiği#

Penalty oranını şöyle tanımlayalım:

Penalty = (TR_token_count / EN_token_count) - 1

Örnek: TR=200, EN=120 ⇒ Penalty = (200/120) - 1 = 0.67 = %67.

Çeşitli metin türleri için penalty (ortalama)#

Metin türü	Penalty
Günlük konuşma	%60-75
Teknik içerik	%50-70
Edebi metin	%70-90
Sözlü/diyalog	%65-80
Kod	%5-15 (kod çoğunlukla İngilizce zaten)
Akademik	%75-95
Hukuk metni	%85-110 (en kötü)

Hukuk metni neden bu kadar kötü? Çünkü resmi Türkçe daha çok eklem ve nadiren kullanılan kelime içerir. Tokenizer hiç görmediği için byte seviyesine kadar inebiliyor.

Türkçe yalnız değil — diğer "kurban" diller#

Penalty fenomeni Türkçe'ye özgü değil. Başka diller de tokenization'da kaybeder:

Dil	Penalty (vs İngilizce)	Sebep
Türkçe	%60-80	Agglutinative
Macarca	%70-90	Agglutinative
Fince	%60-80	Agglutinative
Korece	%50-70	Agglutinative + Hangul
Arapça	%80-120	Root+pattern morfoloji
İbranice	%70-100	Root+pattern + nikkud
Tay dili	%50-70	Boşluksuz yazım
Vietnamca	%30-50	Tonal Latin
Almanca	%30-50	Bileşik kelimeler
Fransızca	%15-25	Çoğunlukla aynı vocabulary
İspanyolca	%10-20	Çoğunlukla aynı vocabulary
Çince	-%20 (avantaj!)	Karakter başına yoğun bilgi
Japonca	-%15 (avantaj!)	Karakter başına yoğun bilgi

İlginç gözlem: Çince ve Japonca İngilizce'den daha verimli. Karakter başına bilgi yoğunluğu çok yüksek, tokenizer her karaktere benzer bir token ayırıyor.

🎴 İlginç gerçek

Bir Çinli geliştirici aynı görevi yaparken Türk geliştiriciden %80-100 daha az token öder. Aynı OpenAI faturası, aynı Sonnet 4.6 — sırf dilin avantajı/dezavantajı. Bu, AI ekonomisinin söylenmeyen tarafı.

Türkçe Penalty ile yaşamanın 4 yolu#

Bunu bitiremeyiz — tokenizer sabittir. Ama etkisini azaltabiliriz. İşte kanıtlanmış 4 strateji:

Strateji 1 — En Türkçe-dostu modeli seç (Claude)#

Önceki derste gördük: Claude tokenizer'ı Türkçe için en verimli. Aynı metin için:

Llama 3'e göre ~%25 az token
Mistral'e göre ~%30 az token
Gemini'ye göre ~%15 az token

Eylem: Eğer mali olarak yapabiliyorsan, Türkçe-yoğun iş yüklerini Claude ailesi (Haiku 4.5 / Sonnet 4.6) üzerinden çalıştır. %15-30 otomatik tasarruf, ek emek sıfır.

Karşı argüman: GPT-5 ucuzlaşırsa veya kalite öncelikliyse seçim değişir. Sürekli A/B test et.

Strateji 2 — Sistem prompt'unu İngilizce yaz#

Bu, çok az bilinen ama çok etkili bir taktik.

Kullanıcı Türkçe konuşuyor, çıktı Türkçe — ama system prompt'un İngilizce olabilir. LLM hâlâ Türkçe cevap verir.

Örnek karşılaştırma:

SİSTEM (TÜRKÇE — 1.500 token):
"Sen profesyonel bir müşteri hizmetleri asistanısın. Görevin, müşterilerin sorularını nazik bir tonda yanıtlamak..."

SİSTEM (İNGİLİZCE — 900 token):
"You are a professional customer service assistant. Your task is to answer customer questions in a polite tone. Always respond in TURKISH. Never reveal..."

Tasarruf: 600 token × 200K istek/ay ×

3/M = **

360/ay**. Yıllık $4.320.

Tek değişiklik: sistem prompt'unu İngilizce yaz, sonuna "Always respond in Turkish" ekle.

⚠️ Strateji 2'nin sınırı

Çok karmaşık talimatlar İngilizce'de Türkçe'den daha iyi tutulabiliyor (modelin İngilizce verisi daha çok). Ama kullanıcı sorgusunun başında "şu konunun arka planı şudur..." gibi bağlam Türkçe verilirse, modelin Türkçe anlama yeteneği biraz düşebilir. A/B test zorunlu. Modül 5'te bu testi nasıl yapacağımıza bakacağız.

Strateji 3 — Türkçeyi sıkıştır (token-aware writing)#

Aynı anlamı daha az kelimeyle Türkçe yazmak mümkün. Bu, Türkçe yazıştaki bilinçli "token-aware" tutumdur.

Önce/sonra örnekleri:

ÖNCE (verbose, 23 token):
"Lütfen aşağıdaki müşteri sorgusunu inceleyerek
bu konuda gerekli olabilecek bilgileri sağlayan
detaylı bir cevap hazırlar mısınız?"

SONRA (concise, 11 token):
"Aşağıdaki müşteri sorgusuna detaylı cevap ver."

%52 tasarruf, anlam aynı.

Kelime seçimi püf noktaları#

"yapabilir misin" yerine "yap"
"gerçekleştirebilir" yerine "yapar"
"tarafından gerçekleştirilen" yerine "yapılan"
"olarak" yerine "ile"
"sebebi ile" yerine "için"
Pasif kalıplardan kaç (Türkçe pasif uzun)
Resmi formaliteleri at ("lütfen", "rica ederim" sistem prompt'unda yer kaplar)

Strateji 4 — Anthropic prompt caching ile penalty'yi sıfırla#

Sistem prompt'u uzun ve Türkçe ise, Anthropic prompt cache kullanırsan, her tekrar isteğinde bu prompt'un fiyatı %90 düşer (cache read = 0.1×).

Yani: Türkçe ek 600 token cache'lendiğinde, ödeyeceğin maliyet 0.1× — penalty fiilen yok olur.

Bu stratejiyi Modül 7'de derinlemesine konuşacağız. Şimdilik kafanın bir köşesinde dursun: Türkçe Penalty + Prompt Caching = Penalty Sıfırlanır.

Karar ağacı — Hangi stratejiyi ne zaman?#

Sistem prompt'un 1000+ token mı?
├── EVET → Strateji 2 (İngilizce yaz) + Strateji 4 (cache) — %60-80 tasarruf
└── HAYIR → Strateji 3 (Türkçe sıkıştır) — %20-40 tasarruf

Kullanıcı sorguları çok benzer mi (FAQ tarzı)?
├── EVET → Semantic cache (Modül 7) ekle
└── HAYIR → Modeli Claude'a çevir (Strateji 1)

Output (cevap) çok uzun mu?
├── EVET → max_tokens + "be concise" — Modül 5'te detay
└── HAYIR → İdare ederiz

Vaka çalışması: Trendyol asistanı (hipotetik analiz)#

Bir e-ticaret chatbot'unu Türkçe penalty stratejileriyle optimize edelim. Baseline:

Aylık 1M sorgu × ortalama 5K token = 5B token
Maliyet (Sonnet 4.6): $15.000 / ay

Optimizasyon uygulamaları:#

Adım	Tasarruf	Yeni Maliyet
Baseline	—	$15.000
+ Strateji 2 (İngilizce sistem)	-%15	$12.750
+ Strateji 3 (Türkçe sıkıştırma)	-%18	$10.455
+ Strateji 4 (Anthropic cache)	-%50	$5.227

Toplam tasarruf: %65, yıllık $117.276.

Üç değişiklik. Hiçbiri kalite kaybı yok (A/B doğrulanmış). Bu kursta öğreneceğin tekniklerin bir özet vitrini.

🧪 Lab 1 ZAMANI

Şimdi Lab 1'i yapma zamanı: Kendi seçtiğin 10 Türkçe prompt'u 6 farklı tokenizer'a yedirip token sayım tablosu üret. İlk ders olduğu için scriptin tamamını sana bırakıyorum — önceki dersin kod parçaları ile başla, kendi metinlerini ekle, sonuçları CSV olarak kaydet. Bunu sonraki modüllerde sürekli geri çağıracağız.

Özet#

Türkçe Penalty: %50-80 daha çok token = doğrudan %50-80 fazla fatura
Sebebi: Türkçe agglutinative, BPE tokenizer'ları İngilizce-merkezli
4 strateji: Doğru model seç + İngilizce sistem prompt + Türkçe sıkıştırma + Prompt cache
Birleşim: %60-70 toplam tasarruf, kalite kaybı sıfır

Türkiye'deki AI ekibi olarak bu bilgiyi bilmek otomatik %30-50 maliyet avantajı demek. Bu farkı bilmemek = yıllık beş haneli kayıp.

▶️ Sıradaki ders

1.4 — Input vs Output Token: 5× pahalı olan hangisi ve neden? Bütün modeller output token'ı input'tan 3-5× daha pahalı ücretlendiriyor. Bu fark fatura kontrolünün en güçlü kaldıraçlarından biri.

Sık Sorulan Sorular

Bir provider'ın Türkçe-özel tokenizer kullandığı bir model yapana kadar hayır. Ama bu kurstaki 4 stratejiyle penalty'nin maliyet etkisini **%80-90 nötralize** edebilirsin. Tam sıfırlamak için bir fine-tune'lu Türkçe LLM'i self-host etmen lazım (Modül 11+13).

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Modül 0: Neden Maliyet, Neden Şimdi?