The Cost of Chain-of-Thought: "Think Step by Step" Can Inflate Your Bill 3-10×
CoT (chain-of-thought) prompting improves accuracy by 20-40% in some tasks. But it inflates output tokens 3-10×. This lesson covers CoT cost vs accuracy across 5 task types and when to use it.
Şükrü Yusuf KAYA
16 min read
Intermediate🧠 "Adım adım düşün" — Ne zaman söylemeli?
CoT prompting AI dünyasının en ünlü tekniklerinden. Ama "her prompt'a koyarsan iyi olur" yaklaşımı maliyeti yiyor. Bu derste ne zaman ve ne zaman değil sorusunu cevaplıyoruz.
CoT Nedir?#
Model'e cevap üretmeden önce düşünme sürecini yazmasını söylersin.
Zero-shot#
Soru: 100 elma var. 1/3'ünü Ali aldı. Geri kalan 60'ı bölüştürelim 4 kişiye. Her kişiye kaç elma düşer? Cevap: 15
CoT#
Soru: 100 elma var. ... Adım adım düşün. Cevap: 1. Başlangıçta 100 elma. 2. Ali 1/3 aldı: 100/3 ≈ 33 elma. Kalan 67. 3. Soruda kalan 60 deniyor — yani Ali tam olarak 100/3 değil, tutarlı olarak 40 almış. 4. 60 elma / 4 kişi = 15 elma. Cevap: 15
CoT 5× daha uzun ama daha doğru.
Maliyet Deneyi — 5 Görev Tipi#
Aynı görevleri zero-shot ve CoT ile test ettim. Sonnet 4.6 ile.
Görev 1 — Basit FAQ classification#
| Zero-shot | CoT | |
|---|---|---|
| Output tokens | 5 | 80 |
| Accuracy | 91% | 92% |
| $/istek | $0.0008 | $0.0019 |
| Verdict | ✅ Zero-shot kazanır | ❌ CoT israf |
Görev 2 — Customer email categorization#
| Zero-shot | CoT | |
|---|---|---|
| Output | 8 | 120 |
| Accuracy | 76% | 88% |
| $/istek | $0.0009 | $0.0026 |
| Verdict | ⚠️ Trade-off | ✅ CoT değer (+12 accuracy) |
Görev 3 — Math word problem#
| Zero-shot | CoT | |
|---|---|---|
| Output | 10 | 280 |
| Accuracy | 42% | 83% |
| $/istek | $0.0010 | $0.0048 |
| Verdict | ❌ Zero-shot yetersiz | ✅ CoT zorunlu (+41 accuracy) |
Görev 4 — Code refactor (small)#
| Zero-shot | CoT | |
|---|---|---|
| Output | 200 | 600 |
| Accuracy | 71% | 80% |
| $/istek | $0.0036 | $0.0102 |
| Verdict | ⚠️ Marginal | ⚠️ Borderline |
Görev 5 — Multi-step planning (10 step itinerary)#
| Zero-shot | CoT | |
|---|---|---|
| Output | 400 | 1500 |
| Accuracy | 55% | 87% |
| $/istek | $0.0066 | $0.0231 |
| Verdict | ❌ Yetersiz | ✅ CoT zorunlu (+32 accuracy) |
CoT Karar Çerçevesi#
CoT'u kullanma kararı için 3 soru:
Soru 1 — Görev gerçekten çok adımlı reasoning mi?#
- ✅ Math, code, planning, complex causality
- ❌ Classification, extraction, simple Q&A
Soru 2 — Zero-shot accuracy'in kabul edilebilir mi?#
- Eğer zero-shot %85+ accuracy veriyorsa, CoT genelde değmez
- Eğer zero-shot %60'tan az, CoT zorunlu olabilir
Soru 3 — Output kullanıcıya gösteriliyor mu?#
- Eğer evet — kullanıcı CoT trace'ini görmek istemez, sadece sonucu ister
- Eğer hayır (internal/agent) — CoT okay
Karar Matrisi#
| Görev | Karmaşıklık | Accuracy hedefi | Tavsiye |
|---|---|---|---|
| Classification | Düşük | >%85 | Zero-shot + few-shot |
| Extraction | Düşük | >%85 | Zero-shot + structured output |
| Q&A (single hop) | Düşük | >%85 | Zero-shot |
| Math | Yüksek | >%80 | CoT |
| Multi-step planning | Yüksek | >%75 | CoT |
| Code generation | Orta | >%75 | CoT (selective) |
| Customer support | Orta | >%85 | Few-shot, no CoT |
"Hidden CoT" Pattern — Cevap Verirken Düşün, Sonra Sil#
Eğer CoT accuracy için lazım ama user'a CoT trace'i göstermek istemiyorsan:
Sistem prompt: "Soruyu cevaplamadan önce <think>...</think> tag'leri içinde adım adım düşün. Cevabını <answer>...</answer> içinde ver. Sadece <answer> kısmı kullanıcıya gösterilecek."
response = completion(model=..., messages=[...]) text = response.choices[0].message.content # Parse import re think_match = re.search(r"<think>(.*?)</think>", text, re.DOTALL) answer_match = re.search(r"<answer>(.*?)</answer>", text, re.DOTALL) answer_only = answer_match.group(1) if answer_match else text # User'a sadece answer göster return answer_only
⚠️ Maliyet azaltmıyor — token hâlâ üretiliyor. Sadece UX iyileştiriyor.
Maliyet azaltmak için: reasoning model + budget#
Modern modellerdeki extended thinking / reasoning_effort parametreleri, CoT'u modelin native şekilde yapmasına izin veriyor. Tasarruf burada gelmiyor — düşünme token'ları yine output fiyatı. Ama:
- Quality lift CoT manuel prompt'tan daha yüksek olabiliyor
- Token verimliliği biraz daha iyi (model native olarak hangi kadar düşünmesi gerektiğini bilir)
CoT Alternatifleri#
CoT pahalıysa diğer accuracy-artırıcı teknikleri dene:
Alternatif 1 — Few-shot ile örnek pattern göster#
3 örnek vererek modeli aynı doğruluğa çekebilirsin, CoT'un yarısı token.
Alternatif 2 — Self-consistency (sample N times, majority vote)#
3 farklı zero-shot çağrı + majority vote = CoT seviyesi accuracy Maliyet: 3× zero-shot << CoT
Alternatif 3 — Daha güçlü model + zero-shot#
GPT-5-mini + CoT vs Sonnet 4.6 zero-shot — ikincisi genelde benzer accuracy, daha az token.
Alternatif 4 — Fine-tuning#
Görev tekrarlanıyorsa fine-tune et — CoT yokluğunda da accuracy yüksek. Modül 13.
Özet — CoT ne zaman?#
KULLAN:
- Math/calculation görevi
- Multi-step reasoning (planning, debugging)
- Karmaşık causality
- Internal agent, kullanıcı görmüyor
KULLANMA:
- Classification, extraction, simple Q&A
- Output kullanıcıya direkt gösteriliyor
- Zero-shot accuracy zaten yüksek
- Real-time UX (CoT latency artırır)
DİKKAT ET:
- Default thinking budget (Modül 2.3)
- max_tokens cap (CoT'u kontrolsüz uzatmasın)
- Hidden CoT pattern ile UX/maliyet ayır
▶️ Sıradaki ders
5.5 — Structured Output Tuzakları. JSON mode, response_format, tool_use forçalama — bunlar output'u kısaltır mı, uzatır mı? Cevap: ikisi de mümkün — pattern'e göre.
Frequently Asked Questions
No — reasoning models do CoT internally. Adding manual 'think step by step' usually duplicates work, wastes tokens. Just give the task data, control via reasoning_effort.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
Module 0: Why Cost, Why Now?
The AI Cost Explosion: Why Token Prices Fell 96% from 2022 to 2026 — Yet Bills Grew 40×
Start LearningModule 0: Why Cost, Why Now?
Unit Economics Vocabulary: COGS, Gross Margin, $/User, Contribution Margin — 9 Financial Concepts Every AI Engineer Must Know
Start LearningModule 0: Why Cost, Why Now?
Workshop Toolkit: A Quick Tour of the 11 Tools We'll Use Throughout the Course
Start LearningConnected pillar topics