Skip to content

The Cost of Chain-of-Thought: "Think Step by Step" Can Inflate Your Bill 3-10×

CoT (chain-of-thought) prompting improves accuracy by 20-40% in some tasks. But it inflates output tokens 3-10×. This lesson covers CoT cost vs accuracy across 5 task types and when to use it.

Şükrü Yusuf KAYA
16 min read
Intermediate
Chain-of-Thought'un Maliyeti: "Adım Adım Düşün" Demek Faturanı 3-10× Şişirebilir
🧠 "Adım adım düşün" — Ne zaman söylemeli?
CoT prompting AI dünyasının en ünlü tekniklerinden. Ama "her prompt'a koyarsan iyi olur" yaklaşımı maliyeti yiyor. Bu derste ne zaman ve ne zaman değil sorusunu cevaplıyoruz.

CoT Nedir?#

Model'e cevap üretmeden önce düşünme sürecini yazmasını söylersin.

Zero-shot#

Soru: 100 elma var. 1/3'ünü Ali aldı. Geri kalan 60'ı bölüştürelim 4 kişiye. Her kişiye kaç elma düşer? Cevap: 15

CoT#

Soru: 100 elma var. ... Adım adım düşün. Cevap: 1. Başlangıçta 100 elma. 2. Ali 1/3 aldı: 100/3 ≈ 33 elma. Kalan 67. 3. Soruda kalan 60 deniyor — yani Ali tam olarak 100/3 değil, tutarlı olarak 40 almış. 4. 60 elma / 4 kişi = 15 elma. Cevap: 15
CoT 5× daha uzun ama daha doğru.

Maliyet Deneyi — 5 Görev Tipi#

Aynı görevleri zero-shot ve CoT ile test ettim. Sonnet 4.6 ile.

Görev 1 — Basit FAQ classification#

Zero-shotCoT
Output tokens580
Accuracy91%92%
$/istek$0.0008$0.0019
Verdict✅ Zero-shot kazanır❌ CoT israf

Görev 2 — Customer email categorization#

Zero-shotCoT
Output8120
Accuracy76%88%
$/istek$0.0009$0.0026
Verdict⚠️ Trade-off✅ CoT değer (+12 accuracy)

Görev 3 — Math word problem#

Zero-shotCoT
Output10280
Accuracy42%83%
$/istek$0.0010$0.0048
Verdict❌ Zero-shot yetersiz✅ CoT zorunlu (+41 accuracy)

Görev 4 — Code refactor (small)#

Zero-shotCoT
Output200600
Accuracy71%80%
$/istek$0.0036$0.0102
Verdict⚠️ Marginal⚠️ Borderline

Görev 5 — Multi-step planning (10 step itinerary)#

Zero-shotCoT
Output4001500
Accuracy55%87%
$/istek$0.0066$0.0231
Verdict❌ Yetersiz✅ CoT zorunlu (+32 accuracy)

CoT Karar Çerçevesi#

CoT'u kullanma kararı için 3 soru:

Soru 1 — Görev gerçekten çok adımlı reasoning mi?#

  • ✅ Math, code, planning, complex causality
  • ❌ Classification, extraction, simple Q&A

Soru 2 — Zero-shot accuracy'in kabul edilebilir mi?#

  • Eğer zero-shot %85+ accuracy veriyorsa, CoT genelde değmez
  • Eğer zero-shot %60'tan az, CoT zorunlu olabilir

Soru 3 — Output kullanıcıya gösteriliyor mu?#

  • Eğer evet — kullanıcı CoT trace'ini görmek istemez, sadece sonucu ister
  • Eğer hayır (internal/agent) — CoT okay

Karar Matrisi#

GörevKarmaşıklıkAccuracy hedefiTavsiye
ClassificationDüşük>%85Zero-shot + few-shot
ExtractionDüşük>%85Zero-shot + structured output
Q&A (single hop)Düşük>%85Zero-shot
MathYüksek>%80CoT
Multi-step planningYüksek>%75CoT
Code generationOrta>%75CoT (selective)
Customer supportOrta>%85Few-shot, no CoT

"Hidden CoT" Pattern — Cevap Verirken Düşün, Sonra Sil#

Eğer CoT accuracy için lazım ama user'a CoT trace'i göstermek istemiyorsan:
Sistem prompt: "Soruyu cevaplamadan önce <think>...</think> tag'leri içinde adım adım düşün. Cevabını <answer>...</answer> içinde ver. Sadece <answer> kısmı kullanıcıya gösterilecek."
response = completion(model=..., messages=[...]) text = response.choices[0].message.content # Parse import re think_match = re.search(r"<think>(.*?)</think>", text, re.DOTALL) answer_match = re.search(r"<answer>(.*?)</answer>", text, re.DOTALL) answer_only = answer_match.group(1) if answer_match else text # User'a sadece answer göster return answer_only
⚠️ Maliyet azaltmıyor — token hâlâ üretiliyor. Sadece UX iyileştiriyor.

Maliyet azaltmak için: reasoning model + budget#

Modern modellerdeki extended thinking / reasoning_effort parametreleri, CoT'u modelin native şekilde yapmasına izin veriyor. Tasarruf burada gelmiyor — düşünme token'ları yine output fiyatı. Ama:
  1. Quality lift CoT manuel prompt'tan daha yüksek olabiliyor
  2. Token verimliliği biraz daha iyi (model native olarak hangi kadar düşünmesi gerektiğini bilir)

CoT Alternatifleri#

CoT pahalıysa diğer accuracy-artırıcı teknikleri dene:

Alternatif 1 — Few-shot ile örnek pattern göster#

3 örnek vererek modeli aynı doğruluğa çekebilirsin, CoT'un yarısı token.

Alternatif 2 — Self-consistency (sample N times, majority vote)#

3 farklı zero-shot çağrı + majority vote = CoT seviyesi accuracy Maliyet: 3× zero-shot << CoT

Alternatif 3 — Daha güçlü model + zero-shot#

GPT-5-mini + CoT vs Sonnet 4.6 zero-shot — ikincisi genelde benzer accuracy, daha az token.

Alternatif 4 — Fine-tuning#

Görev tekrarlanıyorsa fine-tune et — CoT yokluğunda da accuracy yüksek. Modül 13.

Özet — CoT ne zaman?#

KULLAN:
  • Math/calculation görevi
  • Multi-step reasoning (planning, debugging)
  • Karmaşık causality
  • Internal agent, kullanıcı görmüyor
KULLANMA:
  • Classification, extraction, simple Q&A
  • Output kullanıcıya direkt gösteriliyor
  • Zero-shot accuracy zaten yüksek
  • Real-time UX (CoT latency artırır)
DİKKAT ET:
  • Default thinking budget (Modül 2.3)
  • max_tokens cap (CoT'u kontrolsüz uzatmasın)
  • Hidden CoT pattern ile UX/maliyet ayır
▶️ Sıradaki ders
5.5 — Structured Output Tuzakları. JSON mode, response_format, tool_use forçalama — bunlar output'u kısaltır mı, uzatır mı? Cevap: ikisi de mümkün — pattern'e göre.

Frequently Asked Questions

No — reasoning models do CoT internally. Adding manual 'think step by step' usually duplicates work, wastes tokens. Just give the task data, control via reasoning_effort.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content

Connected pillar topics

Pillar topics this article maps to