How effective is self-consistency (N sample + vote)?

In math/logic tasks, 3 samples + vote captures 85-95% of single CoT. 5 samples + vote, 95-100%. Cost is 3-5× zero-shot but can run in parallel, no latency increase. Module 14 has agent economics detail.

The Cost of Chain-of-Thought: "Think Step by Step" Can Inflate Your Bill 3-10×

CoT (chain-of-thought) prompting improves accuracy by 20-40% in some tasks. But it inflates output tokens 3-10×. This lesson covers CoT cost vs accuracy across 5 task types and when to use it.

Şükrü Yusuf KAYA

16 min read

5/14/2026

Intermediate

Chain-of-Thought'un Maliyeti: "Adım Adım Düşün" Demek Faturanı 3-10× Şişirebilir

🧠 "Adım adım düşün" — Ne zaman söylemeli?

CoT prompting AI dünyasının en ünlü tekniklerinden. Ama "her prompt'a koyarsan iyi olur" yaklaşımı maliyeti yiyor. Bu derste ne zaman ve ne zaman değil sorusunu cevaplıyoruz.

CoT Nedir?#

Model'e cevap üretmeden önce düşünme sürecini yazmasını söylersin.

Zero-shot#

Soru: 100 elma var. 1/3'ünü Ali aldı. Geri kalan 60'ı bölüştürelim 4 kişiye.
       Her kişiye kaç elma düşer?

Cevap: 15

CoT#

Soru: 100 elma var. ... Adım adım düşün.

Cevap:
1. Başlangıçta 100 elma.
2. Ali 1/3 aldı: 100/3 ≈ 33 elma. Kalan 67.
3. Soruda kalan 60 deniyor — yani Ali tam olarak 100/3 değil, tutarlı olarak 40 almış.
4. 60 elma / 4 kişi = 15 elma.

Cevap: 15

CoT 5× daha uzun ama daha doğru.

Maliyet Deneyi — 5 Görev Tipi#

Aynı görevleri zero-shot ve CoT ile test ettim. Sonnet 4.6 ile.

Görev 1 — Basit FAQ classification#

	Zero-shot	CoT
Output tokens	5	80
Accuracy	91%	92%
$/istek	$0.0008	$0.0019
Verdict	✅ Zero-shot kazanır	❌ CoT israf

Görev 2 — Customer email categorization#

	Zero-shot	CoT
Output	8	120
Accuracy	76%	88%
$/istek	$0.0009	$0.0026
Verdict	⚠️ Trade-off	✅ CoT değer (+12 accuracy)

Görev 3 — Math word problem#

	Zero-shot	CoT
Output	10	280
Accuracy	42%	83%
$/istek	$0.0010	$0.0048
Verdict	❌ Zero-shot yetersiz	✅ CoT zorunlu (+41 accuracy)

Görev 4 — Code refactor (small)#

	Zero-shot	CoT
Output	200	600
Accuracy	71%	80%
$/istek	$0.0036	$0.0102
Verdict	⚠️ Marginal	⚠️ Borderline

Görev 5 — Multi-step planning (10 step itinerary)#

	Zero-shot	CoT
Output	400	1500
Accuracy	55%	87%
$/istek	$0.0066	$0.0231
Verdict	❌ Yetersiz	✅ CoT zorunlu (+32 accuracy)

CoT Karar Çerçevesi#

CoT'u kullanma kararı için 3 soru:

Soru 1 — Görev gerçekten çok adımlı reasoning mi?#

✅ Math, code, planning, complex causality
❌ Classification, extraction, simple Q&A

Soru 2 — Zero-shot accuracy'in kabul edilebilir mi?#

Eğer zero-shot %85+ accuracy veriyorsa, CoT genelde değmez
Eğer zero-shot %60'tan az, CoT zorunlu olabilir

Soru 3 — Output kullanıcıya gösteriliyor mu?#

Eğer evet — kullanıcı CoT trace'ini görmek istemez, sadece sonucu ister
Eğer hayır (internal/agent) — CoT okay

Karar Matrisi#

Görev	Karmaşıklık	Accuracy hedefi	Tavsiye
Classification	Düşük	>%85	Zero-shot + few-shot
Extraction	Düşük	>%85	Zero-shot + structured output
Q&A (single hop)	Düşük	>%85	Zero-shot
Math	Yüksek	>%80	CoT
Multi-step planning	Yüksek	>%75	CoT
Code generation	Orta	>%75	CoT (selective)
Customer support	Orta	>%85	Few-shot, no CoT

"Hidden CoT" Pattern — Cevap Verirken Düşün, Sonra Sil#

Eğer CoT accuracy için lazım ama user'a CoT trace'i göstermek istemiyorsan:

Sistem prompt:

"Soruyu cevaplamadan önce <think>...</think> tag'leri içinde
adım adım düşün. Cevabını <answer>...</answer> içinde ver.
Sadece <answer> kısmı kullanıcıya gösterilecek."

response = completion(model=..., messages=[...])
text = response.choices[0].message.content

# Parse
import re
think_match = re.search(r"<think>(.*?)</think>", text, re.DOTALL)
answer_match = re.search(r"<answer>(.*?)</answer>", text, re.DOTALL)
answer_only = answer_match.group(1) if answer_match else text

# User'a sadece answer göster
return answer_only

⚠️ Maliyet azaltmıyor — token hâlâ üretiliyor. Sadece UX iyileştiriyor.

Maliyet azaltmak için: reasoning model + budget#

Modern modellerdeki extended thinking / reasoning_effort parametreleri, CoT'u modelin native şekilde yapmasına izin veriyor. Tasarruf burada gelmiyor — düşünme token'ları yine output fiyatı. Ama:

Quality lift CoT manuel prompt'tan daha yüksek olabiliyor
Token verimliliği biraz daha iyi (model native olarak hangi kadar düşünmesi gerektiğini bilir)

CoT Alternatifleri#

CoT pahalıysa diğer accuracy-artırıcı teknikleri dene:

Alternatif 1 — Few-shot ile örnek pattern göster#

3 örnek vererek modeli aynı doğruluğa çekebilirsin, CoT'un yarısı token.

Alternatif 2 — Self-consistency (sample N times, majority vote)#

3 farklı zero-shot çağrı + majority vote = CoT seviyesi accuracy
Maliyet: 3× zero-shot << CoT

Alternatif 3 — Daha güçlü model + zero-shot#

GPT-5-mini + CoT vs Sonnet 4.6 zero-shot — ikincisi genelde benzer accuracy, daha az token.

Alternatif 4 — Fine-tuning#

Görev tekrarlanıyorsa fine-tune et — CoT yokluğunda da accuracy yüksek. Modül 13.

Özet — CoT ne zaman?#

KULLAN:

Math/calculation görevi
Multi-step reasoning (planning, debugging)
Karmaşık causality
Internal agent, kullanıcı görmüyor

KULLANMA:

Classification, extraction, simple Q&A
Output kullanıcıya direkt gösteriliyor
Zero-shot accuracy zaten yüksek
Real-time UX (CoT latency artırır)

DİKKAT ET:

Default thinking budget (Modül 2.3)
max_tokens cap (CoT'u kontrolsüz uzatmasın)
Hidden CoT pattern ile UX/maliyet ayır

▶️ Sıradaki ders

5.5 — Structured Output Tuzakları. JSON mode, response_format, tool_use forçalama — bunlar output'u kısaltır mı, uzatır mı? Cevap: ikisi de mümkün — pattern'e göre.

Frequently Asked Questions

No — reasoning models do CoT internally. Adding manual 'think step by step' usually duplicates work, wastes tokens. Just give the task data, control via reasoning_effort.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

Pillar topics this article maps to

Pillar Topic

Prompt and Context Engineering

Prompt engineering is the applied discipline of designing instructions, examples, context and output controls so that an LLM produces consistent, accurate and cost-efficient outputs.