İçeriğe geç

Agent Loop'unda Token Patlaması: 20 Tool Call = 200K Input

LLM agent'lar tool çağrı zinciri yapar. Her adımda context büyür. Caching olmadan token patlaması yaşanır. Bu derste matematiği ve çözümleri öğreneceksin.

Şükrü Yusuf KAYA
13 dakikalık okuma
İleri

Agent Loop: Token Patlaması Problemi

LLM agent'lar tool kullanarak görev çözerler:
User: "Bir sipariş ver: kahve makinesi, İstanbul'a teslim, kapıda ödeme" Agent: Step 1: search_product("kahve makinesi") → 5 ürün Step 2: get_product_details(123) → detaylar Step 3: check_shipping("İstanbul") → 1-2 gün Step 4: calculate_total(123, 1) → 1500 TL Step 5: create_order(...) → confirmed Step 6: send_confirmation_email(...) → sent Cevap: "Siparişiniz verildi, 1-2 günde teslim."
6 adım. Her adımda LLM çağrısı + tool result. Bu token patlamasına yol açar.

Matematik: Agent Context Büyüme#

Agent her adımda yeni context ekler:
Adım 1: [System + Tools (15K)] + [User (100)] = 15.1K input Adım 2: 15.1K + [Tool call 1 + result (2K)] = 17.1K input Adım 3: 17.1K + [Tool call 2 + result (3K)] = 20.1K input ... Adım N: 15K + N * 2.5K ortalama
20 adımlı bir agent:
800K token agent çağrısı = $2.40 (cache olmadan Sonnet). Tek user request için. Üstüne agent'lar paralel çalıştırıldığında patlama büyüyor.
Caching = Hayat
Bu yüzden agent'lar caching olmadan ekonomik olmaz. Production agent'lar (Claude Code, Cursor, AutoGPT) tamamen caching üzerine kurulu.

Çözüm: Growing Prefix Pattern (Multi-Turn ile Aynı)#

Agent loop'u multi-turn conversation'la matematiksel olarak aynı yapıya sahip. Her adım bir "turn":
  • System + Tools: cache'lenir (statik)
  • Önceki tool call'lar + results: cache'lenir (growing prefix)
  • Yeni tool call decision: dinamik

Cache ile Maliyet#

Aynı 20 adımlı agent, cache açık:
  • Adım 1: 15K cache write + 100 fresh = $0.057
  • Adım 2-20: her birinde marginal write (~2.5K) + cache read (öncekiler)
Cache write toplam: 15K + 19 * 2.5K = 62.5K × $3.75/M = $0.23 Cache read toplam: 19 * (15K + ~25K avg) = ~760K × $0.30/M = $0.23 Output: 20 * 500 = 10K × $15/M = $0.15 Toplam: ~$0.61
2.402.40 → 0.61 = %75 tasarruf. Caching agent'ları ekonomik yapan ana mekanik.

✓ Pekiştir#

Bir Sonraki Derste#

Tool definitions vs tool results — hangisi cache'lenir, hangisi cache'lenmez?

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler

Bağlantılı Pillar Konular

Bu yazının bağlandığı pillar konular