Workshop Toolkit: A Quick Tour of the 11 Tools We'll Use Throughout the Course
Quick tour of the 11 key tools we'll use in the course: tiktoken, anthropic-tokenizer, Langfuse, Helicone, LiteLLM, vLLM, RouteLLM, LLMLingua, GPTCache, tldraw, Python uv. For each: what it does, when it kicks in, free or paid.
Şükrü Yusuf KAYA
18 min read
Beginner🧰 Bu ders bir kataloğ
Burada her aracın tamamını öğrenmiyoruz. Her aracın adını, ne işe yaradığını, ne zaman kursta devreye gireceğini ve ücretli olup olmadığını göreceğiz. İlerleyen modüllerde her birine ayrı bir bölüm ayrılacak. Bu ders, 'önümüzdeki yola hangi araçlarla çıkıyoruz' bilgisi.
Araçları 5 kategoriye ayırdım#
| Kategori | Araçlar | Ne yapar |
|---|---|---|
| Token Sayımı | tiktoken, anthropic-tokenizer, sentencepiece | Bir metnin kaç token olduğunu, API çağırmadan önce öğrenmek için |
| Gözlemlenebilirlik | Langfuse, Helicone, LangSmith, Phoenix | Her isteğin token + cost + latency verisini toplamak |
| Provider Abstraction | LiteLLM, Portkey, OpenRouter | Tek API ile 200+ modeli aynı arayüzden çağırmak; routing + failover |
| Inference & Hosting | vLLM, TGI, SGLang, Ollama | Open-weight modelleri self-host etmek; throughput maksimize |
| Optimizasyon | LLMLingua, RouteLLM, GPTCache | Prompt sıkıştırma, model routing, semantic cache |
Şimdi tek tek geçelim.
1️⃣ tiktoken — OpenAI Token Sayacı#
Ne yapar: Bir string'in OpenAI'ın hangi tokenizer'ında kaç token tutacağını API çağırmadan söyler.
Neden hayati: API'ye gönderdikten sonra öğrenmek pahalı. Önce sayman lazım. Lab 1'in çekirdeği bu kütüphane.
Kurulum:
pip install tiktokenÜcret: Tamamen ücretsiz, açık kaynak (MIT).
Hangi modüllerde: Modül 1 (token anatomy), Modül 5 (prompt kısaltma).
python
import tiktoken enc = tiktoken.encoding_for_model("gpt-4o")tokens = enc.encode("Merhaba dünya, ben bir LLM mühendisiyim.")print(f"Token sayısı: {len(tokens)}") # 14print(f"Token ID'leri: {tokens}")# decodedprint([enc.decode([t]) for t in tokens])# ['Mer', 'haba', ' dünya', ',', ' ben', ' bir', ' L', 'LM', ...]tiktoken ile aynı Türkçe cümlenin token'lara nasıl ayrıldığını gör — Türkçe penalty'sini gözle göreceğiz.
2️⃣ anthropic-tokenizer (count_tokens API)#
Ne yapar: Claude modellerinin tokenizer'ında sayım. (Anthropic kütüphanesinin içinde gelir.)
Neden ayrı: Claude tokenizer'ı OpenAI tokenizer'ından farklıdır. Aynı Türkçe metin için bazen %10-15 fark olur.
Kurulum:
pip install anthropicÜcret: Ücretsiz (count_tokens endpoint'i hala rate-limit'siz).
python
from anthropic import Anthropicclient = Anthropic() # ANTHROPIC_API_KEY gerekli response = client.messages.count_tokens( model="claude-sonnet-4-6", messages=[{"role": "user", "content": "Merhaba dünya, ben bir LLM mühendisiyim."}])print(f"Claude'un saydığı token: {response.input_tokens}")Aynı cümleyi Claude'un tokenizer'ında saymak — sonra OpenAI'la karşılaştıracağız.
3️⃣ Langfuse — Açık-Kaynak Telemetry#
Ne yapar: Her LLM çağrını otomatik olarak yakalayıp dashboard'a yazar: prompt, response, token sayısı, maliyet, latency, user ID, session ID, trace.
Neden seçtim: Açık kaynak, self-hostable, ücretsiz tier'ı çok cömert (50K observation/ay). Üretim için en uygun.
Kurulum: Docker Compose (self-host) veya cloud sign-up (langfuse.com)
Ücret:
- Cloud free: 50K observation/ay
- Cloud Pro: $59/ay, 250K observation
- Self-host: ücretsiz, sınırsız
Hangi modüllerde: Modül 3 (telemetry kurulumu), Modül 4 (cost attribution), Modül 15 (production monitoring).
python
from langfuse.openai import openai # drop-in replacement response = openai.chat.completions.create( model="gpt-4o-mini", messages=[{"role": "user", "content": "Merhaba"}], metadata={"user_id": "user_42", "feature": "chat"})# ✅ Otomatik Langfuse'a yazıldı: prompt, output, tokens, cost, latencyLangfuse openai SDK'sını monkey-patch'liyor — tek satır değişiklik, full telemetry.
4️⃣ Helicone — Proxy-Based Observability#
Ne yapar: Langfuse'a benzer ama proxy olarak çalışır. yerine çağırırsın, headers'a key eklersin, her şey yakalanır.
api.openai.comoai.helicone.aiNeden ayrı? Hiç kod değiştirmeden monitoring ekleyebilirsin. JavaScript/Python/Ruby/Go ne yazıyorsan çalışır.
Kurulum: → swap
api.openai.comoai.helicone.ai/v1Ücret:
- Free: 100K request/ay
- Pro: $20/ay sınırsız
Hangi modüllerde: Modül 3 (alternatif olarak), Modül 4 (LiteLLM'le birlikte cost routing).
5️⃣ LiteLLM — Tek API, 200+ Model#
Ne yapar: OpenAI SDK syntax'ıyla Claude, Gemini, Llama, Mistral, DeepSeek — her şeyi çağırabilirsin. Routing, fallback, cost capping, rate limiting içinde.
Bu kursun "kalbi" diyebileceğim araç:
- Provider-switching: Sonnet 4.6 yavaşsa GPT-5'e fallback
- Cost attribution: tagging ile per-customer faturalama
- Virtual keys: tek API key'i 100 ekibe dağıtmak
Kurulum: veya self-hosted proxy
pip install litellmÜcret:
- Library: ücretsiz, açık kaynak
- Cloud (LiteLLM hosted): $99/ay base + usage
Hangi modüllerde: Modül 3, 4, 8, 9, 14, 15 — neredeyse her yerde.
python
from litellm import completion # Aynı API ile 4 farklı sağlayıcıfor model in ["gpt-4o-mini", "claude-haiku-4-5", "gemini/gemini-2.5-flash", "deepseek/deepseek-chat"]: response = completion( model=model, messages=[{"role": "user", "content": "Selam, kendini tanıt."}], ) print(f"{model}: {response.usage.total_tokens} tokens, " f"${response._hidden_params['response_cost']:.5f}")LiteLLM 4 farklı sağlayıcıyı tek interface'le karşılaştırıyor — Lab 2'nin temeli.
6️⃣ vLLM — Self-Host Inference Engine#
Ne yapar: Open-weight modelleri (Llama, Mistral, DeepSeek, Qwen) maksimum throughput'la kendi GPU'nda çalıştırmak. Continuous batching + PagedAttention sayesinde aynı GPU'da 5-15× daha çok istek.
Neden hayati: Self-hosting break-even hesabının kalbinde vLLM throughput'u var. Modül 11'in ana konusu.
Kurulum: (CUDA gerekli)
pip install vllmÜcret: Library ücretsiz; GPU saat ücretini sen ödüyorsun (RunPod, Modal, Lambda Labs)
Hangi modüllerde: Modül 11 (self-host ekonomisi), Modül 13 (fine-tune sonrası).
7️⃣ RouteLLM — Akıllı Model Routing#
Ne yapar: Her isteği analiz eder, "bu basit, Haiku yapabilir" / "bu zor, Sonnet'e gönder" kararı verir. Otomatik cheap-first cascade.
Neden hayati: Modül 8'in ana konusu. Doğru ayarlandığında %50-70 maliyet tasarrufu, kalite kaybı <%2.
Kurulum:
pip install routellmÜcret: Açık kaynak (Apache 2.0)
Hangi modüllerde: Modül 8 (model routing).
8️⃣ LLMLingua — Prompt Sıkıştırma#
Ne yapar: Microsoft Research'ün araştırması. Uzun prompt'ları (4K, 16K, 100K) bilgi kaybetmeden 1/4-1/10'una sıkıştırır. Önce ucuz bir model (Llama-2 7B) ile token önemini ölçer, önemsiz token'ları atar.
Neden hayati: Modül 6'nın ana aracı. Test ettiğim Türkçe RAG prompt'unda 5400 token → 1100 token (%80 sıkıştırma), %3 quality drop.
Kurulum:
pip install llmlinguaÜcret: Açık kaynak (MIT)
Hangi modüllerde: Modül 6 (compression), Modül 7 (caching ile birlikte).
9️⃣ GPTCache — Semantic Cache#
Ne yapar: Bir kullanıcının "nasıl iade yapabilirim?" sorusu ile "iade nasıl olur?" sorusunu aynı soru sayar, ikincide LLM'i çağırmaz, ilk cevabı geri verir. Embedding-based similarity kullanır.
Neden hayati: Yüksek-tekrarlı chatbot'larda %30-60 maliyet tasarrufu sağlar.
Kurulum:
pip install gptcacheÜcret: Açık kaynak
Hangi modüllerde: Modül 7 (caching), Modül 15 (production cache layer).
🔟 uv — 100× Hızlı Python Paket Yöneticisi#
Ne yapar: yerine kullandığımız Rust-yazılmış paket yöneticisi. pip'ten 10-100× hızlı, venv'i otomatik yönetir.
pipNeden seçtim: Kursta 11 araç + bağımlılıkları indireceğiz. ile bu 5-15 dakika, ile 20-60 saniye. Önemli ergonomi.
pipuvKurulum: (Linux/Mac) veya PowerShell tek satır (Windows)
curl -LsSf https://astral.sh/uv/install.sh | shÜcret: Açık kaynak (Apache 2.0)
Hangi modüllerde: Hepsi. Tüm Python kurulumları için.
1️⃣1️⃣ tldraw + Excalidraw — Mimari Diyagramlar#
Ne yapar: Sistem mimari çizimleri için. Kursta "şu RAG mimarisinin maliyet akışını çizelim" tarzı bolca çizim yapacağız. Browser-based, ücretsiz, paylaşılabilir.
Ücret: Tamamen ücretsiz
Hangi modüllerde: Genel — her capstone'da kullanacağız.
📦 Toplam Stack Maliyeti (ücretsiz tier sınırlarında)
tiktoken: 0 · Langfuse cloud: 0 · vLLM: 0 · LLMLingua: 0 · uv: 0. Toplam: $0 + sadece kullandığın LLM API ücreti.
"Aracı eklemiyorum çünkü..." — bir prensip#
Çok araç, çok karmaşa. Üretim sistemine her aracı atmak doğru değil. İşte kendime koyduğum kural:
"Bu aracı eklemenin getireceği faydayı ölçemiyorsam, eklemiyorum."
Örnek: GPTCache'i eklemeden önce kaç tekrarlı sorgu var bunu logla. %5'in altındaysa GPTCache değmez (overhead daha çok). %30'un üstündeyse GPTCache zorunlu (büyük tasarruf).
Bu prensibi her araç için kursta uygulayacağız. "X aracı havalı, onu da ekleyelim" demeyeceğim. Önce ölçü, sonra alet.
▶️ Sıradaki ders
0.4 — Atölye Kurulumu: Python, uv, API Keyleri, Ücretsiz Tier'lar. Şimdi yukarıdaki araçların hepsini yerel makineye 15 dakikada kuracağız. API key'leri açacağız (hepsi ücretsiz başlangıç kredisiyle), bir 'Hello World' LLM çağrısı atacağız, ilk Langfuse trace'imizi göreceğiz.
Frequently Asked Questions
Yes. I planned the course carefully: Langfuse cloud free (50K obs), Helicone free (100K req), Gemini free tier (1.5M tokens/min), OpenAI signup $5 credit, Anthropic $5 credit, DeepSeek $1 credit, RunPod $5 signup bonus — $20+ total free credit. You can comfortably complete all labs within these quotas.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
Module 0: Why Cost, Why Now?
The AI Cost Explosion: Why Token Prices Fell 96% from 2022 to 2026 — Yet Bills Grew 40×
Start LearningModule 0: Why Cost, Why Now?
Unit Economics Vocabulary: COGS, Gross Margin, $/User, Contribution Margin — 9 Financial Concepts Every AI Engineer Must Know
Start LearningModule 0: Why Cost, Why Now?
Workshop Setup: Python, uv, API Keys, Your First LLM Call, and Langfuse Trace in 20 Minutes
Start LearningConnected pillar topics