# AI Observability ve LLM Monitoring Mühendisliği Eğitimi (Langfuse + Phoenix + Helicone + Weave + Braintrust + LangSmith)

> Source: https://sukruyusufkaya.com/training/ai-observability-llm-monitoring-muhendisligi-egitimi
> Updated: 2026-06-30T10:02:14.428Z
> Level: advanced
> Topics: llm observability, ai observability, langfuse, arize phoenix, helicone, w&b weave, braintrust, langsmith, opentelemetry genai, openllmetry, openinference, litellm observability, llm tracing, llm monitoring, prompt management, llm cost tracking, llm eval framework, llm-as-judge, production llm, kvkk uyumlu observability
**TLDR:** Production üretken yapay zekâ ve LLM uygulamalarının izlenmesi (observability) disiplinini Türkçe olarak uçtan uca işleyen 3 günlük ileri seviye eğitim. Langfuse, Arize Phoenix + AX, Helicone, Weights & Biases Weave, Braintrust, LangSmith, OpenTelemetry GenAI Semantic Conventions, OpenLLMetry, OpenInference, LiteLLM observability, KVKK uyumlu PII redaction, eval-driven observability, cost + latency + quality monitoring, production incident response dahil.

## Açıklama

AI Observability ve LLM Monitoring Mühendisliği Eğitimi, production üretken yapay zekâ uygulamalarını gözlem, ölçüm, değerlendirme ve incident response disiplinine bağlamak isteyen ML Engineer, ML Platform Engineer, MLOps, Senior Backend Developer ve AI/LLM SRE'ler için tasarlanmış 3 günlük ileri seviye bir programdır.

## Kazanımlar

- LLM observability'nin klasik APM'den farkını netçe çerçeveleyebilirsiniz.
- OpenTelemetry GenAI Semantic Conventions ile vendor-agnostic trace pipeline kurabilirsiniz.
- Langfuse, Phoenix, Helicone, Weave, Braintrust, LangSmith arasında ekibinize uygun tercih yapabilirsiniz.
- Self-hosted Langfuse + Helicone + Phoenix deployment kurarak KVKK uyumlu observability sağlayabilirsiniz.
- Eval-driven observability disiplinini CI/CD pipeline'a entegre edebilirsiniz.
- Cost + latency + quality üç boyutlu monitoring dashboard'u inşa edebilirsiniz.
- LLM-as-judge eval framework'ü ile production quality'i sürekli ölçebilirsiniz.
- Production incident'ları failed trace analysis + RCA + blameless post-mortem ile yönetebilirsiniz.
- PagerDuty + Slack alerting + on-call rotation + escalation policy kurabilirsiniz.
- Reasoning model (o3/R1/Claude Extended Thinking) ve agent observability'sinin özel ihtiyaçlarını ele alabilirsiniz.

<p>Bu eğitim, üretken yapay zekâ ve büyük dil modeli (LLM) uygulamalarını production'da gözlem altına alma, ölçme, değerlendirme ve operasyonel sürdürülebilirliğini sağlama disiplini olan AI observability'i Türkçe olarak uçtan uca işlemek üzere tasarlanmıştır. 2024-2026 dönemi LLM observability platformlarının (Langfuse, Arize Phoenix, Helicone, W&B Weave, Braintrust, LangSmith) doğuş ve standartlaşma yarışına sahne oldu; aynı dönemde OpenTelemetry GenAI Semantic Conventions ile vendor-agnostic trace standardı şekillendi. Türkiye'de bu disiplini matematik + araç stack'i + production deneyimi + KVKK uyumluluğu üçgeninde uçtan uca işleyen bir eğitim neredeyse yoktur — mevcut içerikler ya tek aracın kısa tutoriallerinde takılı kalıyor ya da APM perspektifinde donuyor. Bu program söz konusu boşluğu Türkiye'nin en kapsamlı production-grade AI observability referans eğitimi olarak doldurmak üzere tasarlanmıştır.</p>

<p>Programın stratejik omurgasını, LLM observability'nin klasik APM (Application Performance Monitoring) yaklaşımıyla farkını netleştiren ilk modül oluşturur. Datadog, New Relic, Dynatrace gibi klasik APM çözümlerinin neden LLM uygulamalarında yetersiz kaldığı; semantic output (non-deterministic, anlamsal çıktı), hallucination, prompt drift, cost explosion, token-level cost attribution, RAG retrieval quality, agent tool selection accuracy gibi LLM-spesifik gözlem ihtiyaçları detaylı işlenir. Üretken AI gözlemde 4 pillar (trace + eval + cost + quality drift) çerçevesi kurulur. 2026 ekosistem haritası: Langfuse (open-source, GitHub 13K+ star), Arize Phoenix + AX (ML observability tradition), Helicone (proxy-based, YC W23), W&B Weave + Braintrust (eval-first), LangSmith (LangChain native) karşılaştırılır. Karar çerçevesi: open-source vs SaaS vs enterprise hybrid; self-hosted Langfuse vs Helicone vs Phoenix; KVKK + EU AI Act + GDPR uyumluluk açısından seçim sunulur.</p>

<p>İkinci modül 2024-2026 dönemi AI observability standartlarını şekillendiren OpenTelemetry GenAI Semantic Conventions spesifikasyonunu detaylı işler. gen_ai.* attribute namespace'i (gen_ai.system, gen_ai.request.model, gen_ai.usage.input_tokens), span events (gen_ai.content.prompt, gen_ai.content.completion), metrics (gen_ai.client.token.usage histogram); Traceloop OpenLLMetry SDK ile Python + Node.js auto-instrumentation; Arize OpenInference: OpenAI / Anthropic / LlamaIndex / LangChain wrappers; custom span ekleme ve context propagation pattern'ları. OpenTelemetry Collector ile multi-backend routing (Langfuse + Phoenix paralel), sampling stratejileri (head sampling vs tail sampling, cost vs visibility trade-off), self-hosted OTLP gateway + KVKK uyumlu PII redaction hands-on yapılır. Bu standart sayesinde Langfuse, Phoenix, Helicone, W&B Weave gibi farklı backend'ler arasında trace taşınabilir hale gelir; vendor lock-in karşıtı stratejik avantaj sağlanır.</p>

<p>Üçüncü modül 2024-2026 döneminin lider open-source LLM observability platformu Langfuse'u uçtan uca işler. Python SDK'nın @observe decorator + low-level SDK integration'ı; Node.js + Java SDK + OpenTelemetry adapter kullanımı; trace + span + generation + score hierarchy modeling. Prompt management katmanı: prompt versioning + production label + A/B testing pipeline; dataset oluşturma + ground truth + LLM-as-judge eval framework; custom evaluator (Python function) + scheduled eval runs. Self-hosting tarafında Docker Compose + Kubernetes Helm chart deployment; PostgreSQL + Clickhouse + S3 storage mimarisi; PII redaction + masking + KVKK uyumlu Türkçe veri handling. Türkiye'de kurumsal AI ekiplerinin yaklaşık %80'inin tercih ettiği stack — açık kaynak, esnek, on-premise deploy edilebilir, eval-first felsefede.</p>

<p>Dördüncü modül ML observability geçmişine sahip Arize'ın 2024-2026 sürümlerini detaylı ele alır. Phoenix (open-source, MIT lisanslı, OpenInference standardını şekillendiren) Docker + local setup, OpenInference instrumentation (OpenAI, Anthropic, Bedrock, LlamaIndex, LangChain auto-tracing); span tree visualization + RAG retrieval debugging. Phoenix LLM Evals (built-in evaluators: hallucination, toxicity, relevance, QA correctness, code readability); custom evaluator + LLM-as-judge prompt template'leri; batched eval + Phoenix dashboard üzerinden analiz. Production embedding drift detection + UMAP visualization; RAG context relevance + retrieval quality monitoring; Arize AX SaaS enterprise scaling + multi-tenancy + RBAC. Phoenix'in production embedding monitoring'deki ML olgunluğu, LLM observability'ye taşınan en önemli avantaj — RAG-heavy ekipler için ideal.</p>

<p>Beşinci modül Helicone'un (YC W23, open-source) farklılaştığı proxy mimarisini detaylı ele alır. SDK entegrasyonu olmadan tek base_url değişikliğiyle tracing (OpenAI / Anthropic / OpenRouter); async log ingest + Helicone-Property header'ları ile tagging; custom property + user-level cost attribution. Token usage + cost tracking dashboard + budget alerts; semantic cache ile %30-50 cost reduction reçetesi; rate limiting + retry logic + provider failover. Self-hosting: Helicone OSS Docker setup; Cloudflare Workers Edge deployment ile sub-100ms overhead; Vault (API key rotation + KVKK uyumlu secret management). Geliştirme hızı + zero-config setup tercih eden fast iteration ekipleri için ideal — özellikle Türkiye'deki startup'lar için.</p>

<p>Altıncı modül Weights & Biases ekibinin LLM-spesifik ürünü Weave (2024 lansman) ve Andrej Karpathy + Imbue ekibinin desteklediği Braintrust'ı (eval-first paradigm) detaylı işler. Weave: ML deneyim takibi geçmişi + @weave.op() decorator auto-tracing + dataset versioning + interactive Jupyter / Colab integration + comparison view. Braintrust: braintrust SDK + eval() function ile offline + online eval; AutoEvals library built-in LLM-as-judge prompts; production span analysis + prompt playground. Eval-first felsefe: 'her PR'da regression test' yaklaşımı; CI/CD pipeline entegrasyonu ile prompt değişikliği gating. Hangi ekip Weave/Braintrust, hangisi Langfuse/Phoenix tercih etmeli — karar matrisi detaylı sunulur.</p>

<p>Yedinci modül LangChain ekibinin commercial observability ürünü LangSmith'i (Plus $39/ay, Enterprise SaaS + on-prem) ele alır. LangChain / LangGraph native integration; LANGSMITH_TRACING=true ile zero-config tracing; LangGraph + LangChain Runnable hierarchy trace görselleştirme; run metadata + custom tags ile production debugging. Dataset upload + ground truth + golden answer management; built-in evaluators (correctness, conciseness, helpfulness); experiment compare view + A/B prompt regression test. Prompt Hub (paylaşılan prompt registry + versioning); self-hosted LangSmith (on-prem) Kubernetes deployment; enterprise tier SOC2 + RBAC + audit logging. LangChain / LangGraph ekosistemini kullanan ekipler için en az friction'lı tercih.</p>

<p>Sekizinci modül LLM observability'nin temel veri modelini matematik düzeyinde ele alır. Trace (kullanıcı oturumu) → root span (request) → child span (LLM call + tool call + retriever call + nested chain) → event hierarchy; span types (LLM call, tool call, retriever, custom function); distributed tracing ile microservice arası context propagation. LLM-spesifik metrikler: TTFT (Time To First Token, streaming UX kritik metriği), TPOT (Time Per Output Token, throughput ölçümü), prompt + completion + cached + reasoning token breakdown (reasoning model billing önemli). Cost calculation: model price table + dinamik fiyat hesabı (OpenAI/Anthropic/Gemini güncel pricing); per-user + per-feature + per-endpoint cost attribution. Quality metrics: groundedness, faithfulness, relevance LLM-as-judge implementation. Agent-specific metrics: tool selection accuracy, planning depth, max iterations breach rate.</p>

<p>Dokuzuncu modül production'da LLM kalitesini sistematik gözlem altına almanın merkezindeki eval-driven observability disiplinine ayrılmıştır. Offline eval pipeline: CI/CD pipeline'da prompt değişikliği regression eval; GitHub Actions + Langfuse / Braintrust eval integration; golden dataset versioning + drift detection. Online eval + user feedback: production trace'lerin sürekli LLM-as-judge ile skorlanması; thumbs up/down + structured feedback + NPS collection; user feedback → dataset → eval improvement döngüsü. LLM-as-judge disiplini: judge prompt design + bias mitigation (position bias, length bias, verbosity bias); pairwise comparison + reference-based + reference-free judge; multi-judge ensemble + human-judge agreement validation. Bu disiplin sayesinde production'da quality regression CI/CD'ye kadar geri besleniyor.</p>

<p>Onuncu modül production LLM uygulamasının ekonomik ve operasyonel sürdürülebilirliği için zorunlu üç boyutlu monitoring disiplinini ele alır. Cost monitoring: token usage trend + model dağılımı + endpoint bazlı kırılım; user-level cost attribution + tenant bazlı budgeting; semantic cache hit-rate + cost reduction effectiveness. Latency + SLO/SLI: P50/P95/P99 TTFT + TPOT histogramları; SLO/SLI tanımı ('P95 TTFT < 1.5s, success rate > 99.5%'); error budget + alerting threshold yönetimi. Quality monitoring: hallucination rate + sycophancy drift + refusal rate tracking; Grafana dashboard + Prometheus metrics integration; Datadog LLM Observability + New Relic AI Monitoring overview. Bu üç boyut birlikte kurumsal AI uygulamalarının production sustainability'sini sağlar.</p>

<p>On birinci modül AI observability'nin gerçek hayatta kullanım anına — production incident debugging ve resolution'a — odaklanır. Failed trace analysis: error spans, retry chain, timeout breakdown; provider outage handling (OpenAI 5XX storm, Anthropic capacity throttling, Gemini RPC errors); agent infinite loop + max iteration safeguard pattern'ı. Alerting + on-call: PagerDuty + Slack + Discord alerting integration; threshold tuning + alert fatigue prevention; on-call rotation + escalation policy + runbook hazırlama. RCA + post-mortem: 5-Why + Ishikawa diagramı ile root cause analysis; blameless post-mortem template + action item tracking; Linear / Jira ticket integration + incident retrospective. AI sistemlerinin operasyonel olgunluğu bu disiplinin titizliğine bağlı.</p>

<p>Capstone modülünde her katılımcı, kendi production senaryosuna özel uçtan uca bir AI observability stack'ı tasarlar: provider seçimi (Langfuse self-hosted, Phoenix, Helicone, Weave, Braintrust, LangSmith), entegrasyon yaklaşımı (OpenTelemetry GenAI vs native SDK), eval framework (offline + online), cost + latency + quality monitoring dashboard, alerting + on-call setup, KVKK uyumlu PII redaction, 90 günlük production roadmap. Eğitim sonunda katılımcılar; LLM observability'nin klasik APM'den farkını netçe çerçeveleyebilecek; OpenTelemetry GenAI Semantic Conventions ile vendor-agnostic trace pipeline kurabilecek; Langfuse / Phoenix / Helicone / Weave / Braintrust / LangSmith arasında ekiplerine uygun tercih yapabilecek; eval-driven observability disiplinini CI/CD pipeline'a entegre edebilecek; cost + latency + quality üç boyutlu monitoring dashboard'u inşa edebilecek; production incident'ları failed trace analysis + RCA + post-mortem framework ile yönetebilecek ve KVKK + EU AI Act + GDPR uyumlu Türkçe veri handling pipeline'ı kurabilecek seviyede teknik yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 100'ün üzerinde uygulamalı ders içerir.</p>