# Sparse Autoencoders ve Mechanistic Interpretability Mühendisliği Eğitimi (Anthropic Yaklaşımı)

> Source: https://sukruyusufkaya.com/training/sparse-autoencoders-mechanistic-interpretability-muhendisligi-egitimi
> Updated: 2026-07-02T19:40:21.015Z
> Level: advanced
> Topics: mechanistic interpretability, sparse autoencoder, sae, superposition, anthropic interpretability, scaling monosemanticity, crosscoders, refusal direction, activation steering, persona vectors, circuit analysis, activation patching, induction heads, ioi circuit, transformerlens, saelens, nnsight, gemma scope, goodfire ai, neuronpedia
**TLDR:** Anthropic, OpenAI, DeepMind ve Goodfire AI'ın 2022-2026 mechanistic interpretability araştırmasını uçtan uca işleyen 3 günlük ileri seviye Türkçe eğitim: superposition hipotezi, Sparse Autoencoder (Vanilla + Top-K + Gated + JumpReLU), Anthropic Scaling Monosemanticity, Crosscoders, refusal direction, persona vectors, circuit analysis, activation patching ve production AI safety uygulamaları dahil. TransformerLens, SAELens, nnsight, Gemma Scope, Goodfire AI, Neuronpedia stack'iyle.

## Açıklama

Sparse Autoencoders ve Mechanistic Interpretability Mühendisliği Eğitimi, neural network'leri reverse engineering eden ve LLM'lerin iç işleyişini matematik düzeyinde çözümleyen mechanistic interpretability disiplinini Türkiye'de ilk kez uçtan uca işleyen 3 günlük ileri seviye bir programdır. AI Researcher, AI Safety Engineer, ML Researcher ve senior AI Engineer'lar için kalibrelidir.

## Kazanımlar

- Mech interp paradigmasının teorik temellerini (superposition, polysemanticity, linear representation) çözebilirsiniz.
- Vanilla, Top-K, Gated ve JumpReLU SAE varyantları arasında kanıt-tabanlı tercih yapabilirsiniz.
- TransformerLens + SAELens ile production-grade SAE eğitebilirsiniz.
- Anthropic Scaling Monosemanticity metodolojisini uygulayarak milyonlarca feature çıkarabilirsiniz.
- Auto-interpretation pipeline ile (GPT-5 / Claude Opus 4.7) feature'ları otomatik etiketleyebilirsiniz.
- Activation patching + ACDC ile circuit identification yapabilirsiniz.
- Refusal direction + persona vectors ile inference time davranış kontrolü kurabilirsiniz.
- Mech interp'i jailbreak prevention, hallucination detection ve alignment audit'e uygulayabilirsiniz.
- Gemma Scope, Goodfire AI ve Neuronpedia public bank'lerini ustaca kullanabilirsiniz.
- EU AI Act + KVKK uyumlu interpretability raporu üretebilirsiniz.

<p>Bu eğitim, neural network'leri reverse engineering ederek model'in iç hesaplama akışını matematiksel düzeyde çözümleyen mechanistic interpretability (mech interp) disiplinini Türkiye'de ilk kez uçtan uca işlemek üzere tasarlanmıştır. Chris Olah'ın 2020 Distill 'Circuits Thread' çalışmasıyla başlayan, Anthropic'in 2022 Toy Models of Superposition makalesiyle teorik çerçeveyi inşa eden, 2023'te Cunningham ve 2024'te Anthropic Bricken/Templeton tarafından Sparse Autoencoder (SAE) ile production LLM'lere taşınan, Anthropic Scaling Monosemanticity (Claude 3 Sonnet üzerinde milyonlarca interpretable feature), Crosscoders, refusal direction (Arditi 2024) ve persona vectors gibi gelişmelerle 2024-2026 boyunca AI ekosisteminin merkezi araştırma alanlarından biri haline gelen bu disiplin, Türkiye'de akademik düzlemde dahi neredeyse hiç işlenmemiştir. Bu program söz konusu boşluğu kapatmak için tasarlandı.</p>

<p>Programın teorik omurgasını mech interp'in üç temel kavramı oluşturur: feature (model'in 'düşünce birimi'), circuit (feature'lar arası computational akış) ve superposition (bir nöronun birden fazla feature kodlaması olgusu). Elhage 2022 Toy Models of Superposition makalesinin matematik formülasyonu — neden N feature, n nöronda (N > n) Johnson-Lindenstrauss almost-orthogonal vector boundu üzerinden kodlanabildiği — adım adım türetilir. Polysemantic vs monosemantic neuron ayrımı, 'tek nöron = tek feature' varsayımının neden yanlış olduğu, ve Park 2023'ün linear representation hypothesis'i (LLM feature'larının activation space'inde linear directions olarak kodlanması) detaylı işlenir. Bu temel olmadan SAE'nin neden kritik olduğu kavranamaz.</p>

<p>Üçüncü modül Sparse Autoencoder'ın superposition problemini nasıl çözdüğünü matematik düzeyinde inşa eder. Cunningham et al. 2023 (Pythia üzerinde ilk SAE deneyimi), Anthropic Bricken/Templeton 2024 (Towards Monosemanticity — 1-layer transformer üzerinde production-grade SAE, 'Arabic text', 'DNA sequences', 'base64' gibi interpretable feature'lar) çalışmaları detaylı çözümlenir. Encoder f = ReLU(W_e · x + b_e), decoder x̂ = W_d · f + b_d, loss L = ||x - x̂||² + λ · ||f||_1 formülasyonu adım adım inşa edilir. Dictionary size (M) >> input dim (d) overcomplete basis disiplini, L0 sparsity ölçümü, dead features problemi ve resampling stratejisi pratik olarak işlenir. Decoder ağırlıklarının feature direction olarak yorumlanması ve sparse coding teorisiyle bağlantı netleştirilir.</p>

<p>Dördüncü modül vanilla SAE'nin sınırlamalarını aşan modern SAE varyantlarını karşılaştırmalı inceler. OpenAI Top-K SAE (Gao et al. 2024 — explicit K-active selection, L1 penalty yerine hard sparsity constraint, AuxK auxiliary loss ile dead feature recovery); DeepMind Gated SAE (Rajamanoharan 2024 — gate vs magnitude ayrımı); DeepMind JumpReLU SAE (2024 — step function aktivasyon + straight-through estimator training); BatchTopK (Anthropic 2024); TopK + L1 hibrit yaklaşımlar. Her birinin reconstruction-sparsity Pareto frontier'ı Gemma 2 üzerinde somut karşılaştırılır; küçük model (7B) + production senaryosunda JumpReLU veya Gated, büyük model (70B+) + research senaryosunda Top-K yaklaşımı kanıt-tabanlı önerilir.</p>

<p>Beşinci modül uçtan uca SAE eğitim pipeline'ını TransformerLens + SAELens stack'iyle pratik olarak kurar. TransformerLens HookedTransformer ve hook noktaları, SAELens config (model_name, hook_name, dataset_path, batch sizes), residual stream vs MLP output vs attention output seçimi, activation buffer ile GPU memory yönetimi, tokenizer + dataset (Pile-uncopyrighted, FineWeb, OpenWebText) hazırlığı, activation normalization (unit norm vs scale invariance), hyperparameter sweep (L0, L1, learning rate, K, dictionary size), dead feature tracking + auxiliary loss recovery, W&B + Neuronpedia training run logging — her aşama hands-on yapılır. Eğitim sonunda katılımcı kendi seçtiği LLM (Gemma 2 9B, Llama 3.3 8B, Qwen3) üzerinde production-quality SAE eğitebilir.</p>

<p>Altıncı modül Anthropic'in 2024 Scaling Monosemanticity makalesinde Claude 3 Sonnet üzerinde 1M, 4M ve 34M feature SAE eğitimini ve bulgularını detaylı çözümler. Safety-relevant feature'lar — deception, manipulation, weapons, code vulnerability, bias, sycophancy — somut örneklerle gösterilir; multilingual + multimodal feature'lar (Türkçe ve İngilizce ortak gramatik feature'lar) örneklenir. 2024-2025 Crosscoders makalelerinde tanıtılan cross-layer SAE (birden fazla layer'ı tek SAE ile encode etme) ve cross-model SAE (Claude vs GPT vs Gemini feature karşılaştırması) yaklaşımları işlenir; universal features hipotezi (farklı modellerin ortak feature kodlaması) test edilir. Feature steering ile Claude'un 'Golden Gate Bridge' feature'ı amplified edilerek Golden Gate Claude persona'sına dönüştürülmesi demosu yapılır; production'da Goodfire AI Ember API ile feature steering pratik olarak kurulur.</p>

<p>Yedinci modül, SAE eğitildikten sonra milyonlarca feature'ın anlamını sistematik keşfetme disiplinine ayrılmıştır. Top activating examples ile feature labeling (max activation veren token'ların çıkarılması), Bills et al. 2023 OpenAI auto-interpretation metodolojisi (GPT-5 / Claude Opus 4.7 / Gemini 2.5 Pro'yu feature labeler olarak kullanma), simulation-based evaluation ile auto-interp doğruluğu, specificity ve sensitivity metrikleri detaylı işlenir. Platform düzeyinde Neuronpedia (1000+ public SAE browsing — GPT-2 → Gemma 2 → Claude), Goodfire AI (interactive feature exploration + steering API), Gemma Scope (DeepMind 2024 — Gemma 2 üzerinde 400+ public SAE) tanıtılır. Bu platformlar üzerinden kendi domain'iniz için (Türkçe NLP, hukuk, sağlık, finans) feature ailesi taraması yapma disiplini kazandırılır.</p>

<p>Sekizinci modül SAE'lerden çıkardığımız feature'ları kullanan circuit analysis mühendisliğine ayrılmıştır. Activation patching (clean vs corrupt run karşılaştırması ile causal intervention), Wang 2022 IOI (Indirect Object Identification) circuit'in yeniden üretimi, Olsson 2022 induction heads bulgusu (in-context learning'in 2-step circuit'i: previous-token head + induction head), Conmy 2023 ACDC (automatic circuit discovery), edge attribution patching ve EAP-IG (integrated gradients ile compute-efficient attribution) detaylı işlenir. Path patching ve direct logit attribution ile büyük circuit'lerin sparse yorumu yapılır.</p>

<p>Dokuzuncu modül fine-tuning yapmadan, sadece inference time'da activation'lara vektör ekleyerek model davranışı kontrol etme disiplinini ele alır. Arditi et al. 2024 'Refusal in LLMs is mediated by a single direction' bulgusu — refusal'ın tek bir activation direction'ı tarafından yönetildiği — adım adım inşa edilir. Harmful vs harmless prompt pair'leriyle direction extraction, refusal ablation ile 'jailbreak by orthogonalization' tekniği uygulanır. Anthropic persona vectors (helpful, harmless, honest yönleri), ITI (Li 2023 — head selection ile truthfulness improvement), CAA (Rimsky 2023 — contrastive activation addition), production steering API (Goodfire AI + nnsight) detaylı işlenir. Bu disiplin hem AI safety (jailbreak prevention) hem red teaming (model zayıflığı tespiti) için kritik production aracıdır.</p>

<p>Onuncu modül mech interp ve SAE'yi production AI safety problemlerine uygular. Refusal direction monitoring ile real-time jailbreak detection, safety feature amplification ile jailbreak başarı oranı düşürme (Anthropic'in 2024 deneylerinde %40-60), adversarial suffix attack'larının feature-level fingerprint'i, uncertainty feature'ları ile hallucination prediction, knowledge cutoff + temporal feature tespiti, production RAG'da factuality monitoring, Anthropic 2024 deception feature araştırması, manipulation + sycophancy feature'ları ile model davranış audit'i, EU AI Act Article 13 transparency ve KVKK uyumluluk için interpretability raporu üretimi — her birinin somut implementasyonu yapılır.</p>

<p>On birinci modül mech interp ekosisteminin tüm açık kaynak araçlarını karşılaştırmalı ele alır: TransformerLens (Neel Nanda — Python mech interp standardı, HookedTransformer + hook points + ActivationCache); SAELens (Joseph Bloom — SAE training + analysis + dashboard); nnsight (Eleuther AI — distributed mech interp + remote execution + multi-model interventions); Gemma Scope (DeepMind 2024 — Gemma 2 2B-9B-27B üzerinde 400+ public SAE); EleutherAI sae bank (Pythia + GPT-NeoX SAE'leri); Goodfire AI Ember API (production feature steering); Neuronpedia (1000+ public SAE browsing platform'u); Anthropic Circuits Lab open-source artefaktları. Her birinin scope, learning curve, doğru kullanım senaryosu ve production entegrasyonu detaylı işlenir.</p>

<p>Capstone modülünde her katılımcı, kendi senaryosuna özel uçtan uca bir mech interp pipeline'ı tasarlar: use case seçimi (jailbreak detector, hallucination monitor, red team tool, custom feature catalog), base model (Gemma 2 9B veya Llama 3.3 8B veya Qwen3), SAE training (Gemma Scope public SAE veya custom training), feature discovery + auto-interpretation, custom feature steering implementasyonu, AI safety / RAG / red teaming somut use case çözümü, 90 günlük operational roadmap. Eğitim sonunda katılımcılar; SAE matematik formülasyonunu Bradley-Terry düzeyinde inşa edebilecek; vanilla, Top-K, Gated, JumpReLU varyantları arasında doğru tercih yapabilecek; TransformerLens + SAELens ile production-grade SAE eğitebilecek; Anthropic Scaling Monosemanticity ve Crosscoders metodolojisini uygulayabilecek; activation patching + ACDC ile circuit analizi yapabilecek; refusal direction + persona vectors + ITI + CAA ile model davranışı kontrol edebilecek; mech interp'i jailbreak prevention, hallucination detection ve alignment audit gibi production AI safety problem'lerine uygulayabilecek; ve TransformerLens, SAELens, nnsight, Gemma Scope, Goodfire, Neuronpedia toolchain'ini ustaca yönetebilecek seviyede teknik yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 100'ün üzerinde uygulamalı ders içerir.</p>