# AI Red Teaming ve Adversarial Robustness Mühendisliği Eğitimi (MITRE ATLAS + OWASP LLM Top 10 + Garak + PyRIT + Llama Guard)

> Source: https://sukruyusufkaya.com/training/ai-red-teaming-adversarial-robustness-muhendisligi-egitimi
> Updated: 2026-07-02T06:32:18.814Z
> Level: advanced
> Topics: ai red teaming, mitre atlas, owasp llm top 10, prompt injection, jailbreak llm, gcg attack, pair tap jailbreak, indirect prompt injection, data poisoning, model extraction, nvidia garak, microsoft pyrit, promptfoo red team, uk aisi inspect, llama guard 4, constitutional classifiers, nemo guardrails, eu ai act red team, kvkk ai güvenlik, mcp security
**TLDR:** LLM ve üretken AI sistemlerinin güvenlik testini, prompt injection + jailbreak + data poisoning + multimodal saldırılara karşı savunmayı ve EU AI Act + KVKK + ISO 42001 + BDDK uyumluluk audit'ini uçtan uca işleyen 3 günlük ileri seviye Türkçe red teaming eğitimi. MITRE ATLAS, OWASP LLM Top 10 (2025), NVIDIA Garak, Microsoft PyRIT, Promptfoo, UK AISI Inspect, Llama Guard 4, Anthropic Constitutional Classifiers, NeMo Guardrails, agent + browser agent + MCP security dahil.

## Açıklama

AI Red Teaming ve Adversarial Robustness Mühendisliği Eğitimi, kurumsal LLM ve üretken AI ürünlerini saldırı vektörlerine karşı sistematik test etmek ve sağlamlaştırmak isteyen AI Security Engineer, Red Team Engineer, ML Engineer, Compliance Officer ve Senior Backend Developer'lar için tasarlanmış 3 günlük ileri seviye bir programdır.

## Kazanımlar

- AI red teaming'i klasik pen test'ten ustaca ayırt edebilirsiniz.
- MITRE ATLAS framework ile threat modeling worksheet hazırlayabilirsiniz.
- OWASP LLM Top 10 (2025) tüm maddelerini risk envanterine çevirebilirsiniz.
- Direct + indirect prompt injection + multi-turn jailbreak senaryoları tasarlayabilirsiniz.
- GCG, PAIR, TAP, Crescendo, Skeleton Key, Many-shot automated attack'ı uygulayabilirsiniz.
- Multimodal saldırılar (image, audio, document, browser agent) tasarlayabilirsiniz.
- NVIDIA Garak + Microsoft PyRIT + Promptfoo + UK AISI Inspect tool'larını kullanabilirsiniz.
- Llama Guard 4 + Constitutional Classifiers + NeMo Guardrails defense stack kurabilirsiniz.
- Agent + browser agent + MCP specific saldırı ve savunma stratejisi geliştirebilirsiniz.
- EU AI Act + KVKK + ISO 42001 + BDDK uyumlu red team audit raporu üretebilirsiniz.

<p>Bu eğitim, kurumsal üretken AI ve LLM ürünlerini saldırı vektörlerine karşı sistematik test etme ve sağlamlaştırma disiplini olan AI red teaming + adversarial robustness mühendisliğini Türkçe olarak uçtan uca işlemek üzere tasarlanmıştır. 2024-2026 dönemine damga vuran gelişmeler: EU AI Act'in Mayıs 2024'te yürürlüğe girmesi + Article 15 robustness/cybersecurity zorunluluğu + Article 50 transparency, KVKK Üretken AI Rehberi (2024), ISO/IEC 42001:2023 AI Management System sertifikasyonu, NIST AI RMF 1.1 (2024), Microsoft AI Red Team metodolojisinin yayınlanması, UK AI Safety Institute (AISI) framework'ü, NVIDIA Garak ve Microsoft PyRIT açık kaynak red team tool'larının olgunlaşması, OWASP LLM Top 10 v2.0 (2025) güncellemesi, MITRE ATLAS framework'ünün olgunlaşması. Türkiye'de bu disiplini Türkçe + uçtan uca + production-grade işleyen bir eğitim neredeyse yoktur — mevcut içerikler ya OWASP slide'larında takılı kalıyor ya da yüzeysel jailbreak demo seviyesinde donuyor. Bu program söz konusu boşluğu Türkiye'nin en kapsamlı production-grade AI red teaming referans eğitimi olarak doldurmak üzere tasarlanmıştır.</p>

<p>Programın stratejik omurgasını, AI red teaming'in klasik penetration testing ile farkını netleştiren ve 2026 tehdit manzarasını haritalandıran ilk modül oluşturur. Klasik pen test deterministic sistemler için tasarlandı; AI sistemler non-deterministic + semantic attack surface + natural language jailbreak'e açık — bu farkı kavramadan modern AI security inşa edilemez. Anthropic constitutional AI + ARC Evals + Responsible Scaling Policy, OpenAI Preparedness Framework + system card red team raporları, Microsoft AI Red Team + UK AISI Inspect Framework metodolojileri karşılaştırmalı işlenir. Compliance zorunluluğu: EU AI Act Article 15 (robustness + cybersecurity), KVKK Üretken AI Rehberi (2024), ISO/IEC 42001:2023 audit requirements, Bankacılık BDDK + sağlık SBSGM + finansal SPK + denetim KGK sektörel AI güvenlik çerçeveleri detaylandırılır. Türk kurumsal AI ekipleri için 2026'da red teaming opsiyonel değil zorunlu hale geliyor.</p>

<p>İkinci modül MITRE'nin 2020'de başlattığı ve 2024-2026'da olgunlaşan ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) framework'ünü detaylı işler. ATLAS matrix yapısı: 14 tactics (Reconnaissance → ML Model Discovery → Initial Access → Execution → Persistence → ML Attack Staging → Exfiltration → Impact) ve 80+ techniques. ATLAS Navigator tool + JSON layer files kullanımı pratik gösterilir. Kritik tactics derinleşmesi: ML Model Reconnaissance (T1591), ML Supply Chain Compromise, Prompt Injection (LLM-AT0007), Jailbreak (LLM-AT0006), Data Poisoning (AML.T0020), Model Stealing (AML.T0044). Real-world vakalar (Microsoft Tay 2016, OpenAI ChatGPT plugin attacks 2023, indirect prompt injection vakaları) ATLAS taksonomi'sinde kategorize edilir. Threat modeling worksheet: kurumsal LLM ürünü için ATLAS-based risk envanteri + impact-likelihood scoring + mitigation roadmap. ATLAS + STRIDE + OWASP LLM Top 10 birleşik framework Türkçe red team raporu için ideal.</p>

<p>Üçüncü modül OWASP Foundation'ın 2023'te başlattığı ve 2025'te v2.0 olarak güncellediği OWASP LLM Top 10'u detaylı işler. LLM01 Prompt Injection (direct + indirect ayrımı), LLM02 Insecure Output Handling (LLM çıktısının XSS / SQL injection vektörü olması), LLM03 Training Data Poisoning, LLM04 Model Denial of Service (DoS), LLM05 Supply Chain Vulnerabilities (HuggingFace pickle, model lineage), LLM06 Sensitive Information Disclosure (PII + system prompt leak), LLM07 System Prompt Leakage (Anthropic + OpenAI'ın 2024-2025'te keşfedilen sızıntıları), LLM08 Vector and Embedding Weaknesses (RAG poisoning), LLM09 Misinformation (hallucination weaponization), LLM10 Unbounded Consumption (cost + DoS attack). Her madde için real-world örnek + mitigation kontrol listesi + Python kod örneği sunulur. OWASP + ATLAS + NIST AI RMF birleşik mapping eğitilen Türk kurumsal compliance ekibinin işini büyük ölçüde kolaylaştırır.</p>

<p>Dördüncü modül LLM güvenliğinin en kritik attack vektörü olan prompt injection'ı matematiksel ve pratik düzeyde işler. Direct Prompt Injection (DPI): kullanıcının doğrudan 'ignore previous instructions' veya jailbreak template (DAN, STAN) ile system prompt'u override etmesi; role-play hijacking; persona switching attacks. Indirect Prompt Injection (IPI): Greshake et al. 2023 makalesi temelinde — kötü niyetli içeriğin RAG dokümanı, web sayfası, email, PDF, image OCR, audio transcript içinde gizlenip LLM tarafından injection olarak çalıştırılması. Anthropic'in Claude Computer Use + Claude'da yaptığı 2024 IPI research, real-world ChatGPT plugin attack vakaları detaylı çözümlenir. Mitigation katmanları: Anthropic'in spotlight (XML tag), prompt sandwiching + delimiter, input sanitization, LLM-as-judge detection layer, principle of least privilege, output validation, sandboxing. Production'da no single defense yeterli — defense in depth zorunlu.</p>

<p>Beşinci modül LLM jailbreak'in 2023-2026 evrimini ele alır. Manual: DAN (Do Anything Now), STAN, hypothetical scenario, role-play hijacking, encoding tricks (Base64, ROT13, Pig Latin, Unicode obfuscation), low-resource language jailbreak. Automated: GCG (Greedy Coordinate Gradient suffix attack, Zou et al. 2023), AutoDAN (gradient-free), PAIR (Prompt Automatic Iterative Refinement, Chao 2023), TAP (Tree of Attacks with Pruning) Python implementation. Multi-turn: Crescendo (Microsoft 2024 gradual escalation, küçük zararsız sorularla başlayıp giderek tırmandırma), Skeleton Key (Microsoft 2024 universal bypass), Many-shot jailbreaking (Anthropic 2024, 256+ örnekle in-context jailbreak). Defense: Anthropic Constitutional Classifiers (2025, %95 jailbreak prevention), Llama Guard 4 (Meta 2025), NVIDIA NeMo Guardrails. Multi-turn vs single-turn defense karşılaştırması.</p>

<p>Altıncı modül 2024-2026'da yaygınlaşan multimodal LLM'lerin attack surface'ini ele alır. Image-based: visual prompt injection (Bagdasaryan 2023), invisible Unicode text-in-image, adversarial image patches, QR code injection, hidden white-on-white text. Audio: TTS jailbreak (Anthropic Claude voice 2024-2025), audio adversarial perturbation, Whisper transcription injection. Document: PDF + DOCX hidden injection, OCR-based attack, white-on-white text trick. Browser Agent / Computer Use specific: Anthropic Computer Use IPI risk'leri (Anthropic Computer Use security paper'da kabul edildi), OpenAI Operator + Browser Use screenshot manipulation attacks, DOM-based prompt injection, popup hijacking. GPT-5 Vision, Claude Sonnet 4.6 + Opus 4.7 Vision, Gemini 2.5 Vision için specific attack pattern'ları hands-on yapılır.</p>

<p>Yedinci modül training pipeline ve ML supply chain'i hedef alan saldırıları ele alır. Data Poisoning: BadNets (Gu 2017 — training set'e backdoor trigger ekleme), instruction tuning data poisoning (Wan 2023, Xu 2024), RAG vector store poisoning (kötü niyetli doküman embed ederek retrieval'ı yönlendirme), GraphRAG attack vectors. Model Extraction: Tramer 2016 model stealing via API, knowledge distillation extraction attack, embedding extraction; Anthropic + OpenAI'ın watermarking defense yaklaşımları. Supply Chain: HuggingFace pickle deserialization vulnerability (2024 GitHub Sleepy Pickle vakası — pickle ile arbitrary code execution riski), GGUF model lineage attack, model card metadata manipulation, malicious LoRA adapter dağıtımı. Mitigation: safetensors enforcement, model lineage verification, signature checking, sandbox loading.</p>

<p>Sekizinci modül 2024-2026 ekosisteminin lider red team tool'larını detaylı işler. NVIDIA Garak (open-source generative AI vulnerability scanner): 100+ built-in probe (DAN, GCG, leakage, encoding, malware-gen), modular detector framework, garak --model_type komutu ile hızlı LLM scan; custom probe + detector + buff yazımı; Garak HTML report + CI/CD entegrasyonu. Microsoft PyRIT (Python Risk Identification Tool for generative AI): orchestrator + target + converter + scorer mimarisi; multi-turn attack için Crescendo + RedTeaming orchestrator; Azure Content Safety + Azure OpenAI integration. Promptfoo (open-source eval + red team): red team plugin + CI/CD integration + prompt regression. UK AISI Inspect (2024): government-grade evaluation framework, hands-on dangerous-capability eval. Tool selection matrix: hangi senaryo için hangi tool optimal — pratik karar rehberi.</p>

<p>Dokuzuncu modül saldırı'ya karşı katmanlı savunma disiplinini detaylı işler. Meta Llama Guard 4 (2025): input + output classification, safety taxonomy (S1 violent crime → S14 elections), Python deployment ile fine-tuned custom Llama Guard yazımı. Anthropic Constitutional Classifiers (2025): jailbreak-robust filtering, %95 jailbreak prevention iddiası ve real-world performance. NVIDIA NeMo Guardrails: Colang DSL syntax + flow + rail definition; topic guardrails (off-topic prevention) + RAG safety + dialogue guardrails; NeMo + LangChain + LlamaIndex integration. Multi-layer defense in depth: input → output → tool call → output validation katmanları; GuardrailsAI + Outlines (structured output) + Microsoft Guidance entegrasyonu; cost vs latency vs robustness trade-off karar matrisi. Production'da no silver bullet — katmanlı yaklaşım zorunlu.</p>

<p>Onuncu modül agent paradigmasının açtığı yeni attack surface'i detaylı ele alır. Tool misuse: agent'ın yanlış tool çağrısı (örn: 'send_email' tool'unu spam göndermek için kullanma), excessive privilege scope creep, confused deputy problem (user trust ile LLM action arası mismatch). MCP (Model Context Protocol) saldırıları: kötü niyetli MCP server, tool description injection, MCP server response manipulation, chain injection. Browser agent risks: Anthropic Computer Use security paper'ında kabul edilen IPI risk'leri, OpenAI Operator + Browser Use screenshot manipulation, DOM-based prompt injection, popup hijacking. Defense pattern'ları: principle of least privilege (her tool için minimum scope), human-in-the-loop approval (kritik action'larda insan onayı), tool sandboxing + ephemeral VM + scope-limited credentials, MCP server signing + verification.</p>

<p>On birinci modül red teaming sonuçlarını kurumsal compliance disiplinine bağlar. EU AI Act (Mayıs 2024 yürürlük): Article 15 robustness + cybersecurity (high-risk AI için red team zorunlu), Article 50 transparency (deepfake + üretken AI etiketleme), high-risk AI sınıflandırması Annex III, fines €35M veya global revenue %7. KVKK Üretken AI Rehberi (2024): risk değerlendirme, PII handling, jailbreak prevention, denetim çerçevesi. ISO/IEC 42001:2023 AI Management System sertifikasyon süreci; NIST AI RMF 1.1 (2024) Govern + Map + Measure + Manage fonksiyonları; Frontier Model Forum (FMF) + GPAI commitments takibi. Türkiye sektörel çerçeve: BDDK bankacılık AI çerçevesi + KGK BDS denetim; SBSGM sağlık AI; SPK finansal AI; KGK denetim. Türkçe red team audit rapor template + remediation roadmap pratik gösterilir.</p>

<p>Capstone modülünde her katılımcı, kendi kurumunun LLM ürünü için uçtan uca bir red team playbook'u inşa eder: hedef sistem profili (chatbot, agent, RAG, browser agent, multimodal LLM), ATLAS-based threat modeling worksheet, OWASP LLM Top 10 risk envanteri, attack pipeline (Garak + PyRIT + Promptfoo + custom probes), defense stack (Llama Guard 4 + Constitutional Classifiers + NeMo Guardrails + custom filters), compliance audit (EU AI Act + KVKK + ISO 42001 + sektörel BDDK/SBSGM/SPK), 90 günlük remediation roadmap. Eğitim sonunda katılımcılar; AI red teaming'in klasik pen test'ten farkını netçe çerçeveleyebilecek; MITRE ATLAS + OWASP LLM Top 10 (2025) framework'lerini ustaca kullanabilecek; direct + indirect prompt injection + multi-turn jailbreak + multimodal attack senaryolarını tasarlayabilecek; data poisoning + model extraction + supply chain attack'larını tanıyabilecek; NVIDIA Garak + Microsoft PyRIT + Promptfoo + UK AISI Inspect tool'larını production'da kullanabilecek; Llama Guard 4 + Constitutional Classifiers + NeMo Guardrails defense stack'i kurabilecek; agent + browser agent + MCP specific saldırılara karşı savunma sağlayabilecek ve EU AI Act + KVKK + ISO 42001 + BDDK compliance audit raporu üretebilecek seviyede teknik yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 100'ün üzerinde uygulamalı ders içerir.</p>