Red-Teaming Lab: GCG + PAIR + AutoDAN + Prompt Injection Robustness
Production deploy öncesi zorunlu: red-team probe. GCG (Greedy Coordinate Gradient — adversarial suffix attack), PAIR (Prompt Automatic Iterative Refinement — LLM attacks LLM), AutoDAN (jailbreak auto-generation), prompt injection (RAG context'inde malicious instruction). Cookbook'un open red-team corpus + scoring metodu.
Şükrü Yusuf KAYA
30 dakikalık okuma
İleri1. Red-Team Attack Tipleri#
| Attack | Yöntem | Zorluk |
|---|---|---|
| Manual jailbreak | Insan tarafından prompt yazılır ("DAN", "AIM") | düşük |
| Roleplay | "Sen bir hacker'sın" | orta |
| GCG (Zou 2023) | Gradient-based suffix optimization | yüksek (whitebox) |
| PAIR (Chao 2023) | LLM-vs-LLM iterative refinement | yüksek |
| AutoDAN (Liu 2024) | Genetic algorithm + LLM | yüksek |
| Prompt injection | RAG context'inde "ignore previous" instructions | orta |
| Multilingual | TR prompt + AR/RU obfuscation | orta |
Cookbook'un kuralı: Production deploy öncesi en az 4 attack tipinde test, ASR (Attack Success Rate) < %5 olmalı.
✅ Teslim
- HarmBench veya AdvBench dataset'i indir. 2) FT model üzerinde GCG attack koş. 3) ASR ölç. 4) Sonraki ders: 18.8 — Watermarking & Provenance.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Environment Pinning: uv + pyproject.toml, CUDA Version Matrix ve Container Reçeteleri
Öğrenmeye BaşlaBağlantılı Pillar Konular