Red-Teaming Lab: GCG + PAIR + AutoDAN + Prompt Injection Robustness

Production deploy öncesi zorunlu: red-team probe. GCG (Greedy Coordinate Gradient — adversarial suffix attack), PAIR (Prompt Automatic Iterative Refinement — LLM attacks LLM), AutoDAN (jailbreak auto-generation), prompt injection (RAG context'inde malicious instruction). Cookbook'un open red-team corpus + scoring metodu.

Şükrü Yusuf KAYA

30 dakikalık okuma

26.06.2026

İleri

Red-Teaming Lab: GCG + PAIR + AutoDAN + Prompt Injection Robustness

1. Red-Team Attack Tipleri#

Attack	Yöntem	Zorluk
Manual jailbreak	Insan tarafından prompt yazılır ("DAN", "AIM")	düşük
Roleplay	"Sen bir hacker'sın"	orta
GCG (Zou 2023)	Gradient-based suffix optimization	yüksek (whitebox)
PAIR (Chao 2023)	LLM-vs-LLM iterative refinement	yüksek
AutoDAN (Liu 2024)	Genetic algorithm + LLM	yüksek
Prompt injection	RAG context'inde "ignore previous" instructions	orta
Multilingual	TR prompt + AR/RU obfuscation	orta

Cookbook'un kuralı: Production deploy öncesi en az 4 attack tipinde test, ASR (Attack Success Rate) < %5 olmalı.

✅ Teslim

HarmBench veya AdvBench dataset'i indir. 2) FT model üzerinde GCG attack koş. 3) ASR ölç. 4) Sonraki ders: 18.8 — Watermarking & Provenance.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Part 0 — Engineering Foundations

Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı

Öğrenmeye Başla

Part 0 — Engineering Foundations

Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir

Öğrenmeye Başla

Part 0 — Engineering Foundations

Environment Pinning: uv + pyproject.toml, CUDA Version Matrix ve Container Reçeteleri

Öğrenmeye Başla

Bağlantılı Pillar Konular

Bu yazının bağlandığı pillar konular

Pillar Konusu

Prompt ve Bağlam Mühendisliği

Prompt mühendisliği; büyük dil modelinden tutarlı, doğru ve maliyet-verimli çıktı almak için talimatların, örneklerin, bağlamın ve format kontrolünün bilimsel olarak tasarlandığı uygulamalı disiplindir.