Tüm roadmap'e dön
topicadvanced
Jailbreak Savunması
DAN, role-play, hipotetik-senaryo, encoded attacks — model safety eğitimini bypass etmeye yönelik saldırılar.
3 saat1 kaynak1 önkoşul
Katmanlı savunma:
- Model-level safety (vendor zaten yapıyor)
- Input classifier (Llama Guard, Granite Guardian)
- Output classifier (toxicity, harmful instruction)
- Pattern-based pre-filter (bilinen jailbreak phrases)
- Behavior monitoring (anormal kullanım kalıbı)
Red team ile sürekli test et.