İçeriğe geç
Tüm roadmap'e dön
topicadvanced

Jailbreak Savunması

DAN, role-play, hipotetik-senaryo, encoded attacks — model safety eğitimini bypass etmeye yönelik saldırılar.

3 saat1 kaynak1 önkoşul

Katmanlı savunma:

  • Model-level safety (vendor zaten yapıyor)
  • Input classifier (Llama Guard, Granite Guardian)
  • Output classifier (toxicity, harmful instruction)
  • Pattern-based pre-filter (bilinen jailbreak phrases)
  • Behavior monitoring (anormal kullanım kalıbı)

Red team ile sürekli test et.

Önce bunları bil

Kaynaklar(1)