Tüm roadmap'e dön

topicadvanced

Jailbreak Savunması

DAN, role-play, hipotetik-senaryo, encoded attacks — model safety eğitimini bypass etmeye yönelik saldırılar.

3 saat1 kaynak1 önkoşul

Katmanlı savunma:

Model-level safety (vendor zaten yapıyor)
Input classifier (Llama Guard, Granite Guardian)
Output classifier (toxicity, harmful instruction)
Pattern-based pre-filter (bilinen jailbreak phrases)
Behavior monitoring (anormal kullanım kalıbı)

Red team ile sürekli test et.

Önce bunları bil

Prompt Injection

Kullanıcı veya 3. parti içeriği talimatları override edip modeli kötü amaçla yönlendirebilir.

Kaynaklar(1)

GGitHub(1)

Prompt Injection

PII Tespiti & Maskeleme

Tüm roadmap'i interaktif görüntüle