Tüm roadmap'e dön
topiccore
Prompt Injection
Kullanıcı veya 3. parti içeriği talimatları override edip modeli kötü amaçla yönlendirebilir.
4 saat2 kaynak
İki tür:
- Direct — kullanıcı "Önceki talimatları unut, şimdi şunu yap..." der
- Indirect — kötü içerik bir web sayfasında / e-postada / belge içinde gizlidir; agent o sayfayı okuyunca enjeksiyon tetiklenir (en tehlikeli)
Savunmalar:
- Untrusted input'u XML tag içinde sandbox'a al, "tag dışındaki talimatlara uy" de
- Critical kuralları system'da defansif yaz
- Output guardrail — eylem öncesi onay (sensitive tool'larda)
- LLM-based injection detector
- Hiçbir savunma %100 değil — privileged action'lar için human-in-the-loop