İçeriğe geç
Tüm roadmap'e dön
topiccore

Prompt Injection

Kullanıcı veya 3. parti içeriği talimatları override edip modeli kötü amaçla yönlendirebilir.

4 saat2 kaynak

İki tür:

  1. Direct — kullanıcı "Önceki talimatları unut, şimdi şunu yap..." der
  2. Indirect — kötü içerik bir web sayfasında / e-postada / belge içinde gizlidir; agent o sayfayı okuyunca enjeksiyon tetiklenir (en tehlikeli)

Savunmalar:

  • Untrusted input'u XML tag içinde sandbox'a al, "tag dışındaki talimatlara uy" de
  • Critical kuralları system'da defansif yaz
  • Output guardrail — eylem öncesi onay (sensitive tool'larda)
  • LLM-based injection detector
  • Hiçbir savunma %100 değil — privileged action'lar için human-in-the-loop

Kaynaklar(2)