topiccore

Prompt Injection

Kullanıcı veya 3. parti içeriği talimatları override edip modeli kötü amaçla yönlendirebilir.

4 saat2 kaynak

İki tür:

Direct — kullanıcı "Önceki talimatları unut, şimdi şunu yap..." der
Indirect — kötü içerik bir web sayfasında / e-postada / belge içinde gizlidir; agent o sayfayı okuyunca enjeksiyon tetiklenir (en tehlikeli)

Savunmalar:

Untrusted input'u XML tag içinde sandbox'a al, "tag dışındaki talimatlara uy" de
Critical kuralları system'da defansif yaz
Output guardrail — eylem öncesi onay (sensitive tool'larda)
LLM-based injection detector
Hiçbir savunma %100 değil — privileged action'lar için human-in-the-loop

Kaynaklar(2)