Tüm roadmap'e dön

topicadvanced

Agent Red-Teaming

Production'a çıkmadan önce kendi agent'ını sistematik olarak kırmaya çalış.

3 saat2 kaynak1 önkoşul

Agent red-team scope tek-shot LLM'den geniş:

Direct injection ("ignore prev")
Indirect injection (poisoned web pages, files, emails)
Capability misuse (model destructive tool'u izinsiz çağırır mı?)
Resource exhaustion (loop'ta cost-attack)
Privacy leak (model PII'yi tool'a sızdırır mı?)
Tool result tampering (model'i yanlış observation ile manipüle)
Multi-step attacks (5 turn'lük sosyal mühendislik)

Tools: PyRIT (Microsoft), Garak, Anthropic'in dataset'leri. Adversarial dataset → her release öncesi otomatik çalıştır.

Önce bunları bil

Indirect Prompt Injection (Agent-Spesifik)

Agent'ın okuduğu web sayfası/e-posta/dosya içine gömülü kötü amaçlı talimat — en tehlikeli saldırı.

Kaynaklar(2)

GGitHub(2)

PyRIT (Microsoft AI Red Team)

Garak (LLM vulnerability scanner)

Rate Limiting & Queue Management

Audit Trail & Compliance

Tüm roadmap'i interaktif görüntüle