İçeriğe geç
Tüm roadmap'e dön
topicadvanced

Agent Red-Teaming

Production'a çıkmadan önce kendi agent'ını sistematik olarak kırmaya çalış.

3 saat2 kaynak1 önkoşul

Agent red-team scope tek-shot LLM'den geniş:

  • Direct injection ("ignore prev")
  • Indirect injection (poisoned web pages, files, emails)
  • Capability misuse (model destructive tool'u izinsiz çağırır mı?)
  • Resource exhaustion (loop'ta cost-attack)
  • Privacy leak (model PII'yi tool'a sızdırır mı?)
  • Tool result tampering (model'i yanlış observation ile manipüle)
  • Multi-step attacks (5 turn'lük sosyal mühendislik)

Tools: PyRIT (Microsoft), Garak, Anthropic'in dataset'leri. Adversarial dataset → her release öncesi otomatik çalıştır.

Önce bunları bil

Kaynaklar(2)