Tüm roadmap'e dön
topicadvanced
Agent Red-Teaming
Production'a çıkmadan önce kendi agent'ını sistematik olarak kırmaya çalış.
3 saat2 kaynak1 önkoşul
Agent red-team scope tek-shot LLM'den geniş:
- Direct injection ("ignore prev")
- Indirect injection (poisoned web pages, files, emails)
- Capability misuse (model destructive tool'u izinsiz çağırır mı?)
- Resource exhaustion (loop'ta cost-attack)
- Privacy leak (model PII'yi tool'a sızdırır mı?)
- Tool result tampering (model'i yanlış observation ile manipüle)
- Multi-step attacks (5 turn'lük sosyal mühendislik)
Tools: PyRIT (Microsoft), Garak, Anthropic'in dataset'leri. Adversarial dataset → her release öncesi otomatik çalıştır.