Tüm roadmap'e dön
topicadvanced
Reflexion / Self-Critique Loop
Agent kendi çıktısını eleştirir → öğrendiklerini memory'e yazar → bir sonraki denemede aynı hatayı yapmaz.
3 saat2 kaynak1 önkoşul
Reflexion (Shinn et al., 2023): ReAct + episodic self-reflection.
3 katman:
- Actor — ReAct ile görevi dene
- Evaluator — sonucu skorla (LLM-as-judge ya da kural-tabanlı)
- Self-Reflection — fail ise, "neden başarısız oldum?" diye düşün, ders çıkar
Ders memory'e yazılır. Sonraki deneme aynı görevde prefix olarak past failures ile başlar. Model "geçen sefer X yaptım, çalışmadı, bu sefer Y deneyim" mantığını izler.
HotpotQA benchmark'ında baseline'a göre +20%. Coding görevleri için özellikle kuvvetli.