İçeriğe geç
Tüm roadmap'e dön
topicadvanced

Reflexion / Self-Critique Loop

Agent kendi çıktısını eleştirir → öğrendiklerini memory'e yazar → bir sonraki denemede aynı hatayı yapmaz.

3 saat2 kaynak1 önkoşul

Reflexion (Shinn et al., 2023): ReAct + episodic self-reflection.

3 katman:

  1. Actor — ReAct ile görevi dene
  2. Evaluator — sonucu skorla (LLM-as-judge ya da kural-tabanlı)
  3. Self-Reflection — fail ise, "neden başarısız oldum?" diye düşün, ders çıkar

Ders memory'e yazılır. Sonraki deneme aynı görevde prefix olarak past failures ile başlar. Model "geçen sefer X yaptım, çalışmadı, bu sefer Y deneyim" mantığını izler.

HotpotQA benchmark'ında baseline'a göre +20%. Coding görevleri için özellikle kuvvetli.

Önce bunları bil

Kaynaklar(2)

İlgili adımlar