Skip to content

Self-Critique ve Reflexion ile İyileştirme Döngüsü

Modelin kendi cevabını eleştirmesi ve iyileştirmesi. Self-critique, Reflexion, n-best-then-rerank pattern'leri.

Şükrü Yusuf KAYA
10 min read
Intermediate

Self-Critique ve Reflexion

Modeller kendi hatalarını fark edebilir ve düzeltebilir — eğer doğru sorulursa.

Self-Critique Loop#

3 aşamalı:
  1. Generate: İlk cevabı üret
  2. Critique: "Bu cevabın eksik/yanlış yönleri nedir?"
  3. Refine: Eleştiriye göre cevabı yeniden yaz
python
# Self-critique 3 aşama
import os
from anthropic import Anthropic
from dotenv import load_dotenv
load_dotenv()
 
client = Anthropic(api_key=os.getenv("ANTHROPIC_API_KEY"))
 
def ask(prompt, system=""):
r = client.messages.create(
model="claude-haiku-4-5-20251001",
max_tokens=600, temperature=0.3,
system=system,
messages=[{"role": "user", "content": prompt}],
)
return r.content[0].text
 
QUESTION = """Türk e-ticaret KOBİ'sine 'Yapay Zeka Asistanı'
ürünümüzü pazarlamak için 3 cümlelik bir LinkedIn post taslağı yaz."""
 
# 1. Generate
draft = ask(QUESTION)
print("=== Taslak ===")
print(draft)
 
# 2. Critique
critique = ask(f"""Aşağıdaki LinkedIn post taslağını eleştir.
Net, eyleme dönük 3 madde halinde söyle.
 
Taslak: \"\"\"{draft}\"\"\"
""")
print("\n=== Eleştiri ===")
print(critique)
 
# 3. Refine
final = ask(f"""Aşağıdaki taslağı, verilen eleştiriye göre iyileştir.
 
Taslak: \"\"\"{draft}\"\"\"
 
Eleştiri: \"\"\"{critique}\"\"\"
""")
print("\n=== Final ===")
print(final)
 
3 aşamalı: generate → critique → refine.

N-Best Then Rerank#

Fikir: Aynı prompt'u N kez çalıştır (T=0.7) → aynı modele "en iyi olanı seç" dedirt.
python
# 5 farklı versiyon → judge model en iyiyi seçer
candidates = [ask(QUESTION) for _ in range(5)]
 
formatted = "\n\n".join(f"[{i+1}]\n{c}" for i, c in enumerate(candidates))
 
best = ask(f"""Aşağıda 5 LinkedIn post candidate var.
Hangisi en iyi? Şu kriterlerle değerlendir:
- Hook gücü (ilk cümle dikkat çekiyor mu?)
- Net değer önerisi
- CTA varlığı
 
Cevap formatı:
{{"winner": [1-5], "reason": "1 cümle"}}
 
{formatted}""")
print(best)
N-best then rerank pattern

Reflexion (Karmaşık Görevler İçin)#

Fikir: Model uzun bellek ile çalışır — geçmiş hatalarını "öğrenir" ve sonraki denemelerde hatırlar.
Karmaşıklık yüksek; agent kullanımları için (Modül 8). Ama temel sezgi: hata logu → critique → next iteration prompt.
Trade-off: Self-critique 2-3x maliyet ama %20-40 kalite artışı. Yüksek riskli içeriklerde (yasal, mali) kesinlikle değer.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content