İçeriğe geç

OpenAI o-series Reinforcement Fine-Tuning (RFT): Grader Function Design

OpenAI 2024 sonu RFT açıkladı: o-series modelleri (o1, o3, o4-mini) reasoning RL ile fine-tune et. **Grader function** — model output'una sayısal score veren senin yazdığın fonksiyon (math correctness, code execution, custom rule). Verifiable domain'ler için ideal. JSON-based grader spec.

Şükrü Yusuf KAYA
28 dakikalık okuma
İleri
OpenAI o-series Reinforcement Fine-Tuning (RFT): Grader Function Design
json
// === OpenAI Grader Function Spec ===
{
"type": "multi",
"graders": {
"math_correctness": {
"type": "string_check",
"input": "{{sample.final_answer}}",
"reference": "{{item.gold_answer}}",
"operation": "eq"
},
"step_count": {
"type": "python",
"source": "def grade(sample, item):\n steps = sample['response'].count('Step')\n return min(steps / 5.0, 1.0)"
},
"uses_formula": {
"type": "string_check",
"input": "{{sample.response}}",
"operation": "contains",
"reference": "{{item.required_formula}}"
}
},
"calculate_output": "0.7 * math_correctness + 0.2 * uses_formula + 0.1 * step_count"
}
OpenAI RFT grader spec
✅ Teslim
  1. Math problem set için grader function tasarla. 2) o4-mini RFT job pilot. 3) Sonraki ders: 14.3 — GPT-5/5.1 Distillation Pipeline.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler