OpenAI o-series Reinforcement Fine-Tuning (RFT): Grader Function Design
OpenAI 2024 sonu RFT açıkladı: o-series modelleri (o1, o3, o4-mini) reasoning RL ile fine-tune et. **Grader function** — model output'una sayısal score veren senin yazdığın fonksiyon (math correctness, code execution, custom rule). Verifiable domain'ler için ideal. JSON-based grader spec.
Şükrü Yusuf KAYA
28 dakikalık okuma
İlerijson
// === OpenAI Grader Function Spec ==={ "type": "multi", "graders": { "math_correctness": { "type": "string_check", "input": "{{sample.final_answer}}", "reference": "{{item.gold_answer}}", "operation": "eq" }, "step_count": { "type": "python", "source": "def grade(sample, item):\n steps = sample['response'].count('Step')\n return min(steps / 5.0, 1.0)" }, "uses_formula": { "type": "string_check", "input": "{{sample.response}}", "operation": "contains", "reference": "{{item.required_formula}}" } }, "calculate_output": "0.7 * math_correctness + 0.2 * uses_formula + 0.1 * step_count"}OpenAI RFT grader spec
✅ Teslim
- Math problem set için grader function tasarla. 2) o4-mini RFT job pilot. 3) Sonraki ders: 14.3 — GPT-5/5.1 Distillation Pipeline.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations