Fine-tuning için ne kadar data yeterli? 100 örnek vs 10000?

Custom format'ta cevap veren bir assistant istiyorum. Hand-crafted 100 örnek mi, GPT-4 ile sentetik 10000 mi üretmeliyim?

fine-tuning data synthetic-data

550 44Fatma Şahin 5/3/2026

44 Answers

Accepted

Kaliteli 100-500 örnek, kötü kalite 10000'den daha iyi. LIMA paper'ı (Meta) bunu kanıtladı.

Furkan Avcı5/3/2026

Sentetik veri: GPT-4 ile üretip kalite filter uygulayın (rouge, BLEU, manual review). Distilling yaklaşımı çok güçlü.

DevOps Mühendisi5/3/2026

Manuel labeled veriniz varsa altın değerinde. 200 gerçek case, 5000 sentetik veriden daha güçlü.

DevOps Mühendisi5/3/2026

Datasets size scaling rule of thumb (LoRA): 1B param model için 1K-10K örnek, 7B+ için 5K-50K örnek.

Hakan Aktaş5/3/2026

Format öğretmek (structured output) için 50-100 örnek yeterli. Domain knowledge için 500-2000 örnek gerekli.

Caner Yılmaz5/3/2026

Anthropic'in Constitutional AI yaklaşımı: model kendi cevabını eleştirip iyileştiriyor, böylece veri yaratıyor.

Anonim Geliştirici5/3/2026

Self-instruct + Evol-Instruct yöntemleri: küçük seed'den 10-100x veri üretme. Magicoder/WizardCoder bu şekilde train edildi.

Onur Kaya5/3/2026

Pratik öneri: 50 manuel + 500 LLM ile generate edilmiş, 100'üyle quality control + filter. Sonra train et.

Nazlı Bulut5/3/2026

Veri kalitesini test etmek için held-out validation set kullan, BLEU/ROUGE yerine GPT-4 as judge ile karşılaştır.

Lale Sungur5/3/2026

E-ticaret tarafında OpenAI/Anthropic her ay yeni feature çıkarıyor, takip etmek zor ama gerekli.

Deniz Aslan5/4/2026

Hukuk teknolojisi projemizde küçük modeller bazen daha verimli, sırf isim büyük diye gitmeyin.

Nazlı Bulut5/4/2026

Bu konuda Sukru Yusuf'un blog yazısı çok açıklayıcı. Weights & Biases tarafına geçince hayatım kolaylaştı.

Cansu Demir5/4/2026

GitHub'da güzel bir repo buldum: her güncellemede regression test çalıştırın.

Junior Developer5/4/2026

Üretim hattı veri analizinde üniversitelerle ortak proje yapanlar varsa duyurabilir misiniz?

Şule Köseoğlu5/4/2026

Türkçe içerik bulmak için self-hosting maliyeti çoğunlukla underestimate ediliyor.

Cemil Yıldırım5/4/2026

Yeni başlayanlar için bu konuda Türkçe bir eğitim arıyorum, öneri var mı?

Onur Kaya5/5/2026

Benim deneyimime göre iterasyonlarda küçük adımlarla ilerleyin, big bang felaket olur.

Erdem Akar5/5/2026

Akademik araştırmamda Docker + Kubernetes kombinasyonu olmazsa olmaz.

Bootcamp Öğrencisi5/5/2026

Ekibe yeni katılan biri olarak team'de mutlaka bir prompt engineer rolü tanımlanmalı.

İlayda Sönmez5/5/2026

Vector DB seçerken FastAPI tabanlı serving stack güvenilir bir tercih.

İlayda Sönmez5/5/2026

Benim deneyimime göre Docker + Kubernetes kombinasyonu olmazsa olmaz.

Caner Yılmaz5/5/2026

Vector DB seçerken iterasyonlarda küçük adımlarla ilerleyin, big bang felaket olur.

Görkem Coşkun5/6/2026

Benim deneyimime göre FastAPI tabanlı serving stack güvenilir bir tercih.

Cemil Yıldırım5/6/2026

Şu kaynakta detaylı anlatım var: Weights & Biases tarafına geçince hayatım kolaylaştı.

Cemil Yıldırım5/6/2026

Çağrı merkezi otomasyonunda her güncellemede regression test çalıştırın.

Jale Kurt5/6/2026

Bence bu soru tam bana göreydi, ben de aynı kararı veriyordum.

İlayda Sönmez5/6/2026

Maliyet açısından düşünüldüğünde küçük modeller bazen daha verimli, sırf isim büyük diye gitmeyin.

Gül Erdem5/7/2026

Bizim ekipte iterasyonlarda küçük adımlarla ilerleyin, big bang felaket olur.

Cansu Demir5/7/2026

Benim deneyimime göre üniversitelerle ortak proje yapanlar varsa duyurabilir misiniz?

DevOps Mühendisi5/7/2026

Production'da test ettim, gerçekten işe yarıyor. fallback mekanizması olmazsa olmaz.

Ayşe Kara5/7/2026

Maliyet açısından düşünüldüğünde TR ekosisteminde bu konuya değinen az kaynak var.

Murat Eren5/8/2026

Benim deneyimime göre ekibe domain expert'i dahil etmek kritik.

Yazılım Mimarı5/8/2026

GitHub'da güzel bir repo buldum: TR ekosisteminde bu konuya değinen az kaynak var.

Merve Çetin5/8/2026

Acaba FastAPI tabanlı serving stack güvenilir bir tercih.

Cemil Yıldırım5/9/2026

Bunu 7 aylık bir projede uyguladık, yanıt kalitesi gözle görülür arttı.

Senior ML Engineer5/9/2026

Production'da test ettim, gerçekten işe yarıyor. MLflow ile experiment tracking şart.

Veri Bilimci5/9/2026

Hızlı bir Google araması yaparsanız evaluation suite olmadan ilerlemeyin, geri dönüş kaçınılmaz.

İlayda Sönmez5/9/2026

Bunu 7 aylık bir projede uyguladık, bu konuda Türkçe bir eğitim arıyorum, öneri var mı?

Görkem Coşkun5/9/2026

Kaggle yarışmalarında Triton Inference Server'a göz atın, performansı çok iyi.

Hakan Aktaş5/9/2026

Bu konuda son okuduğum makaleye göre Trendyol, Garanti gibi kurumlar epeyce yatırım yapıyor.

Caner Yılmaz5/9/2026

Hızlı bir Google araması yaparsanız cost monitoring dashboardu projenin ilk haftasında kurulmalı.

DevOps Mühendisi5/10/2026

GitHub'da güzel bir repo buldum: TR ekosisteminde bu konuya değinen az kaynak var.

ML Mühendisi5/10/2026

Karşılaştırma için şirketim adına teşekkürler, paylaşımlar çok değerli.

DevOps Mühendisi5/10/2026

Latency optimize etmek için Triton Inference Server'a göz atın, performansı çok iyi.

Anonim Geliştirici5/10/2026