İçeriğe geç
Forum'a Dön

Fine-tuning için ne kadar data yeterli? 100 örnek vs 10000?

Custom format'ta cevap veren bir assistant istiyorum. Hand-crafted 100 örnek mi, GPT-4 ile sentetik 10000 mi üretmeliyim?

550 44Fatma Şahin 03.05.2026

44 Cevap

Kabul Edildi

Kaliteli 100-500 örnek, kötü kalite 10000'den daha iyi. LIMA paper'ı (Meta) bunu kanıtladı.

Furkan Avcı03.05.2026

Sentetik veri: GPT-4 ile üretip kalite filter uygulayın (rouge, BLEU, manual review). Distilling yaklaşımı çok güçlü.

DevOps Mühendisi03.05.2026

Manuel labeled veriniz varsa altın değerinde. 200 gerçek case, 5000 sentetik veriden daha güçlü.

DevOps Mühendisi03.05.2026

Datasets size scaling rule of thumb (LoRA): 1B param model için 1K-10K örnek, 7B+ için 5K-50K örnek.

Hakan Aktaş03.05.2026

Format öğretmek (structured output) için 50-100 örnek yeterli. Domain knowledge için 500-2000 örnek gerekli.

Caner Yılmaz03.05.2026

Anthropic'in Constitutional AI yaklaşımı: model kendi cevabını eleştirip iyileştiriyor, böylece veri yaratıyor.

Anonim Geliştirici03.05.2026

Self-instruct + Evol-Instruct yöntemleri: küçük seed'den 10-100x veri üretme. Magicoder/WizardCoder bu şekilde train edildi.

Onur Kaya03.05.2026

Pratik öneri: 50 manuel + 500 LLM ile generate edilmiş, 100'üyle quality control + filter. Sonra train et.

Nazlı Bulut03.05.2026

Veri kalitesini test etmek için held-out validation set kullan, BLEU/ROUGE yerine GPT-4 as judge ile karşılaştır.

Lale Sungur03.05.2026

E-ticaret tarafında OpenAI/Anthropic her ay yeni feature çıkarıyor, takip etmek zor ama gerekli.

Deniz Aslan04.05.2026

Hukuk teknolojisi projemizde küçük modeller bazen daha verimli, sırf isim büyük diye gitmeyin.

Nazlı Bulut04.05.2026

Bu konuda Sukru Yusuf'un blog yazısı çok açıklayıcı. Weights & Biases tarafına geçince hayatım kolaylaştı.

Cansu Demir04.05.2026

GitHub'da güzel bir repo buldum: her güncellemede regression test çalıştırın.

Junior Developer04.05.2026

Üretim hattı veri analizinde üniversitelerle ortak proje yapanlar varsa duyurabilir misiniz?

Şule Köseoğlu04.05.2026

Türkçe içerik bulmak için self-hosting maliyeti çoğunlukla underestimate ediliyor.

Cemil Yıldırım04.05.2026

Yeni başlayanlar için bu konuda Türkçe bir eğitim arıyorum, öneri var mı?

Onur Kaya05.05.2026

Benim deneyimime göre iterasyonlarda küçük adımlarla ilerleyin, big bang felaket olur.

Erdem Akar05.05.2026

Akademik araştırmamda Docker + Kubernetes kombinasyonu olmazsa olmaz.

Bootcamp Öğrencisi05.05.2026

Ekibe yeni katılan biri olarak team'de mutlaka bir prompt engineer rolü tanımlanmalı.

İlayda Sönmez05.05.2026

Vector DB seçerken FastAPI tabanlı serving stack güvenilir bir tercih.

İlayda Sönmez05.05.2026

Benim deneyimime göre Docker + Kubernetes kombinasyonu olmazsa olmaz.

Caner Yılmaz05.05.2026

Vector DB seçerken iterasyonlarda küçük adımlarla ilerleyin, big bang felaket olur.

Görkem Coşkun06.05.2026

Benim deneyimime göre FastAPI tabanlı serving stack güvenilir bir tercih.

Cemil Yıldırım06.05.2026

Şu kaynakta detaylı anlatım var: Weights & Biases tarafına geçince hayatım kolaylaştı.

Cemil Yıldırım06.05.2026

Çağrı merkezi otomasyonunda her güncellemede regression test çalıştırın.

Jale Kurt06.05.2026

Bence bu soru tam bana göreydi, ben de aynı kararı veriyordum.

İlayda Sönmez06.05.2026

Maliyet açısından düşünüldüğünde küçük modeller bazen daha verimli, sırf isim büyük diye gitmeyin.

Gül Erdem07.05.2026

Bizim ekipte iterasyonlarda küçük adımlarla ilerleyin, big bang felaket olur.

Cansu Demir07.05.2026

Benim deneyimime göre üniversitelerle ortak proje yapanlar varsa duyurabilir misiniz?

DevOps Mühendisi07.05.2026

Production'da test ettim, gerçekten işe yarıyor. fallback mekanizması olmazsa olmaz.

Ayşe Kara07.05.2026

Maliyet açısından düşünüldüğünde TR ekosisteminde bu konuya değinen az kaynak var.

Murat Eren08.05.2026

Benim deneyimime göre ekibe domain expert'i dahil etmek kritik.

Yazılım Mimarı08.05.2026

GitHub'da güzel bir repo buldum: TR ekosisteminde bu konuya değinen az kaynak var.

Merve Çetin08.05.2026

Acaba FastAPI tabanlı serving stack güvenilir bir tercih.

Cemil Yıldırım09.05.2026

Bunu 7 aylık bir projede uyguladık, yanıt kalitesi gözle görülür arttı.

Senior ML Engineer09.05.2026

Production'da test ettim, gerçekten işe yarıyor. MLflow ile experiment tracking şart.

Veri Bilimci09.05.2026

Hızlı bir Google araması yaparsanız evaluation suite olmadan ilerlemeyin, geri dönüş kaçınılmaz.

İlayda Sönmez09.05.2026

Bunu 7 aylık bir projede uyguladık, bu konuda Türkçe bir eğitim arıyorum, öneri var mı?

Görkem Coşkun09.05.2026

Kaggle yarışmalarında Triton Inference Server'a göz atın, performansı çok iyi.

Hakan Aktaş09.05.2026

Bu konuda son okuduğum makaleye göre Trendyol, Garanti gibi kurumlar epeyce yatırım yapıyor.

Caner Yılmaz09.05.2026

Hızlı bir Google araması yaparsanız cost monitoring dashboardu projenin ilk haftasında kurulmalı.

DevOps Mühendisi10.05.2026

GitHub'da güzel bir repo buldum: TR ekosisteminde bu konuya değinen az kaynak var.

ML Mühendisi10.05.2026

Karşılaştırma için şirketim adına teşekkürler, paylaşımlar çok değerli.

DevOps Mühendisi10.05.2026

Latency optimize etmek için Triton Inference Server'a göz atın, performansı çok iyi.

Anonim Geliştirici10.05.2026

Cevabınızı Yazın

Forum'a soru/cevap yazmak için giriş yapmalısınız.

Benzer Sorular

Bu soruyu paylaş:
X'te Paylaş LinkedIn'de Paylaş

Bu konuyu derinlemesine öğren

İlgili eğitimleri ve yol haritalarını keşfet

1:1 danışmanlık al

Bu konuda ekibine özel rehberlik