Fine-tuning için ne kadar data yeterli? 100 örnek vs 10000?
Custom format'ta cevap veren bir assistant istiyorum. Hand-crafted 100 örnek mi, GPT-4 ile sentetik 10000 mi üretmeliyim?
44 Cevap
Kaliteli 100-500 örnek, kötü kalite 10000'den daha iyi. LIMA paper'ı (Meta) bunu kanıtladı.
Sentetik veri: GPT-4 ile üretip kalite filter uygulayın (rouge, BLEU, manual review). Distilling yaklaşımı çok güçlü.
Manuel labeled veriniz varsa altın değerinde. 200 gerçek case, 5000 sentetik veriden daha güçlü.
Datasets size scaling rule of thumb (LoRA): 1B param model için 1K-10K örnek, 7B+ için 5K-50K örnek.
Format öğretmek (structured output) için 50-100 örnek yeterli. Domain knowledge için 500-2000 örnek gerekli.
Anthropic'in Constitutional AI yaklaşımı: model kendi cevabını eleştirip iyileştiriyor, böylece veri yaratıyor.
Self-instruct + Evol-Instruct yöntemleri: küçük seed'den 10-100x veri üretme. Magicoder/WizardCoder bu şekilde train edildi.
Pratik öneri: 50 manuel + 500 LLM ile generate edilmiş, 100'üyle quality control + filter. Sonra train et.
Veri kalitesini test etmek için held-out validation set kullan, BLEU/ROUGE yerine GPT-4 as judge ile karşılaştır.
E-ticaret tarafında OpenAI/Anthropic her ay yeni feature çıkarıyor, takip etmek zor ama gerekli.
Hukuk teknolojisi projemizde küçük modeller bazen daha verimli, sırf isim büyük diye gitmeyin.
Bu konuda Sukru Yusuf'un blog yazısı çok açıklayıcı. Weights & Biases tarafına geçince hayatım kolaylaştı.
GitHub'da güzel bir repo buldum: her güncellemede regression test çalıştırın.
Üretim hattı veri analizinde üniversitelerle ortak proje yapanlar varsa duyurabilir misiniz?
Türkçe içerik bulmak için self-hosting maliyeti çoğunlukla underestimate ediliyor.
Yeni başlayanlar için bu konuda Türkçe bir eğitim arıyorum, öneri var mı?
Benim deneyimime göre iterasyonlarda küçük adımlarla ilerleyin, big bang felaket olur.
Akademik araştırmamda Docker + Kubernetes kombinasyonu olmazsa olmaz.
Ekibe yeni katılan biri olarak team'de mutlaka bir prompt engineer rolü tanımlanmalı.
Vector DB seçerken FastAPI tabanlı serving stack güvenilir bir tercih.
Benim deneyimime göre Docker + Kubernetes kombinasyonu olmazsa olmaz.
Vector DB seçerken iterasyonlarda küçük adımlarla ilerleyin, big bang felaket olur.
Benim deneyimime göre FastAPI tabanlı serving stack güvenilir bir tercih.
Şu kaynakta detaylı anlatım var: Weights & Biases tarafına geçince hayatım kolaylaştı.
Çağrı merkezi otomasyonunda her güncellemede regression test çalıştırın.
Bence bu soru tam bana göreydi, ben de aynı kararı veriyordum.
Maliyet açısından düşünüldüğünde küçük modeller bazen daha verimli, sırf isim büyük diye gitmeyin.
Bizim ekipte iterasyonlarda küçük adımlarla ilerleyin, big bang felaket olur.
Benim deneyimime göre üniversitelerle ortak proje yapanlar varsa duyurabilir misiniz?
Production'da test ettim, gerçekten işe yarıyor. fallback mekanizması olmazsa olmaz.
Maliyet açısından düşünüldüğünde TR ekosisteminde bu konuya değinen az kaynak var.
Benim deneyimime göre ekibe domain expert'i dahil etmek kritik.
GitHub'da güzel bir repo buldum: TR ekosisteminde bu konuya değinen az kaynak var.
Acaba FastAPI tabanlı serving stack güvenilir bir tercih.
Bunu 7 aylık bir projede uyguladık, yanıt kalitesi gözle görülür arttı.
Production'da test ettim, gerçekten işe yarıyor. MLflow ile experiment tracking şart.
Hızlı bir Google araması yaparsanız evaluation suite olmadan ilerlemeyin, geri dönüş kaçınılmaz.
Bunu 7 aylık bir projede uyguladık, bu konuda Türkçe bir eğitim arıyorum, öneri var mı?
Kaggle yarışmalarında Triton Inference Server'a göz atın, performansı çok iyi.
Bu konuda son okuduğum makaleye göre Trendyol, Garanti gibi kurumlar epeyce yatırım yapıyor.
Hızlı bir Google araması yaparsanız cost monitoring dashboardu projenin ilk haftasında kurulmalı.
GitHub'da güzel bir repo buldum: TR ekosisteminde bu konuya değinen az kaynak var.
Karşılaştırma için şirketim adına teşekkürler, paylaşımlar çok değerli.
Latency optimize etmek için Triton Inference Server'a göz atın, performansı çok iyi.
Benzer Sorular
Fine-tuning mi yoksa RAG mi? Hangi senaryoda hangisi?
QLoRA ile 4-bit quantization fine-tuning'de quality kaybı oluyor mu?
LLM eval ve A/B testing nasıl yapılır?
ChatGPT, Claude ve Gemini abonelik karşılaştırması — hangisi para etmez?
Türk hukukunda AI kullanımı — sözleşme analizi, dava tahminleme için pattern'lar
Bu konuyu derinlemesine öğren
İlgili eğitimleri ve yol haritalarını keşfet
1:1 danışmanlık al
Bu konuda ekibine özel rehberlik