Özet (TL;DR)

Tek cümlelik cevap: Fine-tuning, doğru durumda — RAG ve prompt engineering yeterli olmadığında — bir LLM'in davranışını kalıcı olarak şirketinizin DNA'sına yakınlaştıran ileri seviye AI mühendisliği disiplinidir.

Fine-tuning bir LLM'in mevcut yeteneklerini değiştirmeden — stil, format, davranış, domain bilgisi gibi belirli boyutları kilitlemek için yapılan ek eğitimdir; tüm ihtiyaçların yaklaşık %5'i için doğru çözümdür.
LoRA (Low-Rank Adaptation), model ağırlıklarının tamamını değil küçük adapter matrislerini eğitir; %0.1-1 parametre değişikliğiyle tam fine-tuning kalitesinin %90-95'ini sunar.
QLoRA, LoRA'yı 4-bit quantization ile birleştirerek 70B parametreli bir modeli tek bir A100 GPU üzerinde fine-tune edilebilir hale getirir — 2023 sonrası kişisel/küçük ekip fine-tuning patlamasının ana motoru.
DPO (Direct Preference Optimization), klasik RLHF'in PPO ile reward modelinin yerini doğrudan tercih veri seti üzerinde supervised loss ile değiştiren basit ama etkili yöntem; 2024-2026 modern alignment standardı.
Türk şirketleri için fine-tuning maliyeti tipik olarak $200-$5.000 arası; veri hazırlığı maliyet ve kalitenin %70'ini belirler — eğitim sadece son adımdır.

1. Fine-Tuning Nedir? Niye Gerekir?

LLM'leri kendi kullanım amacınıza uyarlamak için üç ana strateji vardır: prompt engineering, RAG ve fine-tuning. İlk ikisi modeli değiştirmeden çalışırken, fine-tuning model ağırlıklarını ek eğitim ile günceller. Doğru durumda muazzam değer üretir; yanlış durumda boşa para harcanmıştır.

Tanım

Fine-Tuning (İnce Ayar): Önceden eğitilmiş bir dil modelinin (foundation model) ağırlıklarını, özel bir veri seti ve görev üzerinde ek eğitim yaparak güncelleyen süreç. Modelin mevcut bilgi tabanını koruyarak belirli bir domain, stil, format veya davranışa hizalanmasını sağlar. Tam fine-tuning, LoRA, QLoRA, DPO, ORPO gibi farklı yöntemleri kapsar.; Ayrıca: Fine Tuning, Model Adaptation

Ne Zaman Fine-Tuning?

Pratik karar çerçevesi:

Fine-Tuning vs Diğer Adapte Yöntemleri
İhtiyaç	Prompt Eng	RAG	Fine-tuning
Stil/format kilitleme	Kısmi	-	✓ İdeal
Domain bilgisi ekleme	-	✓ İdeal	Sınırlı
Güncel veriye erişim	-	✓ İdeal	-
Yeni davranış öğretme	Kısmi	-	✓ İdeal
Latency azaltma	-	-	✓ (küçük modelle)
Token tasarrufu	-	-	✓ İdeal
Kurulum süresi	Saatler	Haftalar	Hafta-ay
Maliyet	Çok düşük	Orta	Yüksek (tek seferlik)

Pratik kural. İhtiyaçların %70'i prompt engineering ile, %25'i prompt + RAG ile çözülür. Geri kalan %5 durumda fine-tuning gerçek değer üretir:

Stil/format sabitleme — marka sesi, hukuki/tıbbi formatlar
Yapılandırılmış çıktı garantili — her zaman geçerli JSON, XML, SQL üretmek
Düşük gecikme + maliyet — küçük bir modeli büyük modelin davranışına yaklaştırmak (distillation)
Domain-spesifik dil — Türkçe hukuki terminoloji, tıbbi raporlama
Yeni davranış — agent görevleri, tool kullanımı, refleksiyon

Niye Önce RAG ve Prompt Engineering?

Fine-tuning beş yan-etkiye sahiptir:

Yüksek başlangıç maliyeti — GPU saatleri, veri hazırlama, eval setleri
Modelin "donması" — yeni model çıktığında fine-tune'unuzu yeniden yapmanız gerekir
Catastrophic forgetting — yanlış yapılan fine-tune, modelin başka yetkinliklerini bozabilir
Veri yönetimi karmaşıklığı — KVKK + telif + kalite kontrolleri
Eval zorluğu — fine-tune kalitesini ölçmek prompt eval'inden çok daha zor

Bu nedenle Anthropic, OpenAI ve Google'ın hepsi resmî dokümanlarında önce prompt + RAG, sonra fine-tuning sıralamasını öneriyor.

2. LLM Eğitim Aşamalarının Tam Resmi

Modern bir LLM'in hayatında dört eğitim aşaması var. Her birinin amacı, veri seti tipi ve hesaplama maliyeti farklı.

LLM Eğitim Aşamaları (Tam Resim)
Aşama	Amacı	Veri Tipi	Süre/Maliyet
1. Pretraining	Genel dil yetkinliği	Trilyonlarca token (internet, kitaplar, kod)	Aylar, milyonlarca $
2. Supervised Fine-Tuning (SFT)	Talimatları takip	Binlerce yüksek-kalite soru-cevap çifti	Günler, binlerce $
3. Preference Optimization (RLHF/DPO/ORPO)	İnsan tercihleri	Tercih çiftleri (A > B)	Günler, binlerce $
4. Continued Fine-tuning (sizin yaptığınız)	Domain/stil hizalama	Yüzlerce-binlerce örnek	Saatler-günler, $50-5.000

Kurumsal fine-tuning genelde 4. aşamada gerçekleşir; bazen 2 + 3'ün eş zamanlı yapıldığı varyasyonlar da var (Constitutional AI, ORPO).

Supervised Fine-Tuning (SFT)

En temel form — talimat-cevap çiftleri üzerinde standart "next-token prediction" eğitimi. Çoğu kurumsal fine-tune SFT'tir; özellikle stil/format/domain bilgisi için.

Preference Optimization (Tercih Hizalama)

İnsan değerlendiriciler aynı prompt için iki cevap (A, B) görür ve hangisinin daha iyi olduğunu işaretler. Bu tercih çiftleri üzerinde model "iyi cevap" yönüne itilir. Üç ana yöntem:

RLHF (PPO): Klasik. Bir reward model eğitilir, sonra PPO ile policy optimize edilir. Karmaşık, kaynak-yoğun.
DPO: Reward model'i atlar; tercih çiftleri üzerinde doğrudan supervised loss. Basit, etkili, 2024'ten beri standart.
ORPO/KTO/IPO: DPO'nun türevleri ve alternatifleri (aşağıda detaylı).

3. PEFT (Parameter-Efficient Fine-Tuning) — Kavramsal Temel

70 milyar parametreli bir modeli tam fine-tune etmek için tüm 70B ağırlığı güncellemek gerekir. Bu 800GB+ VRAM demek — yalnızca büyük araştırma laboratuvarları ulaşabilir. PEFT bu sorunu çözer: sadece küçük bir parametre kümesini günceller.

Tanım

PEFT (Parameter-Efficient Fine-Tuning): Önceden eğitilmiş büyük modellerin tam ağırlıkları yerine küçük bir parametre alt-kümesini eğiterek fine-tuning yapan teknikler ailesi. LoRA, QLoRA, AdaLoRA, IA-3, Prefix Tuning, Prompt Tuning bu aileye dahildir. Hesaplama maliyetini 10-100x azaltır, kalite kaybı genelde %5-10 düzeyinde kalır.; Ayrıca: Parameter-Efficient Fine-Tuning

PEFT ailesinin üyeleri:

LoRA (Low-Rank Adaptation) — en yaygın
QLoRA — LoRA + quantization
AdaLoRA — uyarlanabilir LoRA rank
IA-3 — sadece bias terimleri
Prefix Tuning — input embed'lerine prefix ekler
Prompt Tuning — sadece soft prompt eğitir
DoRA (Weight-Decomposed LoRA) — 2024 yeni
MoRA (High-Rank Updating) — 2024 yeni

4. LoRA — Düşük Ranklı Adaptasyon

2021'de Microsoft araştırmacılarının (Hu et al.) yayınladığı LoRA, modern fine-tuning'in altın standardı haline geldi.

4.1. Matematiksel Temel (Kısa)

Tam fine-tuning'de bir weight matrisi W (örn. 4096×4096) doğrudan güncellenir: W_new = W + ΔW. LoRA varsayımı: ΔW aslında düşük-ranklı olabilir.

LoRA, ΔW'yi iki küçük matrisin çarpımı olarak ifade eder:

Kod Bloğu

ΔW ≈ B × A
B: 4096 × r
A: r × 4096
r << 4096 (genelde 4, 8, 16, 32, 64)

Eğitim sırasında sadece A ve B güncellenir — orijinal W dondurulur. Inference'ta W + B × A hesaplanır (veya merge edilir).

4.2. LoRA Hiperparametreleri

Rank (r) — LoRA matrislerinin boyutu. Yaygın değerler: 8 (varsayılan), 16, 32, 64. Daha yüksek rank = daha çok parametre, daha fazla kapasite, ama overfitting riski.

Alpha (α) — scaling factor. ΔW_effective = (α/r) × B × A. Pratik tavsiye: α = 2r (örn. r=16 ise α=32).

Target modülleri — Hangi katmanlarda LoRA uygulanacak? Yaygın seçenekler:

q_proj, v_proj — sadece attention sorgu ve değer (en minimal)
q_proj, k_proj, v_proj, o_proj — tüm attention
q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj — attention + MLP (en kapsamlı)

Pratik tavsiye. Tüm linear katmanlar (attention + MLP) en iyi sonucu verir. Sadece attention'da LoRA, çoğu görevde %5-10 kalite kaybına neden olur.

4.3. Tam Fine-Tuning ile Karşılaştırma

Tam Fine-Tuning vs LoRA (Llama 3 70B Örneği)
Boyut	Tam Fine-tuning	LoRA
Eğitilen parametre	70B (tam)	~0.5B (%0.7)
VRAM ihtiyacı	800GB+	48-80GB
Eğitim süresi	1x	0.5-0.7x
Kalite	%100 (referans)	%90-95
Veri ihtiyacı	Daha çok	Daha az (1K-10K örnek)
Çıktı boyutu	~140GB	~50MB-1GB (sadece adapter)
Multi-task	Zor	Çoklu adapter swap

LoRA'nın küçük çıktısı (50MB-1GB) özellikle değerli — bir model üzerinde 10 farklı LoRA adapter çalıştırabilir, runtime'da hızla geçiş yapabilirsiniz.

5. QLoRA — 4-bit Quantization + LoRA

2023'te Dettmers ve arkadaşlarının yayınladığı QLoRA, LoRA'yı quantization ile birleştirerek 70B modelleri tek bir A100 GPU'da eğitilebilir hale getirdi. Kişisel ve küçük ekip fine-tuning ekosisteminin patlamasının ana motoru.

5.1. Üç Ana Bileşen

4-bit NF4 (Normal Float 4) quantization. Model ağırlıkları 16-bit yerine 4-bit'te saklanır. NF4, standart 4-bit'ten daha doğru — normal dağılımlı verilere optimize.

Double Quantization (DQ). Quantization sabitlerini de quantize ederek ek bellek tasarrufu.

Paged Optimizers. Optimizer state'i RAM ile GPU arasında sayfa-sayfa hareket ettirir; OOM (out of memory) hatalarını azaltır.

5.2. QLoRA ile Pratik Maliyet (2026)

QLoRA Maliyet Tahminleri (2026)
Model	GPU	Süre (10K örnek)	Tahmini Maliyet
Llama 3 8B	1x RTX 4090 (24GB)	2-4 saat	$5-15 (RunPod)
Llama 3 70B	1x A100 80GB	8-12 saat	$50-150 (Modal/RunPod)
Llama 4 70B	1x H100 80GB	6-10 saat	$80-200
Mixtral 8x7B	1x A100 80GB	10-15 saat	$80-200
Qwen 2.5 72B	1x H100 80GB	8-12 saat	$120-250

Bu maliyetler sadece eğitim aşaması. Veri hazırlama, eval, iterasyonlar genelde 2-5x toplam maliyete katkı yapar.

6. DPO — Direct Preference Optimization

2023'te Rafailov ve arkadaşlarının yayınladığı DPO, klasik RLHF/PPO'nun yerine çok daha basit bir matematiksel formülasyon önerdi. 2024-2026 dönemi modern alignment standardı haline geldi.

Tanım

DPO (Direct Preference Optimization): İnsan tercih veri seti (chosen/rejected çiftleri) üzerinde reward model eğitimi ve PPO adımlarını atlayarak doğrudan supervised-style bir loss fonksiyonu ile optimizasyon yapan yöntem. Stanford ve CMU araştırmacılarının 2023'te yayınladığı, klasik RLHF'in operasyonel karmaşıklığını dramatik şekilde azaltan modern alignment yöntemi. 2024'ten itibaren açık model ekosisteminde standart.; Ayrıca: Direct Preference Optimization

6.1. PPO (Klasik RLHF) vs DPO

RLHF (PPO) vs DPO
Boyut	RLHF (PPO)	DPO
Reward Model	Gerekli (ayrı eğitim)	Gereksiz
Pipeline aşaması	3 (SFT + RM + PPO)	2 (SFT + DPO)
Eğitim kararlılığı	Düşük (hyperparam hassasiyeti)	Yüksek
Hesaplama maliyeti	~5x SFT	~1.5x SFT
Kod karmaşıklığı	Yüksek	Düşük
Kalite (frontier modeller)	Tarihsel olarak en iyi	Eşdeğer veya üstün (son araştırmalar)

6.2. DPO Veri Seti Yapısı

DPO için ihtiyacınız olan: chosen/rejected çiftlerinden oluşan dataset.

Kod Bloğu

{
  "prompt": "Müşteri şikayetine nasıl yanıt verirsin?",
  "chosen": "Empatik, çözüm-odaklı, kısa ve net bir yanıt...",
  "rejected": "Defansif, jenerik, çok uzun bir yanıt..."
}

Genelde 500-5.000 tercih çifti yeterli; veri kalitesi miktardan kat kat önemli.

6.3. DPO Türevleri (2024-2026)

DPO'nun yayınlanmasından sonra birçok türev önerildi:

ORPO (Odds Ratio Preference Optimization) — SFT ve preference optimization'ı tek adımda yapar. Hong et al. (2024).
KTO (Kahneman-Tversky Optimization) — Tercih çiftleri yerine tek-cevap ödül/ceza sinyalleri kullanır. Ethayarajh et al. (2024).
IPO (Identity Preference Optimization) — DPO'nun aşırı uyum (overfitting) sorununa karşı regularization. Azar et al. (2023).
CPO (Contrastive Preference Optimization) — Daha güçlü reject sinyali ile DPO. Xu et al. (2024).
simPO (Simple Preference Optimization) — Reference model'i atlar, basitleştirir. Meng et al. (2024).

7. Pratik Fine-Tuning Pipeline

Sıfırdan başarılı bir fine-tune için 7 aşamalı pipeline:

Nasıl Yapılır

Üretim Fine-Tuning Pipeline'ı — 7 Aşama

Sıfırdan üretim kalitesinde fine-tune için adım adım rehber.

Toplam süre: P30D

1
1. Use-Case Tanımı ve Baseline
Hangi problem için fine-tuning gerekli? Prompt + RAG ile ne kadar başarılı oluyor? Baseline metrikler tanımla.
2
2. Veri Toplama
500-10.000 yüksek-kalite örnek topla. Manuel etiketleme, mevcut veriden temizleme veya sentetik veri (büyük modelin küçüğe öğretmesi).
3
3. Veri Temizleme ve Kalite Kontrol
Duplikatlar, yanlış etiketler, hassas veri (KVKK) temizliği. Eğitim/eval/test bölünmesi (genelde 80/10/10).
4
4. Format ve Tokenizasyon
Sohbet şablonu (Llama, Mistral, ChatML), system prompt yapısı. Sequence length seçimi. Tokenizer kontrol.
5
5. Eğitim
Framework seçimi (Unsloth, Axolotl, LLaMA Factory). Hyperparameters: learning rate (1e-4 LoRA için, 5e-5 SFT için), batch size, epoch (genelde 1-3), LoRA r/alpha. Cloud GPU veya yerel.
6
6. Evaluation
Otomatik metrikler (perplexity, BLEU, custom domain metrics) + LLM-as-judge + insan değerlendirme. Eval seti üretim öncesi mutlak şart.
7
7. Deployment
vLLM, TGI veya Ollama ile inference servisi. A/B test (mevcut model vs fine-tune). Performans + maliyet metrik izleme.

7.1. Eğitim Framework'leri

2026 Fine-Tuning Framework Karşılaştırması
Framework	Hız	Kolaylık	Kapsam
Unsloth	2-5x hızlı (Triton optimizasyonu)	Yüksek (basit Python)	LoRA, QLoRA, SFT, DPO
Axolotl	Standart	Orta (YAML config)	Tam yelpaze, full fine-tuning dahil
LLaMA Factory	Standart	Yüksek (CLI + UI)	LoRA, QLoRA, RLHF, DPO, ORPO, KTO
Hugging Face TRL	Standart	Orta (Python kütüphane)	Tam yelpaze, en güncel teknikler
Together / Replicate / Modal	Bulut	Çok yüksek (managed)	LoRA, sınırlı kontrol
OpenAI Fine-tuning API	Bulut	Çok yüksek	SFT + sınırlı DPO, kapalı kaynak

Pratik seçim. Geliştirici/araştırmacı için Unsloth (hız + kolaylık). Üretim ekibi için LLaMA Factory (geniş kapsam). Cloud kolaylığı için Together veya Modal. Hassasiyet/uyum kritik kurumsal için Axolotl + self-hosted GPU.

7.2. Veri Hazırlama — Görünmez Başarı Faktörü

Veri kalitesi, fine-tune sonucunun %70'ini belirler. Eğitim sadece son adımdır. Pratik tavsiyeler:

Manuel etiketleme > sentetik kalite açısından, ama maliyet 10-50x
Sentetik veri için yaygın yöntem: GPT-5 veya Claude Opus 4.7 ile büyük bir modele "öğretici" rol vererek küçük modele örnek üretmek
Self-Instruct — modeli kendi örneklerinden öğretme (Stanford 2022)
DataDreamer, Distilabel, Lilac gibi modern veri-hazırlama framework'leri
Veriyi eval setinden ayır — eğitim verisinden sızıntı olmasın
Class balance — kategorilerin dengeli temsil edilmesi

8. Türkçe Fine-Tuning — Pratik Notlar

Türkçe LLM fine-tuning'in global rehberlerde olmayan 5 kritik nüansı:

8.1. Tokenizer Verimi

Türkçe morfolojik zenginlik nedeniyle tipik tokenizer'da bir kelime 2-5 token'a parçalanır. Bu fine-tuning'de:

Sequence length 2x kullanılır (aynı içerik için)
Eğitim maliyeti %30-50 yüksek
Context window'a daha az içerik sığar

Çözüm: Türkçe-özel tokenizer (BERTurk gibi) veya Türkçe vocabulary extension. Llama, Mistral gibi modeller için BPE vocab'a 3K-5K Türkçe token eklemek, Türkçe verimliliği %30-50 artırır.

8.2. Türkçe Veri Seti Kaynakları

Belebele Turkish — Türkçe okuma anlama
Cosmos QA TR — sosyal akıl yürütme
xCOPA Turkish — nedensel akıl yürütme
WMT translation pairs — Türkçe-İngilizce çiftler
Wikipedia Turkish — genel bilgi
MultiWOZ TR — diyalog
Hugging Face Turkish datasets — 100+ açık veri seti
Cezeri instruction tuning data — Türkçe instruct
Kurumsal veri — sizin domain veriniz (en değerli)

8.3. Base Model Seçimi (Türkçe için)

Türkçe Fine-Tune için Base Model
Model	Türkçe Skoru	Boyut	Lisans	Fine-tune dostluğu
Llama 4 8B	Orta-iyi	8B	Meta açık	Yüksek
Llama 4 70B	İyi	70B	Meta açık	Yüksek
Mistral Small 3	İyi	22B	Apache 2.0	Yüksek
Qwen 2.5 14B	Yüksek (multilingual)	14B	Apache 2.0	Yüksek
Qwen 2.5 72B	Çok yüksek	72B	Apache 2.0	Yüksek
DeepSeek V3	Yüksek	671B (MoE)	MIT	Orta (büyük)
BERTurk	Mükemmel (NLP)	Tabanlı	MIT	NLP görevleri için

Pratik tavsiye. Domain-genel Türkçe instruction-tune için Qwen 2.5 14B veya Llama 4 8B en iyi başlangıç. Türkçe NLP özel (sınıflandırma, NER) için BERTurk.

8.4. Türkçe Stil Sabitleme

Türkçe'de "siz" / "sen" ayrımı, ton (formal/samimi/resmî), Anadolu/İstanbul dialektleri, devrik vs düz cümle tercihleri — bunlar fine-tune'da kontrol edilmelidir. Eğitim verisini bir editör ile kalite kontrolden geçirmek şart.

8.5. Domain-Spesifik Türkçe Örnekleri

Türk hukuk — TBK, TMK, KVKK metinleri + emsal davalar
Türk vergi — VUK, KDV, GVK + örnek olaylar
Sağlık — Türkçe tıbbi raporlar (anonim)
E-ticaret — Trendyol, Hepsiburada gibi platformlardan ürün verisi
Bankacılık — BDDK düzenlemeleri + müşteri etkileşim örnekleri

9. Donanım, Bulut, Maliyet

9.1. GPU Seçimi (2026)

Fine-Tuning için GPU Seçenekleri (2026)
GPU	VRAM	Tipik Fiyat (USD/saat bulut)	Uygun Model Boyutu (QLoRA ile)
RTX 4090	24GB	$0.40-0.80	7B-13B
RTX 5090	32GB	$0.60-1.20	13B-22B
A100 40GB	40GB	$1.20-2.00	13B-34B
A100 80GB	80GB	$1.80-3.50	34B-70B
H100 80GB	80GB	$3.50-6.00	34B-70B (hızlı)
H200	141GB	$5-9	70B+ (rahat)
GB200/B200 (Blackwell)	192GB	$8-15	100B+ MoE

9.2. Bulut Platformları

Modal — Python-native, anlık GPU, kullandığın kadar öde. Hızlı prototip için ideal.
RunPod — En ucuz spot fiyatları. Geliştirici dostu.
Together AI — Managed fine-tuning + inference, kolay.
Replicate — Hazır fine-tune template'leri.
AWS SageMaker / GCP Vertex AI / Azure ML — Kurumsal ortam, ama daha pahalı.
Lambda Cloud — On-demand H100/H200 erişimi.

9.3. Tipik Maliyet Senaryoları

Türkçe stil hizalama, Llama 4 8B QLoRA, 5K örnek: ~$15-40 eğitim + ~$50-100 veri hazırlık + ~$30 eval = ~$100-200 toplam
Domain-özel Mistral Small 3 fine-tune, 20K örnek: ~$80-200 eğitim + ~$300-800 veri + ~$100 eval = ~$500-1.200
Llama 4 70B QLoRA, 50K örnek + DPO ekleme: ~$300-600 eğitim (2 fazda) + $1.000-3.000 veri + $200-500 eval = ~$2.000-5.000

Hatırlatma: Veri hazırlık + eval maliyetin %60-70'ini oluşturur. GPU saatleri en küçük kalemdir.

10. Vaka Çalışmaları (Anonim Türk Şirketleri)

Vaka 1 — Türk Bankası: Türkçe Hukuki Belge Asistanı

Problem. Bankanın hukuk ekibi sözleşme analizinde GPT-5'i kullanıyordu ama Türk hukukunun spesifik dilini (TBK, TMK referansları, mahkeme jargonu) yeterince yakalayamıyordu.

Çözüm. Llama 4 70B üzerinde QLoRA fine-tune:

Veri: 8.000 anonim sözleşme + 3.000 Türk yüksek mahkeme kararı + 2.000 hukuki Q&A çifti
Yöntem: SFT + DPO (avukatlar 1.500 cevap çiftinde değerlendirme yaptı)
Süre: 6 hafta (veri 4 hafta, eğitim + eval 2 hafta)
Maliyet: ~$8.000 (veri etiketleme dahil)

Sonuç. Türk hukuk terminolojisinde doğruluk %72'den %91'e çıktı. Sözleşme analizi süresi avukat başına haftalık 14 saatten 5 saate düştü.

Vaka 2 — E-Ticaret: Kategori Sınıflandırma + Açıklama Üretimi

Problem. Yeni eklenen ürünler için manuel kategori seçimi + Türkçe açıklama yazımı saatler alıyordu. GPT-4o-mini ile prompt engineering yetersizdi (kategori taxonomy çok büyük: 12.000 alt-kategori).

Çözüm. Qwen 2.5 14B QLoRA fine-tune:

Veri: 250.000 mevcut ürün (ad + açıklama → kategori + tag + SEO-uyumlu açıklama)
Yöntem: SFT (DPO gerek görülmedi)
Eğitim: 2 adet A100 80GB, 18 saat
Maliyet: ~$1.200

Sonuç. Kategori sınıflandırma doğruluğu %78'den %96'ya. Yeni ürün başına ortalama insan müdahale süresi 15 dakikadan 1 dakikaya. Aylık 80K ürün işleyişinin maliyeti ChatGPT API'sine kıyasla %90 azaldı (self-hosted Qwen + LoRA).

Vaka 3 — Sağlık Teknolojisi: Tıbbi Rapor Yapılandırma

Problem. Klinik notların yapılandırılmış formata (ICD-10 kodları, tanı + tedavi + ilaç) dönüştürülmesi GPT-5'te %80 doğrulukta kalıyordu; sağlık sektörü %95+ talep ediyor.

Çözüm. Mistral Small 3 ORPO ile fine-tune:

Veri: 15.000 anonim klinik not + uzman doktor onaylı yapılandırılmış output
Yöntem: ORPO (SFT + DPO tek aşamada)
KVKK önlemleri: Tüm hasta verisi anonimleştirildi; eğitim on-prem yapıldı; eval audit log'lu
Maliyet: ~$3.500 (anonim doktor etiketleme dahil)

Sonuç. Tıbbi yapılandırma doğruluğu %97. KVKK ve sağlık regülasyonu uyumu sağlandı. Türk sigorta şirketleri ile B2B entegrasyona açıldı.

11. Yaygın Hatalar ve Anti-Pattern'ler

11.1. "Fine-Tune Önce, Soruları Sonra Sor"

En yaygın hata. Önce prompt + RAG eval'i yapın; fine-tune'a koşmadan önce o iki katmanın ne kadar başarılı olduğunu bilin.

11.2. Az Veri ile Eğitim

500'den az örnekle stil fine-tune yapmaya çalışmak. Genelde başarılı olmaz. Minimum 1.000 yüksek-kalite örnek; ideal 5.000-10.000.

11.3. Catastrophic Forgetting

Yanlış learning rate (çok yüksek) veya çok fazla epoch (3+) modelin temel yetkinliklerini bozar. Eğitim sırasında eval seti üzerinde genel benchmark performansını da takip edin.

11.4. Test Seti Sızıntısı

Eğitim verisinin bir kısmı eval setine geçerse, fine-tune skoru yapay olarak yüksek görünür ama üretimde başarısız olur. Veriyi temizlik aşamasında ayır, eğitim sırasında karıştırma.

11.5. KVKK Uyumsuz Veri

Müşteri/çalışan kişisel verisi içeren prompt'larla fine-tune yapmak. KVKK ihlali + öğrenilen kişisel veri model ağırlıklarına gömülür. Anonimleştirme her zaman şart.

11.6. Versiyonlama Yok

Fine-tune adapter'larını ve veri setlerini versiyonlamamak. HF Hub, W&B, MLflow ile her eğitim experiment'ini izleyin.

11.7. Eval'siz Üretim

"Loss düştü, çalışıyor" deyip canlıya almak. Loss eval değildir; gerçek görev başarısını eval setiyle ölçün.

11.8. Yanlış Base Model Seçimi

Türkçe gerektiren göreve sadece-İngilizce model fine-tune etmeye çalışmak. Base model zaten Türkçe biliyor olmalı; fine-tune onu domain'inize uyarlar, sıfırdan Türkçe öğretmez.

12. Fine-Tuning vs Distillation

Distillation — büyük bir modelin (öğretmen) çıktısı ile küçük bir modeli (öğrenci) eğitme. Yaygın fine-tuning kalıbı:

Büyük model (Claude Opus 4.7) ile sentetik veri üret
Küçük modeli (Llama 4 8B) bu veriyle SFT et
Küçük model = ucuz + hızlı + büyük modelin %85-90 kalitesinde

Bu yaklaşım, 2025-2026'nın en pratik fine-tuning kalıbı haline geldi — verisini insan etiketlemeyle hazırlamadan kalitesi yüksek fine-tune yapmanın yolu.

13. Modern Fine-Tuning Trendleri (2026)

Synthetic data dominance — insan etiketlemesi yerine GPT-5/Claude/Gemini ile veri üretme
Distillation everywhere — frontier modellerden küçüklere bilgi aktarımı
Self-Reward modeli — modelin kendi cevaplarını değerlendirip kendine eğitim verisi üretmesi
Verifier modeller — fine-tune sonucu otomatik kalite kontrolü
RLAIF (RL from AI Feedback) — insan yerine başka bir AI'ın tercihleri
Continual learning — modelin sürekli güncellenmesi (catastrophic forgetting'i önleyerek)
PEFT yeni teknikler — DoRA, MoRA, LoftQ; LoRA'nın kalitesini artıran 2024-2025 yenilikleri

14. KVKK Uyumlu Fine-Tuning

Fine-tuning yaparken kişisel veri içeren eğitim seti kullanmak özel dikkat gerektirir.

14.1. Riskler

Veri modele gömülür — fine-tune sonrası modelden bu veriyi "silme" pratik olarak imkansızdır
Membership inference saldırısı — model çıktısından eğitim verisi üyeliği tespit edilebilir
Veri sızıntısı — model bazen eğitim verisini neredeyse aynen üretir

14.2. Korunma Yöntemleri

Anonimleştirme — TC, ad, telefon, e-posta gibi PII çıkar
Differential privacy — eğitime gürültü ekle (kalite vs gizlilik dengesi)
Federated learning — veriyi merkezîleştirmeden eğit (gelişmiş)
Veri yerleşimi — Türkiye veya AB-içi GPU'larla eğit
Audit log — hangi veri hangi eğitimde kullanıldı

14.3. EU AI Act Açısından

Fine-tune edilen model yüksek risk kategorisinde ise (kredi skoru, İK seçimi vb.):

Teknik dokümantasyon (Annex IV)
Eğitim verisi yönetişimi
Risk değerlendirmesi
İnsan denetimi
Uyum değerlendirmesi (conformity assessment)

Detay için sitedeki KVKK + EU AI Act + ISO 42001 Uyum Rehberine bakın.

15. Sıkça Sorulan Sorular

16. Bir Sonraki Adım

Şirketinizde LLM fine-tuning stratejisi geliştirmek veya mevcut bir fine-tune'u üretim kalitesine taşımak için:

Fine-Tune Use-Case Değerlendirmesi. Gerçekten fine-tune gerekli mi? RAG/prompt yeterli mi? Yatırım hesabı + 4 saatlik atölye.
Veri ve Pipeline Kurulumu. Türkçe veri toplama, etiketleme stratejisi, eğitim platformu seçimi, eval harness — uçtan uca pipeline tasarımı.
Production Fine-Tune Audit. Mevcut fine-tune'unuz varsa: kalite, KVKK uyumu, maliyet, observability açısından 360° denetim.

İletişim için site üzerindeki contact formunu kullanabilirsiniz.

Kaynaklar

LoRA: Low-Rank Adaptation of Large Language Models — Hu et al., Microsoft Research · 2021-06
QLoRA: Efficient Finetuning of Quantized LLMs — Dettmers et al., University of Washington · 2023-05
DPO: Your Language Model is Secretly a Reward Model — Rafailov et al., Stanford · 2023-05
ORPO: Monolithic Preference Optimization without Reference Model — Hong et al., KAIST · 2024-03
KTO: Model Alignment as Prospect Theoretic Optimization — Ethayarajh et al., Stanford · 2024-02
IPO: A General Theoretical Paradigm — Azar et al., Google DeepMind · 2023-10
InstructGPT: Training language models with human feedback — Ouyang et al., OpenAI · 2022-03
DoRA: Weight-Decomposed Low-Rank Adaptation — Liu et al., NVIDIA · 2024-02
Constitutional AI: Harmlessness from AI Feedback — Bai et al., Anthropic · 2022-12
Self-Instruct: Aligning Language Models with Self-Generated Instructions — Wang et al., University of Washington · 2022-12
Unsloth Documentation — Unsloth AI, Unsloth · 2025
Hugging Face TRL — Hugging Face, Hugging Face · 2025
Axolotl — Axolotl, Axolotl · 2025
LLaMA Factory — LLaMA Factory, GitHub · 2025
KVKK - 6698 Sayılı Kanun — T.C. KVKK, Türkiye Cumhuriyeti · 2016
EU AI Act — European Commission, EU · 2024-03

Bu rehber yaşayan bir belgedir; fine-tuning ekosistemi (yeni yöntemler, framework'ler, base model'ler) her çeyrek değiştiği için çeyreklik olarak güncellenmektedir.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Çözüm Bazlı Sayfalar

AI Evaluation, Guardrails ve Observability

Yapay zeka sistemlerinin dogruluk, guvenlik ve performansini olcmek, izlemek ve kontrollu hale getirmek icin kapsamli degerlendirme katmani.

observability

Landing'i ac

Çözüm Bazlı Sayfalar

Kurumsal RAG Sistemleri Gelistirme

Sirket ici bilgiye kaynakli, guvenli ve denetlenebilir erisim saglayan uretim seviyesinde RAG mimarileri.

Landing'i ac

Rol Bazlı Sayfalar

CTO'lar icin Kurumsal AI Mimari Danismanligi

PoC seviyesinde kalan AI girisimlerini guvenli, olceklenebilir ve production-ready mimarilere tasimak icin teknik liderlik danismanligi.

Landing'i ac

Paylaş

Tüm Yazılar

1. Fine-Tuning Nedir? Niye Gerekir?

Ne Zaman Fine-Tuning?

Niye Önce RAG ve Prompt Engineering?

2. LLM Eğitim Aşamalarının Tam Resmi

Supervised Fine-Tuning (SFT)

Preference Optimization (Tercih Hizalama)

3. PEFT (Parameter-Efficient Fine-Tuning) — Kavramsal Temel

4. LoRA — Düşük Ranklı Adaptasyon

4.1. Matematiksel Temel (Kısa)

4.2. LoRA Hiperparametreleri

4.3. Tam Fine-Tuning ile Karşılaştırma

5. QLoRA — 4-bit Quantization + LoRA

5.1. Üç Ana Bileşen

5.2. QLoRA ile Pratik Maliyet (2026)

6. DPO — Direct Preference Optimization

6.1. PPO (Klasik RLHF) vs DPO

6.2. DPO Veri Seti Yapısı

6.3. DPO Türevleri (2024-2026)

7. Pratik Fine-Tuning Pipeline

1. Use-Case Tanımı ve Baseline

2. Veri Toplama

3. Veri Temizleme ve Kalite Kontrol

4. Format ve Tokenizasyon

5. Eğitim

6. Evaluation

7. Deployment

7.1. Eğitim Framework'leri

7.2. Veri Hazırlama — Görünmez Başarı Faktörü

8. Türkçe Fine-Tuning — Pratik Notlar

8.1. Tokenizer Verimi

8.2. Türkçe Veri Seti Kaynakları

8.3. Base Model Seçimi (Türkçe için)

8.4. Türkçe Stil Sabitleme

8.5. Domain-Spesifik Türkçe Örnekleri

9. Donanım, Bulut, Maliyet

9.1. GPU Seçimi (2026)

9.2. Bulut Platformları

9.3. Tipik Maliyet Senaryoları

10. Vaka Çalışmaları (Anonim Türk Şirketleri)

Vaka 1 — Türk Bankası: Türkçe Hukuki Belge Asistanı

Vaka 2 — E-Ticaret: Kategori Sınıflandırma + Açıklama Üretimi

Vaka 3 — Sağlık Teknolojisi: Tıbbi Rapor Yapılandırma

11. Yaygın Hatalar ve Anti-Pattern'ler

11.1. "Fine-Tune Önce, Soruları Sonra Sor"

11.2. Az Veri ile Eğitim

11.3. Catastrophic Forgetting

11.4. Test Seti Sızıntısı

11.5. KVKK Uyumsuz Veri

11.6. Versiyonlama Yok

11.7. Eval'siz Üretim

11.8. Yanlış Base Model Seçimi

12. Fine-Tuning vs Distillation

13. Modern Fine-Tuning Trendleri (2026)

14. KVKK Uyumlu Fine-Tuning

14.1. Riskler

14.2. Korunma Yöntemleri

14.3. EU AI Act Açısından

15. Sıkça Sorulan Sorular

16. Bir Sonraki Adım

Kaynaklar

Bu yazıya en yakın consulting sayfaları

AI Evaluation, Guardrails ve Observability

Kurumsal RAG Sistemleri Gelistirme

CTO'lar icin Kurumsal AI Mimari Danismanligi

Yorumlar

Yorumlar

LLMOps: Üretim Sınıfı LLM Operasyonları

AI Governance ve EU AI Act Uyumu