DPO, LoRA ve QLoRA: 2026'da Pratik Fine-Tuning Rehberi

TL;DR — 2026'da fine-tuning (ince ayar) hâlâ güçlü bir araç ama artık ilk başvurduğunuz araç değil. Sahada gördüğüm en pahalı hata şu: ekipler önce prompt mühendisliğini ve RAG'ı denemeden doğrudan modeli eğitmeye kalkıyor. Doğru sıralama tersine: önce prompt + few-shot + retrieval, sonra gerekiyorsa fine-tuning. Fine-tuning yaparken de artık standart yığın belli — temel model (base) → SFT (denetimli ince ayar) → DPO (Doğrudan Tercih Optimizasyonu). DPO, eski SFT-sonra-PPO/RLHF hattının yerini aldı çünkü ayrı bir ödül modeli (reward model) gerektirmiyor, üç aşama yerine tek bir eğitim adımına iniyor ve çoğu görevde PPO-RLHF kalitesine mühendislik maliyetinin çok küçük bir kısmıyla ulaşıyor. Donanım tarafında ise cevap net: LoRA ve QLoRA. QLoRA, VRAM'i yarıya indirirken ölçülebilir bir doğruluk kaybı yaşatmıyor. Ve unutmayın: fine-tuning biçim içindir, bilgi için değil. Değişen bilgi için RAG kullanın; kararlı davranış, şema, ton ve format için fine-tuning. KVKK dünyasında ise bütün bu tartışmanın altında yatan asıl soru şu: hassas veriyi bir API'ye mi gönderiyorsunuz, yoksa kendi sunucunuzda mı eğitiyorsunuz? Bu yazıda bütün bu kararları sahadan örneklerle tek tek açıyorum.

Önce Dürüst Bir İtiraf: Çoğu Zaman Fine-Tuning'e İhtiyacınız Yok

Kurumsal projelerde en sık duyduğum cümlelerden biri şu: "Bizim modeli kendi verimizle eğitelim, o zaman her şey düzelir." Bu cümle kulağa mantıklı geliyor ama arkasında büyük bir yanılgı yatıyor. Ekipler fine-tuning'i sihirli bir düğme gibi görüyor — sanki modeli kendi verinizle eğittiğinizde model sizin şirketinizi, ürünlerinizi, süreçlerinizi "öğreniyor" ve bir daha yanlış cevap vermiyor.

Sahada onlarca projeyi bu hayal kırıklığından çıkardıktan sonra size çok net bir şey söyleyebilirim: fine-tuning'e başvuran ekiplerin büyük çoğunluğunun aslında fine-tuning'e ihtiyacı yoktu. Sorunlarının çoğu, çok daha ucuz ve çok daha hızlı yöntemlerle çözülebilirdi. Fine-tuning pahalı, yavaş, bakımı zor ve yanlış kullanıldığında modeli daha da kötüleştiren bir araç. Yani doğru soru "nasıl fine-tuning yaparım?" değil, "gerçekten fine-tuning'e ihtiyacım var mı?" olmalı.

Bunu bir benzetmeyle anlatayım. Diyelim ki çok yetenekli, iyi eğitimli bir çalışanınız var ama işe yeni başladı. Bu çalışana şirketinizi öğretmenin iki yolu var. Birincisi, onu aylarca yeniden eğitim kampına göndermek — pahalı, uzun ve şirket bilgileri değiştiğinde tekrar tekrar yapmanız gereken bir şey. İkincisi ise ona iyi bir el kitabı, doğru dosyalara erişim ve net talimatlar vermek — hızlı, ucuz ve bilgi değiştiğinde sadece dosyayı güncellemeniz yeterli. Fine-tuning birinci yol, RAG ve prompt mühendisliği ise ikinci yoldur. Ve çoğu durumda ikinci yol yeterli, hatta daha iyidir.

Bu yazının ana tezi tam olarak bu: fine-tuning biçim (form) için, RAG bilgi (fact) için. Modelin nasıl davrandığını, hangi tonda konuştuğunu, hangi formatta çıktı ürettiğini kalıcı olarak değiştirmek istiyorsanız fine-tuning doğru araçtır. Ama modele "yeni bilgi" öğretmek istiyorsanız — ki kurumsal projelerin en az yüzde sekseninde asıl ihtiyaç budur — fine-tuning yanlış araçtır. Gelin bunu adım adım açalım.

Fine-Tuning mi, RAG mı, Prompt mu? Zorunlu Deney Sırası

Herhangi bir kurumsal LLM projesinde, bir davranışı değiştirmeniz gerektiğinde elinizde üç temel kaldıraç var: prompt mühendisliği, RAG (geri getirmeli üretim) ve fine-tuning. Bunları maliyet ve karmaşıklık sırasına göre denemeniz gerekiyor. Sahada gördüğüm en büyük israf, ekiplerin bu sırayı atlayıp doğrudan en pahalı seçeneğe koşması.

Şöyle bir zorunlu deney sırası öneriyorum ve müşterilerimde de bunu dayatıyorum:

Önce prompt mühendisliği ve few-shot. Sistem prompt'unu netleştirin, birkaç iyi örnek (few-shot) verin, çıktı formatını açıkça tarif edin. Bu adım neredeyse bedava ve dakikalar içinde deneyebilirsiniz. Sahada gördüğüm problemlerin çok büyük kısmı burada çözülüyor.
Sonra retrieval (RAG) ekleyin. Model bilmediği bir bilgiye ihtiyaç duyuyorsa, o bilgiyi bağlama (context) getirin. Değişen fiyatlar, güncel politikalar, ürün kataloğu, iç dokümanlar — bunların hepsi RAG'ın işi.
En son fine-tuning. Yukarıdaki ikisi denenmeden fine-tuning'e geçmek, sahada gördüğüm en pahalı ve en sık yapılan hata. Fine-tuning'e ancak prompt ve RAG ile çözemediğiniz, kararlı ve tekrar eden bir davranış problemi kaldığında geçin.

Bu sıralamayı bir tabloyla netleştireyim:

Kriter	Prompt Mühendisliği	RAG	Fine-Tuning
Ne için?	Basit yönlendirme, format	Değişen bilgi, güncel veri	Kararlı davranış, ton, şema
Maliyet	Çok düşük	Orta	Yüksek
Kurulum süresi	Dakikalar	Günler	Haftalar
Bilgi güncellemesi	Anında	Anında (belge değiştir)	Yeniden eğitim gerekir
Hangi soruna çözüm?	"Yanlış anlıyor"	"Bilmiyor"	"Doğru biliyor ama yanlış davranıyor"
Halüsinasyon riski	Orta	Düşük (kaynaklı)	Orta-yüksek (yanlış kullanılırsa)

Bu tabloyu müşterilerime gösterdiğimde çoğu zaman bir "aa" anı yaşanıyor. Çünkü projeye "modeli fine-tune edelim" diye başlamış oluyorlar, oysa asıl ihtiyaçları RAG'mış. Fine-tuning'in bilgi öğretmek için kötü bir araç olmasının teknik sebebi de var: modele bir bilgiyi eğitim yoluyla ezberletmeye çalıştığınızda, model o bilgiyi güvenilir biçimde geri getiremez, çoğu zaman etrafında halüsinasyon üretir ve bilgi değiştiğinde tüm modeli yeniden eğitmeniz gerekir. Oysa aynı bilgiyi RAG ile bağlama koyduğunuzda model onu kaynağıyla birlikte, güncel biçimde kullanır.

"

Sahadan bir kural: Eğer çözmeye çalıştığınız sorun "model bunu bilmiyor" diye özetlenebiliyorsa, cevap neredeyse her zaman RAG'dır. Eğer sorun "model bunu biliyor ama yanlış biçimde/tonda/formatta veriyor" diye özetlenebiliyorsa, işte o zaman fine-tuning masaya gelir.

Fine-Tuning Ne Zaman Gerçekten Doğru Araç?

Fine-tuning'i gömdüğüm izlenimi vermek istemem — yanlış anlaşılmasın. Fine-tuning bazı problemlerde gerçekten en iyi, hatta tek doğru çözüm. Onu ne zaman kullanacağınızı bilmek, ne zaman kullanmayacağınızı bilmek kadar önemli. İşte fine-tuning'in parladığı somut durumlar:

Ton ve marka sesi. Şirketinizin belirli, tutarlı bir konuşma tonu var ve bunu her çıktıda garanti altına almak istiyorsunuz. Prompt ile bunu kısmen yakalarsınız ama uzun konuşmalarda model kayar. Fine-tuning tonu modelin "kasına" işler.
Katı çıktı şeması. Modelin her seferinde belirli bir JSON şemasına, belirli alan adlarına, belirli bir yapıya uyması gerekiyor. Özellikle aşağı akıştaki (downstream) sistemler bu şemaya bağımlıysa, fine-tuning tutarlılığı ciddi biçimde artırır.
Alan jargonu ve format alışkanlıkları. Hukuk, sağlık, sigorta, bankacılık gibi alanlarda çok özel bir dil ve format kültürü var. Modelin bu jargonu doğal biçimde, her seferinde doğru kullanması gerekiyorsa fine-tuning işe yarar.
Küçük modeli büyük model gibi davrandırmak. Büyük bir modelin belirli bir dar görevdeki davranışını, çok daha küçük ve ucuz bir modele damıtmak (distillation) istiyorsanız, fine-tuning bunun ana yoludur. Bu, hem maliyeti hem gecikmeyi (latency) hem de KVKK açısından kendi sunucunuzda çalıştırılabilirliği ciddi biçimde iyileştirir.
Güvenlik açısından kritik, tekrar eden görevler. Modelin belirli bir sınırın dışına asla çıkmaması gereken, yüksek riskli ve çok tekrar eden bir görev varsa, prompt'un kırılganlığına güvenmek yerine davranışı modele eğitmek daha sağlam olur.

Bu maddelerin ortak paydasına dikkat edin: hepsi biçim, davranış, ton, format ile ilgili. Hiçbiri "modele şu yeni gerçeği öğret" değil. Bu ayrımı içselleştirdiğinizde fine-tuning kararlarınızın yüzde doksanı kendiliğinden netleşir.

2026 Yığını: Base → SFT → DPO

Şimdi fine-tuning yapmaya karar verdiğinizi varsayalım. 2026'da standart yığın (stack) oldukça oturmuş durumda ve şöyle işliyor: temel modelden (base) başlarsınız, üzerine denetimli ince ayar (SFT — Supervised Fine-Tuning) yaparsınız, ardından tercih optimizasyonu için DPO (Direct Preference Optimization — Doğrudan Tercih Optimizasyonu) uygularsınız.

Bu üç katmanın her birinin farklı bir işi var:

Base model: Ham, önceden eğitilmiş model. Genel dil yeteneği var ama talimatları takip etme, sohbet etme ya da sizin istediğiniz gibi davranma konusunda ham.
SFT: Modele "şöyle bir girdiye şöyle bir çıktı verilir" örnekleri gösterirsiniz. Model talimat takip etmeyi, sohbet formatını, temel davranış kalıplarını öğrenir. Bu, "doğru cevabı taklit et" aşamasıdır.
DPO: Modele hangi cevabın diğerine tercih edildiğini öğretirsiniz. Elinizde "seçilen" (chosen) ve "reddedilen" (rejected) cevap çiftleri vardır ve model, tercih edilen tarza doğru kayar. Bu, "iki cevaptan hangisi daha iyi, onu öğren" aşamasıdır.

SFT ile DPO arasındaki fark ince ama kritik. SFT sadece "iyi örnekleri taklit et" der. DPO ise "bu iyi, şu kötü, aradaki farkı anla" der. İnsan tercihlerini, ince kalite farklarını, "bu teknik olarak doğru ama üslubu yanlış" gibi nüansları yakalamak için tercih sinyali çok daha güçlü. İşte 2026'da tercih optimizasyonunun neredeyse standart hale gelmesinin sebebi bu.

DPO Neden RLHF/PPO'nun Yerini Aldı?

Birkaç yıl önce tercih optimizasyonunun tek ciddi yolu RLHF'ti (Reinforcement Learning from Human Feedback — İnsan Geri Bildiriminden Pekiştirmeli Öğrenme) ve pratikte bu genellikle PPO algoritmasıyla yapılırdı. RLHF güçlüydü ama korkunç derecede karmaşıktı. Neden karmaşıktı, gelin açalım.

Klasik RLHF hattı üç ayrı aşamadan oluşur:

SFT: Önce modeli denetimli örneklerle eğitirsiniz.
Ödül modeli (reward model): İnsan tercihlerinden ayrı bir "ödül modeli" eğitirsiniz. Bu model, herhangi bir cevaba bir kalite skoru verir.
PPO: Ana modeli, ödül modelinin verdiği skoru maksimize edecek şekilde pekiştirmeli öğrenme ile eğitirsiniz.

Bu üç aşamanın çalışması için pratikte aynı anda dört ayrı model örneği (instance) bellekte tutmanız gerekir: eğitmekte olduğunuz politika (policy) modeli, referans model, ödül modeli ve değer (value) modeli. Bu hem muazzam bir hesaplama yükü hem de kararsızlık (instability) demek. PPO'yu doğru ayarlamak, "kara sanat" denilebilecek kadar hassas — hiperparametreler biraz kayarsa eğitim çöker, model ödül modelini kandırmayı öğrenir (reward hacking) ve saçmalamaya başlar. Sahada bunu ayakta tutabilen ekip sayısı çok azdı.

DPO tam da bu karmaşıklığı ortadan kaldırdığı için oyunu değiştirdi. DPO'nun ana fikri zarif: ayrı bir ödül modeli eğitmek yerine, tercih optimizasyonunu doğrudan modelin üzerinde, seçilen/reddedilen çiftleri üzerinde bir ikili sınıflandırma (binary classification) problemi olarak çözer. Matematiksel olarak DPO, ödül modelini örtük (implicit) hale getirir — model, tercih çiftlerinden doğrudan öğrenir ve ayrı bir ödül modeline hiç ihtiyaç duymaz.

Bunun pratik sonucu şu: DPO için sadece iki modele ihtiyacınız var — eğitmekte olduğunuz politika modeli ve donmuş (frozen) referans SFT modeli. Üç aşama tek aşamaya, dört model örneği iki modele iniyor. Bu, hem hesaplama maliyetinde büyük bir düşüş hem de çok daha kararlı, tekrar üretilebilir bir eğitim demek.

Karşılaştırmayı net bir tabloyla koyayım:

Kriter	RLHF (SFT + Reward + PPO)	DPO
Aşama sayısı	3 (SFT, ödül modeli, PPO)	1 (doğrudan tercih optimizasyonu)
Ayrı ödül modeli	Gerekli	Gerekmiyor (örtük)
Aynı anda tutulan model	~4 örnek	2 (politika + donmuş referans)
Hesaplama maliyeti	Yüksek	Belirgin biçimde düşük
Kararlılık	Kırılgan, ayarı zor	Kararlı, tekrar üretilebilir
Mühendislik maliyeti	Yüksek, uzman ekip gerektirir	Düşük, küçük ekiplerin erişiminde
Kalite (çoğu görev)	Yüksek	RLHF'e yakın/karşılaştırılabilir

Buradaki asıl mesaj kalite satırında gizli: DPO, çoğu görevde PPO-RLHF kalitesine karşılaştırılabilir sonuçlar veriyor — ama mühendislik maliyetinin çok küçük bir kısmıyla. Yani neredeyse aynı kaliteyi, çok daha az acıyla alıyorsunuz. Kurumsal bir ekip için bu tam bir kazan-kazan.

DPO'nun Torunları: ORPO ve KTO

DPO bir son nokta değil, bir başlangıç oldu. Aynı "ayrı ödül modeli olmadan tercih optimizasyonu" fikrinin üzerine kurulmuş birkaç önemli varyant ortaya çıktı. Bunları bilmeniz gerekiyor çünkü belirli durumlarda DPO'dan daha uygun olabiliyorlar:

ORPO (Odds Ratio Preference Optimization): ORPO'nun en ilginç yanı, SFT ile tercih optimizasyonunu tek bir adımda birleştirmesi. Yani ayrı bir SFT aşaması yapıp sonra DPO yapmak yerine, ikisini aynı anda yapabiliyorsunuz. Bu, hattı daha da kısaltıyor ve bazı senaryolarda referans modele bile ihtiyaç duymadan çalışıyor.
KTO (Kahneman-Tversky Optimization): KTO'nun büyük pratik avantajı, çiftli (paired) tercih verisine ihtiyaç duymaması. DPO için her örnekte "seçilen ve reddedilen" bir çift lazım. KTO ise sadece "bu cevap iyi mi, kötü mü?" gibi ikili (binary) etiketlerle çalışabiliyor. Sahada tercih çifti toplamak pahalı ve zahmetli olduğu için, elinizde sadece "beğenildi/beğenilmedi" tarzı sinyaller varsa KTO çok daha erişilebilir bir yol sunuyor.

Pratikte benim önerim şu: çoğu ekip için başlangıç noktası DPO olmalı çünkü ekosistem, dokümantasyon ve araç desteği en olgun onda. Elinizde temiz çiftli veri toplamak zorsa KTO'ya bakın. SFT hattını da kısaltmak ve tek geçişte halletmek istiyorsanız ORPO'yu değerlendirin. Bu üçünün ortak vaadi aynı: PPO-RLHF'in karmaşıklığı olmadan, ona yakın kalite.

LoRA ve QLoRA: 2026'da Tek Mantıklı Fine-Tuning Yolu

Şimdi işin donanım ve verimlilik tarafına gelelim. Bir modeli tam olarak (full fine-tuning) eğitmek, yani tüm parametrelerini güncellemek, dev modeller çağında çoğu ekip için ne mümkün ne de mantıklı. Milyarlarca parametreyi güncellemek muazzam VRAM, muazzam zaman ve muazzam para demek. İşte burada PEFT (Parameter-Efficient Fine-Tuning — Parametre Verimli İnce Ayar) yöntemleri devreye giriyor ve bunların içinde iki tanesi 2026'da neredeyse tek dikkate alınması gereken yaklaşım haline geldi: LoRA ve QLoRA.

LoRA'nın (Low-Rank Adaptation) mantığı şu: modelin bütün ağırlıklarını güncellemek yerine, orijinal ağırlıkları donduruyorsunuz ve yanlarına küçük, düşük ranklı (low-rank) "adaptör" matrisleri ekliyorsunuz. Eğitim sırasında sadece bu küçük adaptörler güncelleniyor. Sonuç: eğitilen parametre sayısı, toplam parametrelerin çok küçük bir yüzdesine iniyor. Bu hem eğitimi ucuzlatıyor, hem de bir güzel yan fayda getiriyor — adaptörler çok küçük dosyalar olduğu için, aynı temel model üzerinde birçok farklı görev için ayrı adaptörler tutup servis anında değiştirebiliyorsunuz.

QLoRA (Quantized LoRA) ise LoRA'nın üzerine bir adım daha koyuyor. Temel modeli daha düşük hassasiyette (genellikle 4-bit) nicemleyerek (quantization) bellekte tutuyor, adaptörleri ise bunun üzerinde eğitiyor. Bunun sahadaki pratik anlamı çok büyük: QLoRA, VRAM ihtiyacını kabaca yarıya indiriyor ve bunu ölçülebilir bir doğruluk kaybı olmadan yapıyor. Yani daha küçük, daha ucuz GPU'larla, hatta tek bir GPU ile, daha önce ancak sunucu çiftlikleriyle eğitebileceğiniz modelleri ince ayarlayabiliyorsunuz.

Peki hangisini ne zaman kullanmalı? Sahadan pratik kuralım şu:

Kriter	LoRA	QLoRA
VRAM ihtiyacı	Daha yüksek	Kabaca yarısı
Doğruluk	En üst düzey	Ölçülebilir kayıp yok
Ne zaman?	Güvenlik açısından kritik görevler, son yüzde 1-2'nin önemli olduğu durumlar	Varsayılan seçim; donanım kısıtlıysa
Donanım	Bütçe varsa	Sınırlı GPU, tek kart senaryoları
Servis	Adaptör değiştirilebilir	Adaptör değiştirilebilir

Özetle: QLoRA çoğu ekip için varsayılan olmalı. VRAM'i yarıya indirip ölçülebilir doğruluk kaybı yaşatmaması, onu neredeyse her senaryoda mantıklı kılıyor. LoRA'ya ise, güvenlik açısından kritik bir görevde son yüzde bir-iki doğruluk sizin için gerçekten hayati olduğunda ve donanım bütçeniz de buna elverdiğinde geçin. Bunların dışında tam fine-tuning'i 2026'da çoğu kurumsal ekip için gündemden bile çıkarabilirsiniz.

Pratik Boru Hattı: Fikirden Servise DPO + LoRA

Teoriyi somuta indirelim. Kurumsal bir projede DPO'yu LoRA adaptörleriyle uçtan uca nasıl kuruyorum, adım adım anlatayım. Bu, sahada tekrar tekrar uyguladığım ve işe yarayan bir reçete:

Problemi doğru çerçeveleyin. Önce durun ve sorun: bu gerçekten bir davranış/biçim problemi mi, yoksa bilgi problemi mi? Bilgi problemiyse RAG'a dönün. Biçim problemiyse devam edin.
Tercih çiftlerini toplayın (chosen/rejected). DPO'nun yakıtı bu. Her örnek için, aynı girdiye karşı "tercih edilen" ve "reddedilen" birer cevap lazım. Bunlar gerçek kullanıcı geri bildiriminden, uzman etiketlemesinden ya da dikkatli üretilmiş sentetik veriden gelebilir.
Gerekiyorsa önce SFT yapın. Temel model henüz talimat takibi ve temel format konusunda ham ise, DPO'dan önce hafif bir SFT geçişi yapın. Zaten talimat izleyen bir modelle başlıyorsanız doğrudan DPO'ya geçebilirsiniz.
DPO'yu LoRA adaptörleriyle çalıştırın. Temel modeli dondurun, LoRA (ya da QLoRA) adaptörleri ekleyin ve tercih çiftleri üzerinde DPO eğitimini koşun. Referans model olarak donmuş SFT modelini kullanın.
Ayrılmış (held-out) test setiyle değerlendirin. Eğitimde görmediği bir tercih seti üzerinde modeli test edin. Sadece "iyi görünüyor" demeyin — kazanma oranı (win rate), format uyumu, ton tutarlılığı gibi somut metriklerle ölçün.
Adaptörleri servise alın. Adaptörler küçük dosyalar olduğu için, temel modeli bir kez yükleyip üstüne göreve özel adaptörleri takıp çıkarabilirsiniz. Bu, çoklu-görev senaryolarında muazzam bir esneklik.

Bu hattın en kritik ve en çok ihmal edilen adımı beşincisi — değerlendirme. Sahada gördüğüm en yaygın hata, ekiplerin modeli eğitip "harika görünüyor" deyip üretime almaları, sonra da modelin belirli durumlarda kötüleştiğini fark etmeleri. Ayrılmış bir test seti olmadan yaptığınız her fine-tuning, karanlıkta el yordamıyla yürümek gibidir.

Verinin Kalitesi Her Şeyden Önemli

Fine-tuning'de acı gerçek şu: modeliniz, verdiğiniz tercih verisi kadar iyi olur, o kadar da kötü. DPO'da tercih çiftlerinin kalitesi, miktarından çok daha önemli. Binlerce özensiz, tutarsız çift yerine, birkaç yüz gerçekten temiz ve tutarlı çift çok daha iyi sonuç verir.

Veri konusunda sahadan birkaç ilke:

Tutarlılık her şey. "Seçilen" ve "reddedilen" cevaplar aynı kalite kriterine göre etiketlenmiş olmalı. Farklı kişiler farklı kriterlerle etiketlerse, model çelişkili sinyaller alır ve öğrenemez. Etiketleme kılavuzunuz net olmalı.
Ne kadar veri? Kesin bir rakam yok ama sahadan pratik gözlemim: iyi çerçevelenmiş, dar bir davranış problemi için birkaç yüz ile birkaç bin arası temiz çift çoğu zaman anlamlı bir fark yaratmaya yetiyor. Görev genişledikçe veri ihtiyacı artıyor.
Sentetik tercih verisi. İnsan etiketlemesi pahalı olduğu için, güçlü bir modeli kullanarak sentetik tercih çiftleri üretmek yaygın bir yol. Örneğin güçlü bir modelden aynı soruya iki cevap alıp, yine güçlü bir modelle hangisinin daha iyi olduğunu işaretletebilirsiniz. Ama dikkat: sentetik verinin kalitesini insan gözüyle örneklem üzerinden denetlemeden ona güvenmeyin.
Ayrılmış set kutsaldır. Verinizin bir kısmını eğitime hiç sokmadan ayırın. Bu setle değerlendirme yapmazsanız, modelin gerçekten iyileşip iyileşmediğini asla dürüstçe bilemezsiniz.

"

Sahadan bir kural: Fine-tuning'de bir gününüzü daha fazla veri toplamaya değil, elinizdeki verinin kalitesini ve tutarlılığını artırmaya harcayın. Yüz temiz çift, bin kirli çiftten daha iyi bir model üretir.

Türkçe ve KVKK: Bu Kararların Yerel Boyutu

Bütün bu tartışma İngilizce merkezli bir dünyada kolay ama Türkiye'de çalışırken iki ek katman devreye giriyor: dil ve veri egemenliği.

Türkçe için fine-tuning. Türkçe, eklemeli (agglutinative) yapısı, kendine has ton ve nezaket kültürü, alan jargonlarındaki özgünlüğü ile modeller için hâlâ zorlayıcı bir dil. Genel amaçlı büyük modeller Türkçe'yi giderek daha iyi konuşuyor ama kurumsal bir bağlamda — bankacılık, sigorta, hukuk, kamu — hem doğru jargonu hem de doğru resmiyet tonunu tutturmak önemli. İşte burada fine-tuning gerçekten değer katıyor: Türkçe tonu, format alışkanlıklarını ve alan diline özgü kalıpları modele işleyebilirsiniz. Üstelik bu, tam olarak fine-tuning'in güçlü olduğu alan — biçim ve davranış, bilgi değil. Türkçe müşteri iletişiminin tonunu tutturmak bir "biçim" problemidir ve fine-tuning bunun için doğru araçtır.

Küçük Türkçe ve alan modelleri. Damıtma (distillation) mantığıyla, büyük bir modelin belirli bir Türkçe görevdeki davranışını daha küçük, kendi sunucunuzda çalışabilecek bir modele indirmek, hem maliyet hem de KVKK açısından çok cazip. LoRA/QLoRA bu tür küçük, göreve özel Türkçe modelleri erişilebilir kılıyor — artık dev bütçelere ihtiyacınız yok.

KVKK ve veri egemenliği. İşte asıl kritik nokta burada. Fine-tuning yapmak için eğitim verinizi bir yere göndermeniz gerekiyor. Eğer bu veri kişisel veri, müşteri kaydı, sağlık bilgisi ya da hassas kurumsal veri içeriyorsa — ki kurumsal fine-tuning verisi neredeyse her zaman içerir — bu veriyi bir dış API'ye göndermek KVKK açısından ciddi bir karar. Verinin nereye gittiği, nerede işlendiği, nerede saklandığı, hangi ülkenin hukukuna tabi olduğu hepsi masaya gelir.

İşte tam bu noktada LoRA/QLoRA'nın sağladığı kendi sunucunuzda (self-hosted) eğitim kabiliyeti bir lüks değil, bir zorunluluk haline geliyor. QLoRA'nın VRAM'i yarıya indirmesi sayesinde, hassas veriyi hiç dışarı çıkarmadan, kendi altyapınızda, makul bir donanımla fine-tuning yapabiliyorsunuz. Veri kurumdan çıkmıyor, KVKK riski minimize oluyor, veri egemenliği elinizde kalıyor. Bu, "fine-tuning'i API üzerinden mi yoksa kendi sunucumda mı yapayım?" sorusunun Türkiye bağlamında neden bu kadar önemli olduğunu gösteriyor.

Sahadan net bir çerçeve: Hassas veriyle fine-tuning yapacaksanız, varsayılan tercihiniz kendi sunucunuzda QLoRA olmalı. API üzerinden fine-tuning'i ancak veriniz gerçekten hassas değilse, anonimleştirilmişse ve sağlayıcının veri işleme koşulları KVKK ile uyumluysa değerlendirin.

Nereden Başlamalı: Bu Hafta Atabileceğiniz Adımlar

Bütün bu resmi somut bir başlangıç planına indirgeyeyim. Eğer kurumunuzda fine-tuning'i konuşuyorsanız, bu hafta atabileceğiniz adımlar şunlar:

Önce sorunu doğru adlandırın. Elinizdeki problemi bir cümleyle yazın. "Model bunu bilmiyor" mu, yoksa "biliyor ama yanlış davranıyor" mu? Birincisiyse RAG'a yönelin, fine-tuning'i rafa kaldırın.
Zorunlu deneyi yapın. Fine-tuning'e karar vermeden önce prompt mühendisliği + few-shot + retrieval üçlüsünü ciddi biçimde deneyin. Çoğu zaman problem burada, maliyetin çok küçük bir kısmıyla çözülüyor.
Fine-tuning gerçekten gerekiyorsa, yığını netleştirin. Base → SFT → DPO hattını benimseyin. RLHF/PPO'nun karmaşıklığına 2026'da çoğu ekibin ihtiyacı yok; DPO ile başlayın.
QLoRA'yı varsayılan alın. VRAM'i yarıya indirip doğruluk kaybı yaşatmadığı için, aksini gerektiren güçlü bir sebep olmadıkça QLoRA ile ilerleyin. Güvenlik açısından kritik görevlerde LoRA'yı değerlendirin.
Veriye ve değerlendirmeye yatırım yapın. Birkaç yüz temiz, tutarlı tercih çifti toplayın; ayrılmış bir test seti hazırlayın; kazanma oranı ve format uyumu gibi somut metriklerle ölçün.
KVKK'yı baştan masaya koyun. Eğitim verinizin hassasiyetini erken değerlendirin. Hassassa, kendi sunucunuzda QLoRA'yı varsayılan yol olarak planlayın; veri egemenliğini pazarlık konusu yapmayın.

Fine-tuning 2026'da hâlâ güçlü ve yerinde kullanıldığında rakipsiz bir araç. Ama gücü, onu ne zaman kullanmayacağınızı bilmekten geliyor. Doğru sıralamayı izleyin, doğru yığını seçin, veriye saygı gösterin ve KVKK'yı baştan düşünün — o zaman fine-tuning sizin için bir maliyet kalemi değil, gerçek bir rekabet avantajı olur.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Çözüm Bazlı Sayfalar

Kurumsal RAG Sistemleri Gelistirme

Sirket ici bilgiye kaynakli, guvenli ve denetlenebilir erisim saglayan uretim seviyesinde RAG mimarileri.

Landing'i ac

Çözüm Bazlı Sayfalar

AI Agent ve Workflow Otomasyonu

Tek adimli chatbot'larin otesine gecen; arac, kural ve insan onayi ile ilerleyen AI destekli is akislarina gecis.

Landing'i ac

Sektör Bazlı Sayfalar

Kamu Kurumlari icin Guvenli ve Denetlenebilir AI

Veri egemenligi, denetlenebilirlik ve vatandas odakli hizmet kalitesi odağinda gelistirilen kurumsal yapay zeka sistemleri.

veri egemenligi

Landing'i ac

Paylaş

Tüm Yazılar

DPO, LoRA ve QLoRA: 2026'da Pratik Fine-Tuning Rehberi

Önce Dürüst Bir İtiraf: Çoğu Zaman Fine-Tuning'e İhtiyacınız Yok

Fine-Tuning mi, RAG mı, Prompt mu? Zorunlu Deney Sırası

Fine-Tuning Ne Zaman Gerçekten Doğru Araç?

2026 Yığını: Base → SFT → DPO

DPO Neden RLHF/PPO'nun Yerini Aldı?

DPO'nun Torunları: ORPO ve KTO

LoRA ve QLoRA: 2026'da Tek Mantıklı Fine-Tuning Yolu

Pratik Boru Hattı: Fikirden Servise DPO + LoRA

Verinin Kalitesi Her Şeyden Önemli

Türkçe ve KVKK: Bu Kararların Yerel Boyutu

Nereden Başlamalı: Bu Hafta Atabileceğiniz Adımlar

Bu yazıya en yakın consulting sayfaları

Kurumsal RAG Sistemleri Gelistirme

AI Agent ve Workflow Otomasyonu

Kamu Kurumlari icin Guvenli ve Denetlenebilir AI

Yorumlar

Yorumlar

Bu yazının bağlandığı pillar konular

LLMOps: Üretim Sınıfı LLM Operasyonları

Bültenime Abone Olun