# LLM Continued Pretraining ve Domain Adaptation Mühendisliği Eğitimi (Türkçe LLM + Hukuk/Sağlık/Finans Domain)

> Source: https://sukruyusufkaya.com/training/llm-continued-pretraining-domain-adaptation-muhendisligi-egitimi
> Updated: 2026-06-30T07:59:47.315Z
> Level: advanced
> Topics: continued pretraining, cpt, domain adaptation, türkçe llm, cosmos llama, trendyol ai, kuis-ai, aya expanse, catastrophic forgetting, vocabulary expansion, yarn rope scaling, long-context extension, doremi regmix, lora dora qlora, galore, fineweb dataset, data mixing, domain-specific llm, bloomberggpt, med-palm
**TLDR:** Türkçe LLM (Cosmos Llama, Trendyol AI, KUIS-AI, Aya Expanse) eğitmek veya hukuk/sağlık/finans/kod domain'i için custom LLM üretmek isteyenler için Continued Pretraining + Domain Adaptation disiplinini uçtan uca işleyen 3 günlük ileri seviye Türkçe eğitim. Catastrophic forgetting mitigation, vocabulary expansion, YaRN long-context extension, DoReMi/RegMix data mixing, LoRA/DoRA/QLoRA/GaLore efficient CPT ve domain benchmark üretimi dahil.

## Açıklama

LLM Continued Pretraining ve Domain Adaptation Mühendisliği Eğitimi, base LLM'i Türkçeye veya hukuk/sağlık/finans/kod domain'ine adapte etmek isteyen ML Engineer, AI Researcher, Data Engineer ve ML Platform mühendisleri için tasarlanmış 3 günlük ileri seviye bir programdır.

## Kazanımlar

- CPT vs SFT vs RAG karar matrisini kurumsal ölçekte uygulayabilirsiniz.
- FineWeb-style data pipeline'ı Türkçe + domain için kurabilirsiniz.
- Catastrophic forgetting mitigation reçetelerini kanıt-tabanlı seçebilirsiniz.
- Vocabulary expansion + tokenizer adaptation ile Türkçe verimliliği 2x artırabilirsiniz.
- Cosmos / Trendyol AI / KUIS-AI / Aya Expanse seviyesinde Türkçe LLM eğitebilirsiniz.
- Hukuk, sağlık, finans, kod domain'inde CPT pipeline kurabilirsiniz.
- LoRA, DoRA, QLoRA, GaLore arasında compute-optimal seçim yapabilirsiniz.
- YaRN ile 128K-1M long-context extension yapabilirsiniz.
- DoReMi/RegMix ile optimal data mix tahmin edebilirsiniz.
- CPT sonrası 4 boyutlu (domain gain + forgetting + long-context + production) eval framework kurabilirsiniz.

<p>Bu eğitim, açık kaynak base LLM'leri (Llama 3.3, Qwen3, Gemma 3, Mistral) Türkçe diline veya hukuk, sağlık, finans, kod gibi domain'lere adapte etmek isteyen ML Engineer, AI Researcher, Data Engineer ve ML Platform mühendisleri için uçtan uca tasarlanmış 3 günlük ileri seviye bir Continued Pretraining (CPT) eğitimidir. Türkiye'de Türkçe LLM eğitmek isteyen Cosmos / Trendyol AI / KUIS-AI tarzı projeler hızla artıyor; benzer şekilde hukuk firmaları Harvey AI tarzı içtihat reasoning'i; sağlık kuruluşları Med-PaLM tarzı tıbbi uzmanlık; finans şirketleri BloombergGPT tarzı sektörel zekâ için custom LLM üretme ihtiyacında. Ancak bu disiplini matematik + veri pipeline + mitigation + eval üçlüsüyle uçtan uca işleyen bir Türkçe eğitim neredeyse yoktur — mevcut içerik ya akademik makale özetlerinde kalıyor ya da örnek-kopyala script seviyesinde yüzeysel. Bu program söz konusu boşluğu Türkiye'nin en kapsamlı production-grade CPT referans eğitimi olarak doldurmak üzere tasarlanmıştır.</p>

<p>Programın stratejik omurgasını, Continued Pretraining disiplininin pre-training → CPT → SFT → DPO/RLHF → deployment akışındaki yerini ve SFT / RLHF / RAG ile farkını net çerçeveleyen ilk modül oluşturur. Kanıt-tabanlı karar matrisi sunulur: knowledge injection (yeni bilgi öğretme, yeni dil edinme, statik domain bilgisi) → CPT optimal; behavior shaping (yanıt stili, formatlama, instruction following) → SFT yeterli; dinamik / sık güncellenen bilgi → RAG zorunlu; çok yüksek hacimli + statik domain bilgisi → CPT + RAG hibrit. BloombergGPT (50B token finans CPT), Med-PaLM (sağlık), Code Llama (code), Cosmos Llama / Trendyol AI / KUIS-AI / Aya Expanse (Türkçe), DeepSeek-Math / Qwen3-Math / Llemma (math) gibi production vaka çalışmaları stratejik perspektifle çözümlenir.</p>

<p>İkinci modül, CPT başarısının %70'ini belirleyen veri mühendisliği disiplinine ayrılmıştır. HuggingFace FineWeb (15T token) ve FineWeb-Edu metodolojisi; Common Crawl WARC processing ve Trafilatura ile HTML temizleme; Cosmopedia, RefinedWeb, RedPajama, DOLMA dataset karşılaştırması; Türkçe için Türkçe FineWeb, mC4-tr, OSCAR-tr, Wikipedia-tr, Boğaziçi/İTÜ/KUIS açık korpus kaynakları; deduplication stratejileri (exact hash, MinHash LSH fuzzy dedup, embedding-based semantic dedup); quality filtering (Gopher rules + Cosmopedia + fastText classifier); KVKK uyumlu PII detection (Türkçe TC kimlik, IBAN, telefon numarası tespiti); toxicity ve contamination detection — her aşama hands-on yapılır. Türkçe ham veriden 100B-500B token üretmenin pratik reçetesi sunulur.</p>

<p>Üçüncü modül, CPT'nin temel zorluğu olan catastrophic forgetting problemini matematik düzeyinde çözümler. Loss landscape perspektifinden pre-train minimum'undan domain minimum'una drift, Fisher Information Matrix ile önemli parametrelerin tespiti, ve plasticity-stability dilemma'sı detaylı işlenir. Klasik mitigation: replay buffer (domain-data + pre-training data karışım oranı — pratik öneri %5-20 pre-training mix), EWC (Kirkpatrick 2017 Fisher-weighted L2 regularization), layer-wise learning rate, embedding freeze. Modern yaklaşımlar: LoRA-based CPT (küçük adaptör catastrophic forgetting'i önler ama capacity sınırlı), model souping / weight averaging (Wortsman 2022), Branch-Train-Merge (BTM, Li 2022) ve domain expert routing — her birinin trade-off'ları kanıt-tabanlı karşılaştırılır.</p>

<p>Dördüncü modül vocabulary expansion ve tokenizer adaptation tekniklerini ele alır — özellikle Türkçe için kritik. Llama 3, Qwen3, Gemma 3 tokenizer'larının Türkçe fertility analizi (Türkçe bir kelimenin ortalama kaç token'a parçalandığı ölçümü; İngilizce'de 1.0-1.3, Türkçe'de 1.8-2.5 — bu maliyet ve latency'yi 2x artırır). Mean initialization (yeni token embedding'inin var olan token ortalaması), FOCUS (Dobler 2023 semantic-aware initialization), Aya Expanse 2024 yaklaşımı (23 dil multilingual expansion + frozen base) detaylı işlenir. SentencePiece ile Türkçe + domain tokenizer eğitimi, Hugging Face Tokenizers library ile merge ve extend, tokenizer değişiminin embedding + lm_head üzerinde etkisi pratik gösterilir. Vocabulary expansion vs no-expansion CPT trade-off'u kanıt-tabanlı karara bağlanır.</p>

<p>Beşinci modül, Türkiye'nin dört önemli açık kaynak Türkçe LLM projesini CPT metodoloji açısından karşılaştırmalı çözümler. Cosmos Llama 3.3 / 3.1 serisi (base, CPT data, SFT, instruct varyantları); Trendyol AI Llama 3 8B / 70B (Trendyol veri seti + domain adaptasyonu); KUIS-AI Turkish-Llama (Koç Üniversitesi katkıları); Cohere Aya Expanse 8B / 32B (23 dil multilingual CPT yaklaşımı). Her birinin base model seçimi, CPT veri stratejisi, vocabulary expansion kararı, training compute ve eval sonuçları detaylı çözümlenir. Türkçe MMLU, MMLU-Pro-tr, Belebele-tr, TruthfulQA-tr, Hellaswag-tr, ARC-tr benchmark karşılaştırması ve Open LLM Leaderboard Turkish ranking analizi yapılır. Boğaziçi, METU, İTÜ Türkçe LLM araştırmaları da incelenir.</p>

<p>Altıncı modül, Türkiye'de en yüksek talep olan dört domain için CPT reçetesi sunar. Hukuk domain: Türk içtihat (Yargıtay, Danıştay, Anayasa Mahkemesi kararları), Mevzuat (kanunlar, yönetmelikler), Resmi Gazete arşivi CPT pipeline'ı; Harvey AI yaklaşımı (hukuki sınama + risk değerlendirme); KVKK uyumlu veri toplama. Sağlık domain: DSM-5-TR + tıbbi rehberler + hasta dosyaları (anonymized) CPT; Med-PaLM (Google 2023) ve Med-PaLM 2 yaklaşımı; HIPAA + KVKK biyomedikal compliance. Finans domain: BloombergGPT (50B token finans) reçetesinin replikasyonu, TCMB raporları + KAP açıklamaları + BIST verileri + Türkçe bilanço korpusu ile finans CPT. Kod domain: Code Llama, DeepSeek-Coder V3, Qwen2.5-Coder reçeteleri karşılaştırması. Her domain için benchmark üretimi (yasal sınav simülasyonu, USMLE-tr, FinanceBench-tr, HumanEval-tr, MBPP-tr, BigCodeBench-tr) ve sektörel regülasyon uyumlu deployment disiplini sunulur.</p>

<p>Yedinci modül, production CPT'de compute verimliliğini belirleyen parameter-efficient + memory-efficient yaklaşımları derinlemesine işler. Full fine-tuning, LoRA (Hu 2021 low-rank decomposition W = W_0 + B·A formülasyonu), DoRA (Liu 2024 magnitude + direction ayrımı), QLoRA (Dettmers 2023 4-bit NF4 quantization + LoRA), ReFT (representation fine-tuning), GaLore (Zhao 2024 gradient low-rank projection ile memory-efficient full pre-training) yaklaşımları kanıt-tabanlı karşılaştırılır. CPT için LoRA capacity sınırlamaları — knowledge injection'da LoRA'nın hangi rank'te yeterli olduğu, hangi senaryoda full FT zorunlu olduğu — pratik cookbook ile öğretilir. DeepSpeed ZeRO-3 + offload ile tek H100'de 30B+ model FT, FSDP2 (PyTorch 2.x) + activation checkpointing CPT pratik gösterilir.</p>

<p>Sekizinci modül, base model'in context window'unu CPT ile genişletmenin tekniklerini ele alır. RoPE (Rotary Position Embeddings) matematik düzeyinde inşa edilir (rotation matrix per dimension); Linear interpolation, NTK-aware scaling, Dynamic NTK, YaRN (Yet another RoPE extensioN, Peng 2023 — attention scaling correction), Position Interpolation (Chen 2023), LongRoPE (Microsoft 2024) karşılaştırmalı işlenir. Llama 3.1 128K extension reçetesi (Meta 2024), Gemini 2.5 Pro 1M-10M context production yaklaşımı, Mistral interleaved sliding window attention pratik örneklerle çözümlenir. Curriculum: 4K → 16K → 64K → 1M token progressive extension stratejisi, needle-in-a-haystack ve multi-needle eval, NVIDIA RULER benchmark (retrieval + reasoning long-context), LongBench, InfiniteBench ile real-world long-context eval öğretilir.</p>

<p>Dokuzuncu modül, CPT'de hangi domain'den ne kadar veri kullanılacağı (domain mixing ratios) — final model kalitesini birinci dereceden etkileyen seçim — disiplinine ayrılmıştır. DoReMi (Xie 2023 — domain reweighting via worst-domain minimax optimization), RegMix (Liu 2024 — regression-based mix prediction with small-scale proxy), DataMix yaklaşımları matematik düzeyinde işlenir. Türkçe CPT'de Türkçe vs İngilizce ratio karar matrisi (önerilen başlangıç %70/30 → cooldown'da %50/50), domain + general data mix ile catastrophic forgetting önleme reçetesi, code + math + general üçgeninde DeepSeek-Coder reçetesi pratik gösterilir. Curriculum learning (easy → hard data ordering), Llama 3.1 ve Qwen3 cooldown/annealing aşamasında final-stage high-quality data injection ile MMLU boost stratejileri ele alınır.</p>

<p>Onuncu modül, CPT'nin engineering tarafına ayrılmıştır. Learning rate seçimi (temel ilke: pre-training LR'sinin 1/10 → 1/100); warmup steps, cosine decay vs constant LR vs WSD (Warmup-Stable-Decay) schedule karşılaştırması; max LR, min LR tuning cookbook'u; batch size scaling (global batch size 1M-4M token), gradient accumulation, mixed precision (bf16, fp8 — Blackwell B200/GB200), DeepSpeed ZeRO-3 vs FSDP2 vs Megatron-LM distributed setup karar matrisi, TP (tensor parallel) + PP (pipeline parallel) + DP karışımı; training run monitoring (loss curves, gradient norm, weight stats), loss spikes ve divergence recovery stratejileri, checkpoint frequency, async checkpointing ve eval-on-checkpoint pipeline'ı detaylı işlenir.</p>

<p>On birinci modül, CPT sonrası dört boyutlu değerlendirme disiplinini ele alır. (1) Domain gain: Türkçe MMLU, MMLU-Pro-tr, Belebele-tr, ARC-tr; domain-specific benchmark üretimi (Türkçe yasal sınav simülasyonu, FinanceBench-tr, USMLE-tr); MT-Bench Turkish ve AlpacaEval Turkish ile chat ability eval. (2) Catastrophic forgetting: genel MMLU, HellaSwag, ARC, TruthfulQA üzerinde regresyon testleri; code benchmark (HumanEval, MBPP) regresyonu. (3) Long-context regression: RULER, needle-in-a-haystack, LongBench. (4) Production eval: A/B test ile base model vs CPT model production karşılaştırması, kullanıcı feedback (thumbs up/down) ile online eval, business metric (conversion, satisfaction, task completion rate). Tüm raporlama formatı kurumsal compliance disiplinine bağlanır.</p>

<p>Capstone modülünde her katılımcı, kendi senaryosuna özel uçtan uca bir CPT pipeline'ı tasarlar: senaryo seçimi (Türkçe LLM, hukuk, sağlık, finans, kod, veya katılımcının kendi domain'i), base model seçimi (Llama 3.3, Qwen3, Gemma 3, Mistral, DeepSeek base), Türkçe ve/veya domain veri toplama (50B-200B token), vocabulary expansion kararı, mitigation stratejisi (replay ratio + LoRA / full FT / hybrid), training stack (TRL + Axolotl veya OpenRLHF + DeepSpeed), compute budget (single H100, 8x H100, multi-node planning), eval framework (4 boyut), 90 günlük production deployment roadmap (post-CPT SFT + DPO + RAG entegrasyonu dahil). Eğitim sonunda katılımcılar; CPT vs SFT vs RAG karar matrisini kurumsal ölçekte uygulayabilecek; FineWeb-style data pipeline'ı Türkçe + domain için kurabilecek; catastrophic forgetting mitigation reçetelerini kanıt-tabanlı seçebilecek; vocabulary expansion + tokenizer adaptation ile Türkçe verimliliği 2x artırabilecek; YaRN ile 128K-1M long-context extension yapabilecek; DoReMi/RegMix ile optimal data mix tahmin edebilecek; LoRA/DoRA/QLoRA/GaLore arasında compute-optimal seçim yapabilecek; Cosmos / Trendyol AI / Aya Expanse / BloombergGPT seviyesinde production-grade CPT pipeline kurabilecek seviyede teknik yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 100'ün üzerinde uygulamalı ders içerir.</p>