Özet (TL;DR)

Tek cümlelik cevap: Büyük Dil Modeli, dili olasılıksal olarak tahmin eden — Transformer mimarisi sayesinde uzun bağlamlı anlamı yakalayabilen — modern üretken AI'ın temel motorudur.

Büyük Dil Modeli (LLM), trilyonlarca kelime üzerinde eğitilmiş, bir sonraki kelimeyi olasılıksal olarak tahmin ederek dil üreten Transformer tabanlı yapay sinir ağıdır.
Üç temel kavram her şeyi açıklar: token (metin parçası), embedding (anlamı temsil eden vektör), context window (modelin aynı anda görebildiği token sayısı).
LLM eğitimi üç aşamalıdır: pretraining (dil bilgisi), supervised fine-tuning (talimat takip), RLHF/DPO (insan tercihine hizalama).
2026'da bayrak modeller: GPT-5 (256K context, akıl yürütme), Claude Opus 4.7 (1M context, kod ve agent), Gemini 3 (2M context, multimodal), Llama 4 (açık ağırlık, self-hosted).
LLM kullanmanın üç yolu vardır: prompt engineering (en hızlı), RAG (kendi verinizle besleyin), fine-tuning (stil ve davranış kilitlemek için).

1. LLM Nedir? Tek Cümlelik Cevap

LLM, sıradaki kelimeyi tahmin etmek için trilyonlarca metin parçasını sindirmiş büyük bir yapay sinir ağıdır. Tahmin doğruluğu, modelin yeterince büyük ve veri zengin olduğunda dil anlama, akıl yürütme ve üretme olarak ortaya çıkar.

Tanım

Büyük Dil Modeli (Large Language Model, LLM): Milyarlarca parametreye sahip, internet ölçekli metin korpusu üzerinde önceden eğitilmiş, doğal dilde anlama, akıl yürütme ve üretim yapabilen Transformer tabanlı derin öğrenme modeli. Token bazında bir sonraki birimin olasılığını öğrenir; ölçeklendikçe insan-benzeri dil yetenekleri ortaya çıkar.; Ayrıca: LLM, Foundation Model, Temel Model; Wikidata: Q115305900

Önemli not: LLM "düşünmüyor", "anlamıyor" felsefi anlamda; istatistiksel olasılıkları çok büyük ölçekte tahmin ediyor. Ancak yeterli büyüklükte bu tahmin yetisi, davranışsal olarak akıl yürütmeye yaklaşan çıktılar üretiyor — bu, emergent abilities (ortaya çıkan yetenekler) adı verilen bir olgu.

2. LLM Nasıl Çalışır? — Tahmin Etme Makinesi

LLM özünde otoregresif bir dil modelidir. Yani: girilen metni alır, bir sonraki en olası kelimeyi (aslında token) tahmin eder, onu metne ekler, tekrar tahmin eder. Bu döngü cevap tamamlanana kadar devam eder.

Basit Bir Örnek

"Türkiye'nin başkenti..." girdisini alan bir LLM:

Tokenize eder: ["Türkiye'", "nin", " başkenti", "..."]
Her token'ı bir embedding vektörüne çevirir
Transformer katmanlarından geçirip bağlamı işler
Sonraki token için olasılık dağılımı üretir: " Ankara" (%87), " İstanbul" (%9), " bir" (%2), ...
En olası token'ı seçer (veya sıcaklık ayarına göre örnekler), metne ekler, döngüyü tekrarlar.

Bu basit mekanizmanın trilyonlarca veri ve milyarlarca parametre ile kombine olması — modern LLM'lerin sergilediği akıl yürütme, kod yazma, çeviri, özetleme yetkinliklerini doğurur.

3. Üç Temel Kavram: Token, Embedding, Context Window

Her LLM tartışması bu üç kavram üzerinde döner. Anlamadan üretim yapamazsınız.

3.1. Token

Token, modelin işlediği en küçük metin birimidir. Türkçe için tipik bir tokenizer şu şekilde böler:

"yapay zeka" → ["yapay", " zeka"] — 2 token
"geliştiriyorum" → ["geli", "şti", "riyor", "um"] — 4 token (Türkçe morfolojisi nedeniyle parçalanır)

Pratik anlamı: Türkçe metin, İngilizce metinden yaklaşık %30-50 daha fazla token tüketir. Aynı uzunluktaki cevap için API maliyeti daha yüksektir, context window'a daha az içerik sığar.

3.2. Embedding

Her token, yüksek-boyutlu bir sayısal vektöre çevrilir. "kedi" ve "köpek" kelimelerinin embedding'leri yakın olur (her ikisi de hayvan); "kedi" ve "matematik" uzak olur. Embedding'ler anlam uzayında konumlar olarak düşünülebilir.

3.3. Context Window

Modelin aynı anda "görebildiği" maksimum token sayısı. 2026'da bayrak modeller:

2026 Context Window Karşılaştırması
Model	Context Window	Türkçe Kelime Karşılığı	Tipik Kullanım
GPT-4 (eski)	8K-32K	~5.000-22.000	Kısa sohbet
GPT-5	256K	~170.000	Uzun rapor, kod tabanı
Claude Opus 4.7	1M	~700.000	Tüm sözleşme paketi, kitap
Gemini 3	2M	~1.400.000	Video transkripti, çoklu kaynak
Llama 4 70B	128K	~85.000	Self-hosted RAG

Uzun context = her şey çözüldü denklemi yanlıştır. Lost in the Middle etkisi (modelin context'in ortasındaki bilgileri unutması) hala mevcuttur. Stratejik retrieval + iyi prompt mimarisi, kör çıplak uzun context kullanımından çoğu zaman üstündür.

4. Transformer Mimarisi: 2017'nin Devrim Anı

Modern LLM'lerin omurgası 2017'de Google'ın "Attention Is All You Need" makalesinde tanıtılan Transformer mimarisidir. Bu mimari öncesi modeller (RNN, LSTM) uzun bağlamlarla başa çıkamıyordu.

Transformer'ın Kritik Yapı Taşları

Self-Attention: Bir cümledeki her token'ın diğer tüm token'lara "dikkat etmesi" mekanizması. "Müdür raporu okudu, çünkü o yarın sunum yapacak" cümlesindeki "o" zamirinin "müdür"e mi yoksa "rapor"a mı atıfta bulunduğunu anlamayı sağlar.
Pozisyon Kodlama: Token'lar sıralı bir dizi olduğu için sıra bilgisi modele kodlanır.
Çok-Başlı Dikkat (Multi-head Attention): Aynı cümleyi farklı ilişki türleri açısından (sözdizimsel, anlamsal, varlık-ilişki) paralel olarak işler.
Feed-Forward Katmanlar: Attention çıktısını dönüştürür.
Residual Connections + Layer Normalization: Çok derin yığınlamayı kararlı kılar.

GPT-5, Claude, Gemini, Llama — hepsi temelde Transformer'ın türevleridir; farklılıklar veri, ölçek, eğitim hilesi ve hizalama tekniğindedir.

5. LLM Eğitim Aşamaları: Bir Model Nasıl Doğar?

Modern bir LLM üç aşamada eğitilir. Her aşama modeli farklı bir yetkinlikle donatır.

Nasıl Yapılır

LLM Eğitim Süreci — Üç Aşama

Modern bir LLM'in sıfırdan üretime kadar geçirdiği aşamalar.

Toplam süre: P6M

1
1. Pretraining (Önceden Eğitim)
Trilyonlarca token (Common Crawl, kitaplar, Wikipedia, kod, akademik metinler) üzerinde bir sonraki token tahmin görevi. Aylar süren GPU eğitimi, milyonlarca dolar. Çıktı: dil bilgisine sahip ama henüz talimat takip etmeyen bir taban model.
2
2. Supervised Fine-tuning (SFT)
İnsan eğiticilerin yazdığı binlerce yüksek-kaliteli soru-cevap çifti üzerinde fine-tuning. Çıktı: talimatlara uyabilen ama henüz tercihlere hizalanmamış model.
3
3. RLHF / DPO (İnsan Tercihine Hizalama)
İnsanların değerlendirdiği cevap çiftleri kullanılarak (A iyi mi B iyi mi?) modelin tercihleri öğrenmesi. RLHF (Reinforcement Learning from Human Feedback) klasik yöntem; DPO (Direct Preference Optimization) son nesil daha verimli alternatif. Çıktı: yardımcı, zararsız ve dürüst cevap üretmeye hizalanmış üretim modeli.

6. Inference: LLM Cevap Üretirken Ne Yapar?

Eğitim bittikten sonra modelin çalışma anı (inference) birkaç önemli karar içerir:

Temperature (Sıcaklık)

Modelin token seçimindeki rastgelelik. 0 = deterministik (her zaman en olası kelime), 1 = yaratıcı, 2 = kaotik. Veri çıkarımı için 0-0.2, yaratıcı yazım için 0.7-1.0 önerilir.

Top-p (Nucleus Sampling)

En olası token'ların kümülatif olasılığı p'ye ulaşana kadar seçim. Temperature ile birlikte ayarlanır.

Max Tokens

Cevabın üretilebileceği maksimum token sayısı. Maliyet ve gecikme kontrolü için kritik.

Stop Sequences

Modelin üretmeyi durduracağı özel diziler (örn. "###", "İnsan:").

7. 2026 Bayrak LLM Karşılaştırması

2026 Bayrak LLM Modelleri
Model	Sağlayıcı	Context	Güçlü Tarafı	Tipik Maliyet (1M token)
GPT-5	OpenAI	256K	Akıl yürütme zinciri, OpenAI ekosistemi	$5-15
Claude Opus 4.7	Anthropic	1M	Uzun bağlam, kod, agent kullanımı	$15-75
Gemini 3	Google	2M	Multimodal (video+ses+görsel), Google ekosistemi	$3-10
Llama 4 70B	Meta (açık)	128K	Self-hosted, ücretsiz ağırlık	$0.20-2 (self-hosted)
Mistral Large 3	Mistral	128K	Avrupa menşeli, GDPR dostu	$2-8
DeepSeek V3	DeepSeek (açık)	128K	Düşük maliyet, MoE mimarisi	$0.30-1
Qwen 2.5	Alibaba (açık)	128K	Çok-dilli, Türkçe iyi	$0.50-2

Hangisi Hangi Görev İçin?

Karmaşık akıl yürütme + ajan kullanımı: Claude Opus 4.7
Genel sohbet + yaratıcı içerik: GPT-5 veya Claude
Video/ses anlama: Gemini 3
Maliyet kritik yüksek hacim: GPT-4o-mini, Claude Haiku, Gemini Flash, DeepSeek
Veri yerleşimi ve KVKK: Mistral (AB), Llama/Qwen self-hosted (Türkiye on-prem)

8. LLM'lerin Sınırları: Neyi Yapamaz?

Üretim sistemleri tasarlamadan önce sınırların farkında olmak şarttır.

8.1. Halüsinasyon

LLM'ler bilmediklerini bilmezler; emin görünen ama yanlış cevaplar üretebilirler. Bunu tek başına model çözmüyor — RAG, kaynak gösterimi, eval harness ve insan denetimi şart.

8.2. Knowledge Cutoff (Bilgi Kesim Tarihi)

Her LLM, eğitim verisinin kesildiği tarihten sonra olanları bilmez. 2024 sonrası olaylar için RAG veya web araması zorunludur.

8.3. Matematiksel Akıl Yürütme

Aritmetik ve sembolik akıl yürütmede zayıftırlar (özellikle uzun sayısal hesaplamalar). Çözüm: araç çağırma (calculator, Python execution) veya zincirli düşünme prompt'u.

8.4. Gerçek Zamanlı Veri

LLM kendi başına anlık veri (hisse fiyatı, hava durumu, haberler) bilmez. Tool use / function calling şarttır.

8.5. Karakter ve Sayma

Bir kelimedeki harf sayısı, bir cümledeki kelime sayısı gibi görevler şaşırtıcı şekilde zayıf — modeller token üzerinden çalıştığı için karakter seviyesi muhakeme istisnadır.

9. LLM vs Diğer AI Modelleri

LLM ve Diğer AI Model Türleri
Model Türü	Görev	Örnekler	LLM ile İlişki
LLM (Dil Modeli)	Metin anlama ve üretme	GPT-5, Claude, Gemini	Bu yazının konusu
Diffusion Model	Görsel ve video üretme	Stable Diffusion, Flux, Sora	Farklı mimari (denoising)
Embedding Model	Anlam vektörü üretme	BGE-M3, OpenAI text-embedding	LLM mimarisine yakın, daha küçük
Speech Model	Ses tanıma ve üretme	Whisper, ElevenLabs	LLM'den farklı (audio özel)
Vision Model	Görüntü anlama	CLIP, ResNet, ViT	Multimodal LLM içine entegre edilir
Multimodal LLM	Metin + görsel + ses + video	GPT-5, Gemini 3, Claude Opus	Çoklu modaliteyi tek modelde birleştirir

10. LLM'i Geliştirme: Üç Yol

Bir LLM'i kendi use-case'inize uyarlamak için üç temel yaklaşım vardır.

10.1. Prompt Engineering (En Hızlı)

Modelin mevcut yeteneklerini iyi bir talimatla yönlendirme. Few-shot örnekler, chain-of-thought, sistem prompt'u tasarımı bu kategoridedir. Maliyeti düşük, üretime saatler içinde alınabilir.

10.2. RAG — Retrieval-Augmented Generation (Orta)

Şirketinizin verilerini bir bilgi tabanından getirip prompt'a ekleme. Bilgi tabanı + güncel veri içeren her use-case için doğru yaklaşım. Maliyet orta, üretime haftalar/aylar.

10.3. Fine-tuning (En Sıkı)

Modelin davranışını/stilini değiştirmek için ek eğitim. LoRA, QLoRA, DPO gibi teknikler GPU maliyetini azaltır. Belirli bir tonu sabitlemek veya kapalı bir domain'de uzmanlaşmak için. Maliyet yüksek, süreç ay alabilir.

11. Türkçe LLM Performansı: Hangi Modeller Türkçe'de Daha İyi?

Türkçe, morfolojik olarak zengin bir dildir — her kelime onlarca çekim formuna sahip olabilir. Bu, tokenizer ve eğitim verisinin Türkçe içerik oranına yüksek hassasiyet doğurur.

2026 Türkçe LLM Sıralaması (Genel Görünüm)

En güçlü: Claude Opus 4.7, GPT-5, Gemini 3 — üçü de Türkçe'de doğal akıcılığa yakın
İyi: Mistral Large 3, GPT-4o, DeepSeek V3
Orta: Llama 4 70B (instruct), Qwen 2.5 72B
Yerel: Cezeri, KanarYa, Trendyol-LLM (e-ticaret için uzmanlaşmış), BERTurk (NLP araştırma)

Türkçe Performansını Etkileyen Faktörler

Tokenizer verimi. Türkçe'yi az parçalayan tokenizer'lar daha verimli — model context'ini daha iyi kullanır.
Eğitim verisi Türkçe payı. En büyük modellerde Türkçe verisi tipik olarak %1-3 civarındadır; bu bile akıcılık için yeterli olabiliyor.
Domain spesifikliği. Hukuk, tıp, finans gibi alanlarda yerel terimleri öğrenmiş olmak fark yaratır — kurumsal projelerde Türkçe domain fine-tune'u değer üretebilir.

12. LLM Maliyet Modeli: Nasıl Hesaplanır?

LLM maliyetleri token bazında ücretlendirilir. Bir API çağrısının maliyeti üç parçadan oluşur:

Input token (prompt) maliyeti — Gönderdiğiniz metin
Output token (cevap) maliyeti — Modelin ürettiği metin (genelde 2-3x daha pahalı)
Cached token maliyeti — Tekrar kullanılan prompt'lar (prompt caching ile %50-90 indirim)

Tipik Aylık Maliyet Senaryoları (2026 Fiyatlarıyla)

Küçük şirket içi chatbot (10K sorgu/ay, GPT-4o-mini): ~$50-150
Orta kurumsal RAG (50K sorgu/ay, GPT-5 + RAG katmanı): ~$1.500-5.000
Büyük müşteri hizmetleri (500K sorgu/ay, Claude Opus + Haiku karışımı): ~$8.000-30.000
Self-hosted Llama 70B (sabit GPU, kullanım korelasyonsuz): ~$2.000-5.000/ay (donanım amortismanı dahil)

Maliyet Optimizasyonu

Prompt caching: Tekrarlayan sistem prompt'larında %50-90 tasarruf
Model routing: Basit sorular daha küçük modele, karmaşık olanlar büyüğe
Yanıt cache'i: Sık sorulan sorular için tam yanıt cache
Streaming: Algılanan gecikmeyi yarıya indirir, kullanıcı deneyimi iyileşir
Batch API: Async iş yükleri için %50 indirim (24 saat içinde dönüş)

13. Sıkça Sorulan Sorular

14. Bir Sonraki Adım

Şirketinizde LLM stratejisi belirlemek veya mevcut bir uygulamayı üretim kalitesine taşımak için:

LLM seçim atölyesi. Use-case'inize en uygun model (kalite + maliyet + veri yerleşimi) bir oturumda netleşir.
RAG mimari atölyesi. Şirket verilerinizi LLM ile birleştirme — uçtan uca tasarım.
Production audit. Mevcut LLM uygulamanız varsa hallucination, gecikme, maliyet ve uyum için 360 derece denetim.

İletişim için site üzerindeki contact formu kullanılabilir.

Kaynaklar

Attention Is All You Need — Vaswani et al., NeurIPS · 2017-06-12
Language Models are Few-Shot Learners (GPT-3) — Brown et al., NeurIPS · 2020-05-28
Training language models to follow instructions with human feedback (InstructGPT/RLHF) — Ouyang et al., OpenAI · 2022-03-04
Constitutional AI: Harmlessness from AI Feedback — Bai et al., Anthropic · 2022-12-15
Direct Preference Optimization (DPO) — Rafailov et al., NeurIPS · 2023-05-29
Lost in the Middle: How Language Models Use Long Contexts — Liu et al., arXiv · 2023-07-06
Emergent Abilities of Large Language Models — Wei et al., TMLR · 2022-06-15
GPT-4 Technical Report — OpenAI, OpenAI · 2023-03-15
Stanford AI Index Report 2025 — Stanford HAI, Stanford University · 2025-04
State of AI Report 2025 — Benaich, N., Air Street Capital · 2025-10

Bu rehber yaşayan bir belgedir; LLM ekosistemi (yeni modeller, fiyat değişiklikleri, mimari yenilikler) her çeyrek değiştiği için çeyreklik olarak güncellenmektedir.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Çözüm Bazlı Sayfalar

Kurumsal RAG Sistemleri Gelistirme

Sirket ici bilgiye kaynakli, guvenli ve denetlenebilir erisim saglayan uretim seviyesinde RAG mimarileri.

kurumsal rag

Landing'i ac

Çözüm Bazlı Sayfalar

AI Agent ve Workflow Otomasyonu

Tek adimli chatbot'larin otesine gecen; arac, kural ve insan onayi ile ilerleyen AI destekli is akislarina gecis.

Landing'i ac

Rol Bazlı Sayfalar

CTO'lar icin Kurumsal AI Mimari Danismanligi

PoC seviyesinde kalan AI girisimlerini guvenli, olceklenebilir ve production-ready mimarilere tasimak icin teknik liderlik danismanligi.

Landing'i ac

Paylaş

Tüm Yazılar

1. LLM Nedir? Tek Cümlelik Cevap

2. LLM Nasıl Çalışır? — Tahmin Etme Makinesi

Basit Bir Örnek

3. Üç Temel Kavram: Token, Embedding, Context Window

3.1. Token

3.2. Embedding

3.3. Context Window

4. Transformer Mimarisi: 2017'nin Devrim Anı

Transformer'ın Kritik Yapı Taşları

5. LLM Eğitim Aşamaları: Bir Model Nasıl Doğar?

1. Pretraining (Önceden Eğitim)

2. Supervised Fine-tuning (SFT)

3. RLHF / DPO (İnsan Tercihine Hizalama)

6. Inference: LLM Cevap Üretirken Ne Yapar?

Temperature (Sıcaklık)

Top-p (Nucleus Sampling)

Max Tokens

Stop Sequences

7. 2026 Bayrak LLM Karşılaştırması

Hangisi Hangi Görev İçin?

8. LLM'lerin Sınırları: Neyi Yapamaz?

8.1. Halüsinasyon

8.2. Knowledge Cutoff (Bilgi Kesim Tarihi)

8.3. Matematiksel Akıl Yürütme

8.4. Gerçek Zamanlı Veri

8.5. Karakter ve Sayma

9. LLM vs Diğer AI Modelleri

10. LLM'i Geliştirme: Üç Yol

10.1. Prompt Engineering (En Hızlı)

10.2. RAG — Retrieval-Augmented Generation (Orta)

10.3. Fine-tuning (En Sıkı)

11. Türkçe LLM Performansı: Hangi Modeller Türkçe'de Daha İyi?

2026 Türkçe LLM Sıralaması (Genel Görünüm)

Türkçe Performansını Etkileyen Faktörler

12. LLM Maliyet Modeli: Nasıl Hesaplanır?

Tipik Aylık Maliyet Senaryoları (2026 Fiyatlarıyla)

Maliyet Optimizasyonu

13. Sıkça Sorulan Sorular

14. Bir Sonraki Adım

Kaynaklar

Bu yazıya en yakın consulting sayfaları

Kurumsal RAG Sistemleri Gelistirme

AI Agent ve Workflow Otomasyonu

CTO'lar icin Kurumsal AI Mimari Danismanligi

Yorumlar

Yorumlar

RAG Çözüm Mimarisi

LLMOps: Üretim Sınıfı LLM Operasyonları