LLM Nedir? Büyük Dil Modelleri Çalışma Prensibi ve 2026 Karşılaştırması
Büyük Dil Modelleri (LLM) nasıl çalışır, Transformer mimarisi neyi çözer, token / embedding / context window ne demek, GPT-5 / Claude Opus 4.7 / Gemini 3 / Llama 4 hangisi hangi göreve uygundur? Türkçe LLM performansı, eğitim aşamaları, hallucination kontrolü ve maliyet modeliyle kapsamlı 2026 referansı.
Tek cümlelik cevap: Büyük Dil Modeli, dili olasılıksal olarak tahmin eden — Transformer mimarisi sayesinde uzun bağlamlı anlamı yakalayabilen — modern üretken AI'ın temel motorudur.
- Büyük Dil Modeli (LLM), trilyonlarca kelime üzerinde eğitilmiş, bir sonraki kelimeyi olasılıksal olarak tahmin ederek dil üreten Transformer tabanlı yapay sinir ağıdır.
- Üç temel kavram her şeyi açıklar: token (metin parçası), embedding (anlamı temsil eden vektör), context window (modelin aynı anda görebildiği token sayısı).
- LLM eğitimi üç aşamalıdır: pretraining (dil bilgisi), supervised fine-tuning (talimat takip), RLHF/DPO (insan tercihine hizalama).
- 2026'da bayrak modeller: GPT-5 (256K context, akıl yürütme), Claude Opus 4.7 (1M context, kod ve agent), Gemini 3 (2M context, multimodal), Llama 4 (açık ağırlık, self-hosted).
- LLM kullanmanın üç yolu vardır: prompt engineering (en hızlı), RAG (kendi verinizle besleyin), fine-tuning (stil ve davranış kilitlemek için).
1. LLM Nedir? Tek Cümlelik Cevap
LLM, sıradaki kelimeyi tahmin etmek için trilyonlarca metin parçasını sindirmiş büyük bir yapay sinir ağıdır. Tahmin doğruluğu, modelin yeterince büyük ve veri zengin olduğunda dil anlama, akıl yürütme ve üretme olarak ortaya çıkar.
- Büyük Dil Modeli (Large Language Model, LLM)
- Milyarlarca parametreye sahip, internet ölçekli metin korpusu üzerinde önceden eğitilmiş, doğal dilde anlama, akıl yürütme ve üretim yapabilen Transformer tabanlı derin öğrenme modeli. Token bazında bir sonraki birimin olasılığını öğrenir; ölçeklendikçe insan-benzeri dil yetenekleri ortaya çıkar.
- Ayrıca: LLM, Foundation Model, Temel Model
- Wikidata: Q115305900
Önemli not: LLM "düşünmüyor", "anlamıyor" felsefi anlamda; istatistiksel olasılıkları çok büyük ölçekte tahmin ediyor. Ancak yeterli büyüklükte bu tahmin yetisi, davranışsal olarak akıl yürütmeye yaklaşan çıktılar üretiyor — bu, emergent abilities (ortaya çıkan yetenekler) adı verilen bir olgu.
2. LLM Nasıl Çalışır? — Tahmin Etme Makinesi
LLM özünde otoregresif bir dil modelidir. Yani: girilen metni alır, bir sonraki en olası kelimeyi (aslında token) tahmin eder, onu metne ekler, tekrar tahmin eder. Bu döngü cevap tamamlanana kadar devam eder.
Basit Bir Örnek
"Türkiye'nin başkenti..." girdisini alan bir LLM:
- Tokenize eder: ["Türkiye'", "nin", " başkenti", "..."]
- Her token'ı bir embedding vektörüne çevirir
- Transformer katmanlarından geçirip bağlamı işler
- Sonraki token için olasılık dağılımı üretir: " Ankara" (%87), " İstanbul" (%9), " bir" (%2), ...
- En olası token'ı seçer (veya sıcaklık ayarına göre örnekler), metne ekler, döngüyü tekrarlar.
Bu basit mekanizmanın trilyonlarca veri ve milyarlarca parametre ile kombine olması — modern LLM'lerin sergilediği akıl yürütme, kod yazma, çeviri, özetleme yetkinliklerini doğurur.
3. Üç Temel Kavram: Token, Embedding, Context Window
Her LLM tartışması bu üç kavram üzerinde döner. Anlamadan üretim yapamazsınız.
3.1. Token
Token, modelin işlediği en küçük metin birimidir. Türkçe için tipik bir tokenizer şu şekilde böler:
- "yapay zeka" → ["yapay", " zeka"] — 2 token
- "geliştiriyorum" → ["geli", "şti", "riyor", "um"] — 4 token (Türkçe morfolojisi nedeniyle parçalanır)
Pratik anlamı: Türkçe metin, İngilizce metinden yaklaşık %30-50 daha fazla token tüketir. Aynı uzunluktaki cevap için API maliyeti daha yüksektir, context window'a daha az içerik sığar.
3.2. Embedding
Her token, yüksek-boyutlu bir sayısal vektöre çevrilir. "kedi" ve "köpek" kelimelerinin embedding'leri yakın olur (her ikisi de hayvan); "kedi" ve "matematik" uzak olur. Embedding'ler anlam uzayında konumlar olarak düşünülebilir.
3.3. Context Window
Modelin aynı anda "görebildiği" maksimum token sayısı. 2026'da bayrak modeller:
| Model | Context Window | Türkçe Kelime Karşılığı | Tipik Kullanım |
|---|---|---|---|
| GPT-4 (eski) | 8K-32K | ~5.000-22.000 | Kısa sohbet |
| GPT-5 | 256K | ~170.000 | Uzun rapor, kod tabanı |
| Claude Opus 4.7 | 1M | ~700.000 | Tüm sözleşme paketi, kitap |
| Gemini 3 | 2M | ~1.400.000 | Video transkripti, çoklu kaynak |
| Llama 4 70B | 128K | ~85.000 | Self-hosted RAG |
Uzun context = her şey çözüldü denklemi yanlıştır. Lost in the Middle etkisi (modelin context'in ortasındaki bilgileri unutması) hala mevcuttur. Stratejik retrieval + iyi prompt mimarisi, kör çıplak uzun context kullanımından çoğu zaman üstündür.
4. Transformer Mimarisi: 2017'nin Devrim Anı
Modern LLM'lerin omurgası 2017'de Google'ın "Attention Is All You Need" makalesinde tanıtılan Transformer mimarisidir. Bu mimari öncesi modeller (RNN, LSTM) uzun bağlamlarla başa çıkamıyordu.
Transformer'ın Kritik Yapı Taşları
- Self-Attention: Bir cümledeki her token'ın diğer tüm token'lara "dikkat etmesi" mekanizması. "Müdür raporu okudu, çünkü o yarın sunum yapacak" cümlesindeki "o" zamirinin "müdür"e mi yoksa "rapor"a mı atıfta bulunduğunu anlamayı sağlar.
- Pozisyon Kodlama: Token'lar sıralı bir dizi olduğu için sıra bilgisi modele kodlanır.
- Çok-Başlı Dikkat (Multi-head Attention): Aynı cümleyi farklı ilişki türleri açısından (sözdizimsel, anlamsal, varlık-ilişki) paralel olarak işler.
- Feed-Forward Katmanlar: Attention çıktısını dönüştürür.
- Residual Connections + Layer Normalization: Çok derin yığınlamayı kararlı kılar.
GPT-5, Claude, Gemini, Llama — hepsi temelde Transformer'ın türevleridir; farklılıklar veri, ölçek, eğitim hilesi ve hizalama tekniğindedir.
5. LLM Eğitim Aşamaları: Bir Model Nasıl Doğar?
Modern bir LLM üç aşamada eğitilir. Her aşama modeli farklı bir yetkinlikle donatır.
LLM Eğitim Süreci — Üç Aşama
Modern bir LLM'in sıfırdan üretime kadar geçirdiği aşamalar.
- 1
1. Pretraining (Önceden Eğitim)
Trilyonlarca token (Common Crawl, kitaplar, Wikipedia, kod, akademik metinler) üzerinde bir sonraki token tahmin görevi. Aylar süren GPU eğitimi, milyonlarca dolar. Çıktı: dil bilgisine sahip ama henüz talimat takip etmeyen bir taban model.
- 2
2. Supervised Fine-tuning (SFT)
İnsan eğiticilerin yazdığı binlerce yüksek-kaliteli soru-cevap çifti üzerinde fine-tuning. Çıktı: talimatlara uyabilen ama henüz tercihlere hizalanmamış model.
- 3
3. RLHF / DPO (İnsan Tercihine Hizalama)
İnsanların değerlendirdiği cevap çiftleri kullanılarak (A iyi mi B iyi mi?) modelin tercihleri öğrenmesi. RLHF (Reinforcement Learning from Human Feedback) klasik yöntem; DPO (Direct Preference Optimization) son nesil daha verimli alternatif. Çıktı: yardımcı, zararsız ve dürüst cevap üretmeye hizalanmış üretim modeli.
6. Inference: LLM Cevap Üretirken Ne Yapar?
Eğitim bittikten sonra modelin çalışma anı (inference) birkaç önemli karar içerir:
Temperature (Sıcaklık)
Modelin token seçimindeki rastgelelik. 0 = deterministik (her zaman en olası kelime), 1 = yaratıcı, 2 = kaotik. Veri çıkarımı için 0-0.2, yaratıcı yazım için 0.7-1.0 önerilir.
Top-p (Nucleus Sampling)
En olası token'ların kümülatif olasılığı p'ye ulaşana kadar seçim. Temperature ile birlikte ayarlanır.
Max Tokens
Cevabın üretilebileceği maksimum token sayısı. Maliyet ve gecikme kontrolü için kritik.
Stop Sequences
Modelin üretmeyi durduracağı özel diziler (örn. "###", "İnsan:").
7. 2026 Bayrak LLM Karşılaştırması
| Model | Sağlayıcı | Context | Güçlü Tarafı | Tipik Maliyet (1M token) |
|---|---|---|---|---|
| GPT-5 | OpenAI | 256K | Akıl yürütme zinciri, OpenAI ekosistemi | $5-15 |
| Claude Opus 4.7 | Anthropic | 1M | Uzun bağlam, kod, agent kullanımı | $15-75 |
| Gemini 3 | 2M | Multimodal (video+ses+görsel), Google ekosistemi | $3-10 | |
| Llama 4 70B | Meta (açık) | 128K | Self-hosted, ücretsiz ağırlık | $0.20-2 (self-hosted) |
| Mistral Large 3 | Mistral | 128K | Avrupa menşeli, GDPR dostu | $2-8 |
| DeepSeek V3 | DeepSeek (açık) | 128K | Düşük maliyet, MoE mimarisi | $0.30-1 |
| Qwen 2.5 | Alibaba (açık) | 128K | Çok-dilli, Türkçe iyi | $0.50-2 |
Hangisi Hangi Görev İçin?
- Karmaşık akıl yürütme + ajan kullanımı: Claude Opus 4.7
- Genel sohbet + yaratıcı içerik: GPT-5 veya Claude
- Video/ses anlama: Gemini 3
- Maliyet kritik yüksek hacim: GPT-4o-mini, Claude Haiku, Gemini Flash, DeepSeek
- Veri yerleşimi ve KVKK: Mistral (AB), Llama/Qwen self-hosted (Türkiye on-prem)
8. LLM'lerin Sınırları: Neyi Yapamaz?
Üretim sistemleri tasarlamadan önce sınırların farkında olmak şarttır.
8.1. Halüsinasyon
LLM'ler bilmediklerini bilmezler; emin görünen ama yanlış cevaplar üretebilirler. Bunu tek başına model çözmüyor — RAG, kaynak gösterimi, eval harness ve insan denetimi şart.
8.2. Knowledge Cutoff (Bilgi Kesim Tarihi)
Her LLM, eğitim verisinin kesildiği tarihten sonra olanları bilmez. 2024 sonrası olaylar için RAG veya web araması zorunludur.
8.3. Matematiksel Akıl Yürütme
Aritmetik ve sembolik akıl yürütmede zayıftırlar (özellikle uzun sayısal hesaplamalar). Çözüm: araç çağırma (calculator, Python execution) veya zincirli düşünme prompt'u.
8.4. Gerçek Zamanlı Veri
LLM kendi başına anlık veri (hisse fiyatı, hava durumu, haberler) bilmez. Tool use / function calling şarttır.
8.5. Karakter ve Sayma
Bir kelimedeki harf sayısı, bir cümledeki kelime sayısı gibi görevler şaşırtıcı şekilde zayıf — modeller token üzerinden çalıştığı için karakter seviyesi muhakeme istisnadır.
9. LLM vs Diğer AI Modelleri
| Model Türü | Görev | Örnekler | LLM ile İlişki |
|---|---|---|---|
| LLM (Dil Modeli) | Metin anlama ve üretme | GPT-5, Claude, Gemini | Bu yazının konusu |
| Diffusion Model | Görsel ve video üretme | Stable Diffusion, Flux, Sora | Farklı mimari (denoising) |
| Embedding Model | Anlam vektörü üretme | BGE-M3, OpenAI text-embedding | LLM mimarisine yakın, daha küçük |
| Speech Model | Ses tanıma ve üretme | Whisper, ElevenLabs | LLM'den farklı (audio özel) |
| Vision Model | Görüntü anlama | CLIP, ResNet, ViT | Multimodal LLM içine entegre edilir |
| Multimodal LLM | Metin + görsel + ses + video | GPT-5, Gemini 3, Claude Opus | Çoklu modaliteyi tek modelde birleştirir |
10. LLM'i Geliştirme: Üç Yol
Bir LLM'i kendi use-case'inize uyarlamak için üç temel yaklaşım vardır.
10.1. Prompt Engineering (En Hızlı)
Modelin mevcut yeteneklerini iyi bir talimatla yönlendirme. Few-shot örnekler, chain-of-thought, sistem prompt'u tasarımı bu kategoridedir. Maliyeti düşük, üretime saatler içinde alınabilir.
10.2. RAG — Retrieval-Augmented Generation (Orta)
Şirketinizin verilerini bir bilgi tabanından getirip prompt'a ekleme. Bilgi tabanı + güncel veri içeren her use-case için doğru yaklaşım. Maliyet orta, üretime haftalar/aylar.
10.3. Fine-tuning (En Sıkı)
Modelin davranışını/stilini değiştirmek için ek eğitim. LoRA, QLoRA, DPO gibi teknikler GPU maliyetini azaltır. Belirli bir tonu sabitlemek veya kapalı bir domain'de uzmanlaşmak için. Maliyet yüksek, süreç ay alabilir.
11. Türkçe LLM Performansı: Hangi Modeller Türkçe'de Daha İyi?
Türkçe, morfolojik olarak zengin bir dildir — her kelime onlarca çekim formuna sahip olabilir. Bu, tokenizer ve eğitim verisinin Türkçe içerik oranına yüksek hassasiyet doğurur.
2026 Türkçe LLM Sıralaması (Genel Görünüm)
- En güçlü: Claude Opus 4.7, GPT-5, Gemini 3 — üçü de Türkçe'de doğal akıcılığa yakın
- İyi: Mistral Large 3, GPT-4o, DeepSeek V3
- Orta: Llama 4 70B (instruct), Qwen 2.5 72B
- Yerel: Cezeri, KanarYa, Trendyol-LLM (e-ticaret için uzmanlaşmış), BERTurk (NLP araştırma)
Türkçe Performansını Etkileyen Faktörler
- Tokenizer verimi. Türkçe'yi az parçalayan tokenizer'lar daha verimli — model context'ini daha iyi kullanır.
- Eğitim verisi Türkçe payı. En büyük modellerde Türkçe verisi tipik olarak %1-3 civarındadır; bu bile akıcılık için yeterli olabiliyor.
- Domain spesifikliği. Hukuk, tıp, finans gibi alanlarda yerel terimleri öğrenmiş olmak fark yaratır — kurumsal projelerde Türkçe domain fine-tune'u değer üretebilir.
12. LLM Maliyet Modeli: Nasıl Hesaplanır?
LLM maliyetleri token bazında ücretlendirilir. Bir API çağrısının maliyeti üç parçadan oluşur:
- Input token (prompt) maliyeti — Gönderdiğiniz metin
- Output token (cevap) maliyeti — Modelin ürettiği metin (genelde 2-3x daha pahalı)
- Cached token maliyeti — Tekrar kullanılan prompt'lar (prompt caching ile %50-90 indirim)
Tipik Aylık Maliyet Senaryoları (2026 Fiyatlarıyla)
- Küçük şirket içi chatbot (10K sorgu/ay, GPT-4o-mini): ~$50-150
- Orta kurumsal RAG (50K sorgu/ay, GPT-5 + RAG katmanı): ~$1.500-5.000
- Büyük müşteri hizmetleri (500K sorgu/ay, Claude Opus + Haiku karışımı): ~$8.000-30.000
- Self-hosted Llama 70B (sabit GPU, kullanım korelasyonsuz): ~$2.000-5.000/ay (donanım amortismanı dahil)
Maliyet Optimizasyonu
- Prompt caching: Tekrarlayan sistem prompt'larında %50-90 tasarruf
- Model routing: Basit sorular daha küçük modele, karmaşık olanlar büyüğe
- Yanıt cache'i: Sık sorulan sorular için tam yanıt cache
- Streaming: Algılanan gecikmeyi yarıya indirir, kullanıcı deneyimi iyileşir
- Batch API: Async iş yükleri için %50 indirim (24 saat içinde dönüş)
13. Sıkça Sorulan Sorular
14. Bir Sonraki Adım
Şirketinizde LLM stratejisi belirlemek veya mevcut bir uygulamayı üretim kalitesine taşımak için:
- LLM seçim atölyesi. Use-case'inize en uygun model (kalite + maliyet + veri yerleşimi) bir oturumda netleşir.
- RAG mimari atölyesi. Şirket verilerinizi LLM ile birleştirme — uçtan uca tasarım.
- Production audit. Mevcut LLM uygulamanız varsa hallucination, gecikme, maliyet ve uyum için 360 derece denetim.
İletişim için site üzerindeki contact formu kullanılabilir.
Kaynaklar
- Attention Is All You Need — Vaswani et al., NeurIPS ·
- Language Models are Few-Shot Learners (GPT-3) — Brown et al., NeurIPS ·
- Training language models to follow instructions with human feedback (InstructGPT/RLHF) — Ouyang et al., OpenAI ·
- Constitutional AI: Harmlessness from AI Feedback — Bai et al., Anthropic ·
- Direct Preference Optimization (DPO) — Rafailov et al., NeurIPS ·
- Lost in the Middle: How Language Models Use Long Contexts — Liu et al., arXiv ·
- Emergent Abilities of Large Language Models — Wei et al., TMLR ·
- GPT-4 Technical Report — OpenAI, OpenAI ·
- Stanford AI Index Report 2025 — Stanford HAI, Stanford University ·
- State of AI Report 2025 — Benaich, N., Air Street Capital ·
Bu rehber yaşayan bir belgedir; LLM ekosistemi (yeni modeller, fiyat değişiklikleri, mimari yenilikler) her çeyrek değiştiği için çeyreklik olarak güncellenmektedir.
Danismanlik Baglantilari
Bu yazıya en yakın consulting sayfaları
Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.
Kurumsal RAG Sistemleri Gelistirme
Sirket ici bilgiye kaynakli, guvenli ve denetlenebilir erisim saglayan uretim seviyesinde RAG mimarileri.
AI Agent ve Workflow Otomasyonu
Tek adimli chatbot'larin otesine gecen; arac, kural ve insan onayi ile ilerleyen AI destekli is akislarina gecis.
CTO'lar icin Kurumsal AI Mimari Danismanligi
PoC seviyesinde kalan AI girisimlerini guvenli, olceklenebilir ve production-ready mimarilere tasimak icin teknik liderlik danismanligi.