İçeriğe geç
Yapay Zeka·26 dk·12 Mayıs 2026·6

LLM Nedir? Büyük Dil Modelleri Çalışma Prensibi ve 2026 Karşılaştırması

Büyük Dil Modelleri (LLM) nasıl çalışır, Transformer mimarisi neyi çözer, token / embedding / context window ne demek, GPT-5 / Claude Opus 4.7 / Gemini 3 / Llama 4 hangisi hangi göreve uygundur? Türkçe LLM performansı, eğitim aşamaları, hallucination kontrolü ve maliyet modeliyle kapsamlı 2026 referansı.

SYK
Şükrü Yusuf KAYA
AI Expert · Kurumsal AI Danışmanı
Özet (TL;DR)

Tek cümlelik cevap: Büyük Dil Modeli, dili olasılıksal olarak tahmin eden — Transformer mimarisi sayesinde uzun bağlamlı anlamı yakalayabilen — modern üretken AI'ın temel motorudur.

  • Büyük Dil Modeli (LLM), trilyonlarca kelime üzerinde eğitilmiş, bir sonraki kelimeyi olasılıksal olarak tahmin ederek dil üreten Transformer tabanlı yapay sinir ağıdır.
  • Üç temel kavram her şeyi açıklar: token (metin parçası), embedding (anlamı temsil eden vektör), context window (modelin aynı anda görebildiği token sayısı).
  • LLM eğitimi üç aşamalıdır: pretraining (dil bilgisi), supervised fine-tuning (talimat takip), RLHF/DPO (insan tercihine hizalama).
  • 2026'da bayrak modeller: GPT-5 (256K context, akıl yürütme), Claude Opus 4.7 (1M context, kod ve agent), Gemini 3 (2M context, multimodal), Llama 4 (açık ağırlık, self-hosted).
  • LLM kullanmanın üç yolu vardır: prompt engineering (en hızlı), RAG (kendi verinizle besleyin), fine-tuning (stil ve davranış kilitlemek için).

1. LLM Nedir? Tek Cümlelik Cevap

LLM, sıradaki kelimeyi tahmin etmek için trilyonlarca metin parçasını sindirmiş büyük bir yapay sinir ağıdır. Tahmin doğruluğu, modelin yeterince büyük ve veri zengin olduğunda dil anlama, akıl yürütme ve üretme olarak ortaya çıkar.

Tanım
Büyük Dil Modeli (Large Language Model, LLM)
Milyarlarca parametreye sahip, internet ölçekli metin korpusu üzerinde önceden eğitilmiş, doğal dilde anlama, akıl yürütme ve üretim yapabilen Transformer tabanlı derin öğrenme modeli. Token bazında bir sonraki birimin olasılığını öğrenir; ölçeklendikçe insan-benzeri dil yetenekleri ortaya çıkar.
Ayrıca: LLM, Foundation Model, Temel Model
Wikidata: Q115305900

Önemli not: LLM "düşünmüyor", "anlamıyor" felsefi anlamda; istatistiksel olasılıkları çok büyük ölçekte tahmin ediyor. Ancak yeterli büyüklükte bu tahmin yetisi, davranışsal olarak akıl yürütmeye yaklaşan çıktılar üretiyor — bu, emergent abilities (ortaya çıkan yetenekler) adı verilen bir olgu.

2. LLM Nasıl Çalışır? — Tahmin Etme Makinesi

LLM özünde otoregresif bir dil modelidir. Yani: girilen metni alır, bir sonraki en olası kelimeyi (aslında token) tahmin eder, onu metne ekler, tekrar tahmin eder. Bu döngü cevap tamamlanana kadar devam eder.

Basit Bir Örnek

"Türkiye'nin başkenti..." girdisini alan bir LLM:

  1. Tokenize eder: ["Türkiye'", "nin", " başkenti", "..."]
  2. Her token'ı bir embedding vektörüne çevirir
  3. Transformer katmanlarından geçirip bağlamı işler
  4. Sonraki token için olasılık dağılımı üretir: " Ankara" (%87), " İstanbul" (%9), " bir" (%2), ...
  5. En olası token'ı seçer (veya sıcaklık ayarına göre örnekler), metne ekler, döngüyü tekrarlar.

Bu basit mekanizmanın trilyonlarca veri ve milyarlarca parametre ile kombine olması — modern LLM'lerin sergilediği akıl yürütme, kod yazma, çeviri, özetleme yetkinliklerini doğurur.

3. Üç Temel Kavram: Token, Embedding, Context Window

Her LLM tartışması bu üç kavram üzerinde döner. Anlamadan üretim yapamazsınız.

3.1. Token

Token, modelin işlediği en küçük metin birimidir. Türkçe için tipik bir tokenizer şu şekilde böler:

  • "yapay zeka" → ["yapay", " zeka"] — 2 token
  • "geliştiriyorum" → ["geli", "şti", "riyor", "um"] — 4 token (Türkçe morfolojisi nedeniyle parçalanır)

Pratik anlamı: Türkçe metin, İngilizce metinden yaklaşık %30-50 daha fazla token tüketir. Aynı uzunluktaki cevap için API maliyeti daha yüksektir, context window'a daha az içerik sığar.

3.2. Embedding

Her token, yüksek-boyutlu bir sayısal vektöre çevrilir. "kedi" ve "köpek" kelimelerinin embedding'leri yakın olur (her ikisi de hayvan); "kedi" ve "matematik" uzak olur. Embedding'ler anlam uzayında konumlar olarak düşünülebilir.

3.3. Context Window

Modelin aynı anda "görebildiği" maksimum token sayısı. 2026'da bayrak modeller:

2026 Context Window Karşılaştırması
ModelContext WindowTürkçe Kelime KarşılığıTipik Kullanım
GPT-4 (eski)8K-32K~5.000-22.000Kısa sohbet
GPT-5256K~170.000Uzun rapor, kod tabanı
Claude Opus 4.71M~700.000Tüm sözleşme paketi, kitap
Gemini 32M~1.400.000Video transkripti, çoklu kaynak
Llama 4 70B128K~85.000Self-hosted RAG

Uzun context = her şey çözüldü denklemi yanlıştır. Lost in the Middle etkisi (modelin context'in ortasındaki bilgileri unutması) hala mevcuttur. Stratejik retrieval + iyi prompt mimarisi, kör çıplak uzun context kullanımından çoğu zaman üstündür.

4. Transformer Mimarisi: 2017'nin Devrim Anı

Modern LLM'lerin omurgası 2017'de Google'ın "Attention Is All You Need" makalesinde tanıtılan Transformer mimarisidir. Bu mimari öncesi modeller (RNN, LSTM) uzun bağlamlarla başa çıkamıyordu.

Transformer'ın Kritik Yapı Taşları

  • Self-Attention: Bir cümledeki her token'ın diğer tüm token'lara "dikkat etmesi" mekanizması. "Müdür raporu okudu, çünkü o yarın sunum yapacak" cümlesindeki "o" zamirinin "müdür"e mi yoksa "rapor"a mı atıfta bulunduğunu anlamayı sağlar.
  • Pozisyon Kodlama: Token'lar sıralı bir dizi olduğu için sıra bilgisi modele kodlanır.
  • Çok-Başlı Dikkat (Multi-head Attention): Aynı cümleyi farklı ilişki türleri açısından (sözdizimsel, anlamsal, varlık-ilişki) paralel olarak işler.
  • Feed-Forward Katmanlar: Attention çıktısını dönüştürür.
  • Residual Connections + Layer Normalization: Çok derin yığınlamayı kararlı kılar.

GPT-5, Claude, Gemini, Llama — hepsi temelde Transformer'ın türevleridir; farklılıklar veri, ölçek, eğitim hilesi ve hizalama tekniğindedir.

5. LLM Eğitim Aşamaları: Bir Model Nasıl Doğar?

Modern bir LLM üç aşamada eğitilir. Her aşama modeli farklı bir yetkinlikle donatır.

Nasıl Yapılır

LLM Eğitim Süreci — Üç Aşama

Modern bir LLM'in sıfırdan üretime kadar geçirdiği aşamalar.

Toplam süre:
  1. 1

    1. Pretraining (Önceden Eğitim)

    Trilyonlarca token (Common Crawl, kitaplar, Wikipedia, kod, akademik metinler) üzerinde bir sonraki token tahmin görevi. Aylar süren GPU eğitimi, milyonlarca dolar. Çıktı: dil bilgisine sahip ama henüz talimat takip etmeyen bir taban model.

  2. 2

    2. Supervised Fine-tuning (SFT)

    İnsan eğiticilerin yazdığı binlerce yüksek-kaliteli soru-cevap çifti üzerinde fine-tuning. Çıktı: talimatlara uyabilen ama henüz tercihlere hizalanmamış model.

  3. 3

    3. RLHF / DPO (İnsan Tercihine Hizalama)

    İnsanların değerlendirdiği cevap çiftleri kullanılarak (A iyi mi B iyi mi?) modelin tercihleri öğrenmesi. RLHF (Reinforcement Learning from Human Feedback) klasik yöntem; DPO (Direct Preference Optimization) son nesil daha verimli alternatif. Çıktı: yardımcı, zararsız ve dürüst cevap üretmeye hizalanmış üretim modeli.

6. Inference: LLM Cevap Üretirken Ne Yapar?

Eğitim bittikten sonra modelin çalışma anı (inference) birkaç önemli karar içerir:

Temperature (Sıcaklık)

Modelin token seçimindeki rastgelelik. 0 = deterministik (her zaman en olası kelime), 1 = yaratıcı, 2 = kaotik. Veri çıkarımı için 0-0.2, yaratıcı yazım için 0.7-1.0 önerilir.

Top-p (Nucleus Sampling)

En olası token'ların kümülatif olasılığı p'ye ulaşana kadar seçim. Temperature ile birlikte ayarlanır.

Max Tokens

Cevabın üretilebileceği maksimum token sayısı. Maliyet ve gecikme kontrolü için kritik.

Stop Sequences

Modelin üretmeyi durduracağı özel diziler (örn. "###", "İnsan:").

7. 2026 Bayrak LLM Karşılaştırması

2026 Bayrak LLM Modelleri
ModelSağlayıcıContextGüçlü TarafıTipik Maliyet (1M token)
GPT-5OpenAI256KAkıl yürütme zinciri, OpenAI ekosistemi$5-15
Claude Opus 4.7Anthropic1MUzun bağlam, kod, agent kullanımı$15-75
Gemini 3Google2MMultimodal (video+ses+görsel), Google ekosistemi$3-10
Llama 4 70BMeta (açık)128KSelf-hosted, ücretsiz ağırlık$0.20-2 (self-hosted)
Mistral Large 3Mistral128KAvrupa menşeli, GDPR dostu$2-8
DeepSeek V3DeepSeek (açık)128KDüşük maliyet, MoE mimarisi$0.30-1
Qwen 2.5Alibaba (açık)128KÇok-dilli, Türkçe iyi$0.50-2

Hangisi Hangi Görev İçin?

  • Karmaşık akıl yürütme + ajan kullanımı: Claude Opus 4.7
  • Genel sohbet + yaratıcı içerik: GPT-5 veya Claude
  • Video/ses anlama: Gemini 3
  • Maliyet kritik yüksek hacim: GPT-4o-mini, Claude Haiku, Gemini Flash, DeepSeek
  • Veri yerleşimi ve KVKK: Mistral (AB), Llama/Qwen self-hosted (Türkiye on-prem)

8. LLM'lerin Sınırları: Neyi Yapamaz?

Üretim sistemleri tasarlamadan önce sınırların farkında olmak şarttır.

8.1. Halüsinasyon

LLM'ler bilmediklerini bilmezler; emin görünen ama yanlış cevaplar üretebilirler. Bunu tek başına model çözmüyor — RAG, kaynak gösterimi, eval harness ve insan denetimi şart.

8.2. Knowledge Cutoff (Bilgi Kesim Tarihi)

Her LLM, eğitim verisinin kesildiği tarihten sonra olanları bilmez. 2024 sonrası olaylar için RAG veya web araması zorunludur.

8.3. Matematiksel Akıl Yürütme

Aritmetik ve sembolik akıl yürütmede zayıftırlar (özellikle uzun sayısal hesaplamalar). Çözüm: araç çağırma (calculator, Python execution) veya zincirli düşünme prompt'u.

8.4. Gerçek Zamanlı Veri

LLM kendi başına anlık veri (hisse fiyatı, hava durumu, haberler) bilmez. Tool use / function calling şarttır.

8.5. Karakter ve Sayma

Bir kelimedeki harf sayısı, bir cümledeki kelime sayısı gibi görevler şaşırtıcı şekilde zayıf — modeller token üzerinden çalıştığı için karakter seviyesi muhakeme istisnadır.

9. LLM vs Diğer AI Modelleri

LLM ve Diğer AI Model Türleri
Model TürüGörevÖrneklerLLM ile İlişki
LLM (Dil Modeli)Metin anlama ve üretmeGPT-5, Claude, GeminiBu yazının konusu
Diffusion ModelGörsel ve video üretmeStable Diffusion, Flux, SoraFarklı mimari (denoising)
Embedding ModelAnlam vektörü üretmeBGE-M3, OpenAI text-embeddingLLM mimarisine yakın, daha küçük
Speech ModelSes tanıma ve üretmeWhisper, ElevenLabsLLM'den farklı (audio özel)
Vision ModelGörüntü anlamaCLIP, ResNet, ViTMultimodal LLM içine entegre edilir
Multimodal LLMMetin + görsel + ses + videoGPT-5, Gemini 3, Claude OpusÇoklu modaliteyi tek modelde birleştirir

10. LLM'i Geliştirme: Üç Yol

Bir LLM'i kendi use-case'inize uyarlamak için üç temel yaklaşım vardır.

10.1. Prompt Engineering (En Hızlı)

Modelin mevcut yeteneklerini iyi bir talimatla yönlendirme. Few-shot örnekler, chain-of-thought, sistem prompt'u tasarımı bu kategoridedir. Maliyeti düşük, üretime saatler içinde alınabilir.

10.2. RAG — Retrieval-Augmented Generation (Orta)

Şirketinizin verilerini bir bilgi tabanından getirip prompt'a ekleme. Bilgi tabanı + güncel veri içeren her use-case için doğru yaklaşım. Maliyet orta, üretime haftalar/aylar.

10.3. Fine-tuning (En Sıkı)

Modelin davranışını/stilini değiştirmek için ek eğitim. LoRA, QLoRA, DPO gibi teknikler GPU maliyetini azaltır. Belirli bir tonu sabitlemek veya kapalı bir domain'de uzmanlaşmak için. Maliyet yüksek, süreç ay alabilir.

11. Türkçe LLM Performansı: Hangi Modeller Türkçe'de Daha İyi?

Türkçe, morfolojik olarak zengin bir dildir — her kelime onlarca çekim formuna sahip olabilir. Bu, tokenizer ve eğitim verisinin Türkçe içerik oranına yüksek hassasiyet doğurur.

2026 Türkçe LLM Sıralaması (Genel Görünüm)

  • En güçlü: Claude Opus 4.7, GPT-5, Gemini 3 — üçü de Türkçe'de doğal akıcılığa yakın
  • İyi: Mistral Large 3, GPT-4o, DeepSeek V3
  • Orta: Llama 4 70B (instruct), Qwen 2.5 72B
  • Yerel: Cezeri, KanarYa, Trendyol-LLM (e-ticaret için uzmanlaşmış), BERTurk (NLP araştırma)

Türkçe Performansını Etkileyen Faktörler

  1. Tokenizer verimi. Türkçe'yi az parçalayan tokenizer'lar daha verimli — model context'ini daha iyi kullanır.
  2. Eğitim verisi Türkçe payı. En büyük modellerde Türkçe verisi tipik olarak %1-3 civarındadır; bu bile akıcılık için yeterli olabiliyor.
  3. Domain spesifikliği. Hukuk, tıp, finans gibi alanlarda yerel terimleri öğrenmiş olmak fark yaratır — kurumsal projelerde Türkçe domain fine-tune'u değer üretebilir.

12. LLM Maliyet Modeli: Nasıl Hesaplanır?

LLM maliyetleri token bazında ücretlendirilir. Bir API çağrısının maliyeti üç parçadan oluşur:

  1. Input token (prompt) maliyeti — Gönderdiğiniz metin
  2. Output token (cevap) maliyeti — Modelin ürettiği metin (genelde 2-3x daha pahalı)
  3. Cached token maliyeti — Tekrar kullanılan prompt'lar (prompt caching ile %50-90 indirim)

Tipik Aylık Maliyet Senaryoları (2026 Fiyatlarıyla)

  • Küçük şirket içi chatbot (10K sorgu/ay, GPT-4o-mini): ~$50-150
  • Orta kurumsal RAG (50K sorgu/ay, GPT-5 + RAG katmanı): ~$1.500-5.000
  • Büyük müşteri hizmetleri (500K sorgu/ay, Claude Opus + Haiku karışımı): ~$8.000-30.000
  • Self-hosted Llama 70B (sabit GPU, kullanım korelasyonsuz): ~$2.000-5.000/ay (donanım amortismanı dahil)

Maliyet Optimizasyonu

  • Prompt caching: Tekrarlayan sistem prompt'larında %50-90 tasarruf
  • Model routing: Basit sorular daha küçük modele, karmaşık olanlar büyüğe
  • Yanıt cache'i: Sık sorulan sorular için tam yanıt cache
  • Streaming: Algılanan gecikmeyi yarıya indirir, kullanıcı deneyimi iyileşir
  • Batch API: Async iş yükleri için %50 indirim (24 saat içinde dönüş)

13. Sıkça Sorulan Sorular

14. Bir Sonraki Adım

Şirketinizde LLM stratejisi belirlemek veya mevcut bir uygulamayı üretim kalitesine taşımak için:

  1. LLM seçim atölyesi. Use-case'inize en uygun model (kalite + maliyet + veri yerleşimi) bir oturumda netleşir.
  2. RAG mimari atölyesi. Şirket verilerinizi LLM ile birleştirme — uçtan uca tasarım.
  3. Production audit. Mevcut LLM uygulamanız varsa hallucination, gecikme, maliyet ve uyum için 360 derece denetim.

İletişim için site üzerindeki contact formu kullanılabilir.

Kaynaklar

  1. , NeurIPS ·
  2. , NeurIPS ·
  3. , OpenAI ·
  4. , Anthropic ·
  5. , NeurIPS ·
  6. , arXiv ·
  7. , TMLR ·
  8. , OpenAI ·
  9. , Stanford University ·
  10. , Air Street Capital ·

Bu rehber yaşayan bir belgedir; LLM ekosistemi (yeni modeller, fiyat değişiklikleri, mimari yenilikler) her çeyrek değiştiği için çeyreklik olarak güncellenmektedir.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Yorumlar

Yorumlar

Bağlantılı Pillar Konular

Bu yazının bağlandığı pillar konular