# LLM Nedir? Büyük Dil Modelleri Çalışma Prensibi ve 2026 Karşılaştırması > Source: https://sukruyusufkaya.com/blog/llm-nedir > Updated: 2026-07-05T06:48:42.786Z > Type: blog > Category: yapay-zeka **TLDR:** LLM nedir? Büyük Dil Modelleri (LLM) nasıl çalışır, Transformer mimarisi neyi çözer, token / embedding / context window ne demek, GPT-5 / Claude Opus 4.7 / Gemini 3 / Llama 4 hangisi hangi göreve uygundur? Türkçe LLM performansı, eğitim aşamaları, hallucination kontrolü ve maliyet modeliyle kapsamlı 2026 referansı. LLM nedir? LLM (büyük dil modeli), çok büyük metin verisiyle eğitilmiş, dili anlayıp üretebilen bir yapay zeka modelidir; ChatGPT, Claude ve Gemini bu modellerin ürünleştirilmiş halleridir. Bu rehber, LLM’in nasıl çalıştığını, transformer mimarisini, token ve parametre kavramlarını ve kurumsal kullanımını uçtan uca ele alıyor. ## 1. LLM Nedir? Tek Cümlelik Cevap LLM, sıradaki kelimeyi tahmin etmek için trilyonlarca metin parçasını sindirmiş büyük bir yapay sinir ağıdır. Tahmin doğruluğu, modelin yeterince büyük ve veri zengin olduğunda **dil anlama, akıl yürütme ve üretme** olarak ortaya çıkar. **Önemli not:** LLM "düşünmüyor", "anlamıyor" felsefi anlamda; **istatistiksel olasılıkları çok büyük ölçekte tahmin ediyor**. Ancak yeterli büyüklükte bu tahmin yetisi, davranışsal olarak akıl yürütmeye yaklaşan çıktılar üretiyor — bu, *emergent abilities* (ortaya çıkan yetenekler) adı verilen bir olgu. ## 2. LLM Nasıl Çalışır? — Tahmin Etme Makinesi LLM özünde **otoregresif bir dil modeli**dir. Yani: girilen metni alır, bir sonraki en olası kelimeyi (aslında token) tahmin eder, onu metne ekler, tekrar tahmin eder. Bu döngü cevap tamamlanana kadar devam eder. ### Basit Bir Örnek "Türkiye'nin başkenti..." girdisini alan bir LLM: 1. **Tokenize** eder: ["Türkiye'", "nin", " başkenti", "..."] 2. Her token'ı bir **embedding** vektörüne çevirir 3. Transformer katmanlarından geçirip bağlamı işler 4. Sonraki token için olasılık dağılımı üretir: " Ankara" (%87), " İstanbul" (%9), " bir" (%2), ... 5. En olası token'ı seçer (veya sıcaklık ayarına göre örnekler), metne ekler, **döngüyü tekrarlar**. Bu basit mekanizmanın trilyonlarca veri ve milyarlarca parametre ile kombine olması — modern LLM'lerin sergilediği **akıl yürütme, kod yazma, çeviri, özetleme** yetkinliklerini doğurur. ## 3. Üç Temel Kavram: Token, Embedding, Context Window Her LLM tartışması bu üç kavram üzerinde döner. Anlamadan üretim yapamazsınız. ### 3.1. Token Token, modelin işlediği en küçük metin birimidir. Türkçe için tipik bir tokenizer şu şekilde böler: - "yapay zeka" → ["yapay", " zeka"] — 2 token - "geliştiriyorum" → ["geli", "şti", "riyor", "um"] — 4 token (Türkçe morfolojisi nedeniyle parçalanır) **Pratik anlamı:** Türkçe metin, İngilizce metinden yaklaşık **%30-50 daha fazla token** tüketir. Aynı uzunluktaki cevap için API maliyeti daha yüksektir, context window'a daha az içerik sığar. ### 3.2. Embedding Her token, yüksek-boyutlu bir sayısal vektöre çevrilir. "kedi" ve "köpek" kelimelerinin embedding'leri yakın olur (her ikisi de hayvan); "kedi" ve "matematik" uzak olur. Embedding'ler **anlam uzayında konumlar** olarak düşünülebilir. Embedding'ler RAG (Retrieval-Augmented Generation) sistemlerinin temelidir. Bir belgenin embedding'i ile bir sorgunun embedding'i karşılaştırılarak ilgili belgeler bulunur. Embedding olmadan modern semantik arama, öneri sistemleri ve RAG çalışamaz. ### 3.3. Context Window Modelin aynı anda "görebildiği" maksimum token sayısı. 2026'da bayrak modeller: **Uzun context = her şey çözüldü** denklemi yanlıştır. **Lost in the Middle** etkisi (modelin context'in ortasındaki bilgileri unutması) hala mevcuttur. Stratejik retrieval + iyi prompt mimarisi, kör çıplak uzun context kullanımından çoğu zaman üstündür. ## 4. Transformer Mimarisi: 2017'nin Devrim Anı Modern LLM'lerin **omurgası** 2017'de Google'ın "Attention Is All You Need" makalesinde tanıtılan Transformer mimarisidir. Bu mimari öncesi modeller (RNN, LSTM) uzun bağlamlarla başa çıkamıyordu. ### Transformer'ın Kritik Yapı Taşları - **Self-Attention:** Bir cümledeki her token'ın diğer tüm token'lara "dikkat etmesi" mekanizması. "Müdür raporu okudu, çünkü o yarın sunum yapacak" cümlesindeki "o" zamirinin "müdür"e mi yoksa "rapor"a mı atıfta bulunduğunu anlamayı sağlar. - **Pozisyon Kodlama:** Token'lar sıralı bir dizi olduğu için sıra bilgisi modele kodlanır. - **Çok-Başlı Dikkat (Multi-head Attention):** Aynı cümleyi farklı ilişki türleri açısından (sözdizimsel, anlamsal, varlık-ilişki) paralel olarak işler. - **Feed-Forward Katmanlar:** Attention çıktısını dönüştürür. - **Residual Connections + Layer Normalization:** Çok derin yığınlamayı kararlı kılar. GPT-5, Claude, Gemini, Llama — hepsi temelde Transformer'ın türevleridir; farklılıklar veri, ölçek, eğitim hilesi ve hizalama tekniğindedir. ## 5. LLM Eğitim Aşamaları: Bir Model Nasıl Doğar? Modern bir LLM üç aşamada eğitilir. Her aşama modeli farklı bir yetkinlikle donatır. Anthropic'in Constitutional AI yaklaşımı, modelin kendi cevaplarını yazılı bir ilkeler bütünüyle değerlendirip iyileştirmesini sağlar. Claude ailesinin yüksek güvenlik ve şeffaflık skorlarının arkasındaki yöntemdir; RLHF'in tek başına çözemediği ölçeklenebilir hizalama problemine bir cevaptır. ## 6. Inference: LLM Cevap Üretirken Ne Yapar? Eğitim bittikten sonra modelin **çalışma anı (inference)** birkaç önemli karar içerir: ### Temperature (Sıcaklık) Modelin token seçimindeki rastgelelik. 0 = deterministik (her zaman en olası kelime), 1 = yaratıcı, 2 = kaotik. Veri çıkarımı için 0-0.2, yaratıcı yazım için 0.7-1.0 önerilir. ### Top-p (Nucleus Sampling) En olası token'ların kümülatif olasılığı p'ye ulaşana kadar seçim. Temperature ile birlikte ayarlanır. ### Max Tokens Cevabın üretilebileceği maksimum token sayısı. Maliyet ve gecikme kontrolü için kritik. ### Stop Sequences Modelin üretmeyi durduracağı özel diziler (örn. "###", "İnsan:"). ## 7. 2026 Bayrak LLM Karşılaştırması ### Hangisi Hangi Görev İçin? - **Karmaşık akıl yürütme + ajan kullanımı:** Claude Opus 4.7 - **Genel sohbet + yaratıcı içerik:** GPT-5 veya Claude - **Video/ses anlama:** Gemini 3 - **Maliyet kritik yüksek hacim:** GPT-4o-mini, Claude Haiku, Gemini Flash, DeepSeek - **Veri yerleşimi ve KVKK:** Mistral (AB), Llama/Qwen self-hosted (Türkiye on-prem) ## 8. LLM'lerin Sınırları: Neyi Yapamaz? Üretim sistemleri tasarlamadan önce sınırların farkında olmak şarttır. ### 8.1. Halüsinasyon LLM'ler **bilmediklerini bilmezler**; emin görünen ama yanlış cevaplar üretebilirler. Bunu tek başına model çözmüyor — RAG, kaynak gösterimi, eval harness ve insan denetimi şart. ### 8.2. Knowledge Cutoff (Bilgi Kesim Tarihi) Her LLM, eğitim verisinin kesildiği tarihten sonra olanları bilmez. 2024 sonrası olaylar için RAG veya web araması zorunludur. ### 8.3. Matematiksel Akıl Yürütme Aritmetik ve sembolik akıl yürütmede zayıftırlar (özellikle uzun sayısal hesaplamalar). Çözüm: araç çağırma (calculator, Python execution) veya zincirli düşünme prompt'u. ### 8.4. Gerçek Zamanlı Veri LLM kendi başına anlık veri (hisse fiyatı, hava durumu, haberler) bilmez. Tool use / function calling şarttır. ### 8.5. Karakter ve Sayma Bir kelimedeki harf sayısı, bir cümledeki kelime sayısı gibi görevler şaşırtıcı şekilde zayıf — modeller token üzerinden çalıştığı için karakter seviyesi muhakeme istisnadır. ## 9. LLM vs Diğer AI Modelleri ## 10. LLM'i Geliştirme: Üç Yol Bir LLM'i kendi use-case'inize uyarlamak için üç temel yaklaşım vardır. ### 10.1. Prompt Engineering (En Hızlı) Modelin **mevcut** yeteneklerini iyi bir talimatla yönlendirme. Few-shot örnekler, chain-of-thought, sistem prompt'u tasarımı bu kategoridedir. Maliyeti düşük, üretime saatler içinde alınabilir. ### 10.2. RAG — Retrieval-Augmented Generation (Orta) Şirketinizin verilerini bir bilgi tabanından getirip prompt'a ekleme. **Bilgi tabanı + güncel veri** içeren her use-case için doğru yaklaşım. Maliyet orta, üretime haftalar/aylar. ### 10.3. Fine-tuning (En Sıkı) Modelin **davranışını/stilini** değiştirmek için ek eğitim. LoRA, QLoRA, DPO gibi teknikler GPU maliyetini azaltır. Belirli bir tonu sabitlemek veya kapalı bir domain'de uzmanlaşmak için. Maliyet yüksek, süreç ay alabilir. %70 ihtiyaç **prompt engineering** ile karşılanır; %25 daha **RAG** gerektirir; sadece %5 vakada **fine-tuning** gerçek değer üretir. Önce basit olanı dene, eval'e bak, sonra karmaşıklaştır. "Fine-tuning yapalım" diye başlayan projelerin büyük çoğunluğu prompt + RAG ile zaten çözülürdü. ## 11. Türkçe LLM Performansı: Hangi Modeller Türkçe'de Daha İyi? Türkçe, morfolojik olarak zengin bir dildir — her kelime onlarca çekim formuna sahip olabilir. Bu, tokenizer ve eğitim verisinin Türkçe içerik oranına yüksek hassasiyet doğurur. ### 2026 Türkçe LLM Sıralaması (Genel Görünüm) - **En güçlü:** Claude Opus 4.7, GPT-5, Gemini 3 — üçü de Türkçe'de doğal akıcılığa yakın - **İyi:** Mistral Large 3, GPT-4o, DeepSeek V3 - **Orta:** Llama 4 70B (instruct), Qwen 2.5 72B - **Yerel:** Cezeri, KanarYa, Trendyol-LLM (e-ticaret için uzmanlaşmış), BERTurk (NLP araştırma) 2026 itibarıyla **üçü de Türkçe'de doğal düzeyde** performans gösteriyor. Aralarındaki fark görev türüne göre değişir: **kod ve agent için Claude**, **multimodal ve video için Gemini**, **OpenAI ekosistemi entegrasyonu için GPT** önerilir. Tek doğru cevap yoktur; eval setinizle test etmelisiniz. ### Türkçe Performansını Etkileyen Faktörler 1. **Tokenizer verimi.** Türkçe'yi az parçalayan tokenizer'lar daha verimli — model context'ini daha iyi kullanır. 2. **Eğitim verisi Türkçe payı.** En büyük modellerde Türkçe verisi tipik olarak %1-3 civarındadır; bu bile akıcılık için yeterli olabiliyor. 3. **Domain spesifikliği.** Hukuk, tıp, finans gibi alanlarda yerel terimleri öğrenmiş olmak fark yaratır — kurumsal projelerde Türkçe domain fine-tune'u değer üretebilir. ## 12. LLM Maliyet Modeli: Nasıl Hesaplanır? LLM maliyetleri **token bazında** ücretlendirilir. Bir API çağrısının maliyeti üç parçadan oluşur: 1. **Input token (prompt) maliyeti** — Gönderdiğiniz metin 2. **Output token (cevap) maliyeti** — Modelin ürettiği metin (genelde 2-3x daha pahalı) 3. **Cached token maliyeti** — Tekrar kullanılan prompt'lar (prompt caching ile %50-90 indirim) ### Tipik Aylık Maliyet Senaryoları (2026 Fiyatlarıyla) - **Küçük şirket içi chatbot** (10K sorgu/ay, GPT-4o-mini): ~$50-150 - **Orta kurumsal RAG** (50K sorgu/ay, GPT-5 + RAG katmanı): ~$1.500-5.000 - **Büyük müşteri hizmetleri** (500K sorgu/ay, Claude Opus + Haiku karışımı): ~$8.000-30.000 - **Self-hosted Llama 70B** (sabit GPU, kullanım korelasyonsuz): ~$2.000-5.000/ay (donanım amortismanı dahil) ### Maliyet Optimizasyonu - **Prompt caching:** Tekrarlayan sistem prompt'larında %50-90 tasarruf - **Model routing:** Basit sorular daha küçük modele, karmaşık olanlar büyüğe - **Yanıt cache'i:** Sık sorulan sorular için tam yanıt cache - **Streaming:** Algılanan gecikmeyi yarıya indirir, kullanıcı deneyimi iyileşir - **Batch API:** Async iş yükleri için %50 indirim (24 saat içinde dönüş) ## 13. Sıkça Sorulan Sorular Hayır. **LLM** bir model türüdür (örn. GPT-5); **chatbot** ise bir uygulama biçimidir. ChatGPT bir chatbot uygulamasıdır ve içinde GPT-5 LLM'i çalışır. Bir LLM'i farklı arayüzlerde (API, IDE asistanı, agent, RAG sistemi) kullanabilirsiniz.

Felsefi olarak tartışmalıdır. Davranışsal olarak insan-benzeri yetkinlikler sergiler (akıl yürütme, çeviri, özetleme), ancak içsel mekanizması istatistiksel tahminden ibarettir. "Anlıyor mu?" sorusu sembol ile referans arasındaki ilişkinin felsefesine girer (Searle'ün Çince Odası); pratik açıdan **çıktısı işe yarıyor mu** sorusu daha verimli bir mihenk taşıdır.

Üç kriter: **(1)** Veri hassasiyeti yüksek mi? → açık kaynak self-hosted (Llama, Qwen, DeepSeek), **(2)** En yüksek kaliteye mi ihtiyacın var? → kapalı API (GPT-5, Claude Opus, Gemini 3), **(3)** Maliyet mi öncelik? → hacme bağlı: küçükse API, büyükse self-hosted hesabını yap. Çoğu kurumsal proje hibrit yaklaşımla biter.

Neredeyse kesinlikle hayır. Sıfırdan LLM eğitimi milyonlarca dolar maliyetinde ve aylar süren bir iştir; mevcut açık modellerin (Llama, Qwen) yetenekleri zaten yüksektir. Sizin yapacağınız **fine-tuning** (LoRA/QLoRA ile haftalar içinde, binlerce dolar bütçeyle) olabilir — ama önce prompt + RAG'a bakın.

Hata sıfıra inmez — olasılıksal sistemdir. Ama dört katmanda kontrol edilir: **(1)** RAG ile kaynak temelli yanıt, **(2)** Sistem prompt'unda 'bilmiyorum diyebilirsin' izni, **(3)** Eval harness ile sürekli ölçüm, **(4)** Yüksek-stake kararlarda insan denetimi. Bunların hepsi olmadan üretime çıkmayın.

Hayır. Lost-in-the-middle etkisi nedeniyle modeller uzun context'in ortasındaki bilgiyi sıklıkla unutuyor; ayrıca uzun context her sorguda yeniden ücretlendiriliyor. **Stratejik retrieval (RAG) + iyi prompt mimarisi**, kör çıplak uzun context yüklemekten çoğu zaman hem daha doğru hem daha ekonomiktir.

Çünkü inference sırasında "temperature" parametresi rastgelelik ekler. Determinist cevap istiyorsanız temperature: 0 ve sabit seed kullanın. Üretimde tipik olarak 0-0.3 aralığı tercih edilir.

Hayır. **GPT-5 modeldir**, **ChatGPT uygulamadır**. ChatGPT içinde GPT-4o, GPT-5 ve diğer modeller çalışır; OpenAI uygulamayı sürekli günceller. Aynı şekilde Claude.ai uygulaması içinde Claude Sonnet/Opus modelleri çalışır.

Evet, ancak KVKK ve EU AI Act çerçevesinde uyumlu kullanım gerekir. Kişisel veri içeren prompt'larda anonimleştirme, cross-border transfer kontrolü ve şeffaflık yükümlülükleri uygulanır. Detaylı uyum çerçevesi için ayrı bir rehber yazımız mevcuttur. ## 14. Bir Sonraki Adım Şirketinizde LLM stratejisi belirlemek veya mevcut bir uygulamayı üretim kalitesine taşımak için: 1. **LLM seçim atölyesi.** Use-case'inize en uygun model (kalite + maliyet + veri yerleşimi) bir oturumda netleşir. 2. **RAG mimari atölyesi.** Şirket verilerinizi LLM ile birleştirme — uçtan uca tasarım. 3. **Production audit.** Mevcut LLM uygulamanız varsa hallucination, gecikme, maliyet ve uyum için 360 derece denetim. İletişim için site üzerindeki contact formu kullanılabilir. --- Bu rehber yaşayan bir belgedir; LLM ekosistemi (yeni modeller, fiyat değişiklikleri, mimari yenilikler) her çeyrek değiştiği için **çeyreklik olarak güncellenmektedir**. ## Özetle: LLM Nedir? Özetle llm nedir sorusunun cevabı şudur: internet ölçeğinde metinle eğitilmiş, bir sonraki token’ı tahmin ederek dili anlayıp üreten, transformer mimarisine ve milyarlarca parametreye dayalı bir yapay zeka modeli. Daha geniş çerçeve için yapay zeka nedir rehberine göz atabilir, bu modelleri üretime almanın mimarisi için LLMOps rehberini inceleyebilirsiniz. Kurumunuzda LLM tabanlı bir çözüm için yapay zeka danışmanlığı ve yapay zeka mühendisliği eğitimleri başlangıç noktanızdır.