How much does contamination affect eval results?

Significant impact. Accuracy on contaminated benchmark can be 5-20% inflated. GPT-4 MMLU 86% but LiveBench (contamination-free) 72% — gap likely contamination. For Turkish: TR-MMLU released 2024, frontier models haven't seen it widely → more reliable. Module 53 (Eval Engineering) details decontamination protocols.

Is memorization really 'bad'? Aren't there beneficial aspects?

Hybrid. **Beneficial**: (1) Factual knowledge (history, geography) must be memorized — not generalizable patterns. (2) Idiomatic phrases. (3) Code snippets (popular library APIs). **Harmful**: (1) Privacy violation. (2) Copyright. (3) Eval inflation. (4) Hallucinated 'memorized' (model 'recalls' something it didn't see). Modern view: balance of memorization and generalization is optimal.

How to manage LLM memorization risk under KVKK?

Multi-layer approach. (1) **Pretrain corpus**: remove KVKK-risk data (PII filter, NER redaction). (2) **Fine-tuning data**: explicit consent + redaction. (3) **Inference output**: real-time PII detection (Presidio or Turkish-tuned NER). (4) **Memorization audit**: periodic canary testing. (5) **Incident response**: PII leak detected → stop model version, retrain. (6) **Documentation**: KVKK compliance audit trail. Module 57 (Compliance) gives the full playbook.

Is differential privacy practical in LLM training?

Currently **very hard**. DP training (DP-SGD): noise added to gradients each step, **privacy guarantee** but: (1) **Quality loss**: very high (~30% model quality). (2) **Compute cost**: 2-3x slower. (3) **Hyperparameter tuning** complex. Frontier labs (Google, Anthropic) doing research but far from production. Pragmatic: **filtering + dedup + audit** more practical than classical DP.

Have modern frontier models solved the memorization problem?

**Reduced, not solved.** GPT-5, Claude 4.7, Gemini 2: heavy filtering + dedup + output safety classifier. Memorization rate has decreased (~50% reduction from Carlini 2022 to 2026). But: (1) Some passages still extractable. (2) Less common PII can still leak. (3) Eval contamination not fully solved. Modern best practice: combination of model + downstream safety filter + privacy audit. Single-layer defense insufficient.

Memorization vs Generalization: Paraphrase Tests and LLM's True Understanding

Does LLM training memorize the corpus or generalize? Exact match tests, paraphrase resistance, contamination detection, membership inference. Memorization detection in eval, training data extraction risks, privacy implications.

Şükrü Yusuf KAYA

50 min read

5/13/2026

Intermediate

Memorization vs Generalization: Paraphrase Testleri ve LLM'in Gerçek Anlayışı

🧠 Model gerçekten 'anlıyor' mu yoksa 'ezberliyor' mu?

Bir LLM training corpus'undaki trilyonlarca token'ı görüyor. Sonra 'akıllı' bir cevap veriyor. Soru: bu cevap yeni bir genelleme mi yoksa eski bir ezberlemenin geri çağrılması mı? Bu, eval integrity, privacy, IP rights ve hatta AGI tartışmasının merkezinde. 50 dakika sonra: paraphrase test nasıl uygulanır, benchmark contamination nasıl tespit edilir, training data extraction nasıl mümkün — bilimsel detayla bileceksin.

Ders Haritası#

Memorization ve generalization: tanımlar
Spectrum: pure memorization → pure generalization arası
Carlini 2021 — training data extraction attacks
Paraphrase test: gerçek anlama mı sınama
Benchmark contamination — eval'in iflası
Detection methods: n-gram match, embedding, perplexity
Membership inference attacks
Privacy implications: PII leakage
Türkçe corpus contamination — özel durumlar
Production: deduplication ve canary tokens

1. Memorization ve Generalization — Tanımlar#

Memorization#

"Model training corpus'undaki bir parçayı, exact veya near-exact olarak, tekrar edebiliyor."

Pratik: prompt "Atatürk 19 Mayıs 1919'da" → model "Samsun'a çıktı..." devam ediyor. Bu cümle training'de geçtiyse: memorization.

Generalization#

"Model training corpus'unda görmediği bir input'ta, training pattern'lerini uygulayarak doğru cevap üretebiliyor."

Pratik: novel cümleyle math problemi, niche topic'te coherent yazı, etc.

İkisi de gerekli#

Pure memorization: lookup table — hiç useful değil, novel input'ta çuvallıyor
Pure generalization: hiç world knowledge yok — tutarsız
İkisi de: gerekli denge

Bilim sorusu#

LLM'in neyi memorize, neyi generalize ettiği? Spectrum üzerinde nerede?

Carlini et al. 2021 (Google + Berkeley): GPT-2 training corpus'undan doğrudan extract edilebilen passages buldu. PII, codes, novel quotes.

2. Spectrum: Memorization to Generalization#

Modern view: continuous spectrum, sharp ayrım yok.

Spectrum noktaları#

Verbatim memorization: tam karakter-karakter copy
Idiomatic memorization: kalıplaşmış phrase ("Türkiye'nin başkenti Ankara'dır")
Schema memorization: format pattern (date, names structure)
Conceptual generalization: kavramsal pattern apply
Compositional generalization: yeni kavram kombinasyonları
Out-of-distribution: training'de hiç olmayan

Hangi seviyede ne kadar?#

Carlini et al. 2022 follow-up: larger models more memorization. GPT-J 6B verbatim memorization GPT-2 1.5B'den 5x daha fazla.

Niye? Daha çok parametre → daha çok kapasite → daha çok kelimesi kelimesine hatırlama.

Trade-off#

Memorization factual knowledge için yararlı: "Atatürk 1881'de Selanik'te doğdu" — model bunu memorize etmek zorunda
Memorization privacy için problem: kullanıcı PII (kredi kartı, telefon) training'de geçtiyse extract edilebilir
Memorization eval integrity için problem: benchmark test set training'de görüldüyse accuracy şişirilmiş

3. Carlini 2021 — Training Data Extraction#

Nicholas Carlini, Florian Tramer et al. — "Extracting Training Data from Large Language Models", USENIX Security 2021.

Attack setup#

Hedef: GPT-2 1.5B model. Saldırgan training data'ya erişim yok, sadece API.

Strategy#

Çok sayıda prompt ver (random, diverse)
Modelin yüksek olasılıkla ürettiği passages'ı topla
Bu passages'ın gerçekten training data'da olup olmadığını verify et (Internet search)

Bulgular#

600+ passages extract edildi
İçinde: PII (isim, adres, telefon, email), code snippets, copyrighted text
En çarpıcı: bir bireyin kişisel email + adres kelimesi kelimesine

Implications#

Privacy violation: training corpus PII içeriyorsa, leak riski
Copyright concerns: telif metin replicate edilebilir
IP theft: company internal docs (eğer training'e karışmışsa)

Defense#

Differential privacy training (sınırlı practical)
PII filtering before training (Modül 15 detayda)
Output filtering at inference (Llama Guard pattern)
Deduplication — single occurrence az memorize edilir

4. Paraphrase Test — Gerçek Anlama mı Sınama#

Bir capability'nin gerçek generalization olup olmadığını test etmenin altın yolu: paraphrase.

Test design#

Original task: training'de muhtemelen geçmiş cümle
Paraphrase: aynı içerik, farklı kelimeler/yapı
Accuracy karşılaştır: paraphrase'da düşüyor mu?

Örnek (matematik)#

Original: "Compute the derivative of x^2 + 3x."
Paraphrase 1: "Find d/dx (x² + 3x)."
Paraphrase 2: "What is the slope of the curve y = x^2 + 3x at any point?"
Paraphrase 3: "x kare artı 3x'in türevini hesaplayın."

Eğer model original'da %95, paraphrase'da %80: kısmen genelleme. Eğer paraphrase'da %30: memorization baskın.

Modern empirik#

GPT-4 class modeller paraphrase robust (~%5-10 düşüş). Bu iyi generalization göstergesi.

Eski/küçük modeller: %20-40 düşüş yaygın → memorization-heavy.

Türkçe-İngilizce çapraz test#

İlginç metodoloji: aynı içeriği iki dilde test et. Eğer İngilizce %90, Türkçe %50 — language-specific memorization (İngilizce training'de daha çok görmüş).

5. Benchmark Contamination — Eval'in İflası#

Contamination: eval benchmark'ının (MMLU, HumanEval, GSM8K) training corpus'unda geçmiş olması.

Niye sorun?#

Test set training'de görülmüşse, accuracy inflated. Gerçek capability ölçülmemiş.

Yaygınlık#

Modern frontier model'lar (GPT-5, Claude 4.7) Common Crawl + curated data ile train edildi. MMLU, GSM8K public benchmarks — büyük ihtimalle contaminated.

Anthropic, OpenAI best-effort decontamination yapıyor ama tam garanti yok.

Yang 2023 (DyVal): Dynamic evaluation#

Çözüm: benchmark'ı dinamik üret. Her test seferinde yeni problem instances.

Math problem template: "If x = {N1}, then x² + {N2}x + {N3} = ?"
Random N1, N2, N3 each evaluation → fresh

LiveBench (Arc Prize 2024+)#

Periyodik update edilen benchmark. Training data cutoff'tan sonra eklenmiş test'ler.

GPT-5 LiveBench %75 → gerçek capability iyi. GPT-5 MMLU %95 → contamination şüphesi (gerçek capability daha düşük olabilir).

Modern best practice#

Multiple benchmarks: public + dynamic + private hold-out
Cutoff-respecting: model knowledge cutoff sonrası test'ler
Paraphrased benchmarks: orijinalden farklı wording

Modül 53 (Eval Engineering) bu konuyu detaylandırıyor.

6. Contamination Detection Methods#

Bir eval örneğinin training'de olup olmadığını a priori tespit etmek:

1. N-gram match#

Training data'da test örneğinin n-gram'ı (örn. 13-gram) geçiyor mu? Eğer evet → contamination şüphesi.

Limitation: training data açık değilse (kapalı modeller) yapılamaz.

2. Perplexity-based#

Model contaminated örneğe çok düşük perplexity verir (memorize ettiği için fluent). Random test örneklerine normal perplexity.

test_ppl < threshold × control_ppl → contamination şüphesi

3. Membership inference#

1. Modele eval örneği ver, output al
2. Loss / perplexity ölç
3. Random paraphrase versiyonunu ver, loss ölç
4. Orijinal loss <<< paraphrase loss → memorization

4. Carlini's "extraction" approach#

Model'in extract ettiği passages'i topla, eval örnekleri ile match et.

Practical tools#

Datasets contamination tool (HuggingFace)
Stanford Center for Research on Foundation Models (CRFM) tools
Self-instruct contamination detector

Türkçe için#

Çoğu Türkçe benchmark (TR-MMLU, TR-HumanEval) yeni, contamination düşük. Ama Türkçe-İngilizce çapraz contamination olabilir (aynı problem İngilizce versiyonu var).

7. Membership Inference Attacks (MIA)#

Attack goal: "Bu specific örnek training data'da var mıydı?"

Niye önemli?#

Privacy audit: kullanıcı verisinin "model train'ine girdi mi?" sorusu
Copyright tespiti: telif metnin training'de olup olmadığı
Compliance: GDPR "right to be forgotten" verification

Basit attack (Shokri 2017 framework)#

1. Target example x ver
2. Model loss / logprob ölç
3. Reference distribution (rastgele random examples)
4. x'in loss'u reference'tan **çok düşükse** → muhtemelen training'deydi

Modern MIA (Mireshghallah 2022, Carlini 2022)#

Daha sofistike: likelihood ratio test. Model'in örneği "tanıdığı" vs "tanımadığı" arasındaki istatistiksel fark.

Pratik etki#

LLM training data leak hâlâ partial: ~%10-30 örnek tespit edilebiliyor (model size'a göre)
Privacy advocates için yeterli evidence
Legal cases (NYT vs OpenAI, Getty vs Stability) bu metodları kullanıyor

Defense#

Differential privacy training: pratik LLM'de çok pahalı
Output filtering: identifying information block
Limited memorization training: data dedup + canary tests

8. Privacy Implications — PII Leakage#

LLM'in PII (Personally Identifiable Information) leak'i:

Yaygın leak'ler#

Email adresleri: Carlini 2021 — yüzlerce email extract edildi
Telefon numaraları: özellikle public records'da geçenler
Adresler: Reddit + social media'dan
API keys: Github leaked code'lar
Personal stories: blog posts, kişisel paylaşımlar

Modern defense#

Training data filtering (Modül 15)
- Regex-based PII detection (emails, phones)
- Named entity recognition (NER) ile redact
- PII classifier model
Output filtering (Modül 56)
- Real-time PII detection at inference
- Llama Guard, Microsoft Presidio entegrasyonu
- Hallucinated PII'yi de yakala (model yaratıp leak'lese de)
Differential privacy (sınırlı pratik)
- Theoretical guarantee
- Pratik LLM'de quality loss çok yüksek

Türkiye için#

KVKK (Modül 57): PII training'e girerse explicit consent gerekli. Pratik:

Common Crawl gibi public corpus → açık veri, but PII filter
Şirket internal data → KVKK uyumlu fine-tuning (Modül 57 detayda)
Kullanıcı data ile fine-tune → opt-in + redaction zorunlu

9. Türkçe Corpus Contamination — Özel Durumlar#

Türkçe-spesifik concerns:

1. Wikipedia hâkimiyeti#

Türkçe pretrain corpus'u disproportionate olarak Wikipedia ağırlıklı (10-20%). Türkçe-spesifik niche topics Wikipedia'da → easy contamination.

2. Resmi/Bürokratik dil#

Kanun maddeleri, devlet belgeleri pretrain'de yaygın → bu format'ta memorization yüksek.

3. Mahkeme kararları, içtihat#

Yargıtay/Danıştay kararları açık veri → hukuki LLM'ler bunları memorize. Privacy concern: tarihsel davalar kişi adı içerebilir.

4. Eğitim materyali#

ÖSYM/YGS soruları + üniversite materyalleri pretrain'de var → bu domain'de "expert" görünen model aslında ezberlemiş.

5. Türkçe-İngilizce çapraz#

Aynı problem English'te exact, Türkçe'de paraphrase olabilir. Cross-lingual contamination tricky.

Pratik#

TurkEval-Suite (capstone C10) contamination-aware design yapıyor
Modül 59 (Türkçe Eval Atölyesi) bu konuya odaklanıyor
Resmi metinleri pretrain'den çıkarmak — niche kalıyor

10. Production: Deduplication ve Canary Tokens#

Deduplication — Modül 15'in özü#

Pretrain corpus'ta near-duplicates olduğunda, model bunları fazla memorize ediyor. Aksine: distinct documents iyi generalize.

Lee et al. 2022 "Deduplicating Training Data Makes Language Models Better":

Common Crawl dedup → %3-7 better validation loss
Less memorization, better generalization

Practical dedup pipeline#

1. MinHash (Modül 15) — yaklaşık near-duplicate detection
2. Exact substring match — verbatim copies
3. Semantic dedup (embeddings) — paraphrased duplicates

Canary tokens#

Defensive technique: pretrain corpus'a synthetic 'canary' strings ekle, sonra model'in bunları leak edip etmediğini test et.

Canary: "SECRET_TOKEN_xK4nLm9PqR3sT2vY"
Training'e bir kez koy.
Inference'ta: ona ait prompt'a model devam ediyorsa → memorization detected.

Bu yöntem privacy audit + model verification için.

Production checklist#

Pretrain corpus dedup yapıldı mı?
PII filter active?
Output PII detection live?
Canary tokens ile memorization test?
Eval benchmark contamination check?
Periodic re-evaluation with fresh data?

11. Mini Egzersizler#

Memorization spectrum: GPT-5 "Türkiye'nin başkenti Ankara'dır" cevabı. Bu memorization mı generalization mı?
Paraphrase test: Bir model GSM8K orijinal %90, paraphrased %85. Generalization quality yorumu?
Contamination detection: Modelden gelen output ortalama PPL training-set'inden %30 düşük. Şüphe seviyesi?
PII extraction risk: Bir Türk şirketinin internal docs (müşteri PII) pretrain'e girdi. Risk değerlendirme + defense.
Canary test: Pretrain'e canary token koymak ne işe yarar? 3 use case.

Bu Derste Neler Öğrendik?#

✓ Memorization vs generalization spectrum ✓ Carlini 2021 training data extraction — privacy implications ✓ Paraphrase test — gerçek generalization sınama ✓ Benchmark contamination — eval iflası ✓ Detection methods: n-gram, perplexity, membership inference ✓ Privacy implications: PII leak, KVKK uyumu ✓ Türkçe corpus contamination özel durumları ✓ Deduplication ve canary tokens defense ✓ Production checklist

🎉 Modül 4 Tamamlandı!#

8 ders, ~430 dk içerik. LLM'in zihinsel modeli artık net.

Sıradaki Modül#

Modül 5 — PyTorch Mühendisliği: Engineer-Grade PyTorch'u sadece kullanıcı olarak değil, mühendisi olarak öğreneceğiz.

torch.compile

torch.fx

, custom CUDA streams, mixed precision pratik, memory profiling, Triton kernels. Bu modülden sonra PyTorch sana 'sihir' değil 'araç' gibi gelecek.

Frequently Asked Questions

Multiple methods: (1) **Verbatim extraction**: random prompts + model output → Internet match. Carlini 2021 method. (2) **Membership inference**: training-set vs holdout perplexity comparison. (3) **Canary tokens**: synthetic tokens in pretrain to test leakage. (4) **Empirical**: paraphrase vs verbatim performance. Modern frontier models have ~1-5% memorization rate (Carlini 2022 follow-up).

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

Ders Haritası#

1. Memorization ve Generalization — Tanımlar#

Memorization#

Generalization#

İkisi de gerekli#

Bilim sorusu#

2. Spectrum: Memorization to Generalization#

Spectrum noktaları#

Hangi seviyede ne kadar?#

Trade-off#

3. Carlini 2021 — Training Data Extraction#

Attack setup#

Strategy#

Bulgular#

Implications#

Defense#

4. Paraphrase Test — Gerçek Anlama mı Sınama#

Test design#

Örnek (matematik)#

Modern empirik#

Türkçe-İngilizce çapraz test#

5. Benchmark Contamination — Eval'in İflası#

Niye sorun?#

Yaygınlık#

Yang 2023 (DyVal): Dynamic evaluation#

LiveBench (Arc Prize 2024+)#

Modern best practice#

6. Contamination Detection Methods#

1. N-gram match#

2. Perplexity-based#

3. Membership inference#

4. Carlini's "extraction" approach#

Practical tools#

Türkçe için#

7. Membership Inference Attacks (MIA)#

Niye önemli?#

Basit attack (Shokri 2017 framework)#

Modern MIA (Mireshghallah 2022, Carlini 2022)#

Pratik etki#

Defense#

8. Privacy Implications — PII Leakage#

Yaygın leak'ler#

Modern defense#

Türkiye için#

9. Türkçe Corpus Contamination — Özel Durumlar#

1. Wikipedia hâkimiyeti#

2. Resmi/Bürokratik dil#

3. Mahkeme kararları, içtihat#

4. Eğitim materyali#

5. Türkçe-İngilizce çapraz#

Pratik#

10. Production: Deduplication ve Canary Tokens#

Deduplication — Modül 15'in özü#

Practical dedup pipeline#

Canary tokens#

Production checklist#

11. Mini Egzersizler#

Bu Derste Neler Öğrendik?#

🎉 Modül 4 Tamamlandı!#

Sıradaki Modül#

Frequently Asked Questions

How do I measure a model's 'memorization rate'?

How much does contamination affect eval results?

Is memorization really 'bad'? Aren't there beneficial aspects?

How to manage LLM memorization risk under KVKK?

Is differential privacy practical in LLM training?

Have modern frontier models solved the memorization problem?

Yorumlar & Soru-Cevap

Related Content

Who Is an LLM Engineer? The AI Engineering Career Ladder from Junior to Staff

Course Philosophy: Why This Path, Why This Order — The Skeleton of an 8-Month Curriculum

Workshop Setup: uv, PyTorch 2.5+, CUDA, WSL2, Mac MPS, Triton, FlashAttention, Nsight