Memorization vs Generalization: Paraphrase Tests and LLM's True Understanding
Does LLM training memorize the corpus or generalize? Exact match tests, paraphrase resistance, contamination detection, membership inference. Memorization detection in eval, training data extraction risks, privacy implications.
Şükrü Yusuf KAYA
50 min read
Intermediate🧠 Model gerçekten 'anlıyor' mu yoksa 'ezberliyor' mu?
Bir LLM training corpus'undaki trilyonlarca token'ı görüyor. Sonra 'akıllı' bir cevap veriyor. Soru: bu cevap yeni bir genelleme mi yoksa eski bir ezberlemenin geri çağrılması mı? Bu, eval integrity, privacy, IP rights ve hatta AGI tartışmasının merkezinde. 50 dakika sonra: paraphrase test nasıl uygulanır, benchmark contamination nasıl tespit edilir, training data extraction nasıl mümkün — bilimsel detayla bileceksin.
Ders Haritası#
- Memorization ve generalization: tanımlar
- Spectrum: pure memorization → pure generalization arası
- Carlini 2021 — training data extraction attacks
- Paraphrase test: gerçek anlama mı sınama
- Benchmark contamination — eval'in iflası
- Detection methods: n-gram match, embedding, perplexity
- Membership inference attacks
- Privacy implications: PII leakage
- Türkçe corpus contamination — özel durumlar
- Production: deduplication ve canary tokens
1. Memorization ve Generalization — Tanımlar#
Memorization#
"Model training corpus'undaki bir parçayı, exact veya near-exact olarak, tekrar edebiliyor."
Pratik: prompt "Atatürk 19 Mayıs 1919'da" → model "Samsun'a çıktı..." devam ediyor. Bu cümle training'de geçtiyse: memorization.
Generalization#
"Model training corpus'unda görmediği bir input'ta, training pattern'lerini uygulayarak doğru cevap üretebiliyor."
Pratik: novel cümleyle math problemi, niche topic'te coherent yazı, etc.
İkisi de gerekli#
- Pure memorization: lookup table — hiç useful değil, novel input'ta çuvallıyor
- Pure generalization: hiç world knowledge yok — tutarsız
- İkisi de: gerekli denge
Bilim sorusu#
LLM'in neyi memorize, neyi generalize ettiği? Spectrum üzerinde nerede?
Carlini et al. 2021 (Google + Berkeley): GPT-2 training corpus'undan doğrudan extract edilebilen passages buldu. PII, codes, novel quotes.
2. Spectrum: Memorization to Generalization#
Modern view: continuous spectrum, sharp ayrım yok.
Spectrum noktaları#
- Verbatim memorization: tam karakter-karakter copy
- Idiomatic memorization: kalıplaşmış phrase ("Türkiye'nin başkenti Ankara'dır")
- Schema memorization: format pattern (date, names structure)
- Conceptual generalization: kavramsal pattern apply
- Compositional generalization: yeni kavram kombinasyonları
- Out-of-distribution: training'de hiç olmayan
Hangi seviyede ne kadar?#
Carlini et al. 2022 follow-up: larger models more memorization. GPT-J 6B verbatim memorization GPT-2 1.5B'den 5x daha fazla.
Niye? Daha çok parametre → daha çok kapasite → daha çok kelimesi kelimesine hatırlama.
Trade-off#
- Memorization factual knowledge için yararlı: "Atatürk 1881'de Selanik'te doğdu" — model bunu memorize etmek zorunda
- Memorization privacy için problem: kullanıcı PII (kredi kartı, telefon) training'de geçtiyse extract edilebilir
- Memorization eval integrity için problem: benchmark test set training'de görüldüyse accuracy şişirilmiş
3. Carlini 2021 — Training Data Extraction#
Nicholas Carlini, Florian Tramer et al. — "Extracting Training Data from Large Language Models", USENIX Security 2021.
Attack setup#
Hedef: GPT-2 1.5B model. Saldırgan training data'ya erişim yok, sadece API.
Strategy#
- Çok sayıda prompt ver (random, diverse)
- Modelin yüksek olasılıkla ürettiği passages'ı topla
- Bu passages'ın gerçekten training data'da olup olmadığını verify et (Internet search)
Bulgular#
- 600+ passages extract edildi
- İçinde: PII (isim, adres, telefon, email), code snippets, copyrighted text
- En çarpıcı: bir bireyin kişisel email + adres kelimesi kelimesine
Implications#
- Privacy violation: training corpus PII içeriyorsa, leak riski
- Copyright concerns: telif metin replicate edilebilir
- IP theft: company internal docs (eğer training'e karışmışsa)
Defense#
- Differential privacy training (sınırlı practical)
- PII filtering before training (Modül 15 detayda)
- Output filtering at inference (Llama Guard pattern)
- Deduplication — single occurrence az memorize edilir
4. Paraphrase Test — Gerçek Anlama mı Sınama#
Bir capability'nin gerçek generalization olup olmadığını test etmenin altın yolu: paraphrase.
Test design#
- Original task: training'de muhtemelen geçmiş cümle
- Paraphrase: aynı içerik, farklı kelimeler/yapı
- Accuracy karşılaştır: paraphrase'da düşüyor mu?
Örnek (matematik)#
Original: "Compute the derivative of x^2 + 3x." Paraphrase 1: "Find d/dx (x² + 3x)." Paraphrase 2: "What is the slope of the curve y = x^2 + 3x at any point?" Paraphrase 3: "x kare artı 3x'in türevini hesaplayın."
Eğer model original'da %95, paraphrase'da %80: kısmen genelleme.
Eğer paraphrase'da %30: memorization baskın.
Modern empirik#
GPT-4 class modeller paraphrase robust (~%5-10 düşüş). Bu iyi generalization göstergesi.
Eski/küçük modeller: %20-40 düşüş yaygın → memorization-heavy.
Türkçe-İngilizce çapraz test#
İlginç metodoloji: aynı içeriği iki dilde test et. Eğer İngilizce %90, Türkçe %50 — language-specific memorization (İngilizce training'de daha çok görmüş).
5. Benchmark Contamination — Eval'in İflası#
Contamination: eval benchmark'ının (MMLU, HumanEval, GSM8K) training corpus'unda geçmiş olması.
Niye sorun?#
Test set training'de görülmüşse, accuracy inflated. Gerçek capability ölçülmemiş.
Yaygınlık#
Modern frontier model'lar (GPT-5, Claude 4.7) Common Crawl + curated data ile train edildi. MMLU, GSM8K public benchmarks — büyük ihtimalle contaminated.
Anthropic, OpenAI best-effort decontamination yapıyor ama tam garanti yok.
Yang 2023 (DyVal): Dynamic evaluation#
Çözüm: benchmark'ı dinamik üret. Her test seferinde yeni problem instances.
Math problem template: "If x = {N1}, then x² + {N2}x + {N3} = ?" Random N1, N2, N3 each evaluation → fresh
LiveBench (Arc Prize 2024+)#
Periyodik update edilen benchmark. Training data cutoff'tan sonra eklenmiş test'ler.
GPT-5 LiveBench %75 → gerçek capability iyi.
GPT-5 MMLU %95 → contamination şüphesi (gerçek capability daha düşük olabilir).
Modern best practice#
- Multiple benchmarks: public + dynamic + private hold-out
- Cutoff-respecting: model knowledge cutoff sonrası test'ler
- Paraphrased benchmarks: orijinalden farklı wording
Modül 53 (Eval Engineering) bu konuyu detaylandırıyor.
6. Contamination Detection Methods#
Bir eval örneğinin training'de olup olmadığını a priori tespit etmek:
1. N-gram match#
Training data'da test örneğinin n-gram'ı (örn. 13-gram) geçiyor mu? Eğer evet → contamination şüphesi.
Limitation: training data açık değilse (kapalı modeller) yapılamaz.
2. Perplexity-based#
Model contaminated örneğe çok düşük perplexity verir (memorize ettiği için fluent). Random test örneklerine normal perplexity.
test_ppl < threshold × control_ppl → contamination şüphesi
3. Membership inference#
1. Modele eval örneği ver, output al 2. Loss / perplexity ölç 3. Random paraphrase versiyonunu ver, loss ölç 4. Orijinal loss <<< paraphrase loss → memorization
4. Carlini's "extraction" approach#
Model'in extract ettiği passages'i topla, eval örnekleri ile match et.
Practical tools#
- Datasets contamination tool (HuggingFace)
- Stanford Center for Research on Foundation Models (CRFM) tools
- Self-instruct contamination detector
Türkçe için#
Çoğu Türkçe benchmark (TR-MMLU, TR-HumanEval) yeni, contamination düşük. Ama Türkçe-İngilizce çapraz contamination olabilir (aynı problem İngilizce versiyonu var).
7. Membership Inference Attacks (MIA)#
Attack goal: "Bu specific örnek training data'da var mıydı?"
Niye önemli?#
- Privacy audit: kullanıcı verisinin "model train'ine girdi mi?" sorusu
- Copyright tespiti: telif metnin training'de olup olmadığı
- Compliance: GDPR "right to be forgotten" verification
Basit attack (Shokri 2017 framework)#
1. Target example x ver 2. Model loss / logprob ölç 3. Reference distribution (rastgele random examples) 4. x'in loss'u reference'tan **çok düşükse** → muhtemelen training'deydi
Modern MIA (Mireshghallah 2022, Carlini 2022)#
Daha sofistike: likelihood ratio test. Model'in örneği "tanıdığı" vs "tanımadığı" arasındaki istatistiksel fark.
Pratik etki#
- LLM training data leak hâlâ partial: ~%10-30 örnek tespit edilebiliyor (model size'a göre)
- Privacy advocates için yeterli evidence
- Legal cases (NYT vs OpenAI, Getty vs Stability) bu metodları kullanıyor
Defense#
- Differential privacy training: pratik LLM'de çok pahalı
- Output filtering: identifying information block
- Limited memorization training: data dedup + canary tests
8. Privacy Implications — PII Leakage#
LLM'in PII (Personally Identifiable Information) leak'i:
Yaygın leak'ler#
- Email adresleri: Carlini 2021 — yüzlerce email extract edildi
- Telefon numaraları: özellikle public records'da geçenler
- Adresler: Reddit + social media'dan
- API keys: Github leaked code'lar
- Personal stories: blog posts, kişisel paylaşımlar
Modern defense#
-
Training data filtering (Modül 15)
- Regex-based PII detection (emails, phones)
- Named entity recognition (NER) ile redact
- PII classifier model
-
Output filtering (Modül 56)
- Real-time PII detection at inference
- Llama Guard, Microsoft Presidio entegrasyonu
- Hallucinated PII'yi de yakala (model yaratıp leak'lese de)
-
Differential privacy (sınırlı pratik)
- Theoretical guarantee
- Pratik LLM'de quality loss çok yüksek
Türkiye için#
KVKK (Modül 57): PII training'e girerse explicit consent gerekli. Pratik:
- Common Crawl gibi public corpus → açık veri, but PII filter
- Şirket internal data → KVKK uyumlu fine-tuning (Modül 57 detayda)
- Kullanıcı data ile fine-tune → opt-in + redaction zorunlu
9. Türkçe Corpus Contamination — Özel Durumlar#
Türkçe-spesifik concerns:
1. Wikipedia hâkimiyeti#
Türkçe pretrain corpus'u disproportionate olarak Wikipedia ağırlıklı (10-20%). Türkçe-spesifik niche topics Wikipedia'da → easy contamination.
2. Resmi/Bürokratik dil#
Kanun maddeleri, devlet belgeleri pretrain'de yaygın → bu format'ta memorization yüksek.
3. Mahkeme kararları, içtihat#
Yargıtay/Danıştay kararları açık veri → hukuki LLM'ler bunları memorize. Privacy concern: tarihsel davalar kişi adı içerebilir.
4. Eğitim materyali#
ÖSYM/YGS soruları + üniversite materyalleri pretrain'de var → bu domain'de "expert" görünen model aslında ezberlemiş.
5. Türkçe-İngilizce çapraz#
Aynı problem English'te exact, Türkçe'de paraphrase olabilir. Cross-lingual contamination tricky.
Pratik#
- TurkEval-Suite (capstone C10) contamination-aware design yapıyor
- Modül 59 (Türkçe Eval Atölyesi) bu konuya odaklanıyor
- Resmi metinleri pretrain'den çıkarmak — niche kalıyor
10. Production: Deduplication ve Canary Tokens#
Deduplication — Modül 15'in özü#
Pretrain corpus'ta near-duplicates olduğunda, model bunları fazla memorize ediyor. Aksine: distinct documents iyi generalize.
Lee et al. 2022 "Deduplicating Training Data Makes Language Models Better":
- Common Crawl dedup → %3-7 better validation loss
- Less memorization, better generalization
Practical dedup pipeline#
1. MinHash (Modül 15) — yaklaşık near-duplicate detection 2. Exact substring match — verbatim copies 3. Semantic dedup (embeddings) — paraphrased duplicates
Canary tokens#
Defensive technique: pretrain corpus'a synthetic 'canary' strings ekle, sonra model'in bunları leak edip etmediğini test et.
Canary: "SECRET_TOKEN_xK4nLm9PqR3sT2vY" Training'e bir kez koy. Inference'ta: ona ait prompt'a model devam ediyorsa → memorization detected.
Bu yöntem privacy audit + model verification için.
Production checklist#
- Pretrain corpus dedup yapıldı mı?
- PII filter active?
- Output PII detection live?
- Canary tokens ile memorization test?
- Eval benchmark contamination check?
- Periodic re-evaluation with fresh data?
11. Mini Egzersizler#
-
Memorization spectrum: GPT-5 "Türkiye'nin başkenti Ankara'dır" cevabı. Bu memorization mı generalization mı?
-
Paraphrase test: Bir model GSM8K orijinal %90, paraphrased %85. Generalization quality yorumu?
-
Contamination detection: Modelden gelen output ortalama PPL training-set'inden %30 düşük. Şüphe seviyesi?
-
PII extraction risk: Bir Türk şirketinin internal docs (müşteri PII) pretrain'e girdi. Risk değerlendirme + defense.
-
Canary test: Pretrain'e canary token koymak ne işe yarar? 3 use case.
Bu Derste Neler Öğrendik?#
✓ Memorization vs generalization spectrum
✓ Carlini 2021 training data extraction — privacy implications
✓ Paraphrase test — gerçek generalization sınama
✓ Benchmark contamination — eval iflası
✓ Detection methods: n-gram, perplexity, membership inference
✓ Privacy implications: PII leak, KVKK uyumu
✓ Türkçe corpus contamination özel durumları
✓ Deduplication ve canary tokens defense
✓ Production checklist
🎉 Modül 4 Tamamlandı!#
8 ders, ~430 dk içerik. LLM'in zihinsel modeli artık net.
Sıradaki Modül#
Modül 5 — PyTorch Mühendisliği: Engineer-Grade
PyTorch'u sadece kullanıcı olarak değil, mühendisi olarak öğreneceğiz. , , custom CUDA streams, mixed precision pratik, memory profiling, Triton kernels. Bu modülden sonra PyTorch sana 'sihir' değil 'araç' gibi gelecek.
torch.compiletorch.fxFrequently Asked Questions
Multiple methods: (1) **Verbatim extraction**: random prompts + model output → Internet match. Carlini 2021 method. (2) **Membership inference**: training-set vs holdout perplexity comparison. (3) **Canary tokens**: synthetic tokens in pretrain to test leakage. (4) **Empirical**: paraphrase vs verbatim performance. Modern frontier models have ~1-5% memorization rate (Carlini 2022 follow-up).
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
Module 0: Course Framework & Workshop Setup
Who Is an LLM Engineer? The AI Engineering Career Ladder from Junior to Staff
Start LearningModule 0: Course Framework & Workshop Setup
Course Philosophy: Why This Path, Why This Order — The Skeleton of an 8-Month Curriculum
Start LearningModule 0: Course Framework & Workshop Setup