İçeriğe geç

Calibration Dataset Engineering: Domain-Aware Quantization — Senin Domain'in İçin İdeal Set

GPTQ/AWQ kalite calibration data'ya çok bağlı. WikiText-2 default ama production use-case'ine göre değişir. Türkçe production'da TR calibration → %30 daha iyi TR-MMLU post-quant. Code domain'de GitHub Python snippet. Math domain'de GSM8K. Calibration size sweet spot (128-512 sample).

Şükrü Yusuf KAYA
24 dakikalık okuma
İleri
Calibration Dataset Engineering: Domain-Aware Quantization — Senin Domain'in İçin İdeal Set

1. Calibration Dataset Karşılaştırma#

Llama 3.1 8B + AWQ + 256 sample, post-quant TR-MMLU + WikiText-2 PPL:
CalibrationTR-MMLUWikiText-2 PPLGSM8KDomain match
WikiText-2 (default, EN)32.05.9584.1EN web
C4 multilingual32.36.0584.0multi-lang
OASST-TR (TR chat)33.46.3080.5TR chat
GSM8K (math)31.07.2086.8math
GitHub Python30.56.5083.0code
Production prompts (in-domain)34.15.9885.0match
Çıkarım: Hangi metrik kritikse o domain'in calibration set'i kullanılmalı.
Cookbook'un kuralı: Production'da gerçek kullanıcı promp'larından 200-500 örnek sample → in-domain calibration set yap.
python
# === In-domain calibration set hazırlama ===
from datasets import Dataset
 
# 1. Production logs'tan örnek topla (kullanıcı promp'ları, anonimleştirilmiş)
production_prompts = load_production_logs(n=500, anonymize=True)
 
# 2. Filter — quality + uzunluk + token sayısı
filtered = [p for p in production_prompts
if 50 < len(p) < 1000
and is_turkish(p)]
 
# 3. Tokenize + format for calibration
import torch
from transformers import AutoTokenizer
 
tok = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
calibration = []
for p in filtered[:256]:
inputs = tok(p, return_tensors="pt", max_length=2048, truncation=True)
calibration.append({
"input_ids": inputs["input_ids"][0],
"attention_mask": inputs["attention_mask"][0],
})
 
# 4. Bu set'i AWQ veya GPTQ'ya ver
model.quantize(tok, calibration_data=calibration)
production logs'tan in-domain calibration set

2. Calibration Size Sweet Spot#

N samplesQuantization time (8B AWQ)Quality (TR-MMLU)
324 min31.8
645 min32.0
1287 min32.2
2569 min32.3
51213 min32.3
102422 min32.3
204840 min32.3
Marginal kalite artışı 256 sample'dan sonra. Cookbook default: 256 sample.
✅ Teslim
  1. 256 sample'lık TR in-domain calibration set hazırla. 2) Aynı modeli WikiText-2 ve TR calib ile quantize et, TR-MMLU'da karşılaştır. 3) Sonraki ders: 10.10 — Round-trip Eval: Pre/Post Quant Tablo.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler