FP8 Inference: vLLM SmoothQuant + TensorRT-LLM — RTX 4090'da Production-Ready
FP8 training prematur olsa da FP8 inference 2026'da production-grade. vLLM'in native FP8 (Llama 3.1+/Qwen 2.5+ destek), TensorRT-LLM SmoothQuant, AWQ-marlin INT4 vs FP8 karşılaştırma. RTX 4090'da Llama 3.1 8B FP8 dönüşüm + serving (~120 tok/s vs bf16 95).
Şükrü Yusuf KAYA
28 dakikalık okuma
İleri1. vLLM Native FP8 Support#
vLLM 0.6+ Llama 3.1/3.2/3.3 + Qwen 2.5+ + Gemma 3 için native FP8 destekler. SmoothQuant ile activation outlier'larını absorb eder.
# 1. Llama 3.1 8B'yi FP8'e çevir (one-shot) from llmcompressor.modifiers.quantization import GPTQModifier, SmoothQuantModifier from llmcompressor.transformers import oneshot # SmoothQuant + FP8 oneshot( model="meta-llama/Meta-Llama-3.1-8B-Instruct", recipe=[ SmoothQuantModifier(smoothing_strength=0.8), GPTQModifier(targets="Linear", scheme="FP8_DYNAMIC", ignore=["lm_head"]), ], output_dir="llama-3.1-8b-fp8", num_calibration_samples=512, ) # 2. vLLM ile serve vllm serve llama-3.1-8b-fp8 --quantization fp8
2. RTX 4090 Inference Throughput Karşılaştırma#
| Quantization | tok/s (batch=1) | tok/s (batch=16) | tok/s (batch=64) | Size | Quality (PPL) |
|---|---|---|---|---|---|
| bf16 | 95 | 540 | 1240 | 16 GB | 5.93 ref |
| AWQ int4 | 175 | 920 | 2150 | 4.4 GB | 5.99 (+1.0%) |
| GPTQ int4 | 165 | 870 | 2050 | 4.5 GB | 6.04 (+1.9%) |
| FP8 (vLLM) | 155 | 1080 | 2520 | 8 GB | 5.95 (+0.3%) |
Çıkarımlar:
- batch=1 (single user): AWQ int4 hızlı (kernel optimized)
- batch=16+: FP8 en hızlı (memory bandwidth artar, kernel daha verimli)
- FP8 kalite kaybı INT4'ten çok az (PPL +%0.3 vs +%1.0-1.9)
- FP8 size INT4'ten 2x büyük (8GB vs 4.5GB)
Cookbook'un kuralı:
- Single-user / low concurrency → AWQ int4
- High concurrency / batch serving → FP8
✅ Teslim
- Llama 8B'yi FP8'e dönüştür (llmcompressor). 2) vLLM ile serve. 3) batch=1 + batch=16 throughput karşılaştır. 4) Sonraki ders: 10.9 — Calibration Dataset Engineering.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations