İçeriğe geç
Kavram SözlüğüÜretken Yapay Zekâ ve LLM

KV Cache

Önceki attention hesaplarını saklayarak otoregresif üretimde tekrar hesaplama maliyetini azaltan mekanizma.

KV cache, LLM inference optimizasyonunun en temel bileşenlerinden biridir. Önceki tokenlara ait key ve value temsillerinin yeniden hesaplanmaması, uzun üretimlerde ciddi hız avantajı sağlar. Ancak bellek tüketimi bağlam uzunluğuyla birlikte arttığı için dikkatli kaynak yönetimi gerekir.