Kavram SözlüğüÜretken Yapay Zekâ ve LLM
KV Cache
Önceki attention hesaplarını saklayarak otoregresif üretimde tekrar hesaplama maliyetini azaltan mekanizma.
KV cache, LLM inference optimizasyonunun en temel bileşenlerinden biridir. Önceki tokenlara ait key ve value temsillerinin yeniden hesaplanmaması, uzun üretimlerde ciddi hız avantajı sağlar. Ancak bellek tüketimi bağlam uzunluğuyla birlikte arttığı için dikkatli kaynak yönetimi gerekir.
İlginizi Çekebilir
Yapay zeka yolculuğunuza devam etmek için bu kavramlara da göz atabilirsiniz.
