İçeriğe geç
Kavram SözlüğüÜretken Yapay Zekâ ve LLM

Paged Attention

KV cache belleğini daha verimli yöneten ve çoklu istek servisinde kaynak kullanımını iyileştiren dikkat yönetimi tekniği.

Paged attention, özellikle yüksek eşzamanlı kullanıcı yüklerinde LLM servis verimliliğini artırmak için önemlidir. Belleği sayfalı yapı mantığıyla yönettiği için uzun bağlamlı ve çok kullanıcıli senaryolarda daha dengeli kaynak kullanımı sağlar. Büyük model servisinde sistem mühendisliği ile model davranışının ne kadar iç içe geçtiğini gösteren iyi örneklerden biridir.