İçeriğe geç
Kavram SözlüğüYapay Zekâ Temelleri

Benchmark

Farklı modellerin aynı görev altında karşılaştırılmasını sağlayan standart veri, metrik ve değerlendirme çerçevesi.

Benchmark, farklı modelleri veya yöntemleri ortak bir görev ve ortak ölçütler üzerinden karşılaştırabilmek için oluşturulan standart değerlendirme çerçevesidir. Genellikle belirli bir veri kümesi, tanımlı bir görev ve buna uygun performans metriklerinden oluşur. Araştırma dünyasında ilerlemenin nesnel biçimde izlenmesi için benchmark’lar çok değerlidir. Ancak burada dikkat edilmesi gereken önemli bir nokta vardır: benchmark başarısı, gerçek dünya başarısı ile her zaman birebir örtüşmez. Çünkü canlı sistemlerde veri dağılımları, kullanıcı davranışları, gecikme kısıtları ve operasyonel gereksinimler farklı olabilir. Bu yüzden benchmark sonuçları önemlidir ama tek başına nihai karar ölçütü değildir.