İçeriğe geç
Kavram SözlüğüDoğal Dil İşleme

Alt Kelime Tokenization

Nadir kelimeleri daha küçük anlamlı parçalara bölerek kelime dağarcığı ve kapsama arasında denge kuran yaklaşım.

Alt kelime tokenization, modern NLP ve büyük dil modellerinde standart haline gelmiştir. Tam kelime tabanlı yaklaşımın nadir kelime sorununu azaltırken karakter düzeyinin aşırı parçalanmasını da önler. Özellikle Türkçe gibi eklemeli dillerde ve çok dilli modellerde önemli avantaj sağlar. Modelin bilinmeyen kelime karşısındaki davranışını belirleyen temel tasarım seçimlerinden biridir.