İçeriğe geç
Kavram SözlüğüDoğal Dil İşleme

SentencePiece

Boşluk bağımlılığı olmadan ham metinden alt kelime sözlüğü öğrenebilen tokenization çerçevesi.

SentencePiece, özellikle boşluk tabanlı kelime ayrımının güvenilir olmadığı diller ve çok dilli sistemler için önemli bir araçtır. Ham metin üzerinde doğrudan çalışabildiği için dil bağımsızlığa daha yakındır. Büyük ölçekli ön eğitim sistemlerinde esnek ve tekrarlanabilir token sözlüğü üretimi sağlar.