İçeriğe geç
Kavram SözlüğüDoğal Dil İşleme

WordPiece

Alt kelime birimlerini olasılıksal kapsama açısından optimize eden yaygın tokenization yöntemi.

WordPiece, özellikle BERT ailesiyle birlikte yaygınlaşmış alt kelime tabanlı tokenization yaklaşımıdır. BPE benzeri görünse de birleşim kararlarını farklı ölçütlerle verir ve kelime dağarcığı yapısını görev açısından verimli hale getirmeyi amaçlar. Büyük ölçekli ön eğitim sistemlerinde güçlü sonuçlar vermiştir. Dil modeli davranışı ile token sözlüğü tasarımının ne kadar iç içe geçtiğini iyi gösterir.