Empirical comparison of naïve bayes event models and smoothing methods for text classification
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Naive bayes, kolay uygulanması ve düşük karmaşıklığı nedeniyle metin sınıflandırmada yaygın olarak kullanılan algoritmalardan biridir. Metin sınıflandırma için, Naïve bayes algoritmasının yaygın olarak kullanılan event modelleri vardır. Bunlar, Multivariate Bernoulli ve multinomial modelleridir. Çoğu çalışmada, hemen hemen her koşulda multivariate Bernoulli modele göre daha iyi performansa sahip olduğu varsayımına dayanarak model olarak multinomial model, smoothing method olarak ise Laplace seçilmiştir. Bu tez, deneysel olarak Naive Bayes event modelleri analiz etmeyi ve farklı bir bakış açısıyla yöntemleri düzgünleştirerek bu yaygın varsayıma ışık tutmayı amaçlıyor. Naive Bayes event modelleri arasındaki farkı netleştirmek için, bu modellerin metin sınıflandırma performansı İngilizce ve Türkçe olmak üzere iki farklı dildeki veri kümeleri üzerinde karşılaştırılmıştır. Kapsamlı deneyler sonucunda, multinomial modelin üstün performansının her zaman gözlenmediği görülmüştür. Multivariate Bernoulli model, farklı boyuttaki öğrenme kümelerinin olduğu koşullar altında uygun bir smoothing yöntemi ile kombine edildiğinde iyi performans gösterebilir.
Naïve Bayes is one of the most commonly used algorithms in text classification due to its easy implementation and low complexity. There are two commonly referred event models in Naïve Bayes for text categorization; multivariate Bernoulli and multinomial models. A very large number of studies choose multinomial model and Laplace smoothing just based on the assumption that it performs better than multivariate model under almost any conditions. This thesis aims to shed some light into this widely adopted assumption by empirically analyzing Naïve Bayes event models and smoothing methods from a different perspective. In order to clarify the difference between these event models of Naïve Bayes, their classification performance are compared on different languages –English and Turkish-datasets. Results of our extensive experiments demonstrate that superior performance of multinomial model does not observed all the time. On the other hand, multivariate Bernoulli model can perform well when combined with an appropriate smoothing method under different training data size conditions at any training set size.












