Empirical comparison of naïve bayes event models and smoothing methods for text classification

Yükleniyor...
Küçük Resim

Tarih

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Doğuş Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Naive bayes, kolay uygulanması ve düşük karmaşıklığı nedeniyle metin sınıflandırmada yaygın olarak kullanılan algoritmalardan biridir. Metin sınıflandırma için, Naïve bayes algoritmasının yaygın olarak kullanılan event modelleri vardır. Bunlar, Multivariate Bernoulli ve multinomial modelleridir. Çoğu çalışmada, hemen hemen her koşulda multivariate Bernoulli modele göre daha iyi performansa sahip olduğu varsayımına dayanarak model olarak multinomial model, smoothing method olarak ise Laplace seçilmiştir. Bu tez, deneysel olarak Naive Bayes event modelleri analiz etmeyi ve farklı bir bakış açısıyla yöntemleri düzgünleştirerek bu yaygın varsayıma ışık tutmayı amaçlıyor. Naive Bayes event modelleri arasındaki farkı netleştirmek için, bu modellerin metin sınıflandırma performansı İngilizce ve Türkçe olmak üzere iki farklı dildeki veri kümeleri üzerinde karşılaştırılmıştır. Kapsamlı deneyler sonucunda, multinomial modelin üstün performansının her zaman gözlenmediği görülmüştür. Multivariate Bernoulli model, farklı boyuttaki öğrenme kümelerinin olduğu koşullar altında uygun bir smoothing yöntemi ile kombine edildiğinde iyi performans gösterebilir.

Naïve Bayes is one of the most commonly used algorithms in text classification due to its easy implementation and low complexity. There are two commonly referred event models in Naïve Bayes for text categorization; multivariate Bernoulli and multinomial models. A very large number of studies choose multinomial model and Laplace smoothing just based on the assumption that it performs better than multivariate model under almost any conditions. This thesis aims to shed some light into this widely adopted assumption by empirically analyzing Naïve Bayes event models and smoothing methods from a different perspective. In order to clarify the difference between these event models of Naïve Bayes, their classification performance are compared on different languages –English and Turkish-datasets. Results of our extensive experiments demonstrate that superior performance of multinomial model does not observed all the time. On the other hand, multivariate Bernoulli model can perform well when combined with an appropriate smoothing method under different training data size conditions at any training set size.

Açıklama

Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Koleksiyon

Onay

İnceleme

Ekleyen

Referans Veren