Wikipedia based semantic smoothing for Twitter sentiment classification
Dosyalar
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Sentiment classification is one of the important and popular application areas of text classification in which texts are labeled as positive and negative. Moreover, Naive Bayes (NB) is one of the mostly used algorithms in this area. NB having several advantages on lower complexity and simpler training procedure, it suffers from zero probability problems (Rish, 2001). Smoothing methods are employed for this problem; mostly Laplace Smoothing is used; however in this paper we propose Wikipedia based semantic smoothing approach. Our semantic smoothing formulation is based on the work in (Zhou, 2008). We extend this study by employing Wikipedia to extract topic signatures. Moreover, we also incorporated semantic knowledge in Wikipedia such as categories and redirects. To be more precise, we use Wikipedia article titles that exist in documents, categories and redirects of these articles as topic signatures to enrich the dataset. We apply our approach to sentiment classification of tweets. Results of the extensive experiments show that our approach improves the performance of NB and even can exceed the accuracy of SVM on Twitter Sentiment 140 dataset.
Anlamsal sınıflandırma, metin sınıflandırma alanında kullanılan en önemli ve en popüler sınıflandırma yaklaşımlarından biridir ki bu yaklaşımda metinler pozitif ve negatif olarak sınıflandırılmaktadır. Dahası, Naive Bayes (NB) bu alanda en çok kullanılan algoritmadır. NB algoritmasının düşük karmaşıklık, basit öğrenme prosedürü gibi avantajlarının yanında, sıfır olasılık problemiyle uğraşmaktadır (Rish, 2001). Yumuşatma metodları bu probleme uygulanmaktadır, çoğunlukla da Laplace yumuşatması kullanılır; ancak bu çalışmada biz Vikipedi tabanlı anlamsal yumuşatma algoritmasını önermekteyiz. Bizim anlamsal yumuşatma algoritmamızın formülleri (Zhou, 2008)'deki çalışmasına dayanmaktadır. Biz bu çalışmadaki anlamsal zenginleştirmeyi Vikipedi kullanarak genişlettik . Ayrıca, Vikipedi kategorilerin ve yönlendirmelerini anlamsal bilgi geliştirme yönünde ekledik. Daha açık konuşmak gerekirse, bu çalışma anlamsal yumuşatma yaklaşımını görülen Vikipedi başlıklarını, bu başlıkların kategorileri ve yönlendirmelerini kullanılarak Twitter veri kümesini zenginleştirmek amaçlı kullanılmıştır. Yaklaşımımızı anlamsal sınıflandırma amacıyla tweet' ler üzerinde uyguladık. Yapılan birçok testin sonucunda görülmüştür ki Twitter Sentiment 140 veri kümesi üzerinde, yaklaşımımız Naive Bayes algoritmasının başarısını arttırmakta ve Karar Destek Makinelerini geçmektedir.