Wikipedia based semantic smoothing for Twitter sentiment classification

Torunoğlu, Dilara

Wikipedia based semantic smoothing for Twitter sentiment classification

Dosyalar

dtorunoglu_2013.pdf (9.14 MB)

Tarih

2013-06

Yazarlar

Torunoğlu, Dilara

Yayıncı

Doğuş Üniversitesi Fen Bilimleri Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Sentiment classification is one of the important and popular application areas of text classification in which texts are labeled as positive and negative. Moreover, Naive Bayes (NB) is one of the mostly used algorithms in this area. NB having several advantages on lower complexity and simpler training procedure, it suffers from zero probability problems (Rish, 2001). Smoothing methods are employed for this problem; mostly Laplace Smoothing is used; however in this paper we propose Wikipedia based semantic smoothing approach. Our semantic smoothing formulation is based on the work in (Zhou, 2008). We extend this study by employing Wikipedia to extract topic signatures. Moreover, we also incorporated semantic knowledge in Wikipedia such as categories and redirects. To be more precise, we use Wikipedia article titles that exist in documents, categories and redirects of these articles as topic signatures to enrich the dataset. We apply our approach to sentiment classification of tweets. Results of the extensive experiments show that our approach improves the performance of NB and even can exceed the accuracy of SVM on Twitter Sentiment 140 dataset.

Anlamsal sınıflandırma, metin sınıflandırma alanında kullanılan en önemli ve en popüler sınıflandırma yaklaşımlarından biridir ki bu yaklaşımda metinler pozitif ve negatif olarak sınıflandırılmaktadır. Dahası, Naive Bayes (NB) bu alanda en çok kullanılan algoritmadır. NB algoritmasının düşük karmaşıklık, basit öğrenme prosedürü gibi avantajlarının yanında, sıfır olasılık problemiyle uğraşmaktadır (Rish, 2001). Yumuşatma metodları bu probleme uygulanmaktadır, çoğunlukla da Laplace yumuşatması kullanılır; ancak bu çalışmada biz Vikipedi tabanlı anlamsal yumuşatma algoritmasını önermekteyiz. Bizim anlamsal yumuşatma algoritmamızın formülleri (Zhou, 2008)'deki çalışmasına dayanmaktadır. Biz bu çalışmadaki anlamsal zenginleştirmeyi Vikipedi kullanarak genişlettik . Ayrıca, Vikipedi kategorilerin ve yönlendirmelerini anlamsal bilgi geliştirme yönünde ekledik. Daha açık konuşmak gerekirse, bu çalışma anlamsal yumuşatma yaklaşımını görülen Vikipedi başlıklarını, bu başlıkların kategorileri ve yönlendirmelerini kullanılarak Twitter veri kümesini zenginleştirmek amaçlı kullanılmıştır. Yaklaşımımızı anlamsal sınıflandırma amacıyla tweet' ler üzerinde uyguladık. Yapılan birçok testin sonucunda görülmüştür ki Twitter Sentiment 140 veri kümesi üzerinde, yaklaşımımız Naive Bayes algoritmasının başarısını arttırmakta ve Karar Destek Makinelerini geçmektedir.

Açıklama

Torunoğlu, Dilara (Dogus Author)

Anahtar Kelimeler

Naive Bayes, Semantic Smoothing, Text Classification, Sentiment Classification, Sentiment Analysis, Wikipedia, Twitter, Anlamsal Yumuşatma, Metin Sınıflandırma, Anlamsal Sınıflandırma, Anlamsal Analiz, Vikipedi

Künye

Torunoğlu, D. (2013). Wikipedia based semantic smoothing for twitter sentiment classification. (Unpublished master's thesis). Doğuş University Institute of Science and Technology, İstanbul.

Bağlantı

https://hdl.handle.net/11376/2615

Koleksiyon

Tez Koleksiyonu

Detaylı Öğe Kaydı

Wikipedia based semantic smoothing for Twitter sentiment classification

Dosyalar

Tarih

Yazarlar

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

Özet

Açıklama

Anahtar Kelimeler

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Bağlantı

Koleksiyon

Onay

İnceleme

Ekleyen

Referans Veren