Wikipedia based semantic smoothing for Twitter sentiment classification

dc.authoridTR181208en_US
dc.contributor.advisorGaniz, Murat Can
dc.contributor.authorTorunoğlu, Dilara
dc.date.accessioned2016-10-03T09:01:48Z
dc.date.available2016-10-03T09:01:48Z
dc.date.issued2013-06
dc.date.submitted2013-06
dc.departmentDoğuş Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar ve Enformasyon Bilimleri Yüksek Lisans Programıen_US
dc.descriptionTorunoğlu, Dilara (Dogus Author)en_US
dc.description.abstractSentiment classification is one of the important and popular application areas of text classification in which texts are labeled as positive and negative. Moreover, Naive Bayes (NB) is one of the mostly used algorithms in this area. NB having several advantages on lower complexity and simpler training procedure, it suffers from zero probability problems (Rish, 2001). Smoothing methods are employed for this problem; mostly Laplace Smoothing is used; however in this paper we propose Wikipedia based semantic smoothing approach. Our semantic smoothing formulation is based on the work in (Zhou, 2008). We extend this study by employing Wikipedia to extract topic signatures. Moreover, we also incorporated semantic knowledge in Wikipedia such as categories and redirects. To be more precise, we use Wikipedia article titles that exist in documents, categories and redirects of these articles as topic signatures to enrich the dataset. We apply our approach to sentiment classification of tweets. Results of the extensive experiments show that our approach improves the performance of NB and even can exceed the accuracy of SVM on Twitter Sentiment 140 dataset.en_US
dc.description.abstractAnlamsal sınıflandırma, metin sınıflandırma alanında kullanılan en önemli ve en popüler sınıflandırma yaklaşımlarından biridir ki bu yaklaşımda metinler pozitif ve negatif olarak sınıflandırılmaktadır. Dahası, Naive Bayes (NB) bu alanda en çok kullanılan algoritmadır. NB algoritmasının düşük karmaşıklık, basit öğrenme prosedürü gibi avantajlarının yanında, sıfır olasılık problemiyle uğraşmaktadır (Rish, 2001). Yumuşatma metodları bu probleme uygulanmaktadır, çoğunlukla da Laplace yumuşatması kullanılır; ancak bu çalışmada biz Vikipedi tabanlı anlamsal yumuşatma algoritmasını önermekteyiz. Bizim anlamsal yumuşatma algoritmamızın formülleri (Zhou, 2008)'deki çalışmasına dayanmaktadır. Biz bu çalışmadaki anlamsal zenginleştirmeyi Vikipedi kullanarak genişlettik . Ayrıca, Vikipedi kategorilerin ve yönlendirmelerini anlamsal bilgi geliştirme yönünde ekledik. Daha açık konuşmak gerekirse, bu çalışma anlamsal yumuşatma yaklaşımını görülen Vikipedi başlıklarını, bu başlıkların kategorileri ve yönlendirmelerini kullanılarak Twitter veri kümesini zenginleştirmek amaçlı kullanılmıştır. Yaklaşımımızı anlamsal sınıflandırma amacıyla tweet' ler üzerinde uyguladık. Yapılan birçok testin sonucunda görülmüştür ki Twitter Sentiment 140 veri kümesi üzerinde, yaklaşımımız Naive Bayes algoritmasının başarısını arttırmakta ve Karar Destek Makinelerini geçmektedir.en_US
dc.description.sponsorshipThis work was supported in part by The Scientific and Technological Research Council of Turkey (TÜBİTAK) grant number 111E239.en_US
dc.description.tableofcontentsPREFACE, IV -- ABSTRACT, V -- ÖZET, VI -- ACKNOWLEDGMENT, VII -- LIST OF FIGURES, VIII -- LIST OF TABLES, IX -- LIST OF SYMBOLS, X -- ABBREVIATIONS, XI -- 1. INTRODUCTION, 1 -- 2. RELATED WORK, 4 -- 3. APPROACH, 28 -- 3.1. Naive Bayes Algorithm, 28 -- 3.2. Smoothing Methods, 29 -- 3.2.1. Laplace Smoothing, 29 -- 3.2.2. Jelinek-Mercer Smoothing, 30 -- 3.2.3. Semantic Smoothing, 31 -- 3.3. Wikipedia Based Semantic Smoothing Model, 33 -- 3.3.1. Freebase Wikipedia Extractor, 34 -- 3.3.2. Term Extractor, 35 -- 3.3.3. Wiki Concept Extractor, 35 -- 3.3.4. Topic Signatures, 36 -- 3.3.5. Wikipedia Articles, Categories and Redirects, 37 -- 4. EXPERIMENTAL SETUP, 41 -- 4.1. Twitter Data Set, 41 -- 4.2. Twitter Enriched with Wikipedia Articles, Categories & Redirects Data Sets, 46 -- 5. EXPERIMENTAL RESULTS, 48 -- 6. CONCLUSION, 56 -- REFERENCES, 59 -- BIOGRAPHY, 62en_US
dc.identifier.citationTorunoğlu, D. (2013). Wikipedia based semantic smoothing for twitter sentiment classification. (Unpublished master's thesis). Doğuş University Institute of Science and Technology, İstanbul.en_US
dc.identifier.urihttps://hdl.handle.net/11376/2615
dc.indekslendigikaynakWeb of Scienceen_US
dc.indekslendigikaynakScopusen_US
dc.indekslendigikaynakTR-Dizinen_US
dc.indekslendigikaynakPubMeden_US
dc.institutionauthorTorunoğlu, Dilara
dc.language.isoenen_US
dc.publisherDoğuş Üniversitesi Fen Bilimleri Enstitüsüen_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectNaive Bayesen_US
dc.subjectSemantic Smoothingen_US
dc.subjectText Classificationen_US
dc.subjectSentiment Classificationen_US
dc.subjectSentiment Analysisen_US
dc.subjectWikipediaen_US
dc.subjectTwitteren_US
dc.subjectAnlamsal Yumuşatmaen_US
dc.subjectMetin Sınıflandırmaen_US
dc.subjectAnlamsal Sınıflandırmaen_US
dc.subjectAnlamsal Analizen_US
dc.subjectVikipedien_US
dc.titleWikipedia based semantic smoothing for Twitter sentiment classificationen_US
dc.typeMaster Thesisen_US

Dosyalar

Orijinal paket

Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
dtorunoglu_2013.pdf
Boyut:
9.14 MB
Biçim:
Adobe Portable Document Format
Açıklama:
Yazar Sürümü

Lisans paketi

Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
license.txt
Boyut:
1.51 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama:

Koleksiyon