Wikipedia based semantic smoothing for Twitter sentiment classification
| dc.authorid | TR181208 | en_US |
| dc.contributor.advisor | Ganiz, Murat Can | |
| dc.contributor.author | Torunoğlu, Dilara | |
| dc.date.accessioned | 2016-10-03T09:01:48Z | |
| dc.date.available | 2016-10-03T09:01:48Z | |
| dc.date.issued | 2013-06 | |
| dc.date.submitted | 2013-06 | |
| dc.department | Doğuş Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar ve Enformasyon Bilimleri Yüksek Lisans Programı | en_US |
| dc.description | Torunoğlu, Dilara (Dogus Author) | en_US |
| dc.description.abstract | Sentiment classification is one of the important and popular application areas of text classification in which texts are labeled as positive and negative. Moreover, Naive Bayes (NB) is one of the mostly used algorithms in this area. NB having several advantages on lower complexity and simpler training procedure, it suffers from zero probability problems (Rish, 2001). Smoothing methods are employed for this problem; mostly Laplace Smoothing is used; however in this paper we propose Wikipedia based semantic smoothing approach. Our semantic smoothing formulation is based on the work in (Zhou, 2008). We extend this study by employing Wikipedia to extract topic signatures. Moreover, we also incorporated semantic knowledge in Wikipedia such as categories and redirects. To be more precise, we use Wikipedia article titles that exist in documents, categories and redirects of these articles as topic signatures to enrich the dataset. We apply our approach to sentiment classification of tweets. Results of the extensive experiments show that our approach improves the performance of NB and even can exceed the accuracy of SVM on Twitter Sentiment 140 dataset. | en_US |
| dc.description.abstract | Anlamsal sınıflandırma, metin sınıflandırma alanında kullanılan en önemli ve en popüler sınıflandırma yaklaşımlarından biridir ki bu yaklaşımda metinler pozitif ve negatif olarak sınıflandırılmaktadır. Dahası, Naive Bayes (NB) bu alanda en çok kullanılan algoritmadır. NB algoritmasının düşük karmaşıklık, basit öğrenme prosedürü gibi avantajlarının yanında, sıfır olasılık problemiyle uğraşmaktadır (Rish, 2001). Yumuşatma metodları bu probleme uygulanmaktadır, çoğunlukla da Laplace yumuşatması kullanılır; ancak bu çalışmada biz Vikipedi tabanlı anlamsal yumuşatma algoritmasını önermekteyiz. Bizim anlamsal yumuşatma algoritmamızın formülleri (Zhou, 2008)'deki çalışmasına dayanmaktadır. Biz bu çalışmadaki anlamsal zenginleştirmeyi Vikipedi kullanarak genişlettik . Ayrıca, Vikipedi kategorilerin ve yönlendirmelerini anlamsal bilgi geliştirme yönünde ekledik. Daha açık konuşmak gerekirse, bu çalışma anlamsal yumuşatma yaklaşımını görülen Vikipedi başlıklarını, bu başlıkların kategorileri ve yönlendirmelerini kullanılarak Twitter veri kümesini zenginleştirmek amaçlı kullanılmıştır. Yaklaşımımızı anlamsal sınıflandırma amacıyla tweet' ler üzerinde uyguladık. Yapılan birçok testin sonucunda görülmüştür ki Twitter Sentiment 140 veri kümesi üzerinde, yaklaşımımız Naive Bayes algoritmasının başarısını arttırmakta ve Karar Destek Makinelerini geçmektedir. | en_US |
| dc.description.sponsorship | This work was supported in part by The Scientific and Technological Research Council of Turkey (TÜBİTAK) grant number 111E239. | en_US |
| dc.description.tableofcontents | PREFACE, IV -- ABSTRACT, V -- ÖZET, VI -- ACKNOWLEDGMENT, VII -- LIST OF FIGURES, VIII -- LIST OF TABLES, IX -- LIST OF SYMBOLS, X -- ABBREVIATIONS, XI -- 1. INTRODUCTION, 1 -- 2. RELATED WORK, 4 -- 3. APPROACH, 28 -- 3.1. Naive Bayes Algorithm, 28 -- 3.2. Smoothing Methods, 29 -- 3.2.1. Laplace Smoothing, 29 -- 3.2.2. Jelinek-Mercer Smoothing, 30 -- 3.2.3. Semantic Smoothing, 31 -- 3.3. Wikipedia Based Semantic Smoothing Model, 33 -- 3.3.1. Freebase Wikipedia Extractor, 34 -- 3.3.2. Term Extractor, 35 -- 3.3.3. Wiki Concept Extractor, 35 -- 3.3.4. Topic Signatures, 36 -- 3.3.5. Wikipedia Articles, Categories and Redirects, 37 -- 4. EXPERIMENTAL SETUP, 41 -- 4.1. Twitter Data Set, 41 -- 4.2. Twitter Enriched with Wikipedia Articles, Categories & Redirects Data Sets, 46 -- 5. EXPERIMENTAL RESULTS, 48 -- 6. CONCLUSION, 56 -- REFERENCES, 59 -- BIOGRAPHY, 62 | en_US |
| dc.identifier.citation | Torunoğlu, D. (2013). Wikipedia based semantic smoothing for twitter sentiment classification. (Unpublished master's thesis). Doğuş University Institute of Science and Technology, İstanbul. | en_US |
| dc.identifier.uri | https://hdl.handle.net/11376/2615 | |
| dc.indekslendigikaynak | Web of Science | en_US |
| dc.indekslendigikaynak | Scopus | en_US |
| dc.indekslendigikaynak | TR-Dizin | en_US |
| dc.indekslendigikaynak | PubMed | en_US |
| dc.institutionauthor | Torunoğlu, Dilara | |
| dc.language.iso | en | en_US |
| dc.publisher | Doğuş Üniversitesi Fen Bilimleri Enstitüsü | en_US |
| dc.relation.publicationcategory | Tez | en_US |
| dc.rights | info:eu-repo/semantics/openAccess | en_US |
| dc.subject | Naive Bayes | en_US |
| dc.subject | Semantic Smoothing | en_US |
| dc.subject | Text Classification | en_US |
| dc.subject | Sentiment Classification | en_US |
| dc.subject | Sentiment Analysis | en_US |
| dc.subject | Wikipedia | en_US |
| dc.subject | en_US | |
| dc.subject | Anlamsal Yumuşatma | en_US |
| dc.subject | Metin Sınıflandırma | en_US |
| dc.subject | Anlamsal Sınıflandırma | en_US |
| dc.subject | Anlamsal Analiz | en_US |
| dc.subject | Vikipedi | en_US |
| dc.title | Wikipedia based semantic smoothing for Twitter sentiment classification | en_US |
| dc.type | Master Thesis | en_US |












