Metinsel veri madenciliği için anlamsal yarı-eğitimli algoritmaların geliştirilmesi

dc.authoridTR23878en_US
dc.authoridTR193315en_US
dc.authoridTR112254en_US
dc.authoridTR179894en_US
dc.contributor.authorGaniz, Murat Can
dc.contributor.authorAltınel, Berna
dc.contributor.authorYaman, Utku
dc.contributor.authorÇakırman, Erhan
dc.contributor.authorTutkan, Melike
dc.contributor.authorPoyraz, Mitat
dc.contributor.authorKilimci, Zeynep Hilal
dc.contributor.authorTüysüzoğlu, Göksu
dc.contributor.authorEngün, İsmail Murat
dc.date.accessioned2016-09-06T13:05:04Z
dc.date.available2016-09-06T13:05:04Z
dc.date.issued2015
dc.departmentDoğuş Üniversitesi, Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümüen_US
dc.descriptionGaniz, Murat Can (Dogus Author) -- Zeynep Hilal, Kilimci (Dogus Author)en_US
dc.description.abstractMetinsel veri madenciliği büyük miktarlardaki metinsel verilerden faydalı bilgilerin çıkarılması veya bunların otomatik olarak organize edilmesini içerir. Büyük miktarlarda metinsel belgenin otomatik olarak organize edilmesinde metin sınıflandırma algoritmaları önemli bir rol oynar. Bu alanda kullanılan sınıflandırma algoritmaları “eğitimli” (supervised), kümeleme algoritmaları ise “eğitimsiz” (unsupervised) olarak adlandırılırlar. Bunların ortasında yer alan “yarı-eğitimli” (semisupervised) algoritmalar ise etiketli verinin yanı sıra bol miktarda bulunan etiketsiz veriden faydalanarak sınıflandırma başarımını arttırabilirler. Metinsel veri madenciliği algoritmalarında geleneksel olarak kelime sepeti (bag-of-words) olarak tabir edilen model kullanılmaktadır. Kelime sepeti modeli metinde geçen kelimeleri bulundukları yerden ve birbirinden bağımsız olarak değerlendirir. Ayrıca geleneksel algoritmalardaki bir başka varsayım ise metinlerin birbirinden bağımsız ve eşit olarak dağıldıklarıdır. Sonuç olarak bu yaklaşım tarzı kelimelerin ve metinlerin birbirleri arasındaki anlamsal ilişkileri göz ardı etmektedir. Metinsel veri madenciliği alanında son yıllarda özellikle kelimeler arasındaki anlamsal ilişkilerden faydalanan çalışmalara ilgi artmaktadır. Anlamsal bilginin kullanılması geleneksel makine öğrenmesi algoritmalarının başarımını özellikle eldeki verinin az, seyrek veya gürültülü olduğu durumlarda arttırmaktadır. Gerçek hayat uygulamalarında algoritmaların eğitim için kullanacağı veri genellikle sınırlı ve gürültülüdür. Bu yüzden anlamsal bilgiyi kullanabilen algoritmalar gerçek hayat problemlerinde büyük yarar sağlama potansiyeline sahiptir. Bu projede, ilk aşamada eğitimli metinsel veri madenciliği için anlamsal algoritmalar geliştirdik. Bu anlamsal algoritmalar metin sınıflandırma ve özellik seçimi alanlarında performans artışı sağlamaktadır. Projenin ikinci aşamasında ise bu yöntemlerden yola çıkarak etiketli ve etiketsiz verileri kullanan yarı-eğitimli metin sınıflandırma algoritmaları geliştirme faaliyetleri yürüttük. Proje süresince 5 yüksek lisans tezi tamamlanmış, 1 Doktora tezi tez savunma aşamasına gelmiş, 2 adet SCI dergi makalesi yayınlanmış, 8 adet bildiri ulusal ve uluslararası konferanslar ve sempozyumlarda sunulmuş ve yayınlanmıştır. Hazırlanan 2 adet dergi makalesi ise dergilere gönderilmiş ve değerlendirme aşamasındadır. Projenin son aşamasındaki bulgularımızı içeren 1 adet konferans bildirisi 2 adet dergi makalesi de hazırlık aşamasındadır. Ayrıca proje ile ilgili olarak üniversite çıkışlı bir girişim şirketi (spin-off) kurulmuştur.en_US
dc.description.abstractTextual data mining is the process of extracting useful knowledge from large amount of textual data. In this field, classification algorithms are called supervised and clustering algorithms are called unsupervised algorithms. Between these there are semi supervised algorithms which can improve the accuracy of the classification by making use of the unlabeled data. Traditionally, bag-of-words model is being used in textual data mining algorithms. Bag-of-words model assumes that words independent from each other and their positions in the text. Furthermore, traditional algorithms assume that texts are independent and identically distributed. As a result this approach ignores the semantic relationship between words and between texts. There has been a recent interest in works that make use of the semantic relationships especially between the words. Use of semantic knowledge increase the performance of the systems especially when there are few, sparse and noisy data. In fact, there are very sparse and noisy data in real world settings. As a result, algorithms that can make use of the semantic knowledge have a great potential to increase the performance. In this project, in the first phase, we developed semantic algorithms and methods for supervised classification. These semantic algorithms provide performance improvements on text classification and feature selection. On the second phase of the project we have pursued development activities for semi-supervised classification algorithms that make use of labeled and unlabeled data, based on the methods developed in the first phase. During the project, 5 master’s thesis is completed, the PhD student is advanced to the dissertation defense stage, two articles are published on SCI indexed journals, 8 proceedings are presented in national and international conferences. Two journal articles are sent and 1 conference proceeding and two journal articles are in preparation, which include the findings of the last phase of the project. Furthermore, a spin-off technology company is founded related to the project.en_US
dc.description.sponsorshipTÜBİTAKen_US
dc.identifier.citationGaniz, M. C., Altınel, B., Yaman, U. Çakırman, E., Tutkan, M., Poyraz, M., Kilimci, Z. H., ... Engün, İ. M. (2015). Metinsel veri madenciliği için anlamsal yarı-eğitimli algoritmaların geliştirilmesi. TÜBİTAK EEEAG Projesi, Proje no: 111E239. Ankara: TÜBİTAK.en_US
dc.identifier.trdizinid614576en_US
dc.identifier.urihttps://hdl.handle.net/11376/2595
dc.indekslendigikaynakTR-Dizinen_US
dc.institutionauthorGaniz, Murat Can
dc.institutionauthorZeynep Hilal, Kilimci
dc.language.isotren_US
dc.publisherTÜBİTAKen_US
dc.relation.publicationcategoryDiğeren_US
dc.relation.tubitakinfo:eu-repo/grantAgreement/TÜBİTAK/EEEAG/111E239
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectMetinsel Veri Madenciliğien_US
dc.subjectMetin Sınıflandırmaen_US
dc.subjectYarı-Eğitimli Makina Öğrenmesien_US
dc.subjectAnlamsal Algoritmalaren_US
dc.subjectTextual Data Miningen_US
dc.subjectText Classificationen_US
dc.subjectSemi-Supervised Machine Learningen_US
dc.subjectSemantic Algorithmsen_US
dc.titleMetinsel veri madenciliği için anlamsal yarı-eğitimli algoritmaların geliştirilmesien_US
dc.typeReporten_US

Dosyalar

Orijinal paket

Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
uvt_209956.pdf
Boyut:
1.21 MB
Biçim:
Adobe Portable Document Format
Açıklama:
Yayıncı Sürümü

Lisans paketi

Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
license.txt
Boyut:
1.51 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: