A multithreaded web crawler and text search engine

dc.contributor.advisorAkyokuş, Selim
dc.contributor.authorTarımcı, Arzu Behiye
dc.date.accessioned2014-05-22T10:28:25Z
dc.date.available2014-05-22T10:28:25Z
dc.date.issued2009-09
dc.date.submitted2009-09
dc.departmentDoğuş Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar ve Enformasyon Bilimleri Yüksek Lisans Programıen_US
dc.description.abstractWithout a doubt, internet is one of the best inventions in the last era. Number of internet users is more than millions. When internet users need information about something or somewhere, they visit search web sites or personal blog pages on the internet. For this purpose, many internet applications have been developed. Search Engines and data mining have shown a big improvement in the last 20 years. The developments on the internet increased the need of accessing and finding correct web resources. Raise of search engines caused to differentiation of search engine services. More intelligent search engines are important for accessing to the correct data. Search engines scan contents of the web sites and create indexes for their contents into own database using robots. Advances in search engines enable classification of subjects of the documents besides words or terms used in a document. Such search engines which have document classification property are called “Clustered Search Engines”. For determination of page categories, the data mining methods are used. In this thesis study, a web crawler and classification system has been developed. The Open Directory Project (DMOZ) is used as a training set for the classification system. The labeled (categorized) web pages which are stored in the DMOZ directory are used as an input for the classification algorithms. We used classification algorithms available in WEKA Data Mining Tool. The web crawler developed in this thesis classifies web pages according to their subjects while scanning the web pages.en_US
dc.description.abstractHiç şüphe yok ki, son yüzyılımızın en iyi icatlarından bir tanesi İnternet’dir. Milyonlarca insan İnternet kullanıcısıdır. Bir bilgi aradıklarında çeşitli arama sitelerini ya da blog ismi verilen kişisel web sayfalarını ziyaret etmektedirler. Bu amaçla bir çok İnternet uygulaması geliştirilmiştir. Son yirmi yılın gelişme kaydetmiş calışma alanlarından ikisi, arama motorları ve veri madenciliğidir. İnternetin gelişmesi, web kaynaklarının erişimine, aranıp bulunmasına olan ihtiyacı arttırmıştır. Bu kullanılan arama motorlarının sayısının artmasına ve arama motoru servis tiplerinin farklılaşmasına neden olmuştur. Daha akıllı arama motorları, kullanıcının aradığına kolay ulaşabilmesi için önemlidir. Arama motorları kullandıkları robotlar ile web üzerinde bulunan kaynakları taramakta ve içeriklerini indeklemektedir. Bu indeksleri kullanarak, kullanıcılar istedikleri sayfalara erişebilmektedirler. Kullanılan indeks yapıları gelişmekte, bu indekslerde bir sayfadaki kelimeler yanında sayfanın hangi alanda olduğu konusunda da bilgi içermektedir. Konulara gore indekleme yapan arama motorları Kümeli (Clustered) Arama Motoru olarak adlandırılmaktadır. Bir sayfanın hangi konuda olduğunu belirlemek icin veri madenciliği sınıflama yöntemleri kullanılmaktadır. Bu tez calışmasında, Java platformu kullanılarak bir ağ robotu ve sınıflandırma sistemi geliştirilmiştir. Sınıflandırma sisteminde eğitim kümesi olarak Açık Dizin Projesi(DMOZ) kullanılmıstır. Açık Dizin Projesinde konularına göre etiketlenen web sayfaları taranmış ve bu sınıflandırma öğrenme algoritmalarında kullanılmıştır. Sınıflandırma için, açık kaynaklı bir veri madenciliği yazılımı olan WEKA Sınıflandırma Kütüphaneleri kullanılmıştır. Bu tezde geliştirilmiş olan ağ robotu web sayfalarını tararken, sınıflandırma algoritmalarını kullanarak aynı zamanda bu sayfaların konularını belirleyebilmektedir.en_US
dc.identifier.citationTARIMCI, A.B. (2009). A multithreaded web crawler and text search engine. Yayımlanmamış yüksek lisans tezi. İstanbul: Doğuş Üniversitesi Fen Bilimleri Enstitüsü.en_US
dc.identifier.urihttps://hdl.handle.net/11376/59
dc.identifier.yoktezid266230
dc.institutionauthorTarımcı, Arzu Behiye
dc.language.isoenen_US
dc.publisherDoğuş Üniversitesi Fen Bilimleri Enstitüsüen_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectİnterneten_US
dc.subjectVeri Madenciliğien_US
dc.subjectInterneten_US
dc.subjectData Miningen_US
dc.titleA multithreaded web crawler and text search engineen_US
dc.title.alternativeParalel ağ robotu ve metin arama motoruen_US
dc.typeMaster Thesisen_US

Dosyalar

Orijinal paket

Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
W00094.pdf
Boyut:
2.29 MB
Biçim:
Adobe Portable Document Format
Açıklama:
Ana Dosya

Lisans paketi

Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
license.txt
Boyut:
1.44 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama:

Koleksiyon