A multithreaded web crawler and text search engine

Tarımcı, Arzu Behiye

A multithreaded web crawler and text search engine

dc.contributor.advisor	Akyokuş, Selim
dc.contributor.author	Tarımcı, Arzu Behiye
dc.date.accessioned	2014-05-22T10:28:25Z
dc.date.available	2014-05-22T10:28:25Z
dc.date.issued	2009-09
dc.date.submitted	2009-09
dc.department	Doğuş Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar ve Enformasyon Bilimleri Yüksek Lisans Programı	en_US
dc.description.abstract	Without a doubt, internet is one of the best inventions in the last era. Number of internet users is more than millions. When internet users need information about something or somewhere, they visit search web sites or personal blog pages on the internet. For this purpose, many internet applications have been developed. Search Engines and data mining have shown a big improvement in the last 20 years. The developments on the internet increased the need of accessing and finding correct web resources. Raise of search engines caused to differentiation of search engine services. More intelligent search engines are important for accessing to the correct data. Search engines scan contents of the web sites and create indexes for their contents into own database using robots. Advances in search engines enable classification of subjects of the documents besides words or terms used in a document. Such search engines which have document classification property are called “Clustered Search Engines”. For determination of page categories, the data mining methods are used. In this thesis study, a web crawler and classification system has been developed. The Open Directory Project (DMOZ) is used as a training set for the classification system. The labeled (categorized) web pages which are stored in the DMOZ directory are used as an input for the classification algorithms. We used classification algorithms available in WEKA Data Mining Tool. The web crawler developed in this thesis classifies web pages according to their subjects while scanning the web pages.	en_US
dc.description.abstract	Hiç şüphe yok ki, son yüzyılımızın en iyi icatlarından bir tanesi İnternet’dir. Milyonlarca insan İnternet kullanıcısıdır. Bir bilgi aradıklarında çeşitli arama sitelerini ya da blog ismi verilen kişisel web sayfalarını ziyaret etmektedirler. Bu amaçla bir çok İnternet uygulaması geliştirilmiştir. Son yirmi yılın gelişme kaydetmiş calışma alanlarından ikisi, arama motorları ve veri madenciliğidir. İnternetin gelişmesi, web kaynaklarının erişimine, aranıp bulunmasına olan ihtiyacı arttırmıştır. Bu kullanılan arama motorlarının sayısının artmasına ve arama motoru servis tiplerinin farklılaşmasına neden olmuştur. Daha akıllı arama motorları, kullanıcının aradığına kolay ulaşabilmesi için önemlidir. Arama motorları kullandıkları robotlar ile web üzerinde bulunan kaynakları taramakta ve içeriklerini indeklemektedir. Bu indeksleri kullanarak, kullanıcılar istedikleri sayfalara erişebilmektedirler. Kullanılan indeks yapıları gelişmekte, bu indekslerde bir sayfadaki kelimeler yanında sayfanın hangi alanda olduğu konusunda da bilgi içermektedir. Konulara gore indekleme yapan arama motorları Kümeli (Clustered) Arama Motoru olarak adlandırılmaktadır. Bir sayfanın hangi konuda olduğunu belirlemek icin veri madenciliği sınıflama yöntemleri kullanılmaktadır. Bu tez calışmasında, Java platformu kullanılarak bir ağ robotu ve sınıflandırma sistemi geliştirilmiştir. Sınıflandırma sisteminde eğitim kümesi olarak Açık Dizin Projesi(DMOZ) kullanılmıstır. Açık Dizin Projesinde konularına göre etiketlenen web sayfaları taranmış ve bu sınıflandırma öğrenme algoritmalarında kullanılmıştır. Sınıflandırma için, açık kaynaklı bir veri madenciliği yazılımı olan WEKA Sınıflandırma Kütüphaneleri kullanılmıştır. Bu tezde geliştirilmiş olan ağ robotu web sayfalarını tararken, sınıflandırma algoritmalarını kullanarak aynı zamanda bu sayfaların konularını belirleyebilmektedir.	en_US
dc.identifier.citation	TARIMCI, A.B. (2009). A multithreaded web crawler and text search engine. Yayımlanmamış yüksek lisans tezi. İstanbul: Doğuş Üniversitesi Fen Bilimleri Enstitüsü.	en_US
dc.identifier.uri	https://hdl.handle.net/11376/59
dc.identifier.yoktezid	266230
dc.institutionauthor	Tarımcı, Arzu Behiye
dc.language.iso	en	en_US
dc.publisher	Doğuş Üniversitesi Fen Bilimleri Enstitüsü	en_US
dc.relation.publicationcategory	Tez	en_US
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.subject	İnternet	en_US
dc.subject	Veri Madenciliği	en_US
dc.subject	Internet	en_US
dc.subject	Data Mining	en_US
dc.title	A multithreaded web crawler and text search engine	en_US
dc.title.alternative	Paralel ağ robotu ve metin arama motoru	en_US
dc.type	Master Thesis	en_US

Dosyalar

Orijinal paket

Listeleniyor 1 - 1 / 1

İsim:: W00094.pdf
Boyut:: 2.29 MB
Biçim:: Adobe Portable Document Format
Açıklama:: Ana Dosya

İndir

Lisans paketi

Listeleniyor 1 - 1 / 1

İsim:: license.txt
Boyut:: 1.44 KB
Biçim:: Item-specific license agreed upon to submission
Açıklama:

İndir

Koleksiyon

Tez Koleksiyonu