A multithreaded web crawler and text search engine

Yükleniyor...
Küçük Resim

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Doğuş Üniversitesi Fen Bilimleri Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Without a doubt, internet is one of the best inventions in the last era. Number of internet users is more than millions. When internet users need information about something or somewhere, they visit search web sites or personal blog pages on the internet. For this purpose, many internet applications have been developed. Search Engines and data mining have shown a big improvement in the last 20 years. The developments on the internet increased the need of accessing and finding correct web resources. Raise of search engines caused to differentiation of search engine services. More intelligent search engines are important for accessing to the correct data. Search engines scan contents of the web sites and create indexes for their contents into own database using robots. Advances in search engines enable classification of subjects of the documents besides words or terms used in a document. Such search engines which have document classification property are called “Clustered Search Engines”. For determination of page categories, the data mining methods are used. In this thesis study, a web crawler and classification system has been developed. The Open Directory Project (DMOZ) is used as a training set for the classification system. The labeled (categorized) web pages which are stored in the DMOZ directory are used as an input for the classification algorithms. We used classification algorithms available in WEKA Data Mining Tool. The web crawler developed in this thesis classifies web pages according to their subjects while scanning the web pages.

Hiç şüphe yok ki, son yüzyılımızın en iyi icatlarından bir tanesi İnternet’dir. Milyonlarca insan İnternet kullanıcısıdır. Bir bilgi aradıklarında çeşitli arama sitelerini ya da blog ismi verilen kişisel web sayfalarını ziyaret etmektedirler. Bu amaçla bir çok İnternet uygulaması geliştirilmiştir. Son yirmi yılın gelişme kaydetmiş calışma alanlarından ikisi, arama motorları ve veri madenciliğidir. İnternetin gelişmesi, web kaynaklarının erişimine, aranıp bulunmasına olan ihtiyacı arttırmıştır. Bu kullanılan arama motorlarının sayısının artmasına ve arama motoru servis tiplerinin farklılaşmasına neden olmuştur. Daha akıllı arama motorları, kullanıcının aradığına kolay ulaşabilmesi için önemlidir. Arama motorları kullandıkları robotlar ile web üzerinde bulunan kaynakları taramakta ve içeriklerini indeklemektedir. Bu indeksleri kullanarak, kullanıcılar istedikleri sayfalara erişebilmektedirler. Kullanılan indeks yapıları gelişmekte, bu indekslerde bir sayfadaki kelimeler yanında sayfanın hangi alanda olduğu konusunda da bilgi içermektedir. Konulara gore indekleme yapan arama motorları Kümeli (Clustered) Arama Motoru olarak adlandırılmaktadır. Bir sayfanın hangi konuda olduğunu belirlemek icin veri madenciliği sınıflama yöntemleri kullanılmaktadır. Bu tez calışmasında, Java platformu kullanılarak bir ağ robotu ve sınıflandırma sistemi geliştirilmiştir. Sınıflandırma sisteminde eğitim kümesi olarak Açık Dizin Projesi(DMOZ) kullanılmıstır. Açık Dizin Projesinde konularına göre etiketlenen web sayfaları taranmış ve bu sınıflandırma öğrenme algoritmalarında kullanılmıştır. Sınıflandırma için, açık kaynaklı bir veri madenciliği yazılımı olan WEKA Sınıflandırma Kütüphaneleri kullanılmıştır. Bu tezde geliştirilmiş olan ağ robotu web sayfalarını tararken, sınıflandırma algoritmalarını kullanarak aynı zamanda bu sayfaların konularını belirleyebilmektedir.

Açıklama

Anahtar Kelimeler

İnternet, Veri Madenciliği, Internet, Data Mining

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

TARIMCI, A.B. (2009). A multithreaded web crawler and text search engine. Yayımlanmamış yüksek lisans tezi. İstanbul: Doğuş Üniversitesi Fen Bilimleri Enstitüsü.

Koleksiyon

Onay

İnceleme

Ekleyen

Referans Veren