2012年4月2日 星期一

Nutch 搜尋引擎

Nutch是一個open source的軟體,以Java為基礎的搜索引擎,它提供了架設搜索引擎所需的工具,利用Lucene為函式庫並架構於Hadoop之上,可以客製自己的收尋引擎。
Nutch 會要求使用者先建立URL集再將URL集傳送給 crawldb (抓取機器人)由 crawldb 負責更新和取得新的資訊直到完成使用者要求的深度後會再建立一個索引表,就可以利用Nutch來搜尋你所以建立的資料了。
Nutch雖然是個不錯的搜尋引擎,不過還是以關鍵是搜尋的方式做搜尋,如果能把語意的搜尋方式也加入,那應該是個不錯的搜尋引擎。

沒有留言:

張貼留言