2010年12月13日 星期一

Search Engine in Semantic Web (補充)

大部分的搜尋引擊都是跑一些蜘蛛機器人(spider)擷取於網頁程式中找到連至其他網頁的連結──並且儲存所找到的資料。過程中同時包含了將網頁下載並儲存至搜尋引擎擁有者的伺服器中,再經過一些SEO演算法..等等的一些處理動作。

不過搜尋後返回的結果通常都很大量,我們必須不斷點擊下一頁或看起來有相關的頁面去找尋是否是我們所需要的資料。

不過透過semantic web我們可以在HTML裡面嵌入可描述資源的RDF格式,加上各種不同領域的Ontology

我們就可以讓電腦具備一些邏輯、推理..等等的能力,用在搜尋引擊上藉由這些描述關係使關鍵字的搜尋結果更符合使用者所需要的。


比較:

1.資源分享平台需以管理員身分登入才可以進行更新,透過DOM去抓取
語意搜尋引擊則是透過crawler program 自動去收集Internet上的網頁


2.效率來說,當用戶提交關鍵字和對應的關係時,語意搜尋引擊必須去檢索資料庫中的資料建立出一個關係圖出來,且必須再從這個關係圖去切割成更符合、更精確的關係子圖才會提交給資料庫做網頁的索引並返回結果集給使用者,PAPER中有提到關鍵字過多會導致系統出狀況且時間複雜度不低。

專案資源分享平台在資料更新時,除了將資料放進資料庫外會在寫出 fact.rdf 的檔案,以RDF Triple 的關係紀錄抓取到的資料並和 Ontology 透過 Jena 去做推論,過程比較簡單;除了資料更新時如果有大量的資料才會更新比較久。


A Relation-Based Search Engine in Semantic Web
Author : Yufei Li, Yuan Wang, and Xiaotao Huang
Date : Feb. 2007
Source : IEEE