2011年10月31日 星期一

Correlating User Profiles from Multiple Folksonomies

隨著網路越來越蓬勃發展,每個人在網路上總會有著許多個電子身分,舉凡是blog、e-mail、網站會員等等,都包含著自己的個人檔案資料,而在現在這個資訊爆發的時代,要如何去管理、控管及合併這些個人資料是非常繁瑣且複雜的,這篇論文就這個問題去做探討。

利用基於folksonomy的tag去建置各user profile的tag cloud,並提出一個過濾機制來將這些複雜的tag做個整合,減少其複雜度,然後再利用tag cloud之間的交疊程度來判別user profile之間的差異程度,以此來對檔案資料作分析。

Folksonomy
Web2.0中最能表現出群眾分類的就是tag的使用,由各使用者自行所制定的tag,可以呈現出一定程度的興趣、專業領域等等資訊,且tag在目前許多網站皆有其應用,例如網路書籤管理delicious、圖片影像flickr、影音視訊youtube....等網站都廣泛的使用tag來對檔案作標示。

User profile

在網路註冊身分時,總會輸入一些關於個人的基本資訊,而這些資訊就是profile,藉由這些內容可以知道該使用者的專業領域、身分、興趣等資料,並由這些資料來作為一個推薦系統的根據,來提高此系統的精確度。

上圖是由delicious以及flickr中所挑選出來的user profile,可以由profile中的tag比對,得知其中大部分的tag是相同、互相交疊的,因此可以大致推斷這兩個profile是屬於同一個user的。

Data Gathering
此論文將delicious以及flickr的tag作整合來實做此系統

上為這兩個網站的tag集合(U為使用者、T為TAG名稱、R為資源),下為兩網站TAG的交疊程度


並依此將數據化作下表

每個+為一個user tag cloud,縱軸為雲中的tag交集度,橫軸為雲中的總tag數,由此圖可以看出「隨著雲中tag總數的增加,交集的程度也會提高」,稍後會依照此數據作為標準,並透過tag過濾系統來做改善。

Filtering
由於folksonomy主張的是bottom-up,由各使用者所自訂tag來標示,因此可能會有錯別字、異字同義等情況發生,進而造成辨識的複雜度,因此本文提出了一個過濾的系統,下圖為此系統之架構圖:

首先是透過reader將tag資料讀入,並經由過濾模組來匯整出tag群,以下是過濾的五個步驟:

  1. 首先是未經處理的tag經由句法過濾,將過短、過長以及錯誤片語過濾掉
  2. 再來經由wordnet將一些字元統一
  3. 再藉由google搜尋引擎更正錯別字,或尋找最相近字元
  4. 再經由wiki尋找相近字詞
  5. 最後再次經由wordnet作字詞統一,完成過濾步驟
Evaluation

由上面圖表可以清楚看到,每經過一個步驟,tag的交集程度都會往上提升,這是由於過濾系統已經將部份類似的tag作統一整理,以此來降低tag的分歧度,更容易看出該profile的領域方向來作為推薦系統的依據。

心得
此論文所提出的五步驟過濾系統非常有趣,藉由反覆對照過濾,來達到越來越精準的效果,利用過濾出來的tag叢集,可以清楚知道該user所擅長/感興趣的領域,以此來對該user的多個profile做一個整合的動作更為方便且精準,也可藉此找出擁有同樣領域/興趣的使用者群,藉由此論文所提出的過濾系統,應該能更容易將folksonomy與語意網做合併以及發展。