國立虎科資工。雲端軟體實驗室: 10月 2011

隨著網路越來越蓬勃發展，每個人在網路上總會有著許多個電子身分，舉凡是blog、e-mail、網站會員等等，都包含著自己的個人檔案資料，而在現在這個資訊爆發的時代，要如何去管理、控管及合併這些個人資料是非常繁瑣且複雜的，這篇論文就這個問題去做探討。

利用基於folksonomy的tag去建置各user profile的tag cloud，並提出一個過濾機制來將這些複雜的tag做個整合，減少其複雜度，然後再利用tag cloud之間的交疊程度來判別user profile之間的差異程度，以此來對檔案資料作分析。

Folksonomy
Web2.0中最能表現出群眾分類的就是tag的使用，由各使用者自行所制定的tag，可以呈現出一定程度的興趣、專業領域等等資訊，且tag在目前許多網站皆有其應用，例如網路書籤管理delicious、圖片影像flickr、影音視訊youtube....等網站都廣泛的使用tag來對檔案作標示。

User profile
在網路註冊身分時，總會輸入一些關於個人的基本資訊，而這些資訊就是profile，藉由這些內容可以知道該使用者的專業領域、身分、興趣等資料，並由這些資料來作為一個推薦系統的根據，來提高此系統的精確度。

上圖是由delicious以及flickr中所挑選出來的user profile，可以由profile中的tag比對，得知其中大部分的tag是相同、互相交疊的，因此可以大致推斷這兩個profile是屬於同一個user的。

Data Gathering
此論文將delicious以及flickr的tag作整合來實做此系統

上為這兩個網站的tag集合(U為使用者、T為TAG名稱、R為資源)，下為兩網站TAG的交疊程度

並依此將數據化作下表

每個+為一個user tag cloud，縱軸為雲中的tag交集度，橫軸為雲中的總tag數，由此圖可以看出「隨著雲中tag總數的增加，交集的程度也會提高」，稍後會依照此數據作為標準，並透過tag過濾系統來做改善。

Filtering
由於folksonomy主張的是bottom-up，由各使用者所自訂tag來標示，因此可能會有錯別字、異字同義等情況發生，進而造成辨識的複雜度，因此本文提出了一個過濾的系統，下圖為此系統之架構圖：

首先是透過reader將tag資料讀入，並經由過濾模組來匯整出tag群，以下是過濾的五個步驟：

首先是未經處理的tag經由句法過濾，將過短、過長以及錯誤片語過濾掉
再來經由wordnet將一些字元統一
再藉由google搜尋引擎更正錯別字，或尋找最相近字元
再經由wiki尋找相近字詞
最後再次經由wordnet作字詞統一，完成過濾步驟

Evaluation

由上面圖表可以清楚看到，每經過一個步驟，tag的交集程度都會往上提升，這是由於過濾系統已經將部份類似的tag作統一整理，以此來降低tag的分歧度，更容易看出該profile的領域方向來作為推薦系統的依據。

心得
此論文所提出的五步驟過濾系統非常有趣，藉由反覆對照過濾，來達到越來越精準的效果，利用過濾出來的tag叢集，可以清楚知道該user所擅長/感興趣的領域，以此來對該user的多個profile做一個整合的動作更為方便且精準，也可藉此找出擁有同樣領域/興趣的使用者群，藉由此論文所提出的過濾系統，應該能更容易將folksonomy與語意網做合併以及發展。

國立虎科資工。雲端軟體實驗室

2011年10月31日星期一

Correlating User Profiles from Multiple Folksonomies

2011年10月31日 星期一

Correlating User Profiles from Multiple Folksonomies

2011年10月31日星期一