以recommenderlab與Mahout建置應用於圖書館推薦系統
這次的專案名為其上,個人是負責recommenderlab部分,使用語言為R
緒論
「圖書館」人們都很普遍地了解這是一個什麼樣的地方,這是一個提供我們資料,讓我們知識提升的地方。提升圖書館書籍的借閱率,良好的資源,被良好的利用,是我們小組的最終目的,而我們將以系統的方式來解決目前的困境。
以「國立虎尾科技大學」圖書館之借閱資料作為我們開發系統數據的依據,我們將從這些數據當中,以資料探勘 – 大數據分析的分析方式去分析出你可以會想看的書籍,進而以系統的方式推薦予你。甚至分析出借閱書籍之熱門排行榜等,幫助不知道該看什麼書、認為圖書館的書都不適合我、太艱深難懂、沒有找尋所想要的資料方向等等疑問的人。
在實驗階段,我們大量的分析與驗證結果之準確性,並且我們小組也以多人之借閱紀錄去分析出我們於國立虎尾科技大學圖書館中曾借閱過哪些書籍,進而了解我們當下比較傾向哪方面的知識需求,且驗證成功。
以下為這次的核心服務內容:
使用了UBCF與IBCF兩演算法進行計算
UBCF (User -based Collaborative Filtering)
User-based CF 是屬於以過去資料為基礎(Memory based)的協同過濾技術(Collaborative Filtering),利用分析大量使用者的歷史評分資料來試圖模擬特定使用者對特定物品的評分。而該演算法是假設相似偏好的使用者會給物品相似的評分,因此可藉由蒐集大量偏好相似使用者評分資料來分析預測特定使用者缺少的評分資料。
IBCF (Item-based Collaborative Filtering)
Item-based Collaborative Filtering(IBCF) 是以UBCF的資料為基礎來推估項目之間的關係,在藉由產品的相似度來推薦產品的模組方法。此方法的假設是使用者傾向給相似的產品相似的評分,而此模組建構方式為計算出一個以品項為基礎的相似矩陣,該矩陣內記載所有項目之間的相似程度,以該矩陣來作為推薦商品的依據,而計算品項相似方法IBCF相同皆是以皮爾生相關係數(Pearson’s correlation coefficient)和餘絃相似度(cosine similarity)兩者最被普遍使用。
資料評分方式採用 RFM model
在關係管理的分析模式中,RFM模型是被廣泛提到的。RFM模型是衡量使用者關係的重要工具和手段。該模型通過一個使用者的近期行為、使用的總體頻率以及行為價值三項指標來描述該使用者的價值狀況。分別是「Arthur Hughes 使用者五等分法」、「Bob stone RFM」與「Shaw et al. RFM」等三個常用RFM模型。
為了設計出一套能夠有效進行個人化推薦的圖書推薦系統,整體研究流程如下所示:
在整體的研究設計上,透過文獻探討確定整體的實驗方向後,我們整體研究分成兩大部分,一部分著重於演算法的實驗,另一部份則是實際架設圖書館個人化推薦系統。演算法實驗目的在於找出適合用於圖書館推薦系統的演算法,並將這套演算法加以應用至推薦系統內。
而另一方面,透過推薦系統的設計與架設,我們將實際打造一個可用的推薦系統,提供可靠的個人化推薦服務。並在所有研究結束後做出結論與對未來方向的建議。
本次研究中所設計的系統主要有四個關鍵核心,分別是『網頁爬蟲程式』、『訓練資料集產生器』、『推薦系統運算核心』及『推薦服務中心』。這四項核心採取低耦合度設計,每項核心都可以分開運作於不同平台上,藉以提高整個系統在設計上的彈性。
全論文下載網址:https://drive.google.com/open?id=0By3eH68ZHtikVlhLVHAzSUpSMGM
1 thought on “圖書館館藏推薦系統[IBCF、UBCF]”