郝 杰
(江蘇旅游職業(yè)學院 江蘇·揚州 225131)
當今社會正處于一個信息爆炸的時代,隨著互聯(lián)網(wǎng)技術的進一步普及,人們能夠隨時隨地在信息的海洋中暢游。信息的數(shù)量已不再成為問題,如何能夠方便快捷地獲取有效信息,乃至得到個性化的信息服務,日益成為各行各業(yè)研究的重點,隨著計算機技術的不斷深入,各類推薦算法應運而生。
近年來,隨著國家大力發(fā)展高等教育,高校在智慧校園建設方面的投入越來越多,順應 “互聯(lián)網(wǎng)+”的時代要求,高校的學習資源平臺已經(jīng)成為促進在校生學習專業(yè)知識技能的重要工具。傳統(tǒng)的學習資源平臺一般對學習資源有兩種呈現(xiàn)方式:一是資源分類索引的方式,即采用類似門戶網(wǎng)站的資源庫界面,學習圖書館資源管理的模式,將學習資源按預設的分類標準進行分組,學習者需要按一定的層級目錄查詢內容。二是搜索引擎輔助的方式,即采用搜索引擎對學習者給出的關鍵字進行檢索,匹配出目標內容推薦給用戶。以上兩種方式都較為成熟,但也存在著一些問題,歸納起來主要有:
首先資源獲取效率不高。用戶獲取資源有賴于系統(tǒng)對標簽或關鍵字的認定,對資源內容的優(yōu)劣無法判定,學習者易獲得無效資源或低質資源;其次資源的檢索,受用戶關鍵字選取的準確性和自身知識的有限性影響,海量的信息資源無法進入學習者視野。再次個性化程度較低。資源的組織方式嚴重依賴于資源的管理者,系統(tǒng)無法根據(jù)用戶的個人學習狀況或學習偏好給出推薦。
綜上,推薦算法在高校學習資源平臺的應用必將成為趨勢。本文構建了采用協(xié)同過濾算法優(yōu)化學習資源平臺,使其能夠主動為廣大學習者提供個性化推薦服務。
協(xié)同過濾算法(collaborative filtering)是一種產(chǎn)生較早,應用相對較為廣泛的推薦算法。通過對用戶歷史行為的數(shù)據(jù)挖掘,進行用戶特征分析,歸納出相似性較高的用戶集合,從其偏好中計算得出推薦內容的集合。協(xié)同過濾算法主要分為兩類,分別是基于用戶的協(xié)同過濾算法 (user-based collaborative filtering),和基于物品的協(xié)同過濾算法 (itembased collaborative filtering)。
基于用戶的協(xié)同過濾算法,是建立在“偏好接近的不同用戶對同一資源的評價接近”這一基本思路上的。是通過分析用戶的歷史操作,以相近偏好作為評價標準劃分出相似的鄰近用戶集合,進一步計算出集合中與目標用戶相似度最高的鄰近用戶,并將其偏好內容推薦給目標用戶。如圖1所示,對圖中用戶的歷史操作進行分析后,可以看出A 用戶與目標用戶相似度最高,為最鄰近用戶,故將學習資源“數(shù)據(jù)結構”推薦給目標用戶。
圖1:基于用戶的協(xié)同過濾算法示意圖
基于物品的協(xié)同過濾算法,其基本原理和基于用戶的協(xié)同過濾算法類似,區(qū)別在于基于物品的協(xié)同過濾算法是從資源的角度尋找推薦資源,是建立在“同一個用戶所選擇的不同資源之間具有相似特征”這一基本思路上的。如圖2所示,凡是選擇了“微課2”資源的用戶均同樣選擇了“微課4”,則認為這兩個資源具有較高相似度。此時,當目標用戶選擇了“微課2”資源后,可將“微課4”資源推薦給他。
圖2:基于物品的協(xié)同過濾算法示意圖
兩種協(xié)同過濾算法各有其優(yōu)缺點,但考慮到高校學習資源智能推薦平臺面對的用戶群體相對固定,結構單一,用戶數(shù)據(jù)維護較為簡單,且多以專業(yè)背景聚合,推薦平臺更需要解決的是多樣性不足的問題,以開拓用戶的學習視野,故而偏向以基于用戶的協(xié)同過濾算法作為平臺推薦算法的基礎。
推薦算法的核心在于構建具有較強相似性的鄰近用戶集合。為此,首先要做的就是得出每個用戶對資源評價的矩陣。
用戶對資源的評分可以根據(jù)平臺系統(tǒng)的需要設計評分項目及其所占權重。由于用戶在使用資源過程中,對資源的評價存在惰性和隨意性,為進一步提高學習資源智能推薦平臺所推薦資源的有效性,在構建評價矩陣過程中,設計評分項目既需要有顯式評分項目,也需要設置足夠的隱式評分項目,以便更加準確的建立用戶偏好檔案。具體評分項目及權重構成如表1。
表1:用戶—資源評分項目表
我們假設平臺注冊用戶集合為U={u1,u2,……,um},平臺擁有的資源集合為 R={r1,r2,……,rn},則全部用戶對資源的歷史評分構成的 “用戶—資源”評分矩陣為P,其中Pmn 為用戶um 對資源rn 的評分,如圖3。
圖3:“用戶—資源”評分矩陣
得到“用戶—資源”評分矩陣后,即可根據(jù)其中的分值構建鄰近用戶集合。我們以假定的5個用戶對2 個資源的評分為例找尋特征相似用戶,截取用戶歷史操作評分表如表2。
表2:“用戶—資源評分表”
將評分數(shù)據(jù)放入二維坐標內,得到散點圖。在圖4中可以明顯看出用戶A、C、D相似性較高。
圖4:“用戶—資源評分”散點圖
根據(jù)以上內容,為了能夠進一步量化復雜狀態(tài)下多個用戶對多個資源的評價的相似度,我們采用皮爾遜相似度計算方法,其計算公式如下:
其中Ui表示指定用戶的評分向量,即ui={pi1,pi2,……,pin}。Yi表示用戶Ui評分制非空的項目集合。i表示用戶Ui所有評分的平均值。計算得出的皮爾遜相關性系數(shù),通常認為取值在0.0-0.2為極弱相關或無相關,取值在0.8-1.0為極強相關,取值越偏向1,則正相關性越強。
完成目標用戶與其他用戶之間的相似度計算之后,可以采用設置相似度系數(shù)閾值或者取Top-n最鄰近用戶等方式,最終形成目標用戶的最鄰近用戶集合。
推薦算法的最終目的是向目標用戶推薦其可能喜好的資源,資源的來源為最鄰近用戶集合中已評分資源得分均值較高、且為目標用戶尚未評分的資源。我們根據(jù)以下公式求得最鄰近用戶對項目評分的均值。
本文提出的高校學習資源智能推薦平臺如圖5所示,主要由資源檔案管理模塊、用戶檔案管理模塊、網(wǎng)頁管理模塊、智能推薦模塊等方面構成。其中,用戶檔案管理模塊需在記錄用戶主動提供的注冊信息的基礎上,記錄和整理用戶的行為數(shù)據(jù),形成完整的用戶檔案。智能推薦模塊匹配資源檔案和用戶檔案中的數(shù)據(jù),建立預測評分,并使用協(xié)同過濾算法生成推薦列表后提交至網(wǎng)頁管理模塊。
圖5:高校學習資源智能推薦平臺架構
協(xié)同過濾算法的使用,提高了資源推薦的有效性,能夠為平臺用戶提供動態(tài)更新的個性化推薦服務,但其不能作為整個平臺的唯一推薦策略。根據(jù)新老用戶的不同特性,根據(jù)平臺不同板塊的功能劃分,可以采用多種策略分工組合的方式。
平臺首頁:可以對于新上傳資源進行廣告式推薦;根據(jù)用戶專業(yè)、年級等基本信息,排序符合基本特征的資源進行直接推薦;根據(jù)平臺限時活動進行資源推薦等。
商品搜索頁:采用關鍵字匹配;相同關鍵字優(yōu)先級排序策略等。
猜你喜歡:用戶點擊量及時序綜合排序推薦;協(xié)同過濾算法推薦。
協(xié)同過濾算法的應用非常廣泛,但其本身也存在冷啟動問題、稀疏性問題、可拓展新問題等不足,可以通過調整預測評分計算的相應指標或改進算法加以優(yōu)化。