楊 卓,周魯東,李鳳岐,夏 鋒
(大連理工大學(xué) 軟件學(xué)院,遼寧 大連 116620)
隨著信息技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)學(xué)習(xí)已經(jīng)成為當(dāng)代教育背景下學(xué)習(xí)的重要方式,而且許多地區(qū)和院校都建立了區(qū)域性的資源共享網(wǎng)絡(luò),網(wǎng)絡(luò)資源十分豐富。然而在網(wǎng)絡(luò)為學(xué)習(xí)者提供學(xué)習(xí)便捷的同時(shí)也存在著一些需要解決的問(wèn)題。比如在如此豐富的網(wǎng)絡(luò)資源中,學(xué)習(xí)者經(jīng)常迷失于大量的信息空間中,無(wú)法及時(shí)找到自己需要的資源。這種現(xiàn)象的存在,一方面使優(yōu)質(zhì)的資源得不到充分的利用;另一方面,浪費(fèi)了用戶(hù)大量的時(shí)間,因此有必要實(shí)現(xiàn)高效的優(yōu)質(zhì)資源推薦策略,來(lái)幫助學(xué)習(xí)者更高效的找到其所需的資源信息,以提高學(xué)習(xí)的效率[1]。
資源推薦策略一般分為兩種:顯式的推薦和隱式的推薦。顯式的推薦指的是傳統(tǒng)意義上的資源檢索服務(wù),根據(jù)用戶(hù)的請(qǐng)求,服務(wù)器被動(dòng)響應(yīng),為了使這種推薦更為高效,有時(shí)會(huì)輔以專(zhuān)家評(píng)價(jià);與之相對(duì)的是隱式的推薦,隱式的推薦指的是根據(jù)用戶(hù)的歷史學(xué)習(xí)記錄,展開(kāi)有針對(duì)性的個(gè)性化資源推薦。而個(gè)性化的資源推薦能夠最大程度的考慮學(xué)習(xí)者的個(gè)人喜好,學(xué)習(xí)習(xí)慣和學(xué)習(xí)需求,因而對(duì)用戶(hù)本身的學(xué)習(xí)顯得意義重大。當(dāng)前,我國(guó)的教育資源推薦發(fā)展緩慢,且尚未出現(xiàn)十分高效的優(yōu)質(zhì)資源推薦策略。然而在電子商務(wù)中,購(gòu)物推薦發(fā)展比較迅速,比如Amazon、當(dāng)當(dāng)網(wǎng)的購(gòu)物推薦,均能給我們帶來(lái)比較有效的,符合需求的商品推薦,這對(duì)我們研究針對(duì)優(yōu)質(zhì)教學(xué)資源的推薦策略有重要的指導(dǎo)意義,因此,我們可以借助鑒購(gòu)物推薦的經(jīng)驗(yàn),展開(kāi)對(duì)于優(yōu)質(zhì)教學(xué)資源推薦的研究[2]。
基于此,本文作者提出了結(jié)合Pearson相關(guān)性計(jì)算和標(biāo)簽的教學(xué)資源推薦策略,這種策略將傳統(tǒng)意義上的Pearson相關(guān)性計(jì)算進(jìn)行“倒置”,即將Pearson相關(guān)性計(jì)算的對(duì)象進(jìn)行轉(zhuǎn)換,即通過(guò)將用戶(hù)對(duì)資源的評(píng)價(jià)轉(zhuǎn)化成資源相關(guān)性分析的驅(qū)動(dòng)因子而非資源的聚類(lèi),結(jié)合資源的標(biāo)簽,綜合獲得資源之間的相關(guān)性,并利用用戶(hù)的下載記錄來(lái)進(jìn)行有針對(duì)性的個(gè)性化資源推薦[3]。
基于資源相關(guān)性的教學(xué)資源推薦機(jī)制:資源被上傳后,用戶(hù)可進(jìn)行下載,該機(jī)制提供評(píng)價(jià)系統(tǒng),供用戶(hù)對(duì)其瀏覽或下載后資源的優(yōu)良做出自己的主觀評(píng)價(jià),資源的質(zhì)量?jī)?yōu)劣由1~5的分值來(lái)量化:1分代表很差,以此遞增,5分代表很好,值得推薦。用戶(hù)可根據(jù)自己的體驗(yàn),對(duì)資源進(jìn)行主觀的基于分值的量化,用戶(hù)對(duì)資源的評(píng)價(jià)將被儲(chǔ)存到數(shù)據(jù)庫(kù)中。經(jīng)過(guò)長(zhǎng)時(shí)間的數(shù)據(jù)積累,特定類(lèi)型和質(zhì)量的資源會(huì)具有相對(duì)固定的特征,從而呈現(xiàn)出資源之間質(zhì)量的差異性和資源類(lèi)型之間的差異性,這樣就可以對(duì)相似的資源進(jìn)行聚類(lèi)。進(jìn)行聚類(lèi)的一種比較容易和直接的算法是歐幾里的距離評(píng)價(jià),基本思想是:對(duì)于資源 A 和 B 的評(píng)分組成以下向量 VA(a1,a2,a3,…,am)和VB(b1,b2,b3,…,bn),其中,a 和 b 為資源的評(píng)分,篩選出同一用戶(hù)對(duì)資源A和B都進(jìn)行了評(píng)價(jià)的向量:VA’(a1,a2,a3,…,ak)和 VB’(b1,b2,b3,…,bk),其中 ai和 bi為同一用戶(hù)對(duì)資源A和B的評(píng)分。ai-bi體現(xiàn)了用戶(hù)對(duì)于資源A和B相關(guān)性的主觀評(píng)價(jià)的差值,很顯然,當(dāng)兩個(gè)資源的相關(guān)性比較好的時(shí)候,距離較短,此差值比較小。計(jì)算:sqrt=√(ai-bi)2,可以得出資源相似性的估計(jì)值,sqrt越小,相似性越大。此算法比較容易計(jì)算,但存在缺陷,即當(dāng)某些用戶(hù)總是傾向于給出更高的評(píng)價(jià)時(shí),會(huì)產(chǎn)生較大的偏差。因此,在用戶(hù)要求比較苛刻,或者需要更加精確的結(jié)果的時(shí)候,此方法并不適用[4]。
目前比較受認(rèn)可的是Pearson的相關(guān)度評(píng)價(jià)算法。Pearson的算法較為復(fù)雜,但是它在數(shù)據(jù)不是很規(guī)范時(shí),相比歐幾里的距離評(píng)價(jià)算法能得到更好的結(jié)果,因此,在不是顯著增加計(jì)算負(fù)擔(dān)的時(shí)候,采用此算法是合適的。
本文還認(rèn)為用戶(hù)對(duì)自己上傳的資源應(yīng)有較深刻的認(rèn)識(shí),因此基于資源相關(guān)性的資源推薦機(jī)制還設(shè)置了資源標(biāo)簽。資源在上傳時(shí),提供資源標(biāo)簽,供上傳用戶(hù)對(duì)資源進(jìn)行描述。該描述能夠從整體上定位資源的分類(lèi),會(huì)對(duì)資源的聚類(lèi)結(jié)果產(chǎn)生影響。
綜合以上兩點(diǎn),可以得出整體的相關(guān)性描述為——基于評(píng)分的相關(guān)性+基于標(biāo)簽的相關(guān)性,因此可進(jìn)行如下的推薦:根據(jù)用戶(hù)對(duì)資源評(píng)分和資源本身的標(biāo)簽,綜合計(jì)算資源的相關(guān)性,如果用戶(hù)對(duì)某些資源比較感興趣,根據(jù)資源的相關(guān)性,推薦相似的資源。
Pearson的基本思想是擬合,在本次應(yīng)用中,本文將原始Pearson算法中的計(jì)算對(duì)象“倒置”,將計(jì)算對(duì)象轉(zhuǎn)化成資源的相關(guān)性。首先在二維坐標(biāo)中,(ai,bi)代表一個(gè)點(diǎn),通過(guò)對(duì)所有{(ai,bi)|ai∈VA,bi∈VB}點(diǎn)進(jìn)行線(xiàn)性的擬合,可以得出量化的擬合效果,如果擬合的效果比較好,表明資源A和B具有較好的相關(guān)性。由于這種擬合是基于用戶(hù)對(duì)資源的主觀感受計(jì)算出來(lái)的,因此這種相關(guān)性不僅體現(xiàn)在質(zhì)量,而且對(duì)資源的類(lèi)型也有適當(dāng)?shù)捏w現(xiàn)。通過(guò)擬合的效果可以對(duì)資源進(jìn)行分類(lèi)。
具體計(jì)算步驟如下[5]:
(1)得到對(duì)特定資源A和B的用戶(hù)評(píng)分的向量VA(a1,a2,a3,…,am)和 VB(b1,b2,b3,…,bn)。
(2)過(guò)濾 VA和 VB,使 VA和 VB中包含的 ai和 bi為同一用戶(hù)的評(píng)價(jià)(i≤m,i≤n),這樣得到 VA’(a1,a2,a3,…,ak)和 VB’(b1,b2,b3,…,bk)。
(3)如果統(tǒng)計(jì)的結(jié)果k為0,則當(dāng)前沒(méi)有用戶(hù)對(duì)這兩個(gè)資源都進(jìn)行了評(píng)價(jià),暫時(shí)無(wú)法得出資源的相關(guān)性,默認(rèn)返回0。否則進(jìn)入第4步。
(7)計(jì)算皮爾遜相關(guān)性:
如果den=0,則說(shuō)明資源的相關(guān)性為0,返回0
否則,r1=(num/den)
返回r1。
r1即為基于評(píng)分的資源相關(guān)性的計(jì)算值。
資源在上傳時(shí),本推薦機(jī)制要求用戶(hù)提供資源描述的關(guān)鍵字,即標(biāo)簽,關(guān)鍵字的描述能夠從整體上定位資源的分類(lèi),并對(duì)資源的聚類(lèi)結(jié)果產(chǎn)生影響,基于標(biāo)簽的相關(guān)性的具體算法如下:
(1)得到對(duì)特定資源 A 和 B 的標(biāo)簽 TA(ta1,ta2,…,tam)和 TB(tb1,tb2,…,tbn)。
(2)比較 tai和 tbi,其中 0≤i≤m,0≤j≤n。獲得 ta和 tb相等的個(gè)數(shù),賦值給count。
(3)獲得 max=max(m,n)。
(4)規(guī)定 r2=(count/max)。
r2即為基于標(biāo)簽的資源相關(guān)性的計(jì)算值。
最后對(duì)結(jié)果進(jìn)行歸一化處理:
綜合相關(guān)性:r=α*r1+(1-α)*r2,0≤α≤1。 α 的值根據(jù)具體環(huán)境和推薦效果進(jìn)行調(diào)整。
最后考慮用戶(hù)最近的下載情況,當(dāng)用戶(hù)下載了某一資源時(shí),本機(jī)制將從資源的相關(guān)性表中選擇與用戶(hù)所下載的資源相關(guān)性最高的資源,更新到用戶(hù)的資源推薦列表中并顯示出來(lái)。
需要特別注意的問(wèn)題——
更新策略:在資源比較多的情況下,鑒于每?jī)蓚€(gè)資源之間都需要進(jìn)行計(jì)算,計(jì)算量較大,故此選擇合適的時(shí)間點(diǎn)進(jìn)行以上過(guò)程以更新數(shù)據(jù)顯得尤為重要。例如:可采用數(shù)據(jù)庫(kù)中的在某一具體時(shí)間觸發(fā)的Job的機(jī)制,在某一特定的,用戶(hù)在線(xiàn)量較少的時(shí)間點(diǎn)觸發(fā)計(jì)算過(guò)程,以進(jìn)行數(shù)據(jù)更新。
新用戶(hù)的資源推薦:由于新添加的用戶(hù)并未下載任何資源,故此以上過(guò)程對(duì)于新用戶(hù)無(wú)效。這種情況下需要根據(jù)歷史的統(tǒng)計(jì)信息,為用戶(hù)推薦下載量最高的資源,或者是用戶(hù)質(zhì)量評(píng)價(jià)最高的資源[6]。
資源的特殊性:當(dāng)用戶(hù)下載某一資源,且在此資源與其他的資源均相關(guān)性不高的情況下(設(shè)定某一閾值),本推薦機(jī)制向用戶(hù)推薦的是下載量最高的資源,或者是用戶(hù)質(zhì)量評(píng)價(jià)最高的資源。
假設(shè)本文作者所提出的優(yōu)質(zhì)資源推薦策略應(yīng)用系統(tǒng)擁有N個(gè)資源,則進(jìn)行基于評(píng)分的相關(guān)性計(jì)算需要進(jìn)行N*(N-1)次,而且本機(jī)制采用在特定時(shí)間進(jìn)行計(jì)算的方式,故此計(jì)算負(fù)擔(dān)不是很重。而基于標(biāo)簽的相關(guān)性計(jì)算更為便捷,資源的標(biāo)簽是描述資源的關(guān)鍵字,有嚴(yán)格的長(zhǎng)度限制。加入標(biāo)簽的額平均長(zhǎng)度是M(一般不超過(guò)5),在擁有N個(gè)資源的系統(tǒng)中,需要關(guān)鍵字之間的比較次數(shù)是N*M2。因此,以上本推薦機(jī)制所采用的資源相關(guān)性算法,在計(jì)算上具有很高的實(shí)用性。
以上所闡述的過(guò)程經(jīng)過(guò)計(jì)算所得到的是資源的相關(guān)性,以往,用戶(hù)在進(jìn)行資源的搜索時(shí),很少能夠在一次搜索的結(jié)果下得到其所需要的資源。而在本推薦機(jī)制下,用戶(hù)根據(jù)其他用戶(hù)下載的歷史記錄,被推薦與下載結(jié)果最為相近的資源,在一定程度上滿(mǎn)足了用戶(hù)的資源需求。
如果想要比較及時(shí)的根據(jù)用戶(hù)需求的改變進(jìn)行更加準(zhǔn)確的推薦,可以調(diào)整以上算法對(duì)資源更新的計(jì)算頻率,以達(dá)到資源的實(shí)時(shí)推薦,從而達(dá)到動(dòng)態(tài)的個(gè)性化推薦。
本文所提出的資源推薦策略是需要進(jìn)行自我學(xué)習(xí)的,即經(jīng)過(guò)對(duì)歷史數(shù)據(jù)的處理和過(guò)濾,通過(guò)以上方式得到推薦的資源屬于經(jīng)過(guò)過(guò)濾的優(yōu)質(zhì)資源,隨著歷史數(shù)據(jù)的不斷積累,資源推薦的準(zhǔn)確性將會(huì)越來(lái)越高。
本文作者在Talent教學(xué)管理系統(tǒng)中部署了該優(yōu)質(zhì)資源推薦策略,當(dāng)用戶(hù)下載某一資源時(shí),系統(tǒng)會(huì)自動(dòng)將與被下載資源相關(guān)性較強(qiáng)的資源推薦給用戶(hù),以試圖減少用戶(hù)的資源搜索時(shí)間,提高優(yōu)質(zhì)資源的利用率。系統(tǒng)實(shí)現(xiàn)效果如圖1所示。
圖1 系統(tǒng)實(shí)現(xiàn)效果圖
信息技術(shù)高速發(fā)展,網(wǎng)絡(luò)學(xué)習(xí)已成為當(dāng)代教育背景下學(xué)習(xí)的重要方式之一,而且許多地區(qū)或者院校都建立了區(qū)域性的資源共享網(wǎng)絡(luò),網(wǎng)絡(luò)資源十分豐富。然而在資源紛繁復(fù)雜的情況下,用戶(hù)很難在短時(shí)間內(nèi)尋找到自己真正需要的資源,因此,優(yōu)質(zhì)教學(xué)資源的推薦成為網(wǎng)絡(luò)學(xué)習(xí)應(yīng)用中的一個(gè)重要環(huán)節(jié)。
本文提出了基于Pearson相關(guān)度和標(biāo)簽相結(jié)合的優(yōu)質(zhì)資源推薦策略,它根據(jù)用戶(hù)本身特點(diǎn),提供個(gè)性化的優(yōu)質(zhì)教學(xué)資源推薦。本文作者將其部署到Talent教學(xué)資源管理系統(tǒng)中,進(jìn)行了實(shí)際檢驗(yàn),結(jié)果表明,本策略比較好的實(shí)現(xiàn)了優(yōu)質(zhì)教學(xué)資源的推薦。一方面使得優(yōu)質(zhì)的教學(xué)資源得到充分的利用;另一方面,節(jié)約了用戶(hù)的時(shí)間,提高了學(xué)習(xí)效率,說(shuō)明此策略具有較好的實(shí)用性。隨著科技的不斷發(fā)展,智能化成為時(shí)代發(fā)展的方向,我們有理由相信,未來(lái)的網(wǎng)絡(luò)學(xué)習(xí)將會(huì)更加智能、高效。
[1]荊永君,李兆君,李昕.基礎(chǔ)教育資源網(wǎng)中個(gè)性化資源推薦服務(wù)研究[J].中國(guó)電化教育,2009(8):102-105.
[2]G.Linden,B.Smith and J.York.Amazon.com Recommendations:Item-to-item Collaborative Filtering[J],IEEE Internet Computing,2003(7):76–80.
[3]楊焱,孫鐵利,邱春艷.個(gè)性化推薦技術(shù)的研究[J].信息工程大學(xué)學(xué)報(bào),2005(6):84-87.
[4]Toby Segaran.Programming Collective Intelligence:Building Smart Web 2.0 Applications[M]. O'Reilly Media,2007.
[5]項(xiàng)亮.推薦系統(tǒng)實(shí)踐[M].人民教育出版社,2012.
[6]王永固,邱飛岳,趙建龍,劉暉.基于協(xié)同過(guò)濾技術(shù)的學(xué)習(xí)資源個(gè)性化推薦研究[J].遠(yuǎn)程教育雜志,2011(3).