邵炤昭 張向
摘? ?要:隨著在線學(xué)習(xí)平臺在高等教育機(jī)構(gòu)中的普及,針對在線學(xué)習(xí)平臺中的內(nèi)容進(jìn)行相似度分析,可幫助教師更好地了解教學(xué)工作中學(xué)生關(guān)注的重點(diǎn)和難點(diǎn)。通過抓取學(xué)生在E-learning平臺(Blackboard learn)上的課程內(nèi)容訪問歷史記錄,從學(xué)生訪問課程內(nèi)容的關(guān)聯(lián)關(guān)系出發(fā),基于課程內(nèi)容特性定義課程內(nèi)容相似度,計(jì)算課程內(nèi)容相似度。針對相關(guān)學(xué)者在個(gè)性化學(xué)習(xí)中提出的算法上的不足,本文提出一種基于simrank++的算法來分析課程內(nèi)容的相似性以及學(xué)生對于知識點(diǎn)的關(guān)注度。通過研究結(jié)果證實(shí),基于simrank++的算法分析結(jié)果更加能反映學(xué)生關(guān)注的課程內(nèi)容特征?;诜治鼋Y(jié)果,可以向高校負(fù)責(zé)學(xué)科資源建設(shè),以及教學(xué)資源建設(shè)的部門提出教學(xué)提升建議。
關(guān)鍵詞:E-learning;在線學(xué)習(xí)分析;個(gè)性化學(xué)習(xí);SimRank++
中圖分類號:G434 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-8454(2019)05-0044-04
一、在線學(xué)習(xí)平臺在高等教育中的影響
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,越來越多的基于互聯(lián)網(wǎng)的信息平臺被用于教育行業(yè),特別是基于互聯(lián)網(wǎng)的在線學(xué)習(xí)平臺已經(jīng)在國內(nèi)外高校普及。目前主流的在線平臺,例如Blackboard、Moodle,已經(jīng)成為高校課堂教育的重要補(bǔ)充。通過這類平臺,教師可以發(fā)布與課程相關(guān)的教學(xué)資料以及作業(yè),與學(xué)生就學(xué)習(xí)中的遇到的困惑和重點(diǎn)進(jìn)行交流。隨著大數(shù)據(jù)、數(shù)據(jù)挖掘等相關(guān)技術(shù)的普及和發(fā)展,圍繞在線學(xué)習(xí)平臺的關(guān)于學(xué)習(xí)分析的研究越來越多,并且已經(jīng)取得一定的進(jìn)展,包括:針對平臺訪問次數(shù)來預(yù)測學(xué)生成績走向;分析課程內(nèi)學(xué)生對教學(xué)內(nèi)容的訪問優(yōu)化和調(diào)整課程結(jié)構(gòu);基于平臺中課程內(nèi)容以及教師參與度的監(jiān)管和教學(xué)評估。
在針對教學(xué)內(nèi)容優(yōu)化的研究中,李爽等人通過行為序列分析,找出課程中學(xué)習(xí)參與模式對課程最終成績的影響。[1]陳鵬宇等人通過Person相關(guān)性分析學(xué)生在課程中內(nèi)容的參與度和知識構(gòu)建水平的關(guān)聯(lián)度。[2]田陽等人分析了課程中社交行為與成績的相互影響[3]。目前,針對課程內(nèi)容的相關(guān)性分析報(bào)告較少。在傳統(tǒng)的電商或者社交網(wǎng)站中,相關(guān)性分析扮演著重要的地位,不少網(wǎng)站采用相關(guān)性分析來進(jìn)行朋友或者商品的推薦,通過相關(guān)性算法,找出用戶可能需要的產(chǎn)品以及可能認(rèn)識的朋友,并進(jìn)行推送。因此,相關(guān)性分析研究,對于教學(xué)資源的推薦以及分析學(xué)生關(guān)注的知識重點(diǎn),可能存在一定的幫助。
二、主流個(gè)性化學(xué)習(xí)推薦服務(wù)算法介紹
個(gè)性化學(xué)習(xí)服務(wù),即根據(jù)學(xué)生的特點(diǎn)、當(dāng)前學(xué)習(xí)情況,向其推薦課程、學(xué)習(xí)活動、學(xué)習(xí)資料以及學(xué)習(xí)方法等,提供學(xué)習(xí)建議,動態(tài)調(diào)整學(xué)習(xí)安排,是當(dāng)前在線學(xué)習(xí)行為研究的熱點(diǎn)問題之一。目前在個(gè)性化學(xué)習(xí)中,常見的相關(guān)性算法包括:①Person 相關(guān)性分析;②基于Aprior、FT-GROW算法的相關(guān)性分析;③基于K-MEAN的聚從算法。 這些算法在一定程度上能找到不同知識點(diǎn)之間的關(guān)聯(lián)。但是更加深度的關(guān)聯(lián)分析,無法揭示之間的關(guān)聯(lián)度。如圖1所示。
在傳統(tǒng)的推薦算法中,例如關(guān)聯(lián)算法、決策樹算法、聚類算法。都要求物品之間存在直接的關(guān)聯(lián),如圖1左側(cè)所示,用戶2和用戶1的訪問存在一定程度的交集,以課件2為例,通過分析課件2,實(shí)現(xiàn)課件1對用戶2的推薦,課件3對用戶1的推薦。
假設(shè)存在另外一種情況,如圖1右側(cè)所示,用戶1訪問內(nèi)容1和內(nèi)容2,用戶3訪問內(nèi)容3以及內(nèi)容4,在常規(guī)的推薦算法中,因?yàn)閮?nèi)容2和內(nèi)容3的存在,通??梢宰龅接脩?和用戶2的關(guān)聯(lián),用戶2和用戶3的關(guān)聯(lián)。但是沒辦法做到用戶1和用戶3的關(guān)聯(lián)。因?yàn)橛脩?和用戶3之間不存在交集。但是從推薦的邏輯上,可以推導(dǎo)出內(nèi)容可以推薦給用戶2,假設(shè)用戶2閱讀該內(nèi)容,那么基于用戶2和用戶3之間存在關(guān)聯(lián),可以將內(nèi)容1推薦給用戶3,這樣的關(guān)聯(lián)推薦在推薦系統(tǒng)中一般稱為拓?fù)浣Y(jié)構(gòu)中節(jié)點(diǎn)推薦。
三、SimRank++算法的原理介紹
針對存在的問題,Antonellis等人在2002年提出的SimRank算法可以用來評估課件內(nèi)容的相似度[4]。SimRank 算法是一種適用于計(jì)算拓?fù)浣Y(jié)構(gòu)中任意2點(diǎn)關(guān)聯(lián)度的算法,該算法以迭代的方式來計(jì)算目的對象的相似性,并且在很多行業(yè)都被廣泛使用。例如魏琳通過SimRank算法,對慢性胃炎的發(fā)病機(jī)理進(jìn)行相似度計(jì)算,找出慢性胃炎臨床癥狀相似度。[5]田玲等人通過SimRank算法找出中藥方劑數(shù)據(jù)中“效-效”相似度,實(shí)現(xiàn)對不同藥效之間的相似度歸納。[6]朱金山等人為解決城市公共自行車系統(tǒng)快速發(fā)展導(dǎo)致的潮汐問題,提出基于SimRank的站點(diǎn)間關(guān)聯(lián)度和相似度計(jì)算,采用最大相似度優(yōu)先的原則進(jìn)行聚類,為站點(diǎn)區(qū)域劃分,公共自行車調(diào)度策略等提供理論基礎(chǔ)。[7]王家海等人采用SimRank算法,設(shè)計(jì)了一套能夠精準(zhǔn)描述數(shù)控機(jī)床的故障診斷系統(tǒng),并且該系統(tǒng)具備知識學(xué)習(xí)能力。[8]
從結(jié)構(gòu)上看,在線學(xué)習(xí)平臺中的課程內(nèi)容推薦是一種以課程空間知識點(diǎn)為節(jié)點(diǎn)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。知識點(diǎn)之間的相似數(shù)值可以用學(xué)生對于該知識點(diǎn)的訪問頻繁程度來衡量。因此,本文根據(jù)學(xué)生訪問不同知識點(diǎn)的頻率,提出一種基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的SimRank++算法來進(jìn)行個(gè)性化學(xué)習(xí)推薦。
Antonellis等人在2008年針對SimRank算法的不足提出了SimRank++ 算法,該算法提出了權(quán)重以及節(jié)點(diǎn)相關(guān)度等影響因子,進(jìn)一步完善了算法的應(yīng)用范圍。[9]
受以上行業(yè)成果經(jīng)驗(yàn)啟發(fā),結(jié)合在線教育平臺中用戶數(shù)據(jù)和用戶行為,可將用戶以及課程內(nèi)容構(gòu)建成訪問關(guān)系網(wǎng)絡(luò)。
定義1(學(xué)生訪問課程內(nèi)容拓?fù)渚W(wǎng)絡(luò))記為G=(S,C,E)。其中S為所有學(xué)生的集合,C為所有課程內(nèi)容的集合,E為學(xué)生訪問課程內(nèi)容的關(guān)系。三元組(s,c,e)表示學(xué)生訪問課程有向連接關(guān)系。E(c)為所有訪問該內(nèi)容學(xué)生的集合。
定義2(課程內(nèi)容相似度)給定2個(gè)課程內(nèi)容(a,b)∈C,基于定義1,內(nèi)容相似度定義如下:
Sweight(a,b)=evidence(a,b)*CW(a,i)W(b,j)Sweight(i,j)
其中:
evidence(a,b)=
W(a,j)= spread(i)*normalized _weight(a,i)
normalized_weight(a,i)=
spread(i)=e-variance(i),其中-variance(i)為變量i的所有關(guān)聯(lián)權(quán)重的方差。
SimRank++ 算法以迭代的方式更新集合中的相似度,經(jīng)過多輪計(jì)算后,結(jié)果收斂,趨向一個(gè)極值。迭代次數(shù)與相似度的精確值相關(guān)(精確到小數(shù)點(diǎn)后位數(shù))。因此迭代次數(shù)可以通過計(jì)算進(jìn)行調(diào)整。相關(guān)學(xué)者發(fā)現(xiàn),使用C的參數(shù)和迭代的參數(shù)密切相關(guān),建議在實(shí)現(xiàn)精確度不低于1%的情況下,C取值為0.6,迭代次數(shù)為6。[10]
SimRank++算法由于是迭代性密集計(jì)算,因此在實(shí)際操作中,可以采用多線程計(jì)算提高計(jì)算效率。具體實(shí)現(xiàn)方法如下:在定義2中,可以將所有訪問a的集合和訪問b的集合的組合,劃分到不同線程的計(jì)算單元,線程計(jì)算單元?jiǎng)澐忠罁?jù)可以是所在機(jī)器的CPU核數(shù),或者其他自定義數(shù)量。然后將計(jì)算結(jié)果匯總。
算法分成 2 個(gè)階段:首先,根據(jù)定義 2 計(jì)算課件內(nèi)容的相似值矩陣 M,相似值矩陣 M 中元素?cái)?shù)值為課程之間的相似距離值,其次為圖像化表示課程內(nèi)容的相關(guān)度,可以通過匯聚算法來進(jìn)行聚類的劃分。
在聚類算法選擇中有以下因素需要考慮:首先無法預(yù)測聚類個(gè)數(shù)的范圍,其次個(gè)體特征更多是內(nèi)容之間的差距,隨著內(nèi)容數(shù)量的增加, 計(jì)算聚簇的代價(jià)就越高?;谝陨弦蛩兀嚓P(guān)學(xué)者推薦使用hierarchy算法作為聚簇的算法模型[7]。
四、實(shí)驗(yàn)環(huán)境以及結(jié)果分析
由于基于關(guān)聯(lián)算法的文章中很少公布其數(shù)據(jù)集,和本文算法沒有直接對比的樣本,顧本文僅僅分析該結(jié)果的現(xiàn)實(shí)意義以及該結(jié)果對于教學(xué)可能的促進(jìn)作用。
本次研究的數(shù)據(jù)取自浙江大學(xué)伊利諾伊大學(xué)厄巴納香檳校區(qū)聯(lián)合學(xué)院2018-2019年秋季Calculs3課程使用blackboard平臺的數(shù)據(jù),數(shù)據(jù)的抽取為(用戶ID、訪問課程內(nèi)容ID、訪問時(shí)間)。其中學(xué)生數(shù)量為30,內(nèi)容數(shù)量為72。實(shí)現(xiàn)的開發(fā)環(huán)境為Win7平臺,運(yùn)行平臺為jruby1.95(因?yàn)槟J(rèn)的ruby運(yùn)行環(huán)境本身不支持利用多線程提高運(yùn)算效率)。
為對比在使用SimRank++算法前后課件內(nèi)容的關(guān)聯(lián)度,基于篇幅所限,本文截取部分?jǐn)?shù)據(jù)來比較在使用hierarchy算法時(shí)候的匯聚效果。樣本數(shù)據(jù)如表1所示。
在不使用Simrank++算法情況下,課程內(nèi)容匯聚效果如圖2所示。
在默認(rèn)情況下,Hierarchy匯聚算法采用訪問的次數(shù)作為匯聚的依據(jù),因此,可以看到課件3、課件4的相似度最高,其他課件相似度相對較低。
在使用Simrank++算法后,得到課件相似矩陣數(shù)據(jù)如表2所示。其中1代表最相關(guān),0代表不相關(guān),例如課件1和課件2最不相關(guān),課件1和課件5最相關(guān)。
進(jìn)行匯聚的效果如圖3所示。
因?yàn)镾imRank++算法是一種基于拓?fù)浣Y(jié)構(gòu)的推薦算法,大量學(xué)生訪問課件3和課件4后,也在一定程度上訪問了課件5和課件6。該算法認(rèn)為課件3、課件4、課件5、課件6相似度較高。但是學(xué)生在訪問課件3、課件4后,較少訪問課件1和課件2。通過匯聚圖,可以看到這種明顯的區(qū)別。
1.數(shù)據(jù)結(jié)果分析
通過對整個(gè)班級中課件訪問次數(shù)的相似度計(jì)算,得出課程內(nèi)容的匯聚效果,數(shù)據(jù)體現(xiàn)出以下特征。
(1)發(fā)現(xiàn)一:第一周的內(nèi)容基本和其他教學(xué)周的相關(guān)程度比較低,因?yàn)榈谝恢艿恼n件內(nèi)容基本都是課程的入門介紹,教師的聯(lián)系方式等,和后面的相關(guān)教學(xué)內(nèi)容關(guān)聯(lián)度不大。
(2)發(fā)現(xiàn)二:在學(xué)期中期,課程有期中考試,且考試成績被計(jì)入課程總成績。數(shù)據(jù)顯示學(xué)期中期的課程內(nèi)容(教學(xué)周第10周至教學(xué)周第13周)和期中考試關(guān)系度緊密。實(shí)際上,考試的重點(diǎn)也是集中在這3周的學(xué)習(xí)內(nèi)容。
(3)發(fā)現(xiàn)三:如果相關(guān)教學(xué)周有課后作業(yè),那么這些教學(xué)周的相似度極高,可能說明學(xué)生積極訪問該批課程內(nèi)容的主要原因是在完成相關(guān)課后作業(yè)時(shí),需要查看該教學(xué)周的講義。
(4)發(fā)現(xiàn)四:教學(xué)周最后幾周的課件內(nèi)容不被學(xué)生廣泛訪問,進(jìn)過調(diào)研,該課程內(nèi)容主要是進(jìn)階閱讀,不作為期末考試的重點(diǎn)。
(5)發(fā)現(xiàn)五:如果教學(xué)周沒有課后作業(yè)或者習(xí)題,該課件內(nèi)容不會被學(xué)生廣泛訪問。
2.實(shí)驗(yàn)結(jié)果對于教學(xué)活動提升的建議
(1)高校圖書館學(xué)科資源建設(shè)
高校的教學(xué)資源建設(shè)一直是教學(xué)質(zhì)量提升的重要保障舉措。在過去的教學(xué)資源建設(shè)過程中,學(xué)科建設(shè)和教學(xué)過程存在一定程度的信息不對稱,即購買的學(xué)術(shù)資源不是學(xué)生或者教師所關(guān)注的。導(dǎo)致采購的圖書或者電子數(shù)字資源利用率不高。通過發(fā)現(xiàn)的問題,可以在圖書資源采購、數(shù)據(jù)庫采購或者優(yōu)秀教學(xué)課程錄制和引進(jìn)的時(shí)候,重點(diǎn)考慮學(xué)科建設(shè)資源能夠覆蓋學(xué)生關(guān)注的重點(diǎn)或者難點(diǎn)。通過分析課件中學(xué)生訪問圖書館資源鏈接的次數(shù),可以對相關(guān)圖書館資源購買優(yōu)化。例如在購買圖書資源的過程中,更多考慮該出版社或者該作者的著作。通過信息化手段,特別是數(shù)據(jù)挖掘等工具,提高數(shù)字資源的使用效率,提升教學(xué)質(zhì)量。
(2)教學(xué)單位課時(shí)分配
其次,可以建議相關(guān)教學(xué)管理單位提高相關(guān)課程內(nèi)容的討論課時(shí),或者利用其他手段,對課程中的難點(diǎn)予以更多解答。
(3)教師課程準(zhǔn)備
在高校教學(xué)活動的開展過程中,相關(guān)課程的任課教師可能發(fā)生變動,對于新的任課教師來說,可以通過研究歷史數(shù)據(jù),找到課程中學(xué)生關(guān)注的重點(diǎn)或者難點(diǎn)。通過在課堂中重點(diǎn)講解,提高學(xué)生的學(xué)習(xí)成效。
(4)個(gè)性化學(xué)習(xí)知識推薦
最后,可以對該課程中學(xué)習(xí)成績較差的學(xué)生,進(jìn)行課程內(nèi)容的推薦,通過該方法,讓學(xué)生快速抓住課程的核心或者重點(diǎn),進(jìn)行有針對性的預(yù)習(xí)和復(fù)習(xí)。
五、結(jié)束語
本文提出基于SimRank++算法來推斷出課程內(nèi)容相似性或者關(guān)聯(lián)度,結(jié)果揭示了教學(xué)中學(xué)生關(guān)注的重點(diǎn)以及難點(diǎn)。相關(guān)教學(xué)機(jī)構(gòu)可以利用該數(shù)據(jù)對教學(xué)的過程或者學(xué)科資源建設(shè)進(jìn)行相應(yīng)的優(yōu)化。未來的研究工作是擴(kuò)展課程內(nèi)容的關(guān)聯(lián)度邊界。
參考文獻(xiàn):
[1]李爽,鐘瑤,喻忱.基于行為序列分析對在線學(xué)習(xí)參與模式的探索[J].中國電化教育,2017(3): 88-95.
[2]陳鵬宇,馮曉英,孫洪濤.在線學(xué)習(xí)環(huán)境中學(xué)習(xí)行為對知識建構(gòu)的影響[J].中國電化教育,2015(8):59-63,84.
[3]田陽,馮銳,韓慶年.在線學(xué)習(xí)社交行為對學(xué)習(xí)效果影響的實(shí)證研究[J].電化教育研究,2017(3):48-54.
[4]SimRank:a measure of structural-context similarity. Jeh G,Widom J. Proc of the8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2002.
[5]魏琳.基于SimRank的慢性胃炎相似關(guān)系挖掘的研究與分析[J].福建電腦,2014(9):93-96.
[6]田玲,曾濤,陳蓉.基于SimRank的中藥“效-效”相似關(guān)系挖掘[J].計(jì)算機(jī)工程,2008(12):242-244.
[7]朱金山,劉良旭,周超蘭.基于SimRank的公共自行車站點(diǎn)聚類算法[J].計(jì)算機(jī)工程,2018(4):12-16.
[8]王家海,徐旭輝,沈佳豪等.基于粗糙集結(jié)合SimRank算法的數(shù)控機(jī)床故障診斷研究[J].組合機(jī)床與自動化加工技術(shù),2018(2):84-86.
[9]Simrank++: Query rewriting through link analysisof the click graph. Antonellis I,Molina H G,Chang C C. Proceedings of the VLDB Endowment,2008.
[10]Dmitry Lizorkin,Pavel Velikhov,Maxim Grinev,Denis Turdakov. Accuracy estimate and optimization techniques for SimRank computation[J]. The VLDB Journal,2010,19(1).
(編輯:王曉明)