李 寧,劉志勤,王耀彬
(西南科技大學 計算機學院,四川 綿陽621000)
引言
泛在學習是一種隨時隨地的、個性化的學習過程,是人們最喜歡的一種學習模式。泛在學習是現在信息社會最流行的一種非正式學習方式,它彌補了數字學習的不足和限制,也是構建學習型社會的主要途徑之一。泛在學習環(huán)境中需要數量巨大的各類學習資源,但由于泛在學習的隨時隨地性與個性化等特點,學習主體對各類資源的需求層出不窮,如果能在數量巨大的各類學習資源中找到學習者需要的學習資源,屏蔽那些學習者不喜歡的學習資源,建立起這種學習者與學習資源的匹配機制,將大大提高學習者的學習效率。[1]不同的學習者興趣愛好不同,為不同的學習者提供自己喜歡的學習資源,讓學習資源來適應學習者,這將是以后研究的熱點。
目前絕大多數的網絡學習資源平臺都可以對本平臺的資源進行管理,可以進行資源的分類瀏覽和基于關鍵知識點的資源檢索功能,當不同的學習者訪問網絡學習資源平臺,平臺為所有學習者的服務是完全一樣的,未考慮每位學習者的個性化需求,不能為學習者提供他們需要的、想要的服務和需求。 “大量資源”和個性化學習網絡的人的需求之間的矛盾就已經存在,這種矛盾的存在,一方面降低了資源的有效利用、造成了資源的浪費;另一方面給學習者使用資源帶來了諸多困難。[2]
個性化推薦是目前一種重要的解決“信息過載”問題和提供個性化服務的方案。個性化推薦是利用已有的Web用戶興趣愛好和行為信息,講web學習者和學習資源關聯(lián)起來,通過Web用戶與Web用戶、Web用戶與學習資源之間相似性、相關性關系挖掘和發(fā)現學習者潛在感興趣的學習資源,進而對Web學習者進行個性化推薦服務。本質上是對信息進行帥選、提取,它根據Web用戶的偏好、興趣等,對其提供具有個性化特征的信息產品推薦。
社會化標簽是近幾年新使用的一種標注網絡資源的工具,其思想是根據用戶的訪問內容來判斷用戶的行為和需求,和基于內容的推薦很類似。基于內容的推薦技術是以資源信息為研究對象,利用信息檢索技術來分析項目的內容,通常應用鄰居函數和分類技術來分析和聚類項目的文本內容,并基于項目特征與用戶檔案產生推薦。[3]通過使用社會化標簽,資源信息變得更加準確和明白,進而給資源信息定義了一種新的社會屬性。
標簽由用戶定義,反應了用戶的興趣偏好,我們可以通過分析用戶標簽來判斷出用戶的興趣愛好。同時,標簽表達了與資源之間的語義關系,可以用來分析資源的潛在屬性。我們可以根據標簽建立相似資源集,為目標用戶找到感興趣的學習資源,同時社會化標簽還提供了解決冷啟動問題的方法。
因為標簽可以由用戶自己定義,會遇到同義詞標簽的問題,解決方法為:通過窮舉的方式查詢同義詞庫,對同義詞標簽進行歸一。
(1)通過社會化標簽計算資源之間的相似度
對于新增的學習者,由于學習者對資源的評分很少,不能進行很好的協(xié)同過濾的推薦,這就是冷啟動問題。這里我們根據用戶注冊時填寫的興趣標簽,向學習者推送學習者所感興趣標簽相似度最大的資源。
對于評分數據稀疏的問題,我們通過社會化標簽計算資源之間的相似度,通過資源間的相似度來對評分矩陣進行進一步的填充。其流程如圖1所示。
圖1 個性化推薦算法流程
1)計算資源之間的相似度。這里使用向量空間模型(VSM)對資源和社會化標簽進行描述,向量空間模型就是用一組關鍵詞及其權重(形如((key1,weighty1),(key2,weight2),(key3,weighty3),(keyn,weightyn)),其中n為關鍵詞維度)。這里的關鍵詞即轉換為社會化標簽,而權重通過TF-IDF算法計算得來(具體計算時,對于資源——標簽,weight的計算公式為:tag在該資源中年出現的次數/該資源所有的標簽數+tag標識過的資源數量/總的資 源 數 量),形 成(tag1,weight1),(tag2,weight2),(tag3,weight3)……(tagn,weightn)再根據標簽和資源形成資源—標簽矩陣表。[4]
2)通過Pearson算法計算資源之間的相似度,選取相似度最大K個資源。Pearson算法:Tij表示標簽i和標簽j所標注的資源的交集,表示標簽j所占的平均權重,表示標簽i所占的平均權重。
3)根據資源的相似度來填充學習者——資源評分矩陣,解決數據稀疏問題。相似資源的集合Su,Rn,表示資源n的評分,sim(u,n)表示資源u、n的相似度,表示資源u所得到的平均評分。
(2)通過協(xié)同過濾算法得到最相似的Top-N個學習者
協(xié)同過濾算法是根據學習者和資源的評分矩陣,計算出學習者之間的相似度,來推算出那些學習者沒有進行評分的資源的評分,并且系統(tǒng)綜合學習者的興趣愛好,給學習者推送他們可能會評分高的資源[10]。基于協(xié)同過濾的個性化推薦具體流程:
1)得到m個用戶對n個資源的評分矩陣。
2)通過Pearson算法計算用戶的相似度,選取相似度最大的前k個用戶。
Pearson算法:Iij表示用戶i評過分的項目和j評過分的項目的交集,表示用戶j評分的平均分。
3)根據用戶的相似度得到用戶對其他的沒有評過分的項目的評分,產生推薦。相似用戶的集合Su,Rn,j表示用戶n對項目i的評分,si m(u,n)表示用戶u、n的相似度,表示用戶u對項目的平均評分。
本學習平臺設計主要分為三部分:學習者管理模塊、資源管理模塊、個性化推薦模塊。其總體架構如圖2所示。
學習資源建設主要通過兩種方式:服務器中存放的大部分的學習資源、學習者自己上傳自己感興趣的資源。學習者模塊主要是記錄學習者的學習情況,分析學習者的興趣愛好。學習者和資源之間有一個資源描述文件,該文件記錄了資源本身的內容特征、學習者訪問的次數、訪問的時間和各種行為,形成一種學習者和資源之間的關系表。
個性化推薦模塊是平臺的主要功能模塊。該模塊中最主要的是推薦算法,推薦算法的使用直接會影響到本系統(tǒng)的準確性。該平臺采組合使用了多種推薦算法,引入了社會化標簽,并且對協(xié)同過濾算法做了一定的改進。
圖2 平臺的總體架構
對學習者的學習興趣抽取,并對興趣愛好進行量化,建立學習者模型,并且不斷地更新用戶的興趣變化,進一步地完善學習者模型,凸顯出以學習者為中心的學習理念[2]。其創(chuàng)建流程如圖3所示。
圖3 學習者模型的創(chuàng)建流程
(1)顯性數據的獲取
顯性數據主要包括學習者注冊時填寫的學習者的基本學習情況和相關的興趣愛好以及學習者的直接評分和評價。學習者注冊信息主要有學習者的教育層次、正在學習的課程資源、使用的資源標簽、喜歡觀看視頻還是文字等。其相關數據如表所示。
表 顯性數據內容
(2)隱性數據的獲取
學習者在平臺中學習時,對學習資源就會產生收藏、下載、瀏覽、在頁面停留的時間、瀏覽的次數和評價等學習行為,這些學習行為就表現出了他的學習興趣,我們將學習者的學習動作收集并記錄下來。根據學習者的行為的不同進行打分,作為學習者對資源的評分。[5]例如:瀏覽一次得2分、瀏覽并且收藏了得4.5分等。
用戶特征的提取中,不同用戶的瀏覽行為反映了不同用戶的興趣愛好,而且,用戶的興趣總會隨著時間的變化,具有一定的漂移性,動態(tài)轉移的。這樣,在用戶模型中,用戶的興趣度值也會相應變化的;用戶對感興趣的資源也會在一段時間內是高頻點擊瀏覽的,時間也是會越長的,那么,用戶就會對其相應感興趣的資源的興趣度值也會提高。[6]
學習資源是學習者學習、交流、互動的根本和媒介,建立符合學習者的學習資源模型同樣重要,目前大多數學習資源的建立都是根據學習者的學習需求建立的,但是學習資源之間的聯(lián)系很松散,學習資源都是在雜亂無序的生長,所以我們對學習資源進行統(tǒng)一的管理和歸類。[7]
學習資源分為學習主題、學習文檔、學習序列,每個資源都必須要用兩個以上的標簽進行標注,這樣每個學習資源都用標簽來代替,標簽的引入有助于對資源內容進行分類,實現資源的統(tǒng)一管理和高度共享。
推薦系統(tǒng)都需要學習者的反饋,所以會產生一個冷啟動的問題,一個新的資源很難很快地推薦給學習者。如果系統(tǒng)可以及時地向學習者推薦新的學習資源,推薦的質量就要受到很大的影響,如何保證這兩個的協(xié)調需要進一步的研究。
可以把學習資源先根據某些標準進行分類,并且和學習者的教育級別相結合,在大的方向上向學習者推薦。隨著信息時代的發(fā)展,信息量的擴大,數據挖掘技術的發(fā)展,我們可以將協(xié)同過濾算法和數據挖掘相結合,向學習者更準確地推薦學習資源。同時加大對新的資源的引入和分類,將信息更及時地推向給學習者。
[1]楊麗娜,肖克曦,劉淑霞.面向泛在學習環(huán)境的個性化資源服務框架[J].中國電化教育,2012(7):84-88.
[2]楊麗娜,顏志軍,孟昭寬.基于個性化推薦思想的虛擬社區(qū)學習共同體動態(tài)構建[J].現代教育技術,2012(1):88-92.
[3]王永固.基于協(xié)同過濾技術的學習資源個性化推薦研究[J].遠程教育雜志,2011(3):66-71.
[4]李高敏.基于協(xié)同過濾的教學資源個性化推薦技術的研究及應用[D].北京交通大學,2011:58.
[5]程成.基于社會化標簽和混合模式的教學資源個性化推薦系統(tǒng)的設計[D].北京交通大學,2012:66.
[6]余勝泉,楊現民,程罡.泛在學習環(huán)境中的學習資源設計與共享——學習元的理念與結構[J].開放教育研究,2009,15(1):47-53.
[7]韓李俠.網絡資源個性化推薦技術研究及應用[D].西北大學,2012:79.