個性化學習資源推薦算法研究

2018-09-29 02:42:22衛(wèi)文婕付宇博

中國教育信息化 2018年18期

衛(wèi)文婕，付宇博

（華中師范大學國家數(shù)字化學習工程技術研究中心，湖北武漢430079）

一、引言

近年來，基于互聯(lián)網(wǎng)的在線學習平臺越來越普及，依據(jù)中國互聯(lián)網(wǎng)絡信息中心頒布的報告，2017年在線學習用戶的規(guī)模已達1.44個億。隨之而來的問題是，大多數(shù)在線教育平臺為不同學習者提供的往往是相同的學習界面和學習資源，沒有充分考慮到個體間的差異提供針對性的學習資源。另一方面，學習者面對海量的數(shù)據(jù)信息，也很難快速有效地找到滿足自己需要的學習資源，甚至會出現(xiàn)認知過負、迷航等問題[1]。所以，個性化學習資源推薦系統(tǒng)日益受到教育領域專家的關注，并逐漸成為了教育技術領域的研究熱點。個性化學習資源推薦系統(tǒng)就是在傳統(tǒng)網(wǎng)絡教育平臺的基礎上，加入個性化的思想理念，使得學習者在學習過程中可以擁有更大的針對性以及能動性，并且能夠根據(jù)其背景知識水平、學習手段和風格、興趣愛好以及學習需求，結合學習者當前的認知結構以及學習能力，有針對性地給學習者提供滿足其偏好和需求的個性化學習資源，以此來激發(fā)他們的學習熱情，提高其學習積極性，讓學習者能夠自主高效地學習，從而實現(xiàn)最好的學習效果[2]。

個性化學習資源推薦系統(tǒng)就是在傳統(tǒng)的在線教育平臺的基礎之上，加入了個性化的思想理念，使得學習者在學習的過程中可以擁有更大的針對性與能動性，并且能夠根據(jù)學習者的個性特征構建學習者模型，從而有針對性地向學習者推薦學習資源[2]。個性化學習資源推薦系統(tǒng)的建立需要有個性化學習資源推薦技術（算法）的支持，在現(xiàn)有的研究中，最常用的個性化學習資源推薦技術（算法）主要包括基于內容（Content-based，簡稱CB）的推薦、基于協(xié)同過濾（Collaborative Filtering，簡稱CF）的推薦以及混合推薦（Hybrid Recommendation，簡稱 HR）三種類型。

推薦技術的核心是算法，算法的使用能夠讓學習者快速高效地找到滿足自己需求及偏好的學習資源，提高學習效率。在個性化學習推薦系統(tǒng)中，每一種推薦技術（算法）都有其優(yōu)缺點，單獨的一種技術很難實現(xiàn)最好的推薦效果，因此，在實際的應用當中，研究者通常會使用兩種或多種推薦技術混合的方式來實現(xiàn)更好的推薦效果[3]，即混合推薦。個性化學習資源推薦技術的核心是算法，由于混合推薦大多是建立在基于內容（CB）的推薦和基于協(xié)同過濾（CF）推薦的算法之上的混合策略，其基本的思想還是源于前兩者，因此，本文將重點介紹CB推薦和CF推薦及其常用算法，并就算法的優(yōu)缺點進行比較分析和總結，而對于混合推薦只做簡要論述。

二、基于內容的推薦

基于內容的推薦（CB）是最早被應用的推薦方法，它是通過計算與學習者喜好程度較高的資源或項目（item）的相似度，來為其推薦與之喜好相同或相似的item[4]。由于CB推薦可以不依靠巨大的用戶群體或者是評分記錄來產(chǎn)生推薦列表，也即只有一個用戶（學習者）也能夠進行推薦，因此實時性較好[5]。基于內容（CB）的推薦流程一般可以分成三步：①項目表征（Item Representation）：為每個學習資源抽取出一些特征來表示此項目（特征提?。?；②興趣建模（Profile Learning）：根據(jù)學習者過去喜歡（以及不喜歡）的資源的特征數(shù)據(jù)來學習訓練出其喜好特征（建立profile文件）；③產(chǎn)生推薦（Recommendation Generation）：通過比較上兩步得到的學習者的profile文件和候選資源的特征，為該學習者推薦一組相關性最大的資源[6]。CB推薦的過程如圖1所示。在基于內容的推薦技術中，最常用的算法是向量空間模型（Vector Space Model,簡稱VSM）算法。

向量空間模型是一種能夠簡單地把非結構化的學習資源變成結構化的內容的方法，也是一個可以把文本內容表示成數(shù)學向量的代數(shù)模型[7]。它能夠把對文本內容的處理轉化成數(shù)學空間中的向量運算，用數(shù)學空間上的相似度來表征語句含義的相似度，很直觀并且容易理解。VSM多用于文本類資源的推薦。

如給學習者推薦一篇喜歡的文章。假設已知學習者喜歡一篇文章j，利用VSM方法首先把該文章表示成一個多維向量，即 aj=（W1，W2，…，Wn），其中 Wi表示第 i個詞在文章j中的權重。如果向量維數(shù)很多，計算起來會比較麻煩，因此需要降維處理，也就是特征提取，可以采用開方擬和檢驗方法選出資源中較具代表性的特征詞來表示該資源，從而降低向量維數(shù)[8]。然后，需要計算特征詞的權重，最常用的計算權重的方法是信息檢索中的詞頻-逆文檔頻率（Term Frequency–Inverse Document Frequency，簡稱TF-IDF）[9]。計算完成后，我們得出學習者喜歡的文章 aj=（ω1j，ω2j，…，ωmj）。給出一篇文章 c，首先把文章 c向量化并降維處理，得到 c=（ω1c，ω2c，…，ωmc），判斷它是否是學習者喜歡的文章，就要計算文章c和aj的相似度，如果相似度很高的話，則可以認為c也是學習者喜歡的文章。計算相似度可以用數(shù)學中的向量夾角余弦的計算公式[6]：

兩篇文章的相似度可以通過兩個多維空間向量的夾角余弦值來體現(xiàn)，余弦值越大，就表示向量之間的夾角越小，也就表示文章的相似度也越高。

向量空間模型（VSM）的優(yōu)勢在于：它是基于線性代數(shù)的簡單模型，直觀易懂；可以在文本類的學習資源集之間計算出連續(xù)的相似度和關聯(lián)度，并按照關聯(lián)度對文檔集進行排序，從而依次推薦給學習者。它的不足之處在于相似度的計算量較大，當有新的文本加入文檔集時，則需要重新計算全部詞組的權重及文本相似度；并且對語言的識別敏感度不佳，檢索的詞組必須和文檔中的詞組完全相同，無法進行近義詞之間的關聯(lián)[7]；另外，VSM算法是基于文本類的推薦，因此它的推薦結果的多樣性不足。針對VSM語言識別敏感度不佳的缺點，相關專家對VSM進行了擴展和優(yōu)化，研究出潛在語義學模型[10]、潛在語義索引模型[11]等，極大提高了語言識別的效果。但因為CB推薦多采用基于內容相似度檢索以及基于概率的方法來產(chǎn)生推薦，所以它多用于文本類資源的推薦，對于視頻音頻等多媒體資源的推薦效果不是很好，即推薦的多樣化不足[3]，于是有研究者提出了基于協(xié)同過濾的推薦算法[12]。由于CF算法是基于學習者對資源的評分矩陣進行推薦的，與資源的形式和內容沒有太大關系，因此CF算法能夠給學習者提供滿足其偏好及需求的更多樣化（如文本類、視頻音頻類等）的個性化學習資源。

三、基于協(xié)同過濾的推薦

協(xié)同過濾（CF）技術是根據(jù)用戶（學習者）對資源的評分矩陣，利用相似度算法找到待測（目標）資源或用戶的最近“鄰居”，根據(jù)鄰居用戶或鄰居資源來預測未評分的目標資源，通過預測結果為學習者提供較準確的個性化推薦[13]。CF推薦技術根據(jù)算法運行期間需要用到的數(shù)據(jù)的差異可以分為基于內存的協(xié)同過濾（Memory-Based CF）和基于模型的協(xié)同過濾（Model-Based CF）?；趦却娴膮f(xié)同過濾又可以細分為兩類：基于用戶的協(xié)同過濾（User-based CF）和基于項目的協(xié)同過濾（Item-based CF）[14]。協(xié)同過濾技術（算法）是個性學習化推薦領域目前研究較多并且也是最成熟的推薦技術，它的應用廣泛，推薦的效率及精確性也比較高。

1.基于內存的協(xié)同過濾

（1）基于用戶的協(xié)同過濾

基于用戶的協(xié)同過濾（UB-CF）算法的核心思想是：首先收集用戶信息，包括用戶注冊信息（年齡、性別、興趣愛好、知識水平等）和用戶評分記錄，算法根據(jù)用戶（學習者）的注冊信息可以生成用戶模型，利用學習者對資源的評價記錄來構建評分矩陣[4]；再根據(jù)評分矩陣并使用相似度算法計算出學習者之間的相似度，形成最近“鄰居”用戶集合；最后利用最近鄰居用戶的評分記錄來預測目標（待推薦）用戶對學習資源的評分，并基于評分的高低來判斷目標用戶對學習資源的喜好程度，從而實現(xiàn)推薦[15]。UB-CF算法采用的是“相似的用戶對學習資源的評分也是相似的”這樣的一種思想，它的詳細步驟為：

然后計算鄰居用戶?；趯W習者-資源評分矩陣并使用相似度算法計算出學習者之間的相似度，進而找出最近鄰居用戶集合。其中計算學習者相似度的方法可以使用改進后的余弦相似度算法：[4]

公式2中，Si、Sj分別表示的是學習者i和j的資源評分集合，Si,j=Si∩Sj表示的是學習者i和j共同評過分的學習資源集合，Ris、Rjs分別表示的是學習者i和j對學習資源 s 的評分，表示學習者 i和 j對學習資源評分的平均值。

上文的余弦相似度算法對于絕對的數(shù)值不是特別敏感，它更多的是從方向上來進行差異的比較和分析，因此不能較精確地衡量數(shù)值之間的差異[16]。而改進后的余弦相似度算法減去了用戶對學習資源的平均評分，并且考慮到了用戶共同評過分的資源集合，以此來改善因為不同學習者的評分標準而產(chǎn)生的結果的誤差。

相似度計算完成之后，會得到一個和待推薦（目標）學習者相似度較高的學習者用戶集合，選擇合適的閾值m，確定待推薦學習者的最近鄰學習者用戶集合為Um={u1,u2,…ul…um}。

最后產(chǎn)生推薦。得到了目標用戶的最近鄰用戶集合Um之后，可以通過對Um進行加權來預測目標（待推薦）學習者o對學習資源t的評分Rot：[15]

基于用戶的協(xié)同過濾算法依據(jù)學習者（用戶）對學習資源的評分矩陣得到學習者之間的相似度，其推薦結果相對準確且形式比較多樣化，另外它還能夠發(fā)現(xiàn)目標學習者潛在的新興趣。但同時UB-CF也存在著一些不足之處，比如用戶資源評分矩陣的數(shù)據(jù)稀疏性與系統(tǒng)的擴展性等問題[14]。

（2）基于項目的協(xié)同過濾

基于項目的協(xié)同過濾（IB-CF）和基于用戶的協(xié)同過濾的算法思想基本相同，核心都是計算最近鄰居集合及生成推薦列表。區(qū)別是IB-CF算法中最近鄰居集合的確定依據(jù)是項目（學習資源）之間的相似度。IB-CF技術基于的是“學習者對于相似的資源（項目），評分也是相似的”這樣的一種思想，詳細步驟為：

首先，收集用戶（學習者）信息以及對每個資源項目有過評分的學習者，構建項目—學習者的二維評分矩陣。

第二，通過評分矩陣計算目標資源t和用戶已經(jīng)評價過的資源之間的相似度，計算公式可以利用公式2，不過i和j表示的應是資源（項目），S表示的是用戶集合。然后根據(jù)相似度計算的結果和用戶模型（知識水平、興趣以及歷史行為數(shù)據(jù)）來選擇k個與已被評價過的資源最相似的item組成目標項目t的最近鄰項目集合 Tk={t1,t2,…,tk}。

第三，產(chǎn)生推薦。最后將用戶u對Tk的評分及相似度Sim的加權平均值作為對目標學習資源t的預測評分Put[15]。根據(jù)計算得出的預測評分值的高低來判斷是否推薦給學習者。

公式4中，S(t,n)代表的是項目t和項目n的相似度，Run代表的是用戶u對鄰居集合中學習資源的評分值，Tk代表的是待推薦項目t的鄰居集合。

在基于項目的協(xié)同過濾推薦中，因為各個學習資源之間的相似度比較固定，因此可以把各個項目之間的相似度放在線下計算，這樣就能夠節(jié)省計算時間，進而可以在一定程度上保證推薦的實時性。IB-CF的局限性在于冷啟動問題較嚴重[17]，即它只能對系統(tǒng)中已經(jīng)有信息或者評分的用戶和資源進行推薦或是被推薦，而對于新用戶或資源則無法進行。

2.基于模型的協(xié)同過濾

基于模型的協(xié)同過濾推薦技術是依據(jù)學習者的興趣愛好、學習需求、背景知識、歷史行為等，利用數(shù)據(jù)挖掘或者是機器學習的算法從獲取到的數(shù)據(jù)中訓練出一個學習者模型，然后根據(jù)這個模型對學習資源的評分進行預測，進而產(chǎn)生推薦[18]。一般模型的建立速度會比較慢，但是一旦模型訓練成功，進行預測的速度會很快[14]。在模型建立的過程中，當出現(xiàn)維數(shù)較多的信息矩陣時，計算起來會很麻煩，因此降維算法是基于模型的協(xié)同過濾中最重要的算法之一。所以，接下來詳細介紹一種Model-based CF中常用的降維算法：奇異值分解（Singular Value Decomposition，簡稱 SVD）算法。

2000年，Sarwar為了改善用戶評分矩陣中的數(shù)據(jù)稀疏問題提出了SVD算法[19]。SVD是一種降低維度的協(xié)同過濾算法，是一種有效的特征提取方法，它利用學習者（用戶）與資源之間的潛在關系，通過去除一些沒有代表性的或者不重要的用戶或者學習資源來對初始的評分矩陣進行奇異值分解，并提取一些本質特征，從而實現(xiàn)對初始矩陣的降維處理。

SVD是線性代數(shù)中的一種矩陣分解技術，它揭示的是矩陣的內部結構。SVD可以將一個m×n的矩陣R分解為U、S、V[20]，U是 m×n的正交矩陣（UUT=1），V 是 n×n的正交矩陣（VVT=1），S是 m×n 的矩陣，且 R=U×S×VT[21]，其中 U、S、V 的計算步驟為：①計算S。首先，計算RT和RTR（RT是R的轉置矩陣，即把R的行換成相應的列），然后計算RTR的特征值，再把特征值進行排序然后開方，由此就得到了S。②計算V和VT。利用RTR的特征值來計算特征向量，而V就是特征向量的組合集合。③計算U。R=USVT，RV=USVTV=US，RVS-1=USS-1=U，U=RVS-1。

用SVD將矩陣R分解成U、S、V以后，如果只保留前 k 個最大的奇異值，也就是把 U、S、V 變成 Uk、Sk、Vk，那么就實現(xiàn)了對矩陣降維的目的。

SVD算法的優(yōu)勢是通過對矩陣的降維，極大地減少了運算量，在一定程度上提高了推薦系統(tǒng)的擴展性，而且較好地改善了協(xié)同過濾推薦中用戶—學習資源（項目）評分矩陣中的數(shù)據(jù)稀疏問題[22]。它的不足之處是在降低維度時，k值的選取較困難：如果k值過大，降維的意義就不大了，而如果k值過小，則可能會丟失原矩陣中比較重要的有用信息[23]。

綜上所述，對基于內存的協(xié)同過濾和基于模型的協(xié)同過濾的總結對比如表1所示。

表1 基于內存的CF和基于模型的CF的對比表

四、基于內容的推薦和基于協(xié)同過濾推薦的比較

綜上所述，無論是基于內容的推薦算法，還是基于協(xié)同過濾的推薦算法，都存在一定的優(yōu)勢和不足，這兩類算法的優(yōu)缺點對比總結如表2所示。

CB推薦和基于內存的CF推薦的相同點是都采用統(tǒng)計學的方法，通過計算用戶之間或資源之間的相似度來進行推薦，核心任務都是相似度的計算。不同的是CB推薦的相似度計算是根據(jù)資源的屬性向量來計算的，而基于內存的CF推薦是利用用戶對資源的評分矩陣計算的。另外，基于內容推薦的優(yōu)勢在于它的推薦結果直觀易懂，而且覆蓋率較高，實時性好；缺點是推薦形式多限于文本類資源，多樣性不足，且相似度計算量太大，當有新的文本加入學習資源文檔集時，相似度就需要重新進行計算?；趦却娴腃F推薦是基于用戶對資源的評分矩陣來計算相似度并進行推薦的，與資源的形式無關，因此推薦結果的形式更多樣化；基于模型的協(xié)同過濾推薦可以使用機器學習和數(shù)據(jù)挖掘的算法基于學習者的個性化特征為其構建專屬的用戶模型，然后根據(jù)用戶模型為學習者進行資源推薦，因此，CF推薦的資源個性化和自動化程度相對較高，但用戶模型建立的難度比較大，并且存在冷啟動問題，即當有新的學習者或資源加入系統(tǒng)時，沒有足夠的數(shù)據(jù)來對其進行推薦或被推薦。

表2 CB推薦及CF推薦的對比表

五、混合推薦策略

在個性化學習推薦系統(tǒng)中，各種推薦技術中的算法都有其優(yōu)缺點，單獨的一種技術很難實現(xiàn)最好的推薦效果，因此在實際應用中，研究者通常會采用兩種或兩種以上推薦技術混合的方式來綜合各種推薦技術的長處，為用戶提供更加快速精確的學習資源推薦，從而實現(xiàn)更好的推薦效果。Burke在論述了幾種混合推薦的方法，包括加權、切換、級聯(lián)、特征增強以及元級。[24]

1.加權（Weighted）

系統(tǒng)綜合采用多種推薦算法對同一資源進行評分，并把這些評分按照一定的規(guī)則加權處理，得到一個總分數(shù)，根據(jù)這個總分來判斷是否進行推薦。最簡單的加權混合推薦策略就是把由多種推薦技術（算法）得到的幾個評分進行有權重的線性組合。加權混合推薦的好處是系統(tǒng)的推薦能力可以用一個直觀的方式呈現(xiàn)，并且可以根據(jù)學習者對推薦資源的反饋評價來調整權重的分配，從而不斷改善混合策略的推薦效果。

2.切換（Switching）

資源推薦系統(tǒng)同時提供多種推薦技術，在推薦過程中，根據(jù)不同學習者的需求，采用一些特定的標準來變換不同的推薦方法以達到最好的推薦結果。該策略的優(yōu)勢是系統(tǒng)對各個推薦技術的優(yōu)缺點很敏感，可以根據(jù)不同情況及時切換推薦技術，但不足是切換標準的制定為推薦過程帶來了額外的復雜性，增加了系統(tǒng)的負擔。

3.級聯(lián)（Cascade）

在級聯(lián)混合策略中，系統(tǒng)會根據(jù)推薦技術的優(yōu)先級先采用某一種推薦技術（優(yōu)先級較高）給出一個粗略的推薦結果，然后再使用另外一種推薦技術（算法）在這個推薦結果的基礎上進行更細致準確的處理，進而產(chǎn)生更精確的推薦結果。由于級聯(lián)是分階段的推薦，第二步的推薦技術是在第一步的基礎上進行的，因此只需要應用于部分資源即可，所以它比將所有技術應用于所有項目的加權混合更高效。

4.特征增強（Feature Augmentation）

首先使用一種推薦技術（算法）將源資源數(shù)據(jù)經(jīng)過處理輸出特征結果，然后將該結果作為下一個推薦技術的輸入。特征增強技術提供了一種在不修改核心系統(tǒng)的條件下改進系統(tǒng)性能的的方法。

5.元級（Meta-level）

組合兩種推薦技術，將一種推薦技術產(chǎn)生的模型作為另一種推薦技術的輸入。元級和特征增強有些類似，都是把一種技術的輸出作為另一種技術的輸入，但不同的是，在特征增強混合中，輸入第二種技術的是特征結果；而在元級混合中，輸入第二種技術的是整個模型。元級方法的優(yōu)勢在于推薦技術作用于數(shù)據(jù)信息密集的模型上要比作用于原始評分數(shù)據(jù)更容易，且推薦結果也會相對更個性化更準確。

在個性化學習資源推薦系統(tǒng)中，最常用也是最基本的推薦技術就是基于內容的推薦和基于協(xié)同過濾的推薦，因此，大多數(shù)的混合推薦策略都是基于這兩種技術來實現(xiàn)更好的推薦效果。需要注意的是，為了最優(yōu)化推薦效果，混合推薦中的算法都需要調整到最優(yōu)化狀態(tài)。

六、結束語

本文圍繞個性化學習資源推薦這一主題，重點闡述了兩大類學習資源推薦技術的代表算法，并對比分析了各類算法的優(yōu)缺點。此外還簡要論述了混合推薦中常用的組合策略，并對各類混合策略的優(yōu)缺點進行了簡單的分析和總結。雖然個性化學習資源的推薦已經(jīng)成為教育領域的研究熱點，但仍然存在一些問題有待進一步的研究和優(yōu)化。比如，如何保證推薦的實時性和準確性的平衡，混合推薦中如何有效地分配各類算法的權重；以及模型建立問題、冷啟動問題等。隨著機器學習和數(shù)據(jù)挖掘研究越來越成熟，未來預計將會有更多的機器學習算法被運用到學習資源推薦中來，從而進一步提高推薦結果的精確性以及個性化程度，并使學習者可以快速高效地獲取所需知識，提高學習效率。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看