包昊罡 李艷燕 鄭婭峰
摘要:大規(guī)模在線學(xué)習(xí)中,學(xué)習(xí)者面對數(shù)量眾多、種類繁雜的學(xué)習(xí)資源容易產(chǎn)生“信息迷航”“信息過載”等問題。因此,為學(xué)習(xí)者提供個性化的學(xué)習(xí)推薦服務(wù)是大規(guī)模在線學(xué)習(xí)的重要任務(wù)。但目前的推薦系統(tǒng)大多只考慮了學(xué)習(xí)者與學(xué)習(xí)資源特征,對其內(nèi)在社會聯(lián)系考慮不足,推薦效果有較大的提升空間。許多研究表明,引入社會化因素,對于提升推薦系統(tǒng)效果有顯著的幫助。社會化推薦系統(tǒng)需要根據(jù)應(yīng)用情境,深入地理解用戶、推薦對象以及影響他們之間相似關(guān)系和社會關(guān)系的要素。大規(guī)模在線學(xué)習(xí)中的社會化推薦系統(tǒng)要素模型包括學(xué)習(xí)者特征、推薦對象特征、社會關(guān)系和應(yīng)用情境四個方面。相較于傳統(tǒng)的推薦方法,在這一要素模型基礎(chǔ)上設(shè)計的基于興趣主題的社會化推薦方法更好地結(jié)合了大規(guī)模在線教育場景,以及學(xué)習(xí)者和資源服務(wù)要素,并進(jìn)一步研究了用戶間的內(nèi)在社會關(guān)聯(lián),挖掘了用戶、學(xué)習(xí)資源間的隱性聯(lián)系。實驗結(jié)果也說明,該推薦方法在教育場景中可以實現(xiàn)更好的推薦效果。
關(guān)鍵詞:大規(guī)模在線學(xué)習(xí);社會化推薦;推薦系統(tǒng);社會網(wǎng)絡(luò);要素模型
一、引言
大規(guī)模在線課程(MOOCs)的出現(xiàn),使得在線教育環(huán)境發(fā)生了巨大變化。MOOCs以其注冊門檻低、資源開放、異步呈現(xiàn)和無約束使用等特點吸引了來自世界各地的學(xué)習(xí)者(楊玉芹等,2014)。大量的資源和眾多的學(xué)習(xí)者使得MOOCs信息量急劇增加,從而導(dǎo)致“信息過載”和“信息迷航”現(xiàn)象突出,學(xué)習(xí)者難以找到合適的學(xué)習(xí)資源、學(xué)習(xí)伙伴及領(lǐng)域?qū)<?。因此需要學(xué)習(xí)推薦系統(tǒng)對其進(jìn)行個性化的推薦服務(wù)。
同時,MOOCs把學(xué)習(xí)的控制權(quán)交給了學(xué)生,給了學(xué)習(xí)者充分發(fā)揮其主觀能動性的空間,這帶來學(xué)習(xí)方式與交互方式的重大改變(王志軍等,2014)。社會化學(xué)習(xí)成為MOOCs學(xué)習(xí)者的重要學(xué)習(xí)方式。在MOOCs中,學(xué)習(xí)者的社交活動,不僅產(chǎn)生了大量的社交關(guān)系,形成了相互聯(lián)系的群體;而且這些社交信息中也包含著學(xué)習(xí)者豐富的個人信息,為進(jìn)一步深入理解學(xué)習(xí)者的認(rèn)知特征、學(xué)習(xí)風(fēng)格和個人興趣提供了依據(jù)。通過對學(xué)習(xí)者的社交情境進(jìn)行分析,可以更加深入地理解學(xué)習(xí)者,進(jìn)而構(gòu)建符合大規(guī)模在線課程特征的社會化推薦系統(tǒng),為學(xué)習(xí)者個性化的推薦服務(wù)提供支持。
面向大規(guī)模在線學(xué)習(xí)的社會化推薦服務(wù)的構(gòu)建需要對大規(guī)模在線學(xué)習(xí)的社會化特點進(jìn)行深入理解,并結(jié)合其特點進(jìn)行系統(tǒng)設(shè)計。為此,本文通過對現(xiàn)有學(xué)習(xí)推薦系統(tǒng)進(jìn)行梳理,結(jié)合大規(guī)模在線學(xué)習(xí)的特點,從學(xué)習(xí)者特征、推薦對象特征、社會關(guān)系和應(yīng)用情境四個方面提出了大規(guī)模在線學(xué)習(xí)中社會化推薦系統(tǒng)的要素及其模型,并在這一要素模型的基礎(chǔ)上,設(shè)計了基于興趣主題的社會化推薦系統(tǒng)框架及其相關(guān)方法。
二、相關(guān)研究
1.學(xué)習(xí)推薦系統(tǒng)
學(xué)習(xí)推薦系統(tǒng)是通過分析學(xué)習(xí)者的歷史興趣和偏好信息,從而確定學(xué)習(xí)者現(xiàn)在和將來可能會喜歡的項目,進(jìn)而主動向?qū)W習(xí)者提供相應(yīng)的資源、同伴和專家推薦服務(wù)(Jannach et al,2011)。
當(dāng)前的學(xué)習(xí)推薦系統(tǒng)研究主要從資源推薦、同伴推薦和學(xué)習(xí)路徑推薦三個方面進(jìn)行了探討。資源推薦是學(xué)習(xí)推薦系統(tǒng)研究最為活躍的部分。利用數(shù)據(jù)挖掘和語義本體技術(shù)對資源內(nèi)容進(jìn)行描述進(jìn)而完成學(xué)習(xí)資源推薦是當(dāng)前研究的熱點。Tams等(2017)提出了一種基于本體和序列模式挖掘的混合知識推薦系統(tǒng),用于學(xué)習(xí)者對e-Learning資源的推薦。Aher和Lobo(2013)采用聚類和關(guān)聯(lián)規(guī)則挖掘技術(shù),推薦學(xué)生根據(jù)其他學(xué)生從Moodle收集的特定課程中選擇課程。Klasnja-Mili6evic等(2011)通過測試學(xué)習(xí)者的學(xué)習(xí)風(fēng)格和挖掘他們的服務(wù)器日志,識別出不同的學(xué)習(xí)風(fēng)格和學(xué)習(xí)習(xí)慣,在e-Learning系統(tǒng)中完成對學(xué)習(xí)者的個性化推薦。趙蔚等(2015)基于本體技術(shù)創(chuàng)建學(xué)習(xí)者知識資源,在教學(xué)模式的指導(dǎo)下實現(xiàn)知識資源個性化推薦,較好地滿足了個性化學(xué)習(xí)需求,激發(fā)了學(xué)習(xí)者學(xué)習(xí)動機(jī)并優(yōu)化了學(xué)習(xí)過程。陳敏等(2011)從用戶興趣、學(xué)習(xí)偏好和知識模型三個角度出發(fā),一方面利用泛在學(xué)習(xí)資源的語義描述,針對結(jié)構(gòu)化泛在學(xué)習(xí)資源進(jìn)行綜合推薦,另一方面通過對學(xué)習(xí)者行為模式的分析,完成對學(xué)習(xí)者學(xué)習(xí)伙伴的推薦。徐彬等(2015)分析了開放課程中論壇用戶的身份特征和學(xué)生用戶在論壇討論過程中的行為模式,建立了學(xué)習(xí)者行為特征模型和學(xué)生在討論過程中形成的關(guān)系網(wǎng)絡(luò),最終根據(jù)討論主題分布結(jié)果為學(xué)習(xí)者推薦學(xué)習(xí)伙伴。學(xué)習(xí)路徑推薦也是解決大規(guī)模在線學(xué)習(xí)個性化學(xué)習(xí)推薦的重要方法。學(xué)習(xí)路徑推薦是對學(xué)習(xí)者學(xué)習(xí)的順序進(jìn)行推薦的一種策略。學(xué)習(xí)路徑的推薦策略主要有三種:基于特征屬性的推薦、基于學(xué)習(xí)模型的推薦和基于群體路徑的推薦(趙呈領(lǐng)等,2015)。
2.社會化推薦系統(tǒng)
社會化推薦系統(tǒng)是指引入信任等社會化因素來設(shè)計推薦算法的推薦系統(tǒng)。許多研究已經(jīng)表明,引入社會化因素,對于提升推薦系統(tǒng)的效果有顯著的幫助(king et al,2010)。
基于信任的社會化推薦系統(tǒng)是最為常見的社會化推薦系統(tǒng)。其基本方法是將信任作為衡量用戶間社會關(guān)系的指標(biāo),通過對用戶相互信任關(guān)系的計算,得出用戶間的信任值。一般擁有較高信任值的兩個用戶之間擁有更多的相似性。大量研究者基于用戶信任關(guān)系進(jìn)行了推薦系統(tǒng)的研究。SoRec是利用隨機(jī)概率矩陣因子分解的方法建立一個與用戶信任關(guān)系相關(guān)的評分矩陣來進(jìn)行推薦的社會化推薦系統(tǒng)(Ma et al,2009)。TidalTrust是一個基于信任網(wǎng)絡(luò)的社會化推薦系統(tǒng),其定義了一個基于傳播路徑的信任值TidalTrust作為衡量用戶間信任值的指標(biāo)(Massa&Avesani,2007)。同樣是基于信任網(wǎng)絡(luò),TrustWalker采取了隨機(jī)游走(Random Walk)模型將信任關(guān)系融入推薦算法,通過社會網(wǎng)絡(luò)詢問用戶直接或者間接的朋友關(guān)于目標(biāo)物品和與其相似物品的評價,來達(dá)到推薦的目標(biāo)(Jamali&Ester,2009)。
近年來,也有更多的研究引入更為“隱性”的基于信任的社會化影響因素,如社交圈、興趣圈以及其他社會規(guī)則等,這些推薦系統(tǒng)也取得了較好的推薦效果。SET系統(tǒng)認(rèn)為用戶會與其所在的社會網(wǎng)絡(luò)群體有相似的愛好與興趣,因此利用用戶所在社交網(wǎng)絡(luò)對物品的整體評分以及用戶的社會影響對推薦對象與用戶之間的相似度進(jìn)行計算(Ma et al,2009)。SocialMF系統(tǒng)將現(xiàn)實社會中的社會規(guī)則考慮進(jìn)推薦系統(tǒng),強(qiáng)調(diào)利用信任網(wǎng)絡(luò)中信任的傳遞關(guān)系來對用戶的潛在愛好進(jìn)行判定(Jamali et al,2011)。CircleCon系統(tǒng)定義了一個基于圈子的社會化推薦算法,該系統(tǒng)的研究者認(rèn)為,朋友間的信任關(guān)系是有其領(lǐng)域范圍的,因此需要對用戶所處的“圈子”進(jìn)行區(qū)分(Yang et al,2012)。
社會化推薦系統(tǒng)在教育領(lǐng)域也逐漸引起研究者的關(guān)注。有研究者以建構(gòu)主義學(xué)習(xí)理論為基礎(chǔ),利用本體論技術(shù),結(jié)合協(xié)同過濾推薦算法,提出了社交網(wǎng)絡(luò)環(huán)境下基于本體的學(xué)習(xí)推薦系統(tǒng)架構(gòu)和功能(吳正洋等,2016)。也有研究采用將學(xué)習(xí)者社交網(wǎng)絡(luò)信息與傳統(tǒng)協(xié)同過濾相融合的方法,計算新學(xué)習(xí)者與好友之間的信任度,來預(yù)測新學(xué)習(xí)者對學(xué)習(xí)資源的評分值,以實現(xiàn)對新學(xué)習(xí)者的個性化學(xué)習(xí)資源推薦(丁永剛等,2016)。但這些研究僅考慮了單一或分散的社會要素,并沒有對大規(guī)模在線學(xué)習(xí)中的社會化要素進(jìn)行全面系統(tǒng)的分析。另外對用戶關(guān)系考慮也比較簡單,缺少對隱性用戶關(guān)系的發(fā)現(xiàn)與挖掘。這些問題使得現(xiàn)有的社會化推薦系統(tǒng)研究難以支持教育領(lǐng)域的實際應(yīng)用。
三、大規(guī)模在線學(xué)習(xí)中社會化推薦系統(tǒng)的要素模型
社會化推薦系統(tǒng)需要根據(jù)應(yīng)用情境,深入理解用戶、推薦對象以及影響他們之間相似關(guān)系和社會關(guān)系的要素(Arazy et al,2010)。大規(guī)模在線學(xué)習(xí)是一種特殊的推薦場景,它具有其他推薦場景不具備的一些特征。為了適應(yīng)不同情境的教學(xué)需求,大規(guī)模在線學(xué)習(xí)中的推薦系統(tǒng)也需要向?qū)W習(xí)者推薦符合當(dāng)前情境需求的資源。為此我們構(gòu)建了如圖1所示的大規(guī)模在線學(xué)習(xí)中社會化推薦系統(tǒng)的要素模型。該模型包含學(xué)習(xí)者特征、資源服務(wù)特征、用戶與推薦對象(包括其他學(xué)習(xí)者和資源服務(wù))之間的相互關(guān)系以及情境因素四個維度。
學(xué)習(xí)者特征是刻畫大規(guī)模在線學(xué)習(xí)中學(xué)習(xí)者顯性和隱性的個體特征的維度,包括認(rèn)知特點、興趣特征、社會特征以及影響力四個要素,以此來深入了解學(xué)習(xí)者心理和行為特征。認(rèn)知特征是指學(xué)習(xí)者的初始學(xué)習(xí)能力和內(nèi)在認(rèn)知特點,包括知識水平、學(xué)習(xí)風(fēng)格、多元智能水平、認(rèn)知策略等。興趣愛好是指學(xué)習(xí)者感興趣的主題和內(nèi)容,是進(jìn)行學(xué)習(xí)內(nèi)容推薦十分重要的參考因素。社會特征是指學(xué)習(xí)者在與其他學(xué)習(xí)者之間組成的社交網(wǎng)絡(luò)中所表現(xiàn)出來的特征,比如他的好友數(shù)、參加的小組數(shù)量以及通過社交網(wǎng)絡(luò)分析得到的中心度等量化指標(biāo)。影響力在社會生活和決策制定等方面發(fā)揮重要作用。在大規(guī)模在線學(xué)習(xí)中具有廣泛影響力的學(xué)習(xí)者,發(fā)表的觀點能夠促使網(wǎng)絡(luò)中的其他人發(fā)生態(tài)度和行為上的改變,同時能夠輕易引發(fā)討論(Li et al,2013)。
與學(xué)習(xí)者特征維度類似,資源服務(wù)特征這一維度反映了資源服務(wù)的內(nèi)在和外在屬性,為更好地理解資源內(nèi)容、分析資源間的關(guān)系提供了支持。資源服務(wù)包括學(xué)習(xí)資源、學(xué)習(xí)支持服務(wù)和學(xué)習(xí)策略等。內(nèi)容特征是對資源內(nèi)容的描述。對資源內(nèi)容特征的描述可以通過很多方法,比如利用文本分析的方法對文本資源進(jìn)行分析;利用本體、標(biāo)簽等語義描述的方法對資源進(jìn)行更加深入地描述。資源的社會特征,主要是指資源通過其創(chuàng)建者和使用者而產(chǎn)生的所屬類別。資源本身并不存在明顯的社會屬性,但是資源在創(chuàng)建、使用的過程中會和不同的學(xué)習(xí)者、學(xué)習(xí)群體產(chǎn)生關(guān)系,使得資源產(chǎn)生了豐富的社會特征。資源的權(quán)威性是指資源被他人認(rèn)可的程度。在大規(guī)模在線學(xué)習(xí)中,學(xué)習(xí)者傾向于接受權(quán)威、可靠的信息(Arazy et al,2010)。資源來源的單位越權(quán)威,資源擁有者越有影響力,則該資源就可能更有權(quán)威性。當(dāng)然,權(quán)威性也可能是大多數(shù)學(xué)習(xí)者認(rèn)可和接受的資源。資源的新穎性是在教育場景中特殊的指標(biāo)。新穎性與資源創(chuàng)新程度以及創(chuàng)建時間有關(guān)。學(xué)習(xí)者對于新穎、未知和具有創(chuàng)新性的推薦對象往往更具有興趣(Golbeck,2006)。從另一個角度來說,新穎的資源也往往應(yīng)該得到更多的關(guān)注與推薦,幫助新內(nèi)容的傳播和擴(kuò)散。
相互關(guān)系是社會化推薦系統(tǒng)中最為重要的維度。相互關(guān)系反映了推薦系統(tǒng)中不同學(xué)習(xí)者之間、不同資源服務(wù)之間以及學(xué)習(xí)者與資源服務(wù)之間的社會聯(lián)系的強(qiáng)弱。通過推薦對象與目標(biāo)學(xué)習(xí)者之間的社會關(guān)系的計算和表征,可以將推薦系統(tǒng)中的各個參與者形成相互關(guān)聯(lián)的復(fù)雜網(wǎng)絡(luò),從而選取合適的推薦對象。在社會化推薦系統(tǒng)中,相互關(guān)系包括相似度、信任度、社會連接、網(wǎng)絡(luò)結(jié)構(gòu)和交互內(nèi)容5種社會關(guān)系。相似度是推薦系統(tǒng)中一種基礎(chǔ)關(guān)系。很多研究指出用戶與推薦對象的相似性會直接影響用戶對推薦結(jié)果的接受程度(Arazy et al,2010)。不同參與者之間的相似度越高,推薦結(jié)果就越容易被接受。信任度體現(xiàn)了參與者之間相互信賴的程度。信任度會帶來學(xué)習(xí)者之間更多的信息交換,并會影響人們對推薦對象的接受程度。信任度可以由學(xué)習(xí)者顯性和隱性行為進(jìn)行確定,比如學(xué)習(xí)者主動添加好友、關(guān)注以及跟隨關(guān)系等。社會連接是基于社會連接理論提出的參與者之間的社會關(guān)系強(qiáng)弱的指標(biāo),包括強(qiáng)連接和弱連接。強(qiáng)連接包括好友關(guān)系、親屬關(guān)系等直接社會關(guān)聯(lián)。弱連接是除了直接社會關(guān)聯(lián)外廣泛的社會關(guān)系,如共同的好友個數(shù)、共同加入的小組、社群等。社會連接理論的研究表明,無論是強(qiáng)連接還是弱連接都會對推薦結(jié)果造成明顯的影響。強(qiáng)的社會連接是直接知識的重要傳播渠道,會影響學(xué)習(xí)者對信息來源的態(tài)度。而弱的社會連接對于新知識、新理念的傳播具有重要的意義。網(wǎng)絡(luò)結(jié)構(gòu)是指學(xué)習(xí)者和推薦對象形成的社交網(wǎng)絡(luò)的網(wǎng)絡(luò)特征。通過社交網(wǎng)絡(luò)分析方法,可以得到社交網(wǎng)絡(luò)的相關(guān)量化指標(biāo),如網(wǎng)絡(luò)的密度、廣度、凝聚程度、子群情況等。交互內(nèi)容是社會關(guān)系中較新的研究主題,它是指學(xué)習(xí)者與推薦對象之間進(jìn)行交互產(chǎn)生的文本、語言等信息。通過對學(xué)習(xí)者交互內(nèi)容的分析,可以對參與者的情緒、偏好和交互強(qiáng)度進(jìn)行更加準(zhǔn)確和深入的分析。
情境因素是指影響推薦系統(tǒng)參與者的外部因素。如何對使用者的情境進(jìn)行感知,并對學(xué)習(xí)者推薦符合情境的對象,是大規(guī)模在線學(xué)習(xí)推薦系統(tǒng)需要考慮的重要因素。學(xué)習(xí)者所處的社會環(huán)境和文化習(xí)慣等外界因素會影響其接受推薦結(jié)果的決定,比如學(xué)習(xí)者的社會背景、宗教、語言等因素會影響學(xué)習(xí)者對于學(xué)習(xí)資源的接受程度。地理因素也是一個影響推薦系統(tǒng)的要素。學(xué)習(xí)者可能更愿意接受來自教育發(fā)達(dá)地區(qū)的推薦結(jié)果,同時在選擇伙伴時也會關(guān)注與自己相近地區(qū)的人。在現(xiàn)今的教學(xué)中,基于情境的學(xué)習(xí)越來越多地引起了教育者的關(guān)注。學(xué)習(xí)者不僅需要與學(xué)習(xí)主題相符合的資源,更加需要與當(dāng)前情境相符合的資源,以便將理論知識快速轉(zhuǎn)化到解決問題的實踐中(陳敏等,2015)。
四、大規(guī)模在線學(xué)習(xí)中社會化推薦系統(tǒng)框架
大規(guī)模在線學(xué)習(xí)中社會化推薦系統(tǒng)的重要目標(biāo)是采集原始學(xué)習(xí)數(shù)據(jù),經(jīng)過數(shù)據(jù)分析、數(shù)據(jù)挖掘等系統(tǒng)處理,最終為學(xué)習(xí)者推薦具有高可信度的學(xué)習(xí)同伴、專家及相關(guān)的最優(yōu)資源。從社會化推薦系統(tǒng)的要素模型出發(fā),依據(jù)實際的大規(guī)模在線學(xué)習(xí)情況,本文提出了如圖2所示的包括數(shù)據(jù)收集、特征分析、社會關(guān)系網(wǎng)絡(luò)建立和支持服務(wù)四個部分的社會化推薦系統(tǒng)總體框架模型,為大規(guī)模在線學(xué)習(xí)社會化推薦系統(tǒng)提供了一個可行的解決方案。
社會化推薦系統(tǒng)總體框架起始于數(shù)據(jù)收集模塊。數(shù)據(jù)資源不僅包含傳統(tǒng)關(guān)系數(shù)據(jù)庫中記錄的學(xué)習(xí)者學(xué)習(xí)歷史信息數(shù)據(jù),還包含學(xué)習(xí)者的社會網(wǎng)絡(luò)關(guān)系數(shù)據(jù)、學(xué)習(xí)者社會交互數(shù)據(jù)、社交文本數(shù)據(jù)以及學(xué)習(xí)者與資源的關(guān)系數(shù)據(jù)。這些底層數(shù)據(jù)來自不同的自治系統(tǒng),包含了結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等形態(tài)各異的數(shù)據(jù)形式。為達(dá)到系統(tǒng)統(tǒng)一使用的目的,需要為這些不同形式的數(shù)據(jù)提供分別的數(shù)據(jù)處理方法,比如文本數(shù)據(jù)處理、關(guān)系數(shù)據(jù)處理等。
特征分析是社會化推薦系統(tǒng)的關(guān)鍵模塊。以數(shù)據(jù)收集、清洗的結(jié)果為基礎(chǔ),通過對學(xué)習(xí)者的行為與特征數(shù)據(jù)(基本屬性、認(rèn)知特點等),學(xué)習(xí)者之間相互關(guān)系數(shù)據(jù)(社會關(guān)系、交互關(guān)系)以及學(xué)習(xí)資源、服務(wù)的特征(內(nèi)容形式、標(biāo)簽)等數(shù)據(jù)的梳理,并結(jié)合關(guān)聯(lián)規(guī)則挖掘、社會網(wǎng)絡(luò)分析等數(shù)據(jù)挖掘方法,分析出學(xué)習(xí)者特征、資源服務(wù)特征、相互關(guān)系和情境因素這四類社會化推薦系統(tǒng)要素。例如,通過對學(xué)習(xí)者行為數(shù)據(jù)的分析,學(xué)習(xí)者的顯性(性別、年齡、地域等)和隱性特征(專業(yè)程度、影響力、持久性以及專注度)可以被抽取出來。而資源特征則從資源的屬性特征(名稱、年份等)和資源的社會特征(類別、學(xué)習(xí)者評分等)等多個維度,利用關(guān)鍵詞提取、關(guān)鍵詞關(guān)聯(lián)分析及關(guān)鍵問題表征等操作進(jìn)行抽取和分析。
社會關(guān)系網(wǎng)絡(luò)的建立是社會化推薦系統(tǒng)的核心模塊,包括學(xué)習(xí)者之間基于可信度的社會關(guān)系網(wǎng)絡(luò)和“學(xué)習(xí)者一資源”二元網(wǎng)絡(luò)的建立,可以通過分析得出學(xué)習(xí)者的強(qiáng)社會關(guān)聯(lián)(好友關(guān)系)和弱社會關(guān)聯(lián)(共同好友和共同圈子)。結(jié)合學(xué)習(xí)者的強(qiáng)關(guān)聯(lián)和弱關(guān)聯(lián),可以從社交網(wǎng)絡(luò)的角度,計算出學(xué)習(xí)者之間的相互關(guān)系,進(jìn)而形成學(xué)習(xí)者之間基于可信度的社會關(guān)系網(wǎng)絡(luò)。結(jié)合學(xué)習(xí)者的社會關(guān)系、學(xué)習(xí)者行為特征以及資源特征,可以形成“學(xué)習(xí)者一資源”二元網(wǎng)絡(luò)。在這個網(wǎng)絡(luò)中,既包含傳統(tǒng)的相似關(guān)系,也包含由社會屬性產(chǎn)生的社會關(guān)系。學(xué)習(xí)者和學(xué)習(xí)者依據(jù)相互關(guān)系和相似程度相互關(guān)聯(lián),學(xué)習(xí)者和資源也通過評分、相似度相互關(guān)聯(lián)。學(xué)習(xí)者和資源融合于一個統(tǒng)一的“學(xué)習(xí)者一資源”網(wǎng)絡(luò)中。
基于“學(xué)習(xí)者一資源”二元網(wǎng)絡(luò),結(jié)合學(xué)習(xí)者特征與資源特征,可以形成在線學(xué)習(xí)社區(qū)中的興趣主題,進(jìn)而根據(jù)興趣主題對“學(xué)習(xí)者一資源”的二元網(wǎng)絡(luò)進(jìn)行切分。
最終,在基于興趣主題的“學(xué)習(xí)者一資源”社會網(wǎng)絡(luò)基礎(chǔ)上,結(jié)合推薦算法,可以完成最后的社會化推薦。經(jīng)過對“學(xué)習(xí)者一資源”間的社會關(guān)系計算,可以完成為學(xué)習(xí)者提供學(xué)習(xí)資源、學(xué)習(xí)同伴以及專家的推薦服務(wù)。
五、社會化推薦方法
社會化推薦系統(tǒng)的核心工作是學(xué)習(xí)者之間基于可信度的社會關(guān)系網(wǎng)絡(luò)和“學(xué)習(xí)者一資源”的二元網(wǎng)絡(luò)這兩個網(wǎng)絡(luò)。這兩個網(wǎng)絡(luò)的構(gòu)建包括學(xué)習(xí)者間相互關(guān)系的計算、學(xué)習(xí)者特征分析以及構(gòu)建基于興趣主題的學(xué)習(xí)者社交網(wǎng)絡(luò)這三個主要的步驟。
1.學(xué)習(xí)者間相互關(guān)系的計算
學(xué)習(xí)者間相互關(guān)系的計算是社會化推薦過程中關(guān)鍵的一步。學(xué)習(xí)者與學(xué)習(xí)者之間的相互關(guān)系在社交網(wǎng)絡(luò)中不僅呈現(xiàn)點贊、關(guān)注、回帖、求助等顯性的社會化關(guān)系,還存在隱形關(guān)系,比如學(xué)習(xí)者對其他學(xué)習(xí)者的信任、喜愛或者尊敬等。這些關(guān)系需要通過社會化學(xué)習(xí)關(guān)系分析的方法進(jìn)行挖掘并最終顯性表達(dá)出來。依據(jù)社會連接理論,在本文中,分別計算了學(xué)習(xí)者間的強(qiáng)連接和弱連接,并通過進(jìn)一步計算得到學(xué)習(xí)者間的相互關(guān)系值。
學(xué)習(xí)者之間的強(qiáng)連接是指學(xué)習(xí)者之間顯性的好友關(guān)系。學(xué)習(xí)者通過大規(guī)模在線學(xué)習(xí)提供的功能,可以直接對感興趣的其他學(xué)習(xí)者添加關(guān)注或好友關(guān)系。通過對這些學(xué)習(xí)者顯性行為的記錄,可直接獲得學(xué)習(xí)者之間的強(qiáng)連接。
弱連接是指沒有直接關(guān)聯(lián)的兩個學(xué)習(xí)者之間的潛在關(guān)系。比如,個人資料的交集(共同好友、共現(xiàn)圈子)、互訪行為(訪問好友空間次數(shù)、好評次數(shù)、轉(zhuǎn)發(fā)行為等)、共同參與(對共同的好友或主題評論、回復(fù))。學(xué)習(xí)者u與學(xué)習(xí)者v在類別c中的弱連接計算如下:
2.學(xué)習(xí)者特征的計算
學(xué)習(xí)者特征是表征學(xué)習(xí)者知識水平、興趣愛好、社會行為和認(rèn)知特點等顯性或隱性特征的指標(biāo)。在本文中,學(xué)習(xí)者特征由專業(yè)程度、專注度、持久度、影響力四個方面進(jìn)行表征和計算。其中專業(yè)程度表征學(xué)習(xí)者的知識水平,專注度、持久度表征學(xué)習(xí)者的興趣特征,影響力表征學(xué)習(xí)者的社會特征。學(xué)習(xí)者的隱性認(rèn)知特點由對應(yīng)的量表提前測得。
專注度表征了一個學(xué)習(xí)者在特定興趣主題中的專一程度。一個學(xué)習(xí)者評論的物品主題類別越集中,他對該主題的興趣和專一程度就越高。公式
持久度表示了學(xué)習(xí)者對一個類別關(guān)注的持久與深入程度。在某一領(lǐng)域持久度高的學(xué)習(xí)者不僅對這一領(lǐng)域更有權(quán)威性,同時也會更加積極地參與有關(guān)這一領(lǐng)域的活動,并具有更大的可能給請求者積極而及時的反饋。一個對某一類別有深入關(guān)注的學(xué)習(xí)者,在該類別中應(yīng)該持續(xù)評價和關(guān)注不同的物品,并且對該類別的關(guān)注事件較早、較長。因此,一個
專業(yè)程度是用于測量學(xué)習(xí)者在特定主題專業(yè)知識能力的指標(biāo)。它用于在特定主題下對學(xué)習(xí)者的專業(yè)程度評分。一個特定情境下,學(xué)習(xí)新技術(shù)的同學(xué)可能更傾向于向領(lǐng)域?qū)<叶峭瑢W(xué)進(jìn)行請教。在某一個特定主題中,學(xué)習(xí)者專業(yè)程度的計算基于以下兩個假設(shè):第一,學(xué)習(xí)者在該主題中評論越多,則他對這個主題的了解越多;第二,一個專家對一個物品的評論應(yīng)該與該物品的總體評論相近。因此,學(xué)習(xí)者在主題c中專業(yè)程度可以用公式(5)進(jìn)行計算:
影響力即社會影響力,是指學(xué)習(xí)者發(fā)表的觀點能夠促使網(wǎng)絡(luò)中的其他人發(fā)生態(tài)度和行為改變的能力。影響力高的學(xué)習(xí)者較易成為社會化網(wǎng)絡(luò)的中心人物并對他人的閱讀行為和學(xué)習(xí)活動產(chǎn)生影響。影響力越高的成員應(yīng)該擁有更多的“粉絲”(追隨程度)并與主題中的其他學(xué)習(xí)者間有更為豐富的社交關(guān)系(直接或者間接)。因此,一個學(xué)習(xí)者在興趣主題c中的影響力可以用公式(6)進(jìn)行計算:
3.基于興趣主題的學(xué)習(xí)者網(wǎng)絡(luò)構(gòu)建
興趣主題是對學(xué)習(xí)者使用情境的刻畫。在不同的興趣主題中,學(xué)習(xí)者之間會呈現(xiàn)不同的社會關(guān)系和角色。例如,在文學(xué)領(lǐng)域,學(xué)習(xí)者更愿意與作家或者創(chuàng)作者進(jìn)行交流,接受他們的推薦;而在醫(yī)學(xué)領(lǐng)域,醫(yī)生則具有更高的權(quán)威性。這些社會關(guān)系和角色的轉(zhuǎn)變,會帶來對推薦結(jié)果的影響。
基于興趣主題的學(xué)習(xí)者可信度網(wǎng)絡(luò)構(gòu)建是將學(xué)習(xí)者的社會關(guān)系網(wǎng)絡(luò)根據(jù)興趣,分割成不同的興趣主題子網(wǎng)絡(luò)。依據(jù)學(xué)習(xí)者對不同物品進(jìn)行的評分,可以按物品的特征和種類將學(xué)習(xí)者劃分為不同的興趣主題。參照Yang等在論文中提出的方法(Yanget al,2012),“學(xué)習(xí)者一資源”的社會網(wǎng)絡(luò)s可以按照以下規(guī)則分割成以只包含單個資源類型的子網(wǎng)絡(luò)S。具體規(guī)則如下:
學(xué)習(xí)者u和學(xué)習(xí)者v共同存在于類別c的子網(wǎng)絡(luò)s,有且只有滿足以下兩個條件:第一,學(xué)習(xí)者u和學(xué)習(xí)者v本身存在社會關(guān)系;第二,學(xué)習(xí)者u和學(xué)習(xí)者v都對類別c中的物品進(jìn)行過評分。
如果不滿足以上兩個條件,則學(xué)習(xí)者u和學(xué)習(xí)者v不存在于類別c的子網(wǎng)絡(luò)。對于一個物品,他僅僅存在于一個子網(wǎng)絡(luò),而學(xué)習(xí)者可以存在于多個子網(wǎng)絡(luò)中。即學(xué)習(xí)者可以分屬多個興趣主題。
4.推薦模式
社會化學(xué)習(xí)推薦的最終目標(biāo)是在社會化學(xué)習(xí)分析及社會化推薦技術(shù)背景下,從更智能更廣泛的角度理解資源與學(xué)習(xí)者的關(guān)系,提供由淺層資源向深層資源推進(jìn)的按需推送,實現(xiàn)對學(xué)習(xí)社群、學(xué)習(xí)同伴、領(lǐng)域?qū)<业挠行扑]。依據(jù)不同的應(yīng)用需求,不同指標(biāo)可以根據(jù)其重要程度被進(jìn)行賦權(quán),通過將學(xué)習(xí)者可信度網(wǎng)絡(luò)與學(xué)習(xí)者的評分矩陣進(jìn)行整合,結(jié)合基于信任的協(xié)同過濾方法(Victor et al,2009)實現(xiàn)學(xué)習(xí)資源推薦、專家推薦和同伴推薦等推薦模式。
六、效果驗證
為了驗證本文所提出的社會化推薦方法的有效性,研究選取了真實數(shù)據(jù)集,以資源服務(wù)推薦為例,對所提出的社會化推薦方法的準(zhǔn)確性進(jìn)行了評估測試。同時,對所提出的推薦系統(tǒng)進(jìn)行了初步實現(xiàn)。
1.數(shù)據(jù)收集
社會化推薦的重點是收集在線學(xué)習(xí)社區(qū)中學(xué)習(xí)者之間的社會交互數(shù)據(jù)。因此,根據(jù)研究需要,為了突出社會關(guān)系屬性,本研究選取了來自豆瓣網(wǎng)的兩個小組——“教育大發(fā)現(xiàn)”(https://www.douban.com/group/SocialLearnLab/)以及“實踐蒙臺梭利”(https://www.douban.com/group/123776/)作為數(shù)據(jù)來源。自動收集了小組成員、成員對物品的評分信息以及成員的相關(guān)社交信息。成員評論的物品選取了評論人數(shù)較為密集的“圖書”作為推薦資源,成員的社交信息包括成員關(guān)注的人、關(guān)注該成員的人以及成員加入的小組名稱。本研究所收集的數(shù)據(jù)如下:
“教育大發(fā)現(xiàn)”共有成員477名,全部成員共關(guān)注84484本圖書,其中有17148本圖書被該小組成員評論。全部成員共參加31057個小組,關(guān)注49194人,這些成員也被81054個其他用戶所關(guān)注。
“實踐蒙臺梭利”共有成員524名,全部成員共關(guān)注100943本圖書,其中有21371本圖書被該小組成員評論。全部成員共參加47388個小組,關(guān)注56372個,這些成員也被100831個其他用戶所關(guān)注。
2.實驗過程
本研究分別收集了兩個小組的成員基本信息(ID、性別、地區(qū)),社交信息(關(guān)注的人、被關(guān)注的人、參加的小組),與資源的交互信息(想看的圖書、已看的圖書、在看的圖書、成員對圖書的評分)以及資源信息(所有圖書的標(biāo)題、年份、作者、標(biāo)簽等信息),并對原始數(shù)據(jù)進(jìn)行了清洗(去除了兩個小組被注銷的賬號)。
利用前文提出的興趣主題的劃分方法,對圖書和用戶進(jìn)行了劃分。依據(jù)豆瓣網(wǎng)的圖書分類標(biāo)簽,可以將圖書分為文學(xué)、流行、文化、經(jīng)管、科技和其他6個分類,如果有圖書屬于不同的分類,則經(jīng)研究人員討論后,^工將其放入其中—個分類。依照圖書的分類,可以將兩個社區(qū)中的學(xué)習(xí)者分為6個興趣主題。兩個社區(qū)這6個主題的基本情況如表1和表2所示。
對學(xué)習(xí)者進(jìn)行興趣主題的劃分后,利用學(xué)習(xí)者之間的關(guān)注、被關(guān)注和參加小組的信息,對學(xué)習(xí)者之間的可信度進(jìn)行了計算。并結(jié)合學(xué)習(xí)者在不同興趣主題下的評論對學(xué)習(xí)者的特征進(jìn)行了計算。最后,依據(jù)基于信任度的推薦算法,計算了不同圖書、學(xué)習(xí)者之間的推薦關(guān)系,完成了圖書推薦的工作。
3.實驗結(jié)果
準(zhǔn)確率(Precision)是檢索出相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是推薦系統(tǒng)的查準(zhǔn)率。在推薦過程中,準(zhǔn)確率是廣泛用于信息檢索和統(tǒng)計學(xué)分類領(lǐng)域的度量值,用來評價結(jié)果的質(zhì)量(劉建國等,2009)。本文采用最常用的準(zhǔn)確率平均誤差MAE(Mean Absolute Error)作為研究提出的社會化推薦方法性能的評價基準(zhǔn)。MAE越小,說明該方法的平均誤差越小,推薦的結(jié)果則越準(zhǔn)確。
研究將所提出的社會化推薦方法與傳統(tǒng)協(xié)同過濾方法中的基于用戶的推薦和基于物品的推薦方法進(jìn)行了對比。采用70%的訓(xùn)練集和30%的測試集針對三個不同類別方法作了MAE的計算,兩組數(shù)據(jù)的計算結(jié)果如表3和表4所示。
從上面兩張表中我們可以清楚地看到,在圖書推薦中,研究所提出的社會化推薦方法推薦準(zhǔn)確率平均誤差(MAE)小于基于用戶的推薦方法和基于物品的推薦方法,顯示出較好的推薦效果。
4.推薦系統(tǒng)的初步實現(xiàn)
通過對現(xiàn)有開源推薦系統(tǒng)的調(diào)研,本研究以Apache基金會的Mahout項目所提供的開源推薦算法為基礎(chǔ),修正和補(bǔ)充了部分內(nèi)容,完成了整個社會化推薦系統(tǒng)的開發(fā)。
Apache的Mahout項目是一個開源的機(jī)器學(xué)習(xí)軟件庫,主要關(guān)注于推薦引擎(協(xié)同過濾)、聚類和分類等機(jī)器學(xué)習(xí)的熱點問題(sean owen等,2014)。相較于其他開源的推薦系統(tǒng),Mahout擁有更為靈活和開放的類庫,同時提供了包括基于物品的推薦、基于用戶的推薦以及基于模型的推薦等多種經(jīng)典的推薦算法,便于操作。推薦系統(tǒng)的推薦結(jié)果如圖3和圖4所示。
七、總結(jié)
大規(guī)模在線學(xué)習(xí)是在線學(xué)習(xí)的未來發(fā)展趨勢。為學(xué)習(xí)者提供個性化的推薦服務(wù)是大規(guī)模在線學(xué)習(xí)的重要任務(wù)。個性化學(xué)習(xí)的支持,最重要的是對學(xué)習(xí)者更加深入和充分的理解。在社交網(wǎng)絡(luò)逐漸普及的今天,學(xué)習(xí)者越來越多地利用社交網(wǎng)絡(luò)進(jìn)行交流與學(xué)習(xí)。一個好的在線學(xué)習(xí)社區(qū),不僅需要建立學(xué)習(xí)者可以相互協(xié)作和交流的社會空間,而且需要建立有效的社會化推薦服務(wù),幫助學(xué)習(xí)者找到合適的伙伴、專家和資源,建立學(xué)習(xí)共同體,促進(jìn)學(xué)習(xí)者完成深度學(xué)習(xí)。
本研究結(jié)合在線學(xué)習(xí)社區(qū)場景,通過對大規(guī)模在線學(xué)習(xí)中的社會化要素進(jìn)行系統(tǒng)地分析,提出了大規(guī)模在線學(xué)習(xí)中社會化推薦系統(tǒng)的要素模型。在這一要素模型的基礎(chǔ)上,設(shè)計了基于興趣主題的社會化推薦系統(tǒng)框架,并結(jié)合大規(guī)模在線學(xué)習(xí)的實際情況,提出了構(gòu)建基于興趣主題“學(xué)習(xí)者一資源”二元社會網(wǎng)絡(luò)的具體方法以及學(xué)習(xí)資源、學(xué)習(xí)同伴以及領(lǐng)域?qū)<业耐扑]方法。相較于傳統(tǒng)的推薦方法,本研究所提出的基于興趣主題的社會化推薦方法更好地結(jié)合了大規(guī)模在線教育場景,結(jié)合了學(xué)習(xí)者和資源服務(wù)要素,并進(jìn)一步研究了用戶間的內(nèi)在社會關(guān)聯(lián),挖掘了用戶、學(xué)習(xí)資源間的隱性聯(lián)系。實驗結(jié)果也說明,本研究所提出的方法在準(zhǔn)確率上有較好的表現(xiàn),在教育場景中可以實現(xiàn)更好的推薦效果。
本文是將社會化推薦系統(tǒng)應(yīng)用于大規(guī)模在線學(xué)習(xí)的一次有益嘗試,為大規(guī)模在線學(xué)習(xí)的個性化推薦服務(wù)提供了新的視角和思路。本文的不足之處在于主要探討了學(xué)習(xí)者的社會關(guān)系及其特征,但是對資源之間的語義聯(lián)系沒有進(jìn)行計算。在下一步研究中,將依據(jù)當(dāng)前的社會關(guān)系研究成果,結(jié)合資源語義關(guān)系,進(jìn)一步提升推薦的準(zhǔn)確度和相關(guān)性,以達(dá)到更好的推薦效果。