• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)字教育資源推薦算法的設(shè)計和應(yīng)用

      2019-03-06 12:40趙川莫世榮
      中國教育信息化·高教職教 2019年1期
      關(guān)鍵詞:大數(shù)據(jù)算法

      趙川 莫世榮

      摘? ?要:數(shù)字教育資源推薦是教育資源平臺大數(shù)據(jù)分析和應(yīng)用的核心功能,本文介紹了浙江教育資源公共服務(wù)平臺資源推薦的四個算法:資源關(guān)聯(lián)分析算法(FP-Growth)、用戶聚類分析算法(K-Means)、資源相似性分析算法(ACS)、矩陣分解算法(ALS),同時闡述了算法模型在教育資源平臺和網(wǎng)絡(luò)學(xué)習(xí)空間中的應(yīng)用及優(yōu)化機制,為后續(xù)資源推薦算法進一步豐富、高效和精準提供了基礎(chǔ)。

      關(guān)鍵詞:數(shù)字教育資源;算法;大數(shù)據(jù);資源推薦

      中圖分類號:TP393 文獻標志碼:B 文章編號:1673-8454(2019)01-0047-04

      一、引言

      隨著教育資源平臺中資源數(shù)量的不斷增加,視頻、音頻等非文本性資源占比逐漸提高,資源應(yīng)用APP、游戲?qū)W習(xí)網(wǎng)站等非傳統(tǒng)性資源類型日益豐富。同時,網(wǎng)絡(luò)學(xué)習(xí)空間和學(xué)習(xí)平臺的興起,使教學(xué)互動過程中產(chǎn)生了大量的形成性資源。資源量大、資源更新快等因素導(dǎo)致主流 “分類+搜索”的資源查找方式已難以滿足師生對優(yōu)質(zhì)數(shù)字教育資源的獲取需求。充分利用大數(shù)據(jù)技術(shù)采集資源、用戶和用戶資源應(yīng)用行為等數(shù)據(jù),進行數(shù)據(jù)分析和數(shù)據(jù)挖掘,精準地為用戶推薦個性化學(xué)習(xí)資源,是解決用戶資源“獲取難”的基本路徑和有效手段。

      二、資源推薦算法設(shè)計

      個性化學(xué)習(xí)資源推薦是否精準,關(guān)鍵在于數(shù)據(jù)分析和數(shù)據(jù)挖掘算法是否有效。下面介紹浙江教育資源公共服務(wù)平臺(http://www.zjer.cn)已實現(xiàn)的四個資源推薦算法。

      1.資源關(guān)聯(lián)分析算法(FP-Growth)

      關(guān)聯(lián)分析又稱關(guān)聯(lián)挖掘,就是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)[1]。分析用戶購物籃物品,以找到購買物品相關(guān)性,是常見的關(guān)聯(lián)分析算法應(yīng)用場景。

      關(guān)聯(lián)分析算法可通過大量用戶資源使用行為數(shù)據(jù)的采集和分析,發(fā)現(xiàn)資源內(nèi)在的關(guān)聯(lián)性,如大量用戶在使用A資源時也會使用B資源,則認為A資源與B資源間有高關(guān)聯(lián)性。當甲用戶使用A資源時,平臺會將與A資源關(guān)聯(lián)性高的B資源推薦給甲用戶。

      采集合并一段時間內(nèi)(暫設(shè)3個月)用戶資源下載、收藏、評分的數(shù)據(jù),經(jīng)數(shù)據(jù)清洗后,按時間段(暫設(shè)4天)切割成事務(wù)集,所有事務(wù)集作為項目集I={I1,I2,Im }。根據(jù)FP-Growth算法,按設(shè)定的最小支持度minSupport(暫定0.01)選取所有項目集中頻繁出現(xiàn)的子集作為頻繁集F={f1,f2,…,fn}(fi∈I,i≤n);設(shè)定最小置信度minConfidence(暫定0.8),若兩個頻繁集項f1∩f2≠?覫,篩選出P(f1│f2)=≥minConfidence,輸出f1,f2中高概率同時出現(xiàn)資源的關(guān)聯(lián)規(guī)則。對每個用戶,根據(jù)其歷史接觸的資源記錄,根據(jù)關(guān)聯(lián)規(guī)則和置信度排序找到可提供推薦的前N個資源(置信度高的排前,并且這N個資源不在用戶的歷史接觸資源記錄中)。

      2.用戶聚類分析算法(K-Means)

      聚類(Clustering)指的是一種學(xué)習(xí)方式(操作方式),即把物理或抽象對象的集合分組為由彼此類似的對象組成的多個類的分析過程[2]。K-Means算法是聚類中很常用的基于向量距離的算法。

      該算法根據(jù)用戶之間的相似性形成簇,認為簇內(nèi)用戶資源喜好具有相似性?;谒杏脩舻馁Y源使用行為記錄,將用戶分成若干簇,若甲用戶與乙用戶在同一簇內(nèi),認為兩用戶間有喜好相似,則甲用戶使用的資源也相應(yīng)推薦給乙用戶。

      采集用戶資源評分數(shù)據(jù)并作相應(yīng)處理,若用戶有直接資源評分,則計算每個用戶平均資源評分,并將原始評分減去用戶平均評分;若用戶有收藏、下載數(shù)據(jù)等操作,則給予相應(yīng)的操作分填充缺失的評分項;若用戶對某資源未有操作,以零分補足數(shù)據(jù)。將處理好的資源評分數(shù)據(jù)轉(zhuǎn)換成“用戶-資源評分”矩陣,矩陣各行向量每一個分量表示對應(yīng)用戶對各資源的評分,稱為評分向量。設(shè)定初始簇數(shù)和隨機初始簇質(zhì)心K(暫定5),利用余弦相似度公式計算“用戶-資源評分”矩陣各用戶向量R與各初始簇質(zhì)心的差距,第一輪計算比較差距,將用戶歸入各簇后重新計算得到新的各簇質(zhì)心,進而對用戶基于新簇質(zhì)心進行多輪迭代聚類,最終得到用戶簇,明確各用戶屬于那個簇。最后,對各簇中所有資源評分總和排序,總分最高N個(暫定100)資源向簇內(nèi)用戶推薦。

      用戶聚類分析算法實現(xiàn)的資源推薦是對用戶強關(guān)系鏈(如同班同學(xué)、師生關(guān)系等)和弱關(guān)系鏈(如同社區(qū)學(xué)習(xí)成員、好友關(guān)系等)資源推薦的補充。

      3.資源相似性分析算法(ACS)

      用戶聚類分析算法(K-Means)據(jù)用戶相似性實現(xiàn)資源推薦, ACS(Adjusted Cosine Similarity修正余弦相似性)算法根據(jù)資源相似性提供資源推薦。先根據(jù)大量用戶的行為,找到資源相似性,如資源A和資源B有很強相似度。當用戶甲對資源A瀏覽、下載、評價等資源操作時,可將資源B推薦給用戶甲。

      4.矩陣分解算法(ALS)

      矩陣分解最小二乘法(Alternating Least Squares)是一種常用的協(xié)同過濾算法。協(xié)同過濾算法核心是分析用戶興趣,在用戶群中找到與指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價,形成系統(tǒng)對該指定用戶對此信息的喜好程序的預(yù)測[3]。是大型網(wǎng)站(如Google、Baidu)為用戶提供個性化新聞和搜索使用最廣泛的推薦算法。數(shù)字教育資源平臺通過用戶資源使用行為發(fā)現(xiàn)用戶最感興趣的資源,然后將最能夠匹配用戶需求的若干條資源推薦給該用戶。

      在“用戶-資源評分”矩陣R中,若某資源評分不存在,則根據(jù)用戶特征矩陣和資源特征矩陣預(yù)測該資源評分。當用戶甲在資源瀏覽時,可向用戶甲推薦預(yù)測評分最高的前N個資源(暫定為10)。

      三、資源推薦算法模型的應(yīng)用

      數(shù)字教育資源推薦的本質(zhì)是在大量數(shù)據(jù)分析和數(shù)據(jù)挖掘的基礎(chǔ)上為用戶和資源“畫像”,利用“畫像”找到用戶與資源之間的匹配關(guān)系,匹配越精準,推薦越有效。

      算法的上一個層級是業(yè)務(wù)模型,業(yè)務(wù)模型包括數(shù)據(jù)采集、數(shù)據(jù)清洗、參數(shù)配置、數(shù)據(jù)輸出及一個或若干個算法,算法是業(yè)務(wù)模型的核心?!敖趹?yīng)用資源關(guān)聯(lián)規(guī)則模型”中的核心是Fp-Growth算法。

      1.資源推薦算法模型的應(yīng)用場景

      業(yè)務(wù)模型上一層級是精準推薦應(yīng)用,浙江教育資源公共服務(wù)平臺已實現(xiàn)三個應(yīng)用場景:資源智能檢索、空間資源推送、資源相關(guān)性推薦。

      (1)資源智能檢索

      傳統(tǒng)教育資源服務(wù)平臺一般通過關(guān)鍵詞搜索,搜索資源名稱、資源簡介、資源作者等,結(jié)果以時間倒序排,最新資源排最前。傳統(tǒng)資源搜索并不會根據(jù)搜索者的“用戶畫像”提供適宜資源,導(dǎo)致用戶在搜索結(jié)果中花費較多時間遴選資源。

      用戶進入智能資源檢索界面,平臺根據(jù)用戶的基本屬性和用戶的行為數(shù)據(jù),推薦相關(guān)資源。不同用戶通過資源智能檢索功能搜索同一內(nèi)容時,平臺根據(jù)后臺相關(guān)數(shù)據(jù)算法模型的推薦資源內(nèi)容為不同用戶展示最匹配的資源列表,方便用戶快速找到所需資源。如教師搜索,平臺傾向呈現(xiàn)教案、課件、評測等教學(xué)資源,但學(xué)生搜索時,平臺更傾向于呈現(xiàn)學(xué)案、微課、作業(yè)講解等學(xué)習(xí)資源。

      (2)空間資源推送

      網(wǎng)絡(luò)學(xué)習(xí)空間是以用戶為中心,支撐個性化學(xué)習(xí)的網(wǎng)絡(luò)學(xué)習(xí)環(huán)境,滿足用戶知識管理需求,在實現(xiàn)空間互聯(lián)互通的基礎(chǔ)上,實現(xiàn)用戶之間的資源交流。

      傳統(tǒng)網(wǎng)絡(luò)學(xué)習(xí)空間用戶資源管理依靠用戶的收藏、下載。上傳方式是從平臺的資源中心、其他教師空間和本地收集資源存入空間網(wǎng)盤,或者通過關(guān)注、訂閱及時獲取最新資源,篩選后存入空間網(wǎng)盤。在傳統(tǒng)網(wǎng)絡(luò)學(xué)習(xí)空間用戶資源管理的基礎(chǔ)上,大數(shù)據(jù)算法模型應(yīng)用輔助用戶動態(tài)、及時獲取優(yōu)質(zhì)資源。網(wǎng)絡(luò)學(xué)習(xí)空間智能推送模塊依據(jù)用戶學(xué)科屬性、學(xué)習(xí)進展、好友關(guān)系、資源使用行為等數(shù)據(jù)進行分析和挖掘,為用戶提供優(yōu)質(zhì)學(xué)習(xí)資源。

      (3)資源相關(guān)性推薦

      相關(guān)資源推薦類似淘寶、京東等相關(guān)商品推薦,在用戶瀏覽或下載資源時,提供與本資源相關(guān)的資源推薦,幫助用戶進一步選擇。傳統(tǒng)資源推薦基于資源關(guān)鍵詞、標簽或者作者等相關(guān)信息。

      基于數(shù)據(jù)分析和挖掘,該平臺在傳統(tǒng)資源推薦的基礎(chǔ)上,根據(jù)資源相關(guān)性和用戶相關(guān)性等算法將與本資源有內(nèi)在相關(guān)性的資源推薦到“相關(guān)資源推薦”列表,提高了推薦的有效性。

      2.算法模型應(yīng)用的迭代優(yōu)化

      資源推薦算法的設(shè)計并非一勞永逸、一成不變。算法模型應(yīng)用需要在資源推薦準確性和算法運行所需計算資源之間找到平衡點,在不斷調(diào)整過程中迭代優(yōu)化。

      (1)算法可視化反饋支撐參數(shù)調(diào)優(yōu)

      每一種算法均有相應(yīng)的參數(shù)設(shè)置,如資源關(guān)聯(lián)分析算法(FP-Growth)中,資源分析范圍(暫設(shè)3個月),最小支持度minSupport(暫定0.01),最小置信度minConfidence(暫定0.8)等。需綜合考慮輸入數(shù)據(jù)的豐富性和計算性能的局限性,若資源分析范圍過寬,盡管數(shù)據(jù)豐富性增強但同時也對計算性能提出更高的要求,用戶獲取推薦資源的周期也變長;同樣,增大最小支持度和最小置信度,則有可能使推薦資源量極少,資源推薦效果不明顯。

      平臺算法模型應(yīng)用結(jié)果可視化界面截圖,反映了某算法一個周期內(nèi)資源推薦用戶的覆蓋率、可推薦資源數(shù)、成功推薦的用戶數(shù)和資源數(shù),以及推薦給用戶后用戶的實際點擊情況。根據(jù)可視化結(jié)果,可逐步調(diào)優(yōu)參數(shù)以保證算法推薦資源量和用戶覆蓋率在一定值以上,同時觀察實際點擊情況以了解推薦資源的用戶接受情況。

      (2)擴展和清洗數(shù)據(jù)進行數(shù)據(jù)化調(diào)優(yōu)

      數(shù)據(jù)化是大數(shù)據(jù)分析的基礎(chǔ),同時,數(shù)據(jù)化的范圍、數(shù)據(jù)化過程中數(shù)據(jù)的清洗是一項不斷調(diào)優(yōu)的工作。從已實現(xiàn)的資源推薦算法可知,“資源評分”是一個廣義的概念,除用戶直接對資源進行評分外,用戶的下載、收藏、瀏覽等行為也折算成相應(yīng)的資源評分項,實現(xiàn)用戶行為的數(shù)據(jù)化。

      一方面,要深度挖掘數(shù)據(jù)輸入,除將下載、收藏、瀏覽等行為折算成資源評分項外,還應(yīng)將評論、分享等其他行為也應(yīng)折算成資源評分項,甚至把鼠標移動軌跡和頁面停留時間按規(guī)則折算成資源評分項;另一方面,對數(shù)據(jù)有效性需進一步評價,剔除無效數(shù)據(jù),如在評論折算成資源評分項時要將一些簡單評論,譬如“好”、“不錯”這樣的評論去除,或?qū)Σ煌抛u度的用戶在資源評分項折算時按不同權(quán)重折算。

      (3) 數(shù)據(jù)結(jié)構(gòu)化處理實現(xiàn)聚類調(diào)優(yōu)

      教育資源公共服務(wù)平臺的數(shù)字教育資源推薦可充分利用平臺用戶和資源數(shù)據(jù)結(jié)構(gòu)化特性,在常用算法數(shù)據(jù)輸入前,將不同維度上近似的用戶和資源提前聚類,以群體代替?zhèn)€體進行資源推薦,避免算法的生搬硬套,提升資源推薦的匹配度,降低資源推薦的計算量。

      聚類前置群體推薦先對用戶進行X-API聚類,根據(jù)用戶性別、學(xué)科、學(xué)段、愛好、區(qū)域、行為等數(shù)據(jù)構(gòu)成用戶畫像,根據(jù)資源學(xué)科、學(xué)段、類型、知識點等數(shù)據(jù)構(gòu)成資源畫像。將這些屬性特征分別在用戶數(shù)據(jù)庫和資源數(shù)據(jù)庫中事先聚類,并選擇出與推薦用戶有相同屬性特征的備選用戶集和備選資源集,形成候選用戶資源矩陣。算法應(yīng)用基于候選用戶資源矩陣。

      四、結(jié)束語

      本文只研究了教育資源公共服務(wù)平臺內(nèi)數(shù)據(jù)收集分析和資源推薦,后續(xù)將與接入平臺的各學(xué)習(xí)應(yīng)用之間實現(xiàn)數(shù)據(jù)交互和采集,依據(jù)真實教育教學(xué)業(yè)務(wù)形態(tài),分析課堂教學(xué)、在線評測、教師研訓(xùn)等資源應(yīng)用數(shù)據(jù),進一步拓展資源推薦范圍,提高資源推薦的精準度。

      參考文獻:

      [1]佚名.關(guān)聯(lián)分析:FP-Growth算法[EB/OL].https://www.cnblogs.com/datahunter/p/3903413.html,2014-08-11.

      [2]高揚,衛(wèi)崢,尹會生.白話大數(shù)據(jù)與機器學(xué)習(xí)[M].北京:機械工業(yè)出版社,2016.9.

      [3]李改,李磊.基于矩陣分解的協(xié)同過濾算法[J].計算機工程與應(yīng)用,2011,47(30):4-7.

      (編輯:王曉明)

      猜你喜歡
      大數(shù)據(jù)算法
      基于MapReduce的改進Eclat算法
      Travellng thg World Full—time for Rree
      進位加法的兩種算法
      基于增強隨機搜索的OECI-ELM算法
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      一種改進的整周模糊度去相關(guān)算法
      砀山县| 吴旗县| 安图县| 台湾省| 四平市| 绥棱县| 忻城县| 出国| 正阳县| 松潘县| 维西| 伊金霍洛旗| 天峻县| 阿勒泰市| 康保县| 榆社县| 庆元县| 大余县| 宣恩县| 儋州市| 江津市| 阳谷县| 高安市| 徐水县| 航空| 夏津县| 澜沧| 房产| 延川县| 宝山区| 诸暨市| 土默特左旗| 怀仁县| 本溪| 恩平市| 哈尔滨市| 乌审旗| 渭源县| 江口县| 女性| 浙江省|