• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于自動(dòng)聚類和集成學(xué)習(xí)的網(wǎng)絡(luò)教學(xué)形成性評(píng)價(jià)方法

      2018-05-14 17:57文孟飛劉偉榮等
      中國電化教育 2018年3期
      關(guān)鍵詞:在線學(xué)習(xí)機(jī)器學(xué)習(xí)云計(jì)算

      文孟飛 劉偉榮等

      摘要:大數(shù)據(jù)云計(jì)算平臺(tái)觸發(fā)了教育行業(yè)的巨大變革,催生了各種形式和各種內(nèi)容的網(wǎng)絡(luò)教學(xué)開放課程,這些課程所采用的自由在線學(xué)習(xí)方式能夠針對(duì)學(xué)習(xí)者的個(gè)性化需求展開導(dǎo)向?qū)W習(xí),可以激發(fā)學(xué)習(xí)者的學(xué)習(xí)積極性。而如何根據(jù)學(xué)習(xí)者的特點(diǎn)進(jìn)行較為準(zhǔn)確的評(píng)價(jià)是網(wǎng)絡(luò)教學(xué)開放課堂所面臨的一個(gè)關(guān)鍵問題。該文利用在線學(xué)習(xí)過程中學(xué)習(xí)者學(xué)習(xí)活動(dòng)所產(chǎn)生的大量數(shù)據(jù)對(duì)學(xué)習(xí)者產(chǎn)生形成性評(píng)價(jià),首先基于認(rèn)知思維的要求作為在線學(xué)習(xí)的目標(biāo)分類,通過自動(dòng)分類算法進(jìn)行聚類分析區(qū)分學(xué)習(xí)者的應(yīng)用能力層次。在此基礎(chǔ)上,為提高數(shù)據(jù)的處理效率,加快對(duì)學(xué)習(xí)者的評(píng)價(jià),再采用三層自動(dòng)編碼器的神經(jīng)網(wǎng)絡(luò)降維提取關(guān)鍵特征,然后利用訓(xùn)練集中的數(shù)據(jù)訓(xùn)練學(xué)習(xí)器,并利用集成學(xué)習(xí)機(jī)制綜合單個(gè)學(xué)習(xí)器的結(jié)果,得到更為準(zhǔn)確的評(píng)價(jià)結(jié)果。該文采集初中學(xué)生針對(duì)特定知識(shí)點(diǎn)的在線學(xué)習(xí)活動(dòng)數(shù)據(jù)構(gòu)成訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)集,通過對(duì)比專家人工和機(jī)器學(xué)習(xí)機(jī)制對(duì)所構(gòu)造的測(cè)試集數(shù)據(jù)的評(píng)價(jià)結(jié)果,驗(yàn)證了該文方法的有效性。

      關(guān)鍵詞:在線學(xué)習(xí);大數(shù)據(jù),云計(jì)算;機(jī)器學(xué)習(xí)

      中圖分類號(hào):G434 文獻(xiàn)標(biāo)識(shí)碼:A

      一、引言

      隨著信息化技術(shù)的發(fā)展,共享大數(shù)據(jù)的云計(jì)算平臺(tái)與教育行業(yè)不斷融合,為教育行業(yè)的發(fā)展提供了有力的技術(shù)支持。教育體系包括教學(xué)環(huán)節(jié)、學(xué)習(xí)體驗(yàn)、互動(dòng)機(jī)制、評(píng)估方法等各個(gè)方面都將發(fā)生一定程度的改變。這些改變中比較吸引人的特色是可以對(duì)任何受教育對(duì)象在任何時(shí)間、任何地點(diǎn)和任何形式(Anyone,Anytime,Anywhere,Anystyle)的自由在線學(xué)習(xí)方式。在這種自由在線學(xué)習(xí)方式的支持下,任何學(xué)習(xí)者,只要擁有一個(gè)可以訪問互聯(lián)網(wǎng)的移動(dòng)客戶端,就可以訪問諸多云計(jì)算平臺(tái)上各種共享教育資源,不像課堂教學(xué)那樣必須在規(guī)定的時(shí)間和地點(diǎn),由事先分派的教師來傳授。而受教育對(duì)象所學(xué)習(xí)的內(nèi)容,完全可以根據(jù)自己當(dāng)前的知識(shí)水平、應(yīng)用能力、接收程度和個(gè)人偏好等,選擇相應(yīng)等級(jí)的教學(xué)內(nèi)容進(jìn)行學(xué)習(xí)。不僅可以選擇教學(xué)內(nèi)容,而且在學(xué)習(xí)中還可以選擇適合于學(xué)習(xí)者自身和教學(xué)內(nèi)容的各種教學(xué)形式,比如施教者講解、演示視頻、模擬仿真實(shí)驗(yàn)、習(xí)題訓(xùn)練等。

      這種在線學(xué)習(xí)方式能夠結(jié)合學(xué)習(xí)者的個(gè)性化特點(diǎn),啟發(fā)學(xué)習(xí)者的學(xué)習(xí)自主性,并提高學(xué)習(xí)者的效率。學(xué)習(xí)者可利用生活中的碎片化時(shí)間完成視頻觀看、提問、練習(xí)、討論、測(cè)試等各個(gè)教學(xué)環(huán)節(jié)。不再局限于課堂教學(xué)中學(xué)習(xí)時(shí)間地點(diǎn)的限制。而且在線學(xué)習(xí)提供了更多交互的方式,而這種互動(dòng)的方式不再受課時(shí)的約束。學(xué)習(xí)者可以根據(jù)自己的興趣重復(fù)選擇相同的內(nèi)容,可以隨時(shí)中止,并在適合于學(xué)習(xí)者的時(shí)間段重新恢復(fù)。學(xué)習(xí)者還可以任意調(diào)取已經(jīng)學(xué)習(xí)過的內(nèi)容進(jìn)行對(duì)比復(fù)習(xí),或?qū)Ρ葘⒁獙W(xué)習(xí)的內(nèi)容為下一步的學(xué)習(xí)打下更好的基礎(chǔ),這些互動(dòng)更加強(qiáng)調(diào)知識(shí)點(diǎn)之間的聯(lián)系,有利于學(xué)習(xí)者打通各個(gè)孤立的知識(shí)點(diǎn),形成完整的知識(shí)網(wǎng)絡(luò)。

      學(xué)習(xí)者在線學(xué)習(xí)的個(gè)性化需求可分為顯式需求和隱式需求,顯示需求包括學(xué)習(xí)者學(xué)習(xí)的時(shí)段、學(xué)習(xí)的內(nèi)容、實(shí)踐的環(huán)節(jié)、訓(xùn)練的題型和交互的方式,這些可由學(xué)習(xí)者完全清晰定義的需求,也包括了難以由學(xué)習(xí)者自身清晰定義的需求,比如學(xué)習(xí)者如何根據(jù)自己當(dāng)前所掌握的知識(shí)范圍,所達(dá)到的應(yīng)用能力水平和與其他同階段學(xué)習(xí)者的相對(duì)差異,來選擇最合適的學(xué)習(xí)內(nèi)容和學(xué)習(xí)方式。在傳統(tǒng)教學(xué)模式下,學(xué)習(xí)者對(duì)自己所處的能力水平并沒有很清晰的認(rèn)識(shí),也會(huì)缺乏足夠的對(duì)比參照。而結(jié)合云計(jì)算平臺(tái)的在線學(xué)習(xí)方式使學(xué)習(xí)主體的個(gè)性化特征數(shù)據(jù)收集成為可能。而且隨著在線學(xué)習(xí)的推廣和用戶數(shù)的劇增,其個(gè)性化特征數(shù)據(jù)收集將會(huì)以龐大的樣本空間為基礎(chǔ),從而使特征數(shù)據(jù)覆蓋盡可能多的受教育人群,可以對(duì)受教育對(duì)象產(chǎn)生準(zhǔn)確詳細(xì)的描述。

      通過個(gè)性化學(xué)習(xí),使整個(gè)學(xué)習(xí)過程能夠不斷針對(duì)學(xué)習(xí)者的個(gè)性化特征和個(gè)性化需求給出最適合學(xué)習(xí)者的學(xué)習(xí)內(nèi)容和學(xué)習(xí)方式。而個(gè)性化學(xué)習(xí)最重要的基石是個(gè)性化評(píng)價(jià)。不能對(duì)學(xué)習(xí)者的個(gè)性化特征,如學(xué)習(xí)者的知識(shí)范圍、應(yīng)用能力水平、欠缺和盲點(diǎn)、學(xué)習(xí)能力以及學(xué)習(xí)偏好等做出完整而準(zhǔn)確的評(píng)價(jià),就無法因材施教,實(shí)現(xiàn)真正的個(gè)性化學(xué)習(xí)。傳統(tǒng)的課堂教學(xué)中,施教者往往無法跟蹤每個(gè)學(xué)習(xí)者的學(xué)習(xí)過程,只能通過階段性考試的方式來做出評(píng)價(jià)。這樣的評(píng)價(jià)方式往往失之于寬泛,無法對(duì)每個(gè)個(gè)體產(chǎn)生精確的個(gè)性化評(píng)價(jià),而且難以在學(xué)習(xí)過程中實(shí)時(shí)動(dòng)態(tài)調(diào)整,保證學(xué)習(xí)的效率。而基于信息技術(shù)的網(wǎng)絡(luò)在線學(xué)習(xí),可以充分收集學(xué)習(xí)者學(xué)習(xí)的過程數(shù)據(jù),從而為產(chǎn)生足夠細(xì)粒度的個(gè)性化評(píng)價(jià)提供了可能性。

      在線學(xué)習(xí)可以記錄學(xué)習(xí)者的每個(gè)學(xué)習(xí)活動(dòng),包括學(xué)習(xí)者登錄的時(shí)間和每次學(xué)習(xí)持續(xù)的時(shí)間,所學(xué)習(xí)的視頻,所做的習(xí)題,與其他學(xué)習(xí)者的討論。因此可以將個(gè)性化評(píng)價(jià)方法和體系融入到學(xué)習(xí)者的每個(gè)學(xué)習(xí)活動(dòng)中??梢韵胍姡總€(gè)學(xué)習(xí)者都會(huì)產(chǎn)生龐大的用戶學(xué)習(xí)活動(dòng)數(shù)據(jù)。如果憑借人工經(jīng)驗(yàn),即使對(duì)單個(gè)學(xué)習(xí)者的學(xué)習(xí)活動(dòng)分析都是一件非常繁雜的工作。而一個(gè)實(shí)際可用的在線學(xué)習(xí)平臺(tái),可能會(huì)登記有成千上萬的用戶,這些用戶整體上每天都可能在學(xué)習(xí)平臺(tái)產(chǎn)生上G乃至上T的數(shù)據(jù),對(duì)這些數(shù)據(jù)利用人來進(jìn)行手工分析已成為不可能的工作。因此,如何根據(jù)用戶學(xué)習(xí)活動(dòng)的所產(chǎn)生的大數(shù)據(jù),提取用戶的個(gè)性化特征,并根據(jù)用戶的個(gè)性化特征產(chǎn)生完整而準(zhǔn)確的個(gè)性化評(píng)價(jià)。已經(jīng)成為云計(jì)算平臺(tái)支撐下的在線學(xué)習(xí)系統(tǒng)亟需解決的核心問題。

      針對(duì)這一核心問題,馮翔等從大數(shù)據(jù)視角出發(fā),提出一種基于Hadop技術(shù)的智能數(shù)字化教育服務(wù)架構(gòu),解決海量教育信息的匯聚、存儲(chǔ)與獲取,和按需分析報(bào)告的可視化呈現(xiàn)等。方海光等通過對(duì)學(xué)習(xí)者的在線學(xué)習(xí)活動(dòng)和學(xué)習(xí)行為的全面跟蹤和記錄,形成以學(xué)習(xí)者為中心的學(xué)習(xí)活動(dòng)、學(xué)習(xí)風(fēng)格、興趣、偏好等多維立體化數(shù)據(jù)模型,并提出一種基于數(shù)據(jù)挖掘的量化自我學(xué)習(xí)算法分析學(xué)習(xí)者的學(xué)習(xí)行為模式,以此為基礎(chǔ)產(chǎn)生教育的個(gè)性化的服務(wù)。白雪梅等提出一種基于梯度下降的機(jī)器學(xué)習(xí)分析方法進(jìn)行主觀和客觀數(shù)據(jù)綜合,并考慮其他影響因素的存在,通過循環(huán)計(jì)算累加結(jié)果得到了基于數(shù)據(jù)的分析模型來進(jìn)行自動(dòng)評(píng)價(jià)和預(yù)估,并對(duì)一些出現(xiàn)教學(xué)質(zhì)量問題的概率比較大的課程進(jìn)行自動(dòng)的監(jiān)控。還有其他研究者在這一方面做出了積極探討。

      但上述方法在數(shù)據(jù)特征提取效率上仍然不能適應(yīng)日益龐大的數(shù)據(jù)集,數(shù)據(jù)規(guī)模的不斷增大給目前的在線學(xué)習(xí)課堂產(chǎn)生了巨大的壓力。所造成的問題集中體現(xiàn)在如下兩個(gè)方面,一個(gè)是如何對(duì)學(xué)習(xí)者的多維的立體特征進(jìn)行自動(dòng)的分類識(shí)別,還有一個(gè)是如何提高多維立體特征的處理效率以達(dá)到實(shí)時(shí)在線評(píng)價(jià)的目的。本文將致力于解決個(gè)性化特征提取的有效性和實(shí)時(shí)性的問題,以適應(yīng)網(wǎng)絡(luò)在線課堂學(xué)習(xí)者規(guī)模的不斷擴(kuò)大和知識(shí)內(nèi)容的擴(kuò)充。

      為此,本文提出一種基于自動(dòng)聚類和集成學(xué)習(xí)策略的在線評(píng)估方法對(duì)在線學(xué)習(xí)系統(tǒng)的用戶進(jìn)行形成性在線實(shí)時(shí)評(píng)估,獲得學(xué)習(xí)者個(gè)性化特征并給出綜合評(píng)價(jià),從而建立大數(shù)據(jù)在線學(xué)習(xí)的個(gè)性化評(píng)價(jià)體系。提出的思路如下:首先基于認(rèn)知理論對(duì)學(xué)習(xí)者的層次結(jié)構(gòu)分析,確定初始的類別數(shù)目。然后使用K-means算法對(duì)開放課堂所記錄的初始學(xué)習(xí)活動(dòng)特征向量進(jìn)行自動(dòng)聚類。再利用自動(dòng)編碼器對(duì)關(guān)鍵特征進(jìn)行提取,以提高評(píng)價(jià)的效率和實(shí)時(shí)性。最后應(yīng)用集成學(xué)習(xí)策略整合多個(gè)分類器來提高評(píng)價(jià)的準(zhǔn)確性。

      其余的內(nèi)容組織如下:第二部分對(duì)數(shù)據(jù)的分類和特征提取方法進(jìn)行描述,第三部分給出多個(gè)學(xué)習(xí)器的集成學(xué)習(xí)策略,第四部分給出實(shí)驗(yàn)數(shù)據(jù)分析,第五部分給出結(jié)論和下一步的研究方向。

      二、基于聚類的特征提取

      在線學(xué)習(xí)平臺(tái)可以對(duì)每一個(gè)參與學(xué)習(xí)的受教育者進(jìn)行學(xué)習(xí)活動(dòng)的全程跟蹤,包括查看學(xué)生的登錄時(shí)間,學(xué)生選擇的知識(shí)點(diǎn)和教學(xué)模塊,所訪問的與知識(shí)點(diǎn)和教學(xué)模塊相關(guān)的資源,每個(gè)資源訪問的次數(shù),每次訪問持續(xù)的時(shí)間和學(xué)生反饋意見等。在線學(xué)習(xí)平臺(tái)對(duì)學(xué)習(xí)者學(xué)習(xí)過程的跟蹤分析以得到學(xué)習(xí)者過程的形成性評(píng)價(jià)的依據(jù)。除了對(duì)單個(gè)知識(shí)點(diǎn)和教學(xué)模塊的分析,還需要對(duì)學(xué)生多個(gè)知識(shí)點(diǎn)的綜合應(yīng)用能力產(chǎn)生評(píng)價(jià)。為此首先可以收集若干學(xué)習(xí)者的原始學(xué)習(xí)活動(dòng)記錄,然后根據(jù)原始記錄使用機(jī)器學(xué)習(xí)方法進(jìn)行自動(dòng)聚類,并針對(duì)類別進(jìn)行特征提取,通過考察少數(shù)已知樣本生成標(biāo)簽,得到初步評(píng)價(jià)。

      (一)在線學(xué)習(xí)的原始數(shù)據(jù)

      在本文中依據(jù)布魯姆的基于認(rèn)知思維層次的要求作為在線學(xué)習(xí)的目標(biāo)分類。針對(duì)受教育者選擇的知識(shí)節(jié)點(diǎn),對(duì)學(xué)習(xí)者的學(xué)習(xí)活動(dòng)進(jìn)行分析,判斷學(xué)習(xí)者對(duì)該知識(shí)點(diǎn)的學(xué)習(xí)是否已經(jīng)達(dá)到要求的能力應(yīng)用層次。布魯姆目標(biāo)理論將認(rèn)知思維過程分為記憶、理解、應(yīng)用、分析、評(píng)價(jià)和創(chuàng)造這六個(gè)能力應(yīng)用層次。這些層次首先是對(duì)知識(shí)的理解和識(shí)記,然后是應(yīng)用和分析,再側(cè)重綜合能力,強(qiáng)調(diào)學(xué)習(xí)者能夠?qū)Χ鄠€(gè)知識(shí)點(diǎn)能夠整體把握并進(jìn)行重構(gòu)。

      為此,借鑒方海光等提出的特征向量并增加登記時(shí)間和互動(dòng)方式等學(xué)習(xí)狀態(tài)變量用于記錄學(xué)習(xí)偏好,學(xué)習(xí)者的在線學(xué)習(xí)行為可用以下跟蹤數(shù)據(jù)描述:登錄時(shí)間、選擇知識(shí)點(diǎn)、教學(xué)模塊、教學(xué)內(nèi)容、互動(dòng)方式、學(xué)習(xí)時(shí)長、學(xué)習(xí)次數(shù)、通過節(jié)點(diǎn)數(shù)、討論提問數(shù)、回答與回復(fù)數(shù)、參加測(cè)試數(shù)、測(cè)試難易度、測(cè)試完成率、測(cè)試得分、綜合任務(wù)完成度、內(nèi)容準(zhǔn)確率、問題提出響應(yīng)率、解決方案范圍等從底層到高層包括學(xué)習(xí)原始的活動(dòng)記錄和一些可直觀得到的評(píng)測(cè),這些狀態(tài)變量將會(huì)形成學(xué)習(xí)者原始數(shù)據(jù)集U={x1,x2,…,xN},每個(gè)樣本xi,i=1,2,…,N將會(huì)反映學(xué)習(xí)者i的學(xué)習(xí)狀態(tài),N為總用戶數(shù)。每個(gè)樣本xi=(xi1,xi2…,xiM),其中每個(gè)分量xij描述學(xué)習(xí)活動(dòng)的一個(gè)特性,如學(xué)習(xí)時(shí)長、學(xué)習(xí)次數(shù)等。

      通過記錄這些原始活動(dòng)記錄和直觀評(píng)測(cè),可以全面跟蹤學(xué)習(xí)者的學(xué)習(xí)行為和初步的學(xué)習(xí)效果,形成包括學(xué)習(xí)風(fēng)格、學(xué)習(xí)興趣和學(xué)習(xí)偏好等能全面反映學(xué)習(xí)者學(xué)習(xí)狀態(tài)的多維立體化數(shù)據(jù)模型。為進(jìn)一步挖掘用戶的隱示特征和評(píng)價(jià)指標(biāo)提供了充分的原始基本信息。為能提取該原始信息的深度特征,本文首先利用數(shù)據(jù)挖掘的自動(dòng)聚類技術(shù)為6個(gè)不同的能力應(yīng)用層次產(chǎn)生6個(gè)聚類,并依據(jù)少數(shù)的樣本得到每個(gè)類別的標(biāo)簽,在使用多層自動(dòng)編碼器產(chǎn)生降維特征數(shù)據(jù)。

      (二)原始數(shù)據(jù)的自動(dòng)聚類

      由于在線學(xué)習(xí)平臺(tái)的用戶數(shù)量龐大,會(huì)產(chǎn)生大量的學(xué)習(xí)活動(dòng)數(shù)據(jù)。這些數(shù)據(jù)的規(guī)模超出了人工直接處理能力,對(duì)在線學(xué)習(xí)平臺(tái)數(shù)據(jù)進(jìn)行人工分類是難以完成的,為了能夠更方便地表示和理解這些數(shù)據(jù),提取其中隱藏的有用信息,需要用到聚類分析技術(shù)。為此本文首先采用無監(jiān)督的聚類分析技術(shù)對(duì)學(xué)習(xí)者原始數(shù)據(jù)集進(jìn)行自動(dòng)分類。

      聚類分析是數(shù)據(jù)挖掘的一項(xiàng)常用技術(shù),被廣泛應(yīng)用于包括模式識(shí)別、數(shù)據(jù)分析、圖像處理和信息檢索等多個(gè)領(lǐng)域,通過分析數(shù)據(jù)并從中發(fā)現(xiàn)有用的信息。聚類將數(shù)據(jù)對(duì)象分組成為若干個(gè)類或簇,使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象差別很大,通過聚類,可以識(shí)別密集和稀疏的區(qū)域,發(fā)現(xiàn)全局的分布模式以及數(shù)據(jù)屬性之間的相互關(guān)系。聚類方法不需要事先訓(xùn)練,它直接處理未知樣本,把這些樣本聚合成不同的簇,往往會(huì)成為大數(shù)據(jù)處理的前期步驟。

      本文采取經(jīng)典的K-means算法,也被稱為K-均值算法作為學(xué)習(xí)者數(shù)據(jù)自動(dòng)劃分的方法。這是一種基于劃分的聚類算法。算法的輸入包括N個(gè)學(xué)習(xí)者的數(shù)據(jù)集u和聚類簇?cái)?shù)K=6,該聚類簇?cái)?shù)即對(duì)應(yīng)依據(jù)布魯姆目標(biāo)理論所劃分的6個(gè)能力應(yīng)用層次,輸出則是劃分好的K個(gè)簇。首先隨機(jī)選取K個(gè)學(xué)習(xí)者樣本作為初始聚類中心,然后計(jì)算各個(gè)初始學(xué)習(xí)者樣本到聚類中心的距離,把樣本歸到離它最近的那個(gè)聚類中心所在的類;對(duì)調(diào)整后的新類計(jì)算新的聚類中心,如果相鄰兩次的聚類中心沒有任何變化,說明樣本調(diào)整結(jié)束,聚類準(zhǔn)則函數(shù)已經(jīng)收斂。該算法的具體步驟如算法Ⅰ所示:

      (三)聚類數(shù)據(jù)的特征提取

      由于原始的樣本數(shù)據(jù)是高維向量,直接利用該高維向量進(jìn)行判斷將會(huì)占據(jù)在線學(xué)習(xí)平臺(tái)的大量計(jì)算資源,降低學(xué)習(xí)平臺(tái)的服務(wù)響應(yīng)速度,并且難以實(shí)現(xiàn)在線評(píng)價(jià)。為了提高數(shù)據(jù)的處理效率,加快對(duì)學(xué)習(xí)者的評(píng)價(jià),本文采取三層自動(dòng)編碼器非線性特征提取技術(shù)對(duì)分簇后的數(shù)據(jù)進(jìn)行訓(xùn)練和特征提取,得到降維的特征向量,再根據(jù)降維向量來做出評(píng)價(jià)。

      三層自動(dòng)編碼器(Auto-Encoder,AE)是由輸入層、隱藏層和輸出層三層神經(jīng)網(wǎng)絡(luò)構(gòu)成的神經(jīng)網(wǎng)絡(luò),由編碼器和解碼器兩部分組成。學(xué)習(xí)者的原始樣本向量xi被輸入到編碼器之后得到一種編碼形式,再通過解碼器解碼得到重構(gòu)數(shù)據(jù)。如果編碼后的數(shù)據(jù)能夠較為容易地通過解碼恢復(fù)成原始數(shù)據(jù),我們則認(rèn)為隱藏層的編碼形式較好地保留了數(shù)據(jù)信息。通過輸出表示層和原始輸入層的比較反向訓(xùn)練自動(dòng)編碼器的權(quán)值,以得到原始數(shù)據(jù)的壓縮表示。三層自動(dòng)編碼器的結(jié)構(gòu)如圖1所示。

      圖1中左邊的一層為數(shù)據(jù)輸入層,也就是原始的高維數(shù)據(jù)xi,記錄了學(xué)習(xí)者的選擇知識(shí)點(diǎn)、交互方式、學(xué)習(xí)時(shí)長、學(xué)習(xí)次數(shù)等有關(guān)學(xué)習(xí)活動(dòng)的信息。中間一層即為隱藏層,該層提供數(shù)據(jù)的中間轉(zhuǎn)換,其輸出是低維空間向量zi,也就是所提取的特征,該特征向量包含了原始數(shù)據(jù)的關(guān)鍵特征。根據(jù)自動(dòng)編碼器的結(jié)構(gòu),可知:

      三、基于集成學(xué)習(xí)的形成性評(píng)價(jià)指標(biāo)生成

      在通過聚類方法和自動(dòng)編碼器得到降維的聚類數(shù)據(jù)并根據(jù)聚類中的部分已知樣本得到標(biāo)簽數(shù)據(jù)后,可以使用聚類的數(shù)據(jù)和該聚類所對(duì)應(yīng)的標(biāo)簽對(duì)監(jiān)督學(xué)習(xí)器進(jìn)行訓(xùn)練,得到能夠?qū)稻S數(shù)據(jù)進(jìn)行分類的學(xué)習(xí)器,但由于使用單個(gè)學(xué)習(xí)器容易產(chǎn)生過數(shù)據(jù)擬合的情況,本文采用集成學(xué)習(xí)的機(jī)制克服單獨(dú)的學(xué)習(xí)器所造成過擬合現(xiàn)象。

      (一)集成學(xué)習(xí)

      集成學(xué)習(xí)(Ensemble Learning)方法不是一個(gè)單獨(dú)的機(jī)器學(xué)習(xí)算法,而是通過構(gòu)建并結(jié)合多個(gè)機(jī)器學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。集成學(xué)習(xí)可以用于多種傳統(tǒng)的機(jī)器學(xué)習(xí)領(lǐng)域,如分類問題集成、回歸問題集成、特征選取集成、異常點(diǎn)檢測(cè)集成等,本文利用分類集成來對(duì)學(xué)習(xí)者做出個(gè)性化評(píng)價(jià)。

      集成學(xué)習(xí)方法的結(jié)構(gòu)如圖2所示。從圖2中可以看出,對(duì)于訓(xùn)練集數(shù)據(jù),我們通過訓(xùn)練若干個(gè)個(gè)體學(xué)習(xí)器,通過一定的結(jié)合策略,就可以最終形成一個(gè)強(qiáng)學(xué)習(xí)器,以達(dá)到綜合各個(gè)個(gè)體學(xué)習(xí)器學(xué)習(xí)結(jié)果的目的。

      從圖2中看出,集成學(xué)習(xí)有兩個(gè)主要的問題需要解決,第一是如何得到若干個(gè)個(gè)體學(xué)習(xí)器,第二是如何選擇一種結(jié)合策略,將這些個(gè)體學(xué)習(xí)器的輸出集合成一個(gè)強(qiáng)學(xué)習(xí)器。關(guān)于如何選擇個(gè)體學(xué)習(xí)器,有兩種方法。第一種是同質(zhì)集成學(xué)習(xí),所有的個(gè)體學(xué)習(xí)器采用同一個(gè)種類的學(xué)習(xí)器。比如都采用決策樹個(gè)體學(xué)習(xí)器,或神經(jīng)網(wǎng)絡(luò)個(gè)體學(xué)習(xí)器。第二種則是所謂的異構(gòu)集成學(xué)習(xí),使用的個(gè)體學(xué)習(xí)器不全是一個(gè)種類,比如可以采用支持向量機(jī)個(gè)體學(xué)習(xí)器,邏輯回歸個(gè)體學(xué)習(xí)器和樸素貝葉斯個(gè)體學(xué)習(xí)器來學(xué)習(xí),再通過結(jié)合策略來確定最終的分類強(qiáng)學(xué)習(xí)器。

      目前同質(zhì)集成學(xué)習(xí)由于便于實(shí)現(xiàn)和設(shè)計(jì)結(jié)合策略,應(yīng)用更為廣泛,一般常說的集成學(xué)習(xí)的方法都采用的是同質(zhì)個(gè)體學(xué)習(xí)器。而同質(zhì)個(gè)體學(xué)習(xí)器使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡(luò)。同質(zhì)個(gè)體學(xué)習(xí)器按照個(gè)體學(xué)習(xí)器之間是否存在依賴關(guān)系可以分為兩類,第一個(gè)是個(gè)體學(xué)習(xí)器之間存在強(qiáng)依賴關(guān)系,一系列個(gè)體學(xué)習(xí)器基本都需要串行生成,代表算法是Boosting系列算法,第二個(gè)是個(gè)體學(xué)習(xí)器之間不存在強(qiáng)依賴關(guān)系,一系列個(gè)體學(xué)習(xí)器可以并行生成,代表算法是裝袋法(Bagging)和隨機(jī)森林(Random Forest)系列算法。本文所用到的方法為裝袋法。

      (二)裝袋法

      裝袋法集成學(xué)習(xí)的弱學(xué)習(xí)器之間沒有依賴關(guān)系,可以并行生成,裝袋(Bagging)是Bootstrap Aggregating的縮寫,是第一批用于多分類集成算法的學(xué)習(xí)方法。其原理如圖3所示。

      從圖3可以看出,裝袋法的個(gè)體弱學(xué)習(xí)器的訓(xùn)練集是通過隨機(jī)采樣得到的。通過T次的隨機(jī)采樣,我們就可以得到S個(gè)采樣集DS,對(duì)于這S個(gè)采樣集,我們可以分別獨(dú)立的訓(xùn)練出S個(gè)弱學(xué)習(xí)器,再對(duì)這S個(gè)弱學(xué)習(xí)器通過集合策略來得到最終的強(qiáng)學(xué)習(xí)器。

      隨機(jī)采樣采用的是自助采樣法(Bootstap Sampling),即對(duì)于Ni個(gè)樣本的原始訓(xùn)練集,先隨機(jī)采集—個(gè)樣本放入采樣集,接著把該樣本放回,也就是說下次采樣時(shí)該樣本仍有可能被采集到,這樣采集m次,最終可以得到m個(gè)樣本的采樣集,由于是隨機(jī)采樣,這樣每次的采樣集是和原始訓(xùn)練集不同的,和其他采樣集也是不同的,這樣得到多個(gè)不同的弱學(xué)習(xí)器。Bagging的具體步驟如算法Ⅱ描述:

      其中,Dbs為自助采樣產(chǎn)生的樣本分布。經(jīng)過T輪訓(xùn)練,我們可采樣出T個(gè)有m個(gè)訓(xùn)練樣本的采樣集,然后基于每個(gè)采樣集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再將這些基學(xué)習(xí)器進(jìn)行結(jié)合。在對(duì)預(yù)測(cè)輸出進(jìn)行結(jié)合時(shí),Bagging使用簡(jiǎn)單投票法。若分類預(yù)測(cè)時(shí)出現(xiàn)兩個(gè)類收到同樣票數(shù)的情形,則最簡(jiǎn)單的做法是隨機(jī)選擇一個(gè)。

      裝袋法通過降低基分類器的方差,改善了泛化誤差。其性能依賴于基分類器的穩(wěn)定性;如果基分類器不穩(wěn)定,裝袋法有助于降低訓(xùn)練數(shù)據(jù)的隨機(jī)波動(dòng)導(dǎo)致的誤差;如果穩(wěn)定,則集成分類器的誤差主要由基分類器的偏倚引起。由于每個(gè)樣本被選中的概率相同,因此裝袋法并不側(cè)重于訓(xùn)練數(shù)據(jù)集中的任何特定實(shí)例。

      Bagging算法的主要參數(shù)為基學(xué)習(xí)器(通常是決策樹),樣本數(shù)目和特征數(shù)目。一個(gè)決策樹帶來的不穩(wěn)定因素可由多個(gè)決策樹的組合模型克服。樣本的數(shù)目和特征數(shù)目是用來訓(xùn)練每個(gè)基學(xué)習(xí)器的參數(shù)。公式(4)所表示的偏差描述了機(jī)器學(xué)習(xí)算法在期望預(yù)測(cè)和實(shí)際結(jié)果之間的擬合能力。公式(5)所表示的方差給出了數(shù)據(jù)擾動(dòng)對(duì)算法的影響。

      四、實(shí)驗(yàn)分析

      為驗(yàn)證本文提出方法,對(duì)長沙某中學(xué)的初中部學(xué)生在某學(xué)習(xí)網(wǎng)站的學(xué)習(xí)活動(dòng)記錄進(jìn)行分析對(duì)照。此次對(duì)照實(shí)驗(yàn)共設(shè)置了分別處于初一、初二、初三第二學(xué)期期中考試后的三個(gè)對(duì)照組,每個(gè)對(duì)照組采集了500個(gè)學(xué)生針對(duì)3個(gè)課程的某個(gè)知識(shí)點(diǎn)在兩周內(nèi)的學(xué)習(xí)活動(dòng)記錄。這3個(gè)課程分別為語文、數(shù)學(xué)和政治。語文所對(duì)應(yīng)的知識(shí)點(diǎn)為課文《口技》的理解,數(shù)學(xué)所對(duì)應(yīng)的知識(shí)點(diǎn)為不等式組的學(xué)習(xí),政治所對(duì)應(yīng)的知識(shí)點(diǎn)為未成年人保護(hù)法的學(xué)習(xí)。所提取的特征為第二節(jié)所描述各種學(xué)習(xí)活動(dòng)記錄下來的特征向量。原始投特征向量的維度為23。這些數(shù)據(jù)能夠從各方面反映學(xué)習(xí)者的學(xué)習(xí)態(tài)度,學(xué)習(xí)時(shí)效和學(xué)習(xí)過程的變化,是網(wǎng)站所能收集的對(duì)學(xué)習(xí)者比較全面的信息覆蓋。

      每個(gè)對(duì)照組根據(jù)平時(shí)課堂表現(xiàn)和測(cè)試結(jié)果選取36個(gè)學(xué)生作為已知樣本,用于標(biāo)簽聚類后的數(shù)據(jù)。這36個(gè)學(xué)生在6個(gè)應(yīng)用能力層次中的分布如表1所示。

      由本文第1節(jié)和第2節(jié)的方法,先對(duì)每個(gè)對(duì)照組的原始記錄使用K-means方法進(jìn)行聚類,其中K=6。每類對(duì)應(yīng)一個(gè)應(yīng)用能力層次??筛鶕?jù)聚類中的已知樣本為該類打上標(biāo)簽。從每個(gè)聚類數(shù)據(jù)中抽取20個(gè)樣本(非已知樣本)組成總共20×6=120個(gè)樣本的測(cè)試集。剩下的380樣本(包含已知樣本)將會(huì)用于訓(xùn)練用于降維的自動(dòng)編碼器和集成學(xué)習(xí)機(jī)制中的單個(gè)學(xué)習(xí)器。訓(xùn)練完成后測(cè)試集中的120個(gè)樣本將會(huì)由訓(xùn)練好的自動(dòng)編碼器和集成學(xué)習(xí)器處理得到評(píng)價(jià)結(jié)果。這120個(gè)樣本將再由專家組人工給出評(píng)價(jià)結(jié)果,并以此為依據(jù)來判斷學(xué)習(xí)機(jī)制的評(píng)價(jià)誤差。

      每個(gè)對(duì)照組經(jīng)過聚類的結(jié)果如圖4(a)、(b)和(c)所示。由圖4可以看出,對(duì)于不同課程的知識(shí)點(diǎn)的應(yīng)用能力層次在各個(gè)對(duì)照組中都基本呈類似正態(tài)分布的模式,即大部分人處于第三、第四和第五層次,少數(shù)人位于第一、第二和第六層次。但不同的課程其區(qū)分度會(huì)有不同,具有數(shù)值量化依據(jù)的數(shù)學(xué)課程比不太容易量化的政治課程和語文課程其曲線形式會(huì)略顯陡峭。這也說明該網(wǎng)站在對(duì)主觀題評(píng)分時(shí)會(huì)略為寬松。

      為了能夠?qū)Σ煌昙?jí)對(duì)照組進(jìn)行橫向比較,下頁圖5顯示了對(duì)于每個(gè)課程,不同對(duì)照組的聚類曲線。下頁圖5(a)、(b)和(c)分別顯示了語文、數(shù)學(xué)和政治課程知識(shí)點(diǎn)學(xué)習(xí)的聚類結(jié)果??梢钥闯龀跞龑W(xué)生的應(yīng)用能力普遍強(qiáng)于初二和初一的學(xué)生。這是因?yàn)槌跞龑W(xué)生要面對(duì)中考,在第二學(xué)期中考試后已經(jīng)經(jīng)過了大量的強(qiáng)化訓(xùn)練,不少學(xué)生對(duì)初一的知識(shí)點(diǎn)能夠做到融會(huì)貫通的程度。但初二學(xué)生并沒有顯著地高于初一學(xué)生,甚至第一和第二層次的學(xué)生數(shù)目還略多于初一學(xué)生,這說明初二學(xué)生仍然處于學(xué)習(xí)單個(gè)知識(shí)點(diǎn)的階段,對(duì)于初一的部分內(nèi)容其熟練程度有所降低。不過對(duì)于初二素質(zhì)較好達(dá)到第6層次的學(xué)生,由于基礎(chǔ)較好,對(duì)初一知識(shí)點(diǎn)的掌握仍然比初一同層次的學(xué)生要多,這在語文和政治這類知識(shí)點(diǎn)弱耦合且需要大量記憶的課程比較明顯。而對(duì)知識(shí)點(diǎn)耦合程度較高的數(shù)學(xué),則不太明顯。這和學(xué)校日常教學(xué)所得到結(jié)果也是相適應(yīng)的。

      為了進(jìn)一步衡量本文所設(shè)計(jì)的評(píng)價(jià)方法的正確性,將本文方法和專家評(píng)價(jià)結(jié)果進(jìn)行對(duì)比。為保證專家評(píng)價(jià)結(jié)果的正確性,對(duì)每個(gè)課程的知識(shí)點(diǎn),采用7名該課程的資深任課教師來對(duì)每個(gè)對(duì)照組測(cè)試集樣本所對(duì)應(yīng)的學(xué)生做出評(píng)價(jià),每個(gè)專家都會(huì)獨(dú)立地建立自己的包括筆試和面試等環(huán)節(jié)的測(cè)試方法和評(píng)價(jià)依據(jù)。為了能夠提供精確的比較結(jié)果,對(duì)每個(gè)應(yīng)用能力層次,又再次分為20個(gè)等級(jí)。則對(duì)于一個(gè)學(xué)生對(duì)某個(gè)知識(shí)點(diǎn)的評(píng)價(jià)結(jié)果可以為1-120中的一個(gè)等級(jí)。這個(gè)學(xué)生在這個(gè)知識(shí)點(diǎn)的最終成績是7個(gè)專家所給成績?nèi)∑骄玫健?名專家的權(quán)重相同。同時(shí)為了使本文的評(píng)價(jià)結(jié)果和專家結(jié)果具有可比性,測(cè)試樣本與聚類中心的距離可以作為在該類等級(jí)的衡量標(biāo)準(zhǔn)。三個(gè)對(duì)照組中測(cè)試樣本的評(píng)價(jià)對(duì)比誤差曲線如圖6所示。圖6(a)、(b)和(c)分別對(duì)應(yīng)初一、初二和初三這3個(gè)對(duì)照組的測(cè)試集。每個(gè)對(duì)照組測(cè)試樣本按照專家評(píng)測(cè)結(jié)果從低分到高分排序。圖6的橫坐標(biāo)即是每個(gè)對(duì)照組測(cè)試集中120個(gè)樣本根據(jù)專家評(píng)測(cè)結(jié)果排序后的序號(hào)。

      從圖6中可以看出,機(jī)器學(xué)習(xí)分析的結(jié)果和專家一對(duì)一面對(duì)面的評(píng)價(jià)結(jié)果是基本一致的。尤其是對(duì)層次6、層次1和層次2,對(duì)這三個(gè)層次的樣本機(jī)器學(xué)習(xí)給出的評(píng)價(jià)分值和專家給出的評(píng)價(jià)分值幾乎完全一致,少許的誤差應(yīng)該是由于7個(gè)專家結(jié)果取了平均值造成的。對(duì)于層次3、層次4和層次5,機(jī)器學(xué)習(xí)和專家給出的評(píng)測(cè)分值會(huì)有一定誤差,但最大也不超過12%,而且樣本處于同一層次。這說明對(duì)于優(yōu)秀的層次和較低的層次,機(jī)器學(xué)習(xí)和專家都容易取得確定的結(jié)果。而對(duì)中間層次的評(píng)價(jià)在邊界會(huì)存在一定的模糊性。

      這里需要注意的雖然在本文是以專家評(píng)測(cè)分值作為標(biāo)準(zhǔn)來衡量機(jī)器學(xué)習(xí)的。但專家的評(píng)測(cè)分值更注重測(cè)試學(xué)生當(dāng)前的狀態(tài),是一種結(jié)果性評(píng)測(cè)。而機(jī)器學(xué)習(xí)則包含這兩個(gè)星期以來的學(xué)習(xí)活動(dòng)數(shù)據(jù),是一種面向過程的形成性評(píng)價(jià)機(jī)制。這兩種評(píng)測(cè)結(jié)果會(huì)有所不同。而機(jī)器學(xué)習(xí)的評(píng)測(cè)結(jié)果可能更能體現(xiàn)出一個(gè)學(xué)生的學(xué)習(xí)潛力。

      為了能夠體現(xiàn)本文所提方法和專家組對(duì)不同課程的評(píng)價(jià)差別,圖7(a)、(b)和(c)分別對(duì)比了本文所提方法和專家組對(duì)語文、數(shù)學(xué)和政治這三門課程的評(píng)價(jià)分值。從圖7中看出,對(duì)于基本上能夠以數(shù)值量化的結(jié)果來評(píng)測(cè)的數(shù)學(xué)課程,本文所提的機(jī)器學(xué)習(xí)方法和專家組的評(píng)價(jià)分值最為接近。而對(duì)于需要進(jìn)行大量主觀評(píng)價(jià)的語文課程,則兩者的差距會(huì)增加。在這種情況下,網(wǎng)站的作用相當(dāng)于給出了另一個(gè)專家的主觀評(píng)價(jià)意見。從結(jié)果上看網(wǎng)站的評(píng)價(jià)結(jié)果略高,而這個(gè)結(jié)果也跟已知樣本的選取有一定關(guān)聯(lián)。

      為了說明本文所給出方法中降維和集成學(xué)習(xí)的作用,將本文方法得到的每個(gè)對(duì)照組對(duì)每門課程的平均誤差(如表2所示)和不使用降維直接進(jìn)行集成學(xué)習(xí)(如表3所示)和經(jīng)過降維后使用單一的學(xué)習(xí)器(如表4所示)進(jìn)行比較。可以看出不進(jìn)行降維或是直接使用單一機(jī)器學(xué)習(xí)器進(jìn)行評(píng)價(jià)都會(huì)增加評(píng)價(jià)誤差。這是因?yàn)榻稻S后更能提取樣本的有效特征從而做出更為準(zhǔn)確評(píng)價(jià)。而使用單一學(xué)習(xí)器相較于集成學(xué)習(xí)其泛化能力不夠而降低了評(píng)價(jià)效果。這個(gè)比較結(jié)果進(jìn)一步說明了本文所提方法的有效性。

      五、結(jié)束語

      在線學(xué)習(xí)可以針對(duì)學(xué)習(xí)者的特點(diǎn),充分利用學(xué)習(xí)者的零散時(shí)間,更好地適應(yīng)學(xué)習(xí)者的個(gè)性化需求,激發(fā)學(xué)習(xí)者的積極性,提高學(xué)習(xí)效率?;诖髷?shù)據(jù)云計(jì)算平臺(tái)的在線學(xué)習(xí)系統(tǒng)可以收集大量的用戶學(xué)習(xí)數(shù)據(jù),但如何有效利用在線學(xué)習(xí)平臺(tái)的大量活動(dòng)數(shù)據(jù)對(duì)用戶產(chǎn)生準(zhǔn)確的形成性個(gè)性化評(píng)價(jià),是各個(gè)在線學(xué)習(xí)系統(tǒng)亟需解決的難題。為此,本文首先使用自動(dòng)聚類的方法對(duì)學(xué)習(xí)者的數(shù)據(jù)進(jìn)行分類,在分類中使用若干已知樣本為數(shù)據(jù)打上標(biāo)簽。再通過自動(dòng)編碼器組成的神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行降維處理提取特征。將訓(xùn)練集的特征數(shù)據(jù)作為學(xué)習(xí)器輸入訓(xùn)練學(xué)習(xí)器,然后使用集成學(xué)習(xí)機(jī)制集成多個(gè)學(xué)習(xí)器的判斷給出綜合評(píng)價(jià)。為驗(yàn)證本文方法,構(gòu)造測(cè)試集,并對(duì)比專家組人工評(píng)價(jià)和機(jī)器學(xué)習(xí)的評(píng)價(jià)結(jié)果。結(jié)果表明機(jī)器學(xué)習(xí)的結(jié)果能夠反映測(cè)試樣本的應(yīng)用能力層次分布和動(dòng)態(tài)變化,和專家組的評(píng)價(jià)結(jié)果非常接近。驗(yàn)證了本文所給出方法的有效性。下一步可以考慮根據(jù)知識(shí)點(diǎn)之間的聯(lián)系對(duì)學(xué)習(xí)者的綜合應(yīng)用能力做出更精確的評(píng)價(jià)。

      猜你喜歡
      在線學(xué)習(xí)機(jī)器學(xué)習(xí)云計(jì)算
      信息化環(huán)境下高職英語教學(xué)現(xiàn)狀及應(yīng)用策略研究
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于混合式學(xué)習(xí)理念的大學(xué)生自主學(xué)習(xí)能力的培養(yǎng)研究
      基于SOA的在線學(xué)習(xí)資源集成模式的研究
      基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)的設(shè)計(jì)
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
      云計(jì)算中的存儲(chǔ)虛擬化技術(shù)應(yīng)用
      沅江市| 临沭县| 龙口市| 台安县| 平和县| 孝义市| 乐业县| 绍兴县| 万全县| 普宁市| 梁平县| 峡江县| 荆门市| 凭祥市| 新安县| 黄山市| 铜川市| 本溪| 黄冈市| 白沙| 聊城市| 德安县| 黔江区| 沧州市| 重庆市| 丁青县| 永吉县| 祁门县| 精河县| 延寿县| 东安县| 百色市| 黔江区| 涪陵区| 英山县| 双辽市| 孝感市| 晴隆县| 龙州县| 九江县| 泗阳县|