• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      學(xué)習(xí)者與平臺(tái)交互行為挖掘及學(xué)習(xí)預(yù)測(cè)模型構(gòu)建

      2021-07-29 08:48王亮
      中國(guó)遠(yuǎn)程教育 2021年5期
      關(guān)鍵詞:準(zhǔn)確度學(xué)習(xí)者變量

      【摘要】

      學(xué)習(xí)分析技術(shù)是一種通過(guò)對(duì)學(xué)習(xí)者在學(xué)習(xí)中的實(shí)際參與、表現(xiàn)和進(jìn)展以及自身屬性等各種相關(guān)數(shù)據(jù)的分析對(duì)其學(xué)習(xí)結(jié)果進(jìn)行預(yù)測(cè)的技術(shù)。通過(guò)模型分析可以為學(xué)習(xí)者提供預(yù)測(cè)結(jié)果,并實(shí)時(shí)向教學(xué)管理者、課程設(shè)計(jì)者和任課教師等提供相應(yīng)的干預(yù)策略,以避免學(xué)習(xí)者可能最終學(xué)習(xí)失敗的結(jié)果。隨著大規(guī)模在線課程的迅猛發(fā)展,需要針對(duì)性的預(yù)測(cè)模型來(lái)支持學(xué)習(xí)者的在線學(xué)習(xí)過(guò)程。本文提出了一種以學(xué)習(xí)者與平臺(tái)教學(xué)資源間的交互行為為基礎(chǔ)構(gòu)建適應(yīng)大規(guī)模在線學(xué)習(xí)預(yù)測(cè)模型的新方法。與傳統(tǒng)學(xué)習(xí)分析方法不同,該模型不需要對(duì)學(xué)習(xí)者前期學(xué)習(xí)情況有過(guò)多了解,也無(wú)須教學(xué)設(shè)計(jì)者或領(lǐng)域?qū)<业倪^(guò)多參與,在通用環(huán)境的課程結(jié)構(gòu)以及隨時(shí)間變化的前提下具有良好的預(yù)測(cè)準(zhǔn)確性。

      【關(guān)鍵詞】 ?學(xué)習(xí)分析技術(shù);機(jī)器學(xué)習(xí)模型;數(shù)據(jù)挖掘;時(shí)間序列;預(yù)測(cè)分析;決策樹;交互行為;學(xué)習(xí)環(huán)境

      【中圖分類號(hào)】 ? TP391 ? ? ? ? 【文獻(xiàn)標(biāo)識(shí)碼】 ?B ? ? ? 【文章編號(hào)】 ?1009-458x(2021)5-0062-06

      一、引言

      隨著學(xué)習(xí)分析技術(shù)的研究日益發(fā)展,基于該技術(shù)建立的各類對(duì)學(xué)習(xí)者學(xué)習(xí)狀態(tài)及結(jié)果的分析、預(yù)測(cè)、預(yù)警、干預(yù)系統(tǒng)已經(jīng)廣泛應(yīng)用在各種學(xué)習(xí)平臺(tái)之中,并有效地增強(qiáng)了學(xué)習(xí)者的學(xué)習(xí)成功率(Arnold, et al., 2012; Lauría, et al., 2013)。構(gòu)建預(yù)測(cè)模型通常需要設(shè)計(jì)者對(duì)所面對(duì)的教育領(lǐng)域、學(xué)習(xí)目標(biāo)以及教學(xué)所處的教學(xué)環(huán)境有深入的了解。本文的研究目的在于能夠提供一種較為通用的方法,打通存在于數(shù)據(jù)挖掘?qū)<液徒逃虒W(xué)專家之間交叉的“中間空間”(Adlin, et al., 2010),以學(xué)習(xí)者的個(gè)人屬性特征和基于互動(dòng)行為的時(shí)間序列數(shù)據(jù),驅(qū)動(dòng)構(gòu)建一個(gè)在同一平臺(tái)環(huán)境中,能夠跨越不同課程和教學(xué)過(guò)程,并且隨時(shí)間變化仍具有良好解釋性和準(zhǔn)確性的學(xué)習(xí)者預(yù)測(cè)模型和干預(yù)系統(tǒng)。這一構(gòu)建過(guò)程,不會(huì)給使用模型的教師或教育專家?guī)?lái)額外的工作負(fù)擔(dān),他們可以更容易地通過(guò)數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型來(lái)深入了解課程中發(fā)生的活動(dòng),同時(shí)通過(guò)模型提供的預(yù)測(cè)結(jié)果實(shí)施選擇性干預(yù)(Barber, et al., 2012)。

      二、相關(guān)研究進(jìn)展

      在學(xué)習(xí)分析技術(shù)興起之前,技術(shù)強(qiáng)化學(xué)習(xí)(Technology-enhanced Learning,TEL)領(lǐng)域就受到教育界非常廣泛的關(guān)注。這一領(lǐng)域的研究方向是理解學(xué)習(xí)者從認(rèn)知角度進(jìn)行學(xué)習(xí)的過(guò)程,并以泛在的技術(shù)手段加以增強(qiáng)和輔助。其中,安德森(Anderson, 1993)的ACT-R技能知識(shí)理論被用作許多智能學(xué)習(xí)輔助系統(tǒng)的基礎(chǔ)。該理論認(rèn)為,學(xué)習(xí)者可以由重復(fù)正確規(guī)則展示認(rèn)知能力和水平,相對(duì)地,如果這種趨勢(shì)不足則表明需要教育干預(yù)機(jī)制加以改進(jìn)。歐爾森(Ohlsson, 1994)基于“錯(cuò)誤表現(xiàn)”的學(xué)習(xí)理論為該領(lǐng)域提供了另一種解釋,他認(rèn)為學(xué)習(xí)者需要通過(guò)錯(cuò)誤并糾正來(lái)證明學(xué)習(xí)過(guò)程正在發(fā)生,提交正確的答案存在著巧合的可能,而出錯(cuò)并糾正才是對(duì)知識(shí)更深層次的認(rèn)知。馬?。∕artin, 1999)以此理論為依據(jù),建立了基于約束的智能輔助模型。這些對(duì)學(xué)習(xí)者學(xué)習(xí)認(rèn)知過(guò)程的評(píng)判和干預(yù)理論,為學(xué)習(xí)分析技術(shù)奠定了教育理論基礎(chǔ)。

      隨著互聯(lián)網(wǎng)生態(tài)的蓬勃發(fā)展,網(wǎng)絡(luò)教育形式方興未艾。相關(guān)領(lǐng)域研究,從單純的學(xué)習(xí)者與學(xué)習(xí)內(nèi)容之間的互動(dòng)延伸到了學(xué)習(xí)者之間的學(xué)習(xí)交流過(guò)程(Gergen, 1985)。布爾等(Bull, et al., 2001)通過(guò)人工智能技術(shù)對(duì)學(xué)習(xí)者之間的交流和討論,建立了學(xué)習(xí)同伴的匹配模型;格拉瑟等(Graesser, et al., 2005)則基于此建立了人機(jī)對(duì)話的智能教學(xué)輔助系統(tǒng)。

      隨著大規(guī)模公開在線課程(MOOC)嶄露頭角,學(xué)習(xí)分析技術(shù)的發(fā)展得到了空前的大數(shù)據(jù)研究基礎(chǔ)和應(yīng)用前景。加曼(Garman, 2010)采用Logistic回歸分析的方法,基于學(xué)生部分學(xué)習(xí)對(duì)象的評(píng)估結(jié)果對(duì)學(xué)生的課程進(jìn)行有效預(yù)測(cè);摩爾(Moore, 2007)把學(xué)生當(dāng)前課程與之前課程的參與程度作為分析對(duì)象,研究表明學(xué)生課程的參與程度與其課程成績(jī)呈高度相關(guān),而學(xué)生的前置學(xué)歷排名、入學(xué)考試成績(jī)等則沒有在學(xué)習(xí)結(jié)果上呈現(xiàn)顯著差異;馬杰等(2014)利用多元回歸分析建立模型,對(duì)教育技術(shù)初級(jí)能力培訓(xùn)課程產(chǎn)生的相關(guān)數(shù)據(jù)進(jìn)行分析,驗(yàn)證了該模型的可行性和有效性;孫力等(2015)采用數(shù)據(jù)分類決策樹方法,實(shí)現(xiàn)了對(duì)英語(yǔ)統(tǒng)考成績(jī)的良好預(yù)測(cè);陳子健等(2017)提出采用集成學(xué)習(xí)的方法構(gòu)建集成式學(xué)業(yè)成績(jī)分類預(yù)測(cè)模型,并比較多種算法構(gòu)建的單一分類模型和集成分類模型的性能;肖巍等(2018)對(duì)基于數(shù)據(jù)挖掘的學(xué)習(xí)預(yù)警研究進(jìn)行文獻(xiàn)綜述;王改花等(2019)采用數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)絡(luò)學(xué)習(xí)者的學(xué)習(xí)行為與成績(jī)進(jìn)行了預(yù)測(cè),構(gòu)建了適應(yīng)性學(xué)習(xí)系統(tǒng)學(xué)習(xí)干預(yù)模型。

      對(duì)預(yù)測(cè)模型的研究存在一個(gè)共識(shí),即學(xué)習(xí)者前序?qū)W習(xí)成績(jī)是對(duì)其后序階段學(xué)習(xí)結(jié)果的重要預(yù)測(cè)指標(biāo)。如賈亞普拉卡什等人(Jayaprakash, et al., 2014)提供了邏輯回歸模型描述,學(xué)習(xí)者課程成績(jī)累積平均值是最終成績(jī)的最強(qiáng)預(yù)測(cè)因子。筆者所在的網(wǎng)絡(luò)教育學(xué)院以及其他大規(guī)模在線教育平臺(tái)都存在此類情況,即難以準(zhǔn)確獲得學(xué)習(xí)者在使用當(dāng)前教學(xué)平臺(tái)之前的學(xué)習(xí)記錄數(shù)據(jù)。此外,現(xiàn)有的大部分預(yù)測(cè)模型都是階段性、靜態(tài)的,缺乏利用時(shí)間序列行為特征分析預(yù)測(cè)學(xué)習(xí)者實(shí)時(shí)學(xué)習(xí)結(jié)果的能力。因此,本文探索一種以學(xué)習(xí)者與學(xué)習(xí)平臺(tái)的資源互動(dòng)行為數(shù)據(jù)建模的方法,引入時(shí)間序列的衡量概念,構(gòu)建一個(gè)較準(zhǔn)確、易解釋的在不同課程中具備較好通用性并可實(shí)時(shí)動(dòng)態(tài)預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)結(jié)果預(yù)警模型。

      三、數(shù)據(jù)準(zhǔn)備

      (一)特征變量的選擇

      在學(xué)習(xí)分析領(lǐng)域,對(duì)學(xué)習(xí)者特征變量(或稱“屬性”)的劃分,存在著一個(gè)普遍共識(shí)的方式。一類是帶有學(xué)習(xí)者人口統(tǒng)計(jì)學(xué)特點(diǎn)的“傾向特征變量”,另一類是學(xué)生在學(xué)習(xí)過(guò)程中所呈現(xiàn)的“行為特征變量”。傾向特征變量一般包括學(xué)習(xí)者的年齡、性別、家庭狀況、收入水平、生活地區(qū)以及前置學(xué)習(xí)成績(jī)等屬性內(nèi)容。這一系列的特征變量都具有靜態(tài)、客觀的特點(diǎn),是學(xué)習(xí)者個(gè)人情況的反映,基本不會(huì)頻繁變化。對(duì)大多數(shù)在線學(xué)習(xí)平臺(tái)來(lái)說(shuō),此類特征變量都較容易獲得。之前的研究發(fā)現(xiàn),學(xué)習(xí)者的“性別、年齡、婚姻狀況、生活地區(qū)”是對(duì)回歸分析預(yù)測(cè)模型影響較高的特征變量(王亮, 2015)。因此,雖然本文的研究重點(diǎn)不在此類傾向特征變量上,但從實(shí)際應(yīng)用出發(fā),為提高模型的準(zhǔn)確度和解釋性,繼續(xù)在模型中選用這四個(gè)特征變量。

      行為特征變量包含學(xué)習(xí)者在學(xué)習(xí)平臺(tái)上的各類學(xué)習(xí)活動(dòng),包括學(xué)習(xí)者與平臺(tái)各類學(xué)習(xí)資源、其他學(xué)習(xí)者、教學(xué)者之間的互動(dòng)和結(jié)果?;趯?duì)學(xué)習(xí)過(guò)程中最核心流程的共識(shí),本文選取了三種資源交互形式作為預(yù)測(cè)模型的考察變量:課程講座視頻、學(xué)習(xí)者線上作業(yè)完成進(jìn)度以及學(xué)習(xí)論壇的討論參與??紤]到模型的復(fù)雜性,對(duì)以上三種資源交互的考察僅限于粗粒度水平,忽略了對(duì)單獨(dú)資源再進(jìn)行細(xì)粒度交互的分析。

      (二)通過(guò)學(xué)習(xí)者行為數(shù)據(jù)創(chuàng)建時(shí)間序列特征變量

      大多數(shù)學(xué)習(xí)分析技術(shù)構(gòu)建預(yù)測(cè)模型的研究,一般都會(huì)關(guān)注對(duì)學(xué)習(xí)者與平臺(tái)資源交互數(shù)據(jù)的分析和選取。隨著學(xué)習(xí)平臺(tái)對(duì)學(xué)習(xí)痕跡記錄的完善,這些數(shù)據(jù)可以方便地從平臺(tái)運(yùn)行日志中獲得(如某人某時(shí)間訪問(wèn)了某課程講座視頻資源等)。然而,如何把此類日志數(shù)據(jù)離散轉(zhuǎn)化為可以表達(dá)學(xué)習(xí)者與資源互動(dòng)行為特征的描述,并利用數(shù)據(jù)挖掘進(jìn)行分類是本研究的重點(diǎn)問(wèn)題。

      本文在數(shù)據(jù)準(zhǔn)備過(guò)程中,根據(jù)學(xué)習(xí)者訪問(wèn)資源的時(shí)間范圍來(lái)整合其交互行為特征。從學(xué)習(xí)周期開始的時(shí)間相對(duì)偏移,使用了三種不同的度量:以日為跨度、以周為跨度和以月為跨度的交互行為進(jìn)行觀測(cè)。這樣基于時(shí)間序列的數(shù)據(jù)特征分類可以全面地了解學(xué)習(xí)者與資源交互的節(jié)奏和周期。

      在選定行為數(shù)據(jù)表達(dá)方式后,需要再選擇適合用于預(yù)測(cè)模型的時(shí)間序列特征變量對(duì)象。以交互日志數(shù)據(jù)為基礎(chǔ),確定得到學(xué)習(xí)者在某一具體時(shí)間范圍的全部互動(dòng)行為特征(如在第15個(gè)學(xué)習(xí)日或第6個(gè)學(xué)習(xí)周是否觀看了課程講座的視頻等),并將所有這些特征變量納入到數(shù)據(jù)集中。但這勢(shì)必會(huì)造成模型中特征變量的數(shù)量過(guò)大,進(jìn)而帶來(lái)機(jī)器學(xué)習(xí)模型的過(guò)擬合現(xiàn)象,結(jié)果不僅影響模型在不同課程中的通用性,又會(huì)嚴(yán)重降低模型的解釋性。因此,本文忽略具體到某一時(shí)間范圍的時(shí)間序列特征變量,而將觀測(cè)集中到交互行為的時(shí)間序列前后關(guān)聯(lián)性上來(lái),如考察學(xué)習(xí)者在學(xué)習(xí)周期中連續(xù)三周每周都至少觀看一次課程講座視頻,這樣的行為特征是否對(duì)其課程通過(guò)有影響。學(xué)習(xí)是一個(gè)連續(xù)性過(guò)程,本文假設(shè)以交互行為的時(shí)間序列前后關(guān)聯(lián)情況作為特征變量,更有利于機(jī)器學(xué)習(xí)模型的訓(xùn)練和預(yù)測(cè)性能。

      在表達(dá)時(shí)間序列前后關(guān)聯(lián)的方法上,本文采用N-Gram語(yǔ)言模型技術(shù)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理(Brooks, et al., 2015)。Gram是一種統(tǒng)計(jì)語(yǔ)言模型,用來(lái)根據(jù)前(n-1)個(gè)Item來(lái)預(yù)測(cè)第n個(gè)Item。本文采用3-gram的時(shí)間序列特征來(lái)表達(dá)學(xué)習(xí)者與資源交互的時(shí)間關(guān)聯(lián)狀態(tài)。仍以觀看課程講座視頻為例,如學(xué)習(xí)者在整個(gè)學(xué)習(xí)周期內(nèi)以連續(xù)三周為一個(gè)時(shí)間序列,出現(xiàn)了2次,第一周和第三周觀看了視頻,而第二周沒有的情況,本文即用“周”標(biāo)簽的3-gram(真,假,真)特征變量的值為2來(lái)表達(dá)這一狀態(tài)。以此類推,本文將設(shè)定一組3-gram的時(shí)間序列特征變量,覆蓋從(假,假,假)到(真,真,真)的所有排列可能。

      (三)數(shù)據(jù)的實(shí)際采集和整理

      本文從筆者所在的網(wǎng)絡(luò)教育學(xué)院學(xué)習(xí)者中抽選了某一學(xué)籍批次的工商管理專業(yè)學(xué)生,并從教學(xué)平臺(tái)中抽取了該批次學(xué)習(xí)者在管理學(xué)課程學(xué)習(xí)過(guò)程中所進(jìn)行的“課程講座視頻觀看、線上作業(yè)完成進(jìn)度以及學(xué)習(xí)論壇的討論參與”三種資源交互的行為記錄。該課程總教學(xué)計(jì)劃時(shí)間為3.5個(gè)月,因此之前選擇的3-gram尺度是較為適宜的。本文設(shè)定coursewareD/coursewareW/coursewareM分別表示以日、周、月時(shí)間跨度記錄學(xué)習(xí)者觀看課程視頻的特征變量。類似地,以homework表示線上作業(yè)完成進(jìn)度,以forums表示學(xué)習(xí)論壇的討論參與等對(duì)應(yīng)特征變量,并在3-gram的排列基礎(chǔ)上展開,總共生成了24個(gè)時(shí)間序列特征變量(如表1所示)。

      本文設(shè)計(jì)了對(duì)平臺(tái)日志記錄數(shù)據(jù)離散的標(biāo)準(zhǔn)化算法,將縱向的學(xué)習(xí)者交互記錄數(shù)據(jù)批量離散轉(zhuǎn)化為對(duì)應(yīng)的時(shí)間序列特征變量值。這一數(shù)據(jù)準(zhǔn)備過(guò)程相對(duì)煩瑣復(fù)雜,特別是在模型驗(yàn)證階段的不同時(shí)間節(jié)點(diǎn)觀測(cè),需要反復(fù)運(yùn)算并整合,這是平臺(tái)缺乏相關(guān)功能造成的缺陷。未來(lái)可以在平臺(tái)設(shè)計(jì)改進(jìn)中加入此算法,以高效、直接地獲得所需特征變量值。

      四、機(jī)器學(xué)習(xí)預(yù)測(cè)模型的建立和驗(yàn)證

      在建立本研究的機(jī)器學(xué)習(xí)和預(yù)測(cè)模型時(shí),首先確定模型需達(dá)成的兩個(gè)目標(biāo):第一,在保證模型高準(zhǔn)確度的前提下,在準(zhǔn)確性和解釋性之間達(dá)成一個(gè)平衡,盡可能兼顧解釋性;第二,體現(xiàn)交互行為時(shí)間序列編排的價(jià)值,在實(shí)現(xiàn)課程實(shí)時(shí)推進(jìn)的同時(shí)保持模型相對(duì)良好的準(zhǔn)確性。特別是在學(xué)習(xí)周期初期缺乏前置學(xué)習(xí)結(jié)果的條件下,如早期模型能具備良好的準(zhǔn)確度,那么對(duì)提供早期預(yù)警干預(yù)將具有現(xiàn)實(shí)意義。

      (一)模型建立的技術(shù)路線

      由于機(jī)器學(xué)習(xí)算法偏向大多數(shù)類,所以在訓(xùn)練數(shù)據(jù)不均衡時(shí),準(zhǔn)確度評(píng)價(jià)指標(biāo)的參考意義就會(huì)顯著下降。基于對(duì)所在網(wǎng)絡(luò)教育學(xué)院的課程進(jìn)行觀察可以發(fā)現(xiàn),一般課程考核通過(guò)率在70%~75%之間,如果不對(duì)數(shù)據(jù)樣本進(jìn)行平衡調(diào)整,那么訓(xùn)練出的模型分類效果會(huì)難以接受。在樣本平衡模式上,本文選擇了欠采樣方法,對(duì)大類(考試通過(guò)的學(xué)習(xí)者)的數(shù)據(jù)樣本進(jìn)行欠采樣來(lái)減少大類的數(shù)據(jù)樣本個(gè)數(shù),使得樣本中通過(guò)與未通過(guò)的學(xué)習(xí)者數(shù)量比例接近1∶1?,F(xiàn)有研究證明,平衡數(shù)據(jù)的訓(xùn)練可以有效提高機(jī)器學(xué)習(xí)模型的預(yù)測(cè)準(zhǔn)確性。

      本研究選擇決策樹機(jī)器學(xué)習(xí)技術(shù)來(lái)建立預(yù)測(cè)模型。線性回歸、邏輯回歸等簡(jiǎn)單技術(shù),過(guò)程清晰明確,但不適用于分析復(fù)雜的問(wèn)題和數(shù)據(jù);相比貝葉斯模型或支持向量機(jī)等其他機(jī)器學(xué)習(xí)技術(shù),決策樹最大的優(yōu)點(diǎn)就是其易用性和較為清晰的解釋性,這對(duì)于教學(xué)設(shè)計(jì)者或教師具有更高的價(jià)值。本文的數(shù)據(jù)處理使用Weka工具包下的J48決策樹分類器(C4.5算法)來(lái)完成,參數(shù)選擇置信水平為0.25,最小葉節(jié)點(diǎn)大小為100。為了保證生成模型的準(zhǔn)確性而不至于出現(xiàn)過(guò)擬合的現(xiàn)象,研究采用10折交叉驗(yàn)證(10-fold cross validation)來(lái)評(píng)估模型。

      (二)模型準(zhǔn)確度和解釋性評(píng)價(jià)

      根據(jù)第3節(jié)進(jìn)行的數(shù)據(jù)準(zhǔn)備,本文利用決策樹進(jìn)行機(jī)器學(xué)習(xí)分類,所生成的預(yù)測(cè)模型的準(zhǔn)確度結(jié)果如表2所示。

      表2列出了模型對(duì)數(shù)據(jù)集正確、不正確分類的數(shù)量,以及kappa值觀察數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)之間一致性的度量。kappa 值的范圍為-1到+1,值越高,一致性就越強(qiáng)。當(dāng)Kappa為1時(shí)表明完全一致,為0時(shí)一致性與偶然預(yù)期相同,小于0的情況很少發(fā)生。有研究認(rèn)為kappa 值至少為0.75表示一致性強(qiáng),0.8以上表示一致性很強(qiáng)。本文模型的一致性為0.89,結(jié)合94.65%的分類正確率,可以確定此機(jī)器學(xué)習(xí)預(yù)測(cè)模型的準(zhǔn)確度是令人滿意的。

      圖1給出了本研究模型管理學(xué)課程結(jié)果決策樹示例。從樹的結(jié)構(gòu)可以直觀看出,J48決策樹修剪掉了數(shù)據(jù)集中絕大多數(shù)特征變量,只保留了機(jī)器學(xué)習(xí)算法所認(rèn)為最能體現(xiàn)分類效率和準(zhǔn)確性的變量屬性。統(tǒng)計(jì)模型是一種自上而下的數(shù)據(jù)科學(xué)方法,可解釋性是關(guān)鍵,因?yàn)橄嚓P(guān)性往往不等于因果關(guān)系,而機(jī)器學(xué)習(xí)模型的準(zhǔn)確度又與其復(fù)雜程度是相關(guān)的,這就決定了模型的準(zhǔn)確性和解釋性很難兼得,需要研究者取得一個(gè)適當(dāng)?shù)钠胶?。從圖1的樹結(jié)構(gòu)呈現(xiàn)中可以較容易地理解其分類意義,即學(xué)習(xí)者如果連續(xù)三個(gè)月以上能按時(shí)觀看課程講座視頻,并且連續(xù)三個(gè)月以上保持規(guī)律提交作業(yè),考試通過(guò)的概率是相當(dāng)高的,這也符合學(xué)習(xí)過(guò)程連貫性的一般規(guī)律。同時(shí),缺乏規(guī)律學(xué)習(xí)和作業(yè)提交的學(xué)習(xí)者無(wú)法通過(guò)課程的概率較大,而這其中單身學(xué)習(xí)者的通過(guò)率更差一些,已婚學(xué)習(xí)者中男性比女性通過(guò)率又弱一點(diǎn)。這或許與我們主觀認(rèn)知規(guī)律相悖,但實(shí)際上可能與家庭責(zé)任與個(gè)人自律性等社會(huì)現(xiàn)象有關(guān),具體原因不在本文研究范圍內(nèi)。

      根據(jù)以上結(jié)果評(píng)價(jià),本研究所構(gòu)建的預(yù)測(cè)模型在對(duì)某一門課程的學(xué)習(xí)結(jié)果準(zhǔn)確性和解釋性上初步獲得令人滿意的效果。

      (三)預(yù)測(cè)模型隨時(shí)間變化的驗(yàn)證

      基于學(xué)習(xí)者交互行為時(shí)間序列來(lái)建立預(yù)測(cè)模型,一個(gè)重要的目的就是希望此模型可以在學(xué)習(xí)周期的任何階段都能實(shí)時(shí)預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)結(jié)果,供教學(xué)人員實(shí)施及時(shí)干預(yù)。為驗(yàn)證模型隨時(shí)間變化的準(zhǔn)確度,本文從所在學(xué)院篩選出與之前實(shí)驗(yàn)數(shù)據(jù)中不同批次修讀管理學(xué)課程的學(xué)習(xí)者,沿用第3節(jié)的數(shù)據(jù)準(zhǔn)備方式,對(duì)學(xué)習(xí)者進(jìn)行以周為單位的交互行為數(shù)據(jù)采集和整合,并將得到的特征變量作為測(cè)試數(shù)據(jù)。將這些數(shù)據(jù)按照時(shí)間節(jié)點(diǎn)分別引入前文所生成的預(yù)測(cè)模型中進(jìn)行驗(yàn)證,得到的準(zhǔn)確度表達(dá)如圖2所示。

      圖2給出了在本輪驗(yàn)證過(guò)程中訓(xùn)練集和測(cè)試集學(xué)習(xí)者考試結(jié)果預(yù)測(cè)準(zhǔn)確度隨時(shí)間變化的趨勢(shì)。在教學(xué)周開始的第4周左右,對(duì)兩個(gè)數(shù)據(jù)集的預(yù)測(cè)準(zhǔn)確度均較快提升到較高水平,證明本文預(yù)測(cè)模型隨時(shí)間積累,較快地具備早期預(yù)警的能力,在教學(xué)周期的絕大部分時(shí)間的預(yù)測(cè)準(zhǔn)確度表現(xiàn)均較為良好。

      為更好地理解時(shí)間變化給預(yù)測(cè)準(zhǔn)確度帶來(lái)的影響,本文繪制了測(cè)試集結(jié)果的混淆矩陣的變化趨勢(shì)(如圖3所示)。混淆矩陣由四個(gè)值組成:真陽(yáng)性、假陽(yáng)性、真陰性和假陰性。與本文所做分析研究對(duì)應(yīng),我們關(guān)注以下幾個(gè)數(shù)據(jù)對(duì)象:預(yù)測(cè)課程通過(guò)且確實(shí)通過(guò)的學(xué)習(xí)者(真陽(yáng)性)、預(yù)測(cè)通過(guò)但未通過(guò)的學(xué)習(xí)者(假陽(yáng)性)、預(yù)測(cè)未通過(guò)且確實(shí)未通過(guò)的學(xué)習(xí)者(真陰性)。對(duì)預(yù)測(cè)未通過(guò)但實(shí)際通過(guò)的(假陰性)學(xué)習(xí)者,由于對(duì)其實(shí)際課程通過(guò)與否沒有產(chǎn)生負(fù)面影響,因而忽略。

      從圖3可以觀察到,在教學(xué)周期的第四周之后,矩陣各分類數(shù)值趨向于各自穩(wěn)定水平,這與預(yù)測(cè)模型對(duì)測(cè)試集的準(zhǔn)確度驗(yàn)證規(guī)律相吻合。同時(shí),假陽(yáng)性數(shù)值,也就是預(yù)測(cè)學(xué)習(xí)者通過(guò)而實(shí)際未通過(guò)的人數(shù),很快下降到一個(gè)較低的水平,證明了本文模型對(duì)需要預(yù)警的學(xué)習(xí)者疏漏的概率不高,且對(duì)時(shí)間變化較敏感,表明本文模型隨時(shí)間積累的性能提升較好。

      (四)本文預(yù)測(cè)模型與其他預(yù)測(cè)模型的比較

      本文預(yù)測(cè)模型的分析對(duì)象是基于時(shí)間序列的平臺(tái)交互行為,探討的是學(xué)習(xí)者在時(shí)間跨度中學(xué)習(xí)行為隨時(shí)間序列前后關(guān)聯(lián)帶來(lái)的結(jié)果影響。這種動(dòng)態(tài)的對(duì)學(xué)習(xí)交互行為時(shí)間關(guān)聯(lián)性的研究,是區(qū)別于其他學(xué)習(xí)分析預(yù)測(cè)模型的主要特點(diǎn)。在此前的相關(guān)研究中,使用邏輯回歸算法建立過(guò)預(yù)測(cè)模型,其優(yōu)點(diǎn)是簡(jiǎn)單、直觀且便于解釋,但不擅長(zhǎng)處理大量特征變量的復(fù)雜數(shù)據(jù)挖掘問(wèn)題。因此,本文研究中眾多的時(shí)間序列特征變量并不適宜使用線性、邏輯回歸算法來(lái)處理。為比較兩種算法的效果差異,本文將延續(xù)此前研究中使用過(guò)的邏輯回歸預(yù)測(cè)模型,并在回歸模型中使用簡(jiǎn)化的學(xué)習(xí)交互行為特征變量,使用同一測(cè)試集數(shù)據(jù)來(lái)比較兩種算法模型的差異性。

      本文為用于比較的邏輯回歸算法預(yù)測(cè)模型,選擇了與時(shí)間序列交互行為決策樹算法預(yù)測(cè)模型同樣的傾向特征變量,在行為特征變量方面也選取了同樣的特征對(duì)象,但簡(jiǎn)化了特征對(duì)象的變量容量以達(dá)成回歸算法的適應(yīng)性,同時(shí)盡可能模擬與本文決策樹算法類似的分析效果。具體變量的選擇如表3所示。

      為確保模型比較的準(zhǔn)確性,在用于對(duì)比的邏輯回歸預(yù)測(cè)模型中本文使用前文同樣批次的學(xué)習(xí)者數(shù)據(jù)集,并繼續(xù)以每個(gè)教學(xué)周作為周期采集測(cè)試集數(shù)據(jù),繼而使用驗(yàn)證集進(jìn)行預(yù)測(cè)結(jié)果檢驗(yàn)。兩種模型的預(yù)測(cè)準(zhǔn)確度隨時(shí)間變化的比較如圖4所示。

      從圖4可以看出,此前研究中所采用的邏輯回歸預(yù)測(cè)模型,在只采集階段性交互行為數(shù)據(jù)的特征變量情況下早期的預(yù)測(cè)準(zhǔn)確度并不十分理想,隨著教學(xué)時(shí)間的推移,學(xué)習(xí)者交互行為數(shù)據(jù)積累增多之后,其預(yù)測(cè)準(zhǔn)確性會(huì)得到提高,在教學(xué)周期接近結(jié)束時(shí)也能達(dá)到較高的預(yù)測(cè)準(zhǔn)確度,這與此前的研究結(jié)果是相符的。相比之下,本文基于時(shí)間序列的行為交互預(yù)測(cè)模型在教學(xué)周期的早期就能達(dá)到較好的準(zhǔn)確度,從而具備早期預(yù)警的能力,這對(duì)于大規(guī)模在線教學(xué)平臺(tái)來(lái)說(shuō)具有較強(qiáng)的實(shí)際應(yīng)用價(jià)值。

      五、結(jié)語(yǔ)

      目前,利用機(jī)器學(xué)習(xí)建立預(yù)測(cè)模型的研究和應(yīng)用已經(jīng)較為普遍,但基于時(shí)間序列考查學(xué)生交互行為相互關(guān)聯(lián)的預(yù)測(cè)模型研究仍較少,跨越平臺(tái)和教學(xué)環(huán)境的數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè)建模仍然大有潛力。本文的研究正是在對(duì)學(xué)習(xí)者與平臺(tái)資源交互行為的基礎(chǔ)上,創(chuàng)建時(shí)間序列前后關(guān)系的特征變量,建立機(jī)器學(xué)習(xí)預(yù)測(cè)模型,并驗(yàn)證隨時(shí)間推移的模型準(zhǔn)確性和應(yīng)用價(jià)值。通過(guò)數(shù)據(jù)驗(yàn)證和與一般的回歸預(yù)測(cè)模型比較可以得到,該模型具有較好的準(zhǔn)確度(分類準(zhǔn)確率94%以上,kappa一致性0.8以上),并且具有相對(duì)良好的解釋性。在進(jìn)一步對(duì)模型隨時(shí)間變化的性能檢測(cè)中,本決策樹模型在教學(xué)周期的早期就能形成較高準(zhǔn)確度,真陽(yáng)性和假陽(yáng)性分類較快地穩(wěn)定到對(duì)應(yīng)的高和低水平,與此前研究的預(yù)測(cè)模型相比有一定早期和動(dòng)態(tài)預(yù)測(cè)優(yōu)勢(shì),達(dá)成了本研究對(duì)模型設(shè)計(jì)的目標(biāo)。

      本研究尚有許多值得改進(jìn)的方面。首先,由于機(jī)器學(xué)習(xí)的算法性質(zhì),對(duì)于決策樹分類器對(duì)數(shù)據(jù)集特征變量的選擇沒有進(jìn)行干預(yù),因此可能只選擇了與預(yù)測(cè)結(jié)果強(qiáng)烈相關(guān)的特征變量形成模型,而忽略了不同變量對(duì)預(yù)測(cè)能力影響的比較。此外,該模型的通用性在同一教學(xué)環(huán)境中有較好表現(xiàn),但如果課程的教學(xué)模式和資源組成有較大變化,就會(huì)對(duì)模型穩(wěn)定性形成挑戰(zhàn)。這需要后續(xù)研究對(duì)不同課程進(jìn)行分類和概括,形成若干穩(wěn)定的預(yù)測(cè)模型模式,以應(yīng)對(duì)不同特征的課程結(jié)構(gòu)。同時(shí),該機(jī)器學(xué)習(xí)模型對(duì)于傳統(tǒng)教學(xué)領(lǐng)域小規(guī)模線下課程的適用性及其性能效果也是未來(lái)需要探討的內(nèi)容。

      [參考文獻(xiàn)]

      陳子健,朱曉亮. 2017. 基于教育數(shù)據(jù)挖掘的在線學(xué)習(xí)者學(xué)業(yè)成績(jī)預(yù)測(cè)建模研究[J]. 中國(guó)電化教育(12):75-81,89.

      馬杰,趙蔚,張潔. 2014. 基于學(xué)習(xí)分析技術(shù)的預(yù)測(cè)模型構(gòu)建與實(shí)證研究[J]. 現(xiàn)代教育技術(shù)(11):32-40.

      孫力,程玉霞. 2015. 大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)教育學(xué)習(xí)成績(jī)預(yù)測(cè)的研究與實(shí)現(xiàn)——以本科公共課程統(tǒng)考英語(yǔ)為例[J]. 開放教育研究(3):74-80.

      王改花,傅鋼善. 2019. 網(wǎng)絡(luò)學(xué)習(xí)行為與成績(jī)的預(yù)測(cè)及學(xué)習(xí)干預(yù)模型的設(shè)計(jì)[J]. 中國(guó)遠(yuǎn)程教育(2):39-48.

      王亮. 2015. 學(xué)習(xí)分析技術(shù)建立學(xué)習(xí)預(yù)測(cè)模型[J]. 實(shí)驗(yàn)室研究與探索 (1):215-218,246.

      肖巍,倪傳斌,李銳. 2018. 國(guó)外基于數(shù)據(jù)挖掘的學(xué)習(xí)預(yù)警研究:回顧與展望[J]. 中國(guó)遠(yuǎn)程教育(2):70-78.

      Adlin, T., & Pruitt, J. (2010). The Essential Persona Lifecycle: Your Guide to Building and Using Personas. Morgan Kaufmann Publishers, Burlington, MA, USA.

      Anderson, J. R. (1993). Rules of the mind. Cognitive Processes, 320.

      Arnold, K. E., & Pistilli, M. D. (2012). Course signals at Purdue: using learning analytics to increase student success (pp.267-270). Learning Analytics and Knowledge Conference, Vancouver, British Columbia, ACM.

      Barber, R., & Sharkey, M. (2012). Course correction: using analytics to predict course success. Learning Analytics and Knowledge Conference, Vancouver, British Columbia, ACM.

      Brooks, C., Thompson, C., & Teasley, S. (2015). A time series interaction analysis method for building predictive models of learners using log data. [ACM Press the Fifth International Conference - Poughkeepsie, New York] Proceedings of the Fifth International Conference on Learning Analytics And Knowledge - LAK, 126-135.

      Bull, S., Greer, J., McCalla, G., Kettel, L., & Bowes, J. (2001). User modelling in i-help: What, why, when and how. In User Modeling (pp.117-126). Springer.

      Garman, G. (2010). A Logistic Approach to Predicting Student Success in Online Database Courses. American Journal of Business Education, 3(12), 1-5.

      Gergen, K. J. (1985). The social constructionist movement in modern psychology. American psychologist, 40(3), 266.

      Graesser, A. C., Chipman, P., Haynes, B. C., & Olney, A. (2005). Autotutor: An intelligent tutoring system with mixed-initiative dialogue. Education, IEEE Transactions on, 48(4), 612-618.

      Jayaprakash, S. M., Moody, E. W., Lauría, E. J., Regan, J. R., & Baron, J. D.(2014). Early alert of academically at-risk students: An open source analytics initiative. Journal of Learning Analytics, 1(1), 6-47.

      Lauría, E. J. M., Moody, E. W., Jayaprakash, S. M., Jonnalagadda, N., & Baron, J. D. (2013). Open academic analytics initiative: initial research findings (pp.150-154). Learning Analytics and Knowledge Conference, Leuven, Belgium, ACM.

      Martin, B. (1999). Constraint-based modelling: Representing student knowledge. New Zealand Journal of Computing, 7(2), 30-38.

      Moore, R. (2007). Do Students Performances and Behaviors in Supporting Courses Predict Their Performances and Behaviors in Primary Courses? Research and Teaching in Developmental Education, 23(2), 38-48.

      Ohlsson, S. (1996). Learning from performance errors. Psychological Review, 103(2), 241-262.

      收稿日期:2020-03-09

      定稿日期:2020-06-03

      作者簡(jiǎn)介:王亮,碩士,實(shí)驗(yàn)師,南開大學(xué)現(xiàn)代遠(yuǎn)程教育學(xué)院(300071)。

      責(zé)任編輯 韓世梅

      猜你喜歡
      準(zhǔn)確度學(xué)習(xí)者變量
      抓住不變量解題
      也談分離變量
      你是哪種類型的學(xué)習(xí)者
      十二星座是什么類型的學(xué)習(xí)者
      幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
      漢語(yǔ)學(xué)習(xí)自主學(xué)習(xí)者特征初探
      動(dòng)態(tài)汽車衡準(zhǔn)確度等級(jí)的現(xiàn)實(shí)意義
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      分離變量法:常見的通性通法
      高爐重量布料準(zhǔn)確度的提高
      健康| 平和县| 南投市| 呼伦贝尔市| 五峰| 三门峡市| 当涂县| 贺兰县| 乐平市| 龙南县| 略阳县| 仙游县| 北碚区| 温宿县| 晋城| 常山县| 张家界市| 永宁县| 石棉县| 苗栗市| 朝阳区| 乌兰察布市| 丰宁| 台湾省| 肃宁县| 霍林郭勒市| 阿拉尔市| 乌什县| 寿光市| 松阳县| 信丰县| 宁晋县| 报价| 鄂温| 保康县| 丹寨县| 南丹县| 建瓯市| 正安县| 如东县| 洛南县|