• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于電子作業(yè)挖掘的學(xué)生學(xué)習(xí)預(yù)警模型研究

      2019-06-24 08:25張笑非段先華劉鎮(zhèn)錢萍
      軟件工程 2019年4期

      張笑非 段先華 劉鎮(zhèn) 錢萍

      摘 ?要:混合式教學(xué)的普及使得電子作業(yè)成為一種評價(jià)學(xué)生學(xué)習(xí)效果的重要數(shù)據(jù)來源,利用機(jī)器學(xué)習(xí)對電子作業(yè)進(jìn)行建模是對學(xué)生學(xué)習(xí)預(yù)警的一種有益探索。本文在對電子作業(yè)進(jìn)行分詞和向量化基礎(chǔ)上,通過k-means聚類和輪廓系數(shù)來判斷其語義的多樣性,通過計(jì)算文檔向量相似性矩陣的網(wǎng)絡(luò)效率來評價(jià)電子作業(yè)的中心性。實(shí)驗(yàn)結(jié)果顯示,該方法可以有效尋找電子作業(yè)聚類效果最優(yōu)時(shí)的簇類多樣性,也可以有效評價(jià)電子作業(yè)相似度的網(wǎng)絡(luò)中心性。因此,該方法作為一種學(xué)生學(xué)習(xí)預(yù)警模型,可以對電子作業(yè)文檔的多樣性和中心性給出客觀的總體評價(jià)。

      關(guān)鍵詞:文檔向量;k-means聚類;輪廓系數(shù);文檔相似度;圖論效率

      中圖分類號:TP181 ? ? 文獻(xiàn)標(biāo)識碼:A

      Abstract:The popularity of hybrid teaching makes electronic assignment an important data source for evaluating students' learning effects.Modeling electronic assignment with machine learning is a useful exploration for school precaution.Based on the word segmentation and vectorization of electronic assignments,this paper determines the semantic diversity by k-means clustering and silhouette coefficient,and evaluates the centrality of electronic assignment by calculating the network efficiency of document vector similarity matrix.The experimental results show that the method can effectively find the cluster diversity when the clustering effect of electronic assignments is optimal,and can also effectively evaluate the network centrality of the similarities of electronic assignments.Therefore,as a school precaution model,this method can give an objective overall evaluation of the diversity and centrality of electronic assignments.

      Keywords:document vector;k-means clustering;Silhouette coefficient;documents' similarity;graph theoretic efficiency

      1 ? 引言(Introduction)

      隨著慕課(Massive Online Open Courses, MOOC)和翻轉(zhuǎn)課堂(Small Private Online Course, SPOC)提供了在線遠(yuǎn)程學(xué)習(xí)的條件[1],對學(xué)生的自主學(xué)習(xí)態(tài)度和學(xué)習(xí)能力的要求也越來越高,如何同樣利用網(wǎng)絡(luò)平臺及人工智能等手段檢驗(yàn)和評價(jià)學(xué)生的學(xué)習(xí)效果也是一個(gè)亟待解決的問題。作業(yè)電子化和網(wǎng)絡(luò)化的嘗試,一方面減少了對紙張的使用,符合各高校類似辦公自動(dòng)化的綠色理念;另一方面,這意味著可以利用各種先進(jìn)的信息技術(shù)對電子作業(yè)進(jìn)行收集、分類、管理、挖掘等操作,從中可以挖掘電子作業(yè)文檔的特征并構(gòu)建模型,充當(dāng)對慕課和翻轉(zhuǎn)課堂等“教”的環(huán)節(jié)補(bǔ)充,從中挖掘?qū)W生“學(xué)”的情況。

      電子作業(yè)抄襲檢測也一直是教育信息技術(shù)應(yīng)用的一個(gè)研究熱點(diǎn)。文獻(xiàn)[2]提出了基于網(wǎng)絡(luò)郵件的作業(yè)自動(dòng)收集技術(shù),并通過句子相似度的方法來發(fā)現(xiàn)抄襲的方法。文獻(xiàn)[3]針對機(jī)房環(huán)境和網(wǎng)絡(luò)環(huán)境,分別采用了信息隱藏技術(shù)和向量空間距離模型進(jìn)行電子作業(yè)反抄襲。文獻(xiàn)[4]利用空間向量模型及相似度分布圖輔助教師進(jìn)行作業(yè)抄襲甄別工作。文獻(xiàn)[5]采用了直覺模糊聚類的方法來進(jìn)行電子作業(yè)抄襲檢測。本文通過將電子作業(yè)文檔向量化,采用k-means聚類和相似性矩陣進(jìn)行建模,基于輪廓系數(shù)和網(wǎng)絡(luò)效率對電子作業(yè)文檔樣本整體質(zhì)量進(jìn)行評價(jià),以此作為學(xué)生學(xué)習(xí)預(yù)警依據(jù)。

      2 ?電子作業(yè)文檔預(yù)處理(Preprocessing of ElectronicAssignments)

      2.1 ? 電子作業(yè)文檔分詞

      學(xué)生學(xué)習(xí)預(yù)警模型的建立首先需要能夠?qū)﹄娮幼鳂I(yè)文檔進(jìn)行分詞,由于學(xué)生的電子作業(yè)是以中文為主,所以這里采用了“結(jié)巴”中文分詞組件。該組件是基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖,并采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑,能夠找出基于詞頻的最大切分組合。而對于未登錄詞,則采用了漢字成詞能力的隱含馬爾可夫模型,并通過Viterbi算法進(jìn)行分詞。

      2.2 ? 電子作業(yè)文檔向量化

      文檔向量化是對詞向量化算法的一種擴(kuò)充,通過對句子、段落、甚至整個(gè)文檔這樣的大塊文本進(jìn)行無監(jiān)督學(xué)習(xí),從而得到文檔的定長特征向量。傳統(tǒng)的文本定長特征向量使用詞袋(bag-of-words)時(shí)存在兩個(gè)不足,即詞袋內(nèi)詞是無序的、且不考慮詞的語義信息。文獻(xiàn)[6]提出了名為“段落向量”的非監(jiān)督學(xué)習(xí)算法,可以從變長的文本單元(如語句、段落、文檔)中學(xué)習(xí)得到定長的特征向量。該算法將文檔表達(dá)為密集向量用于訓(xùn)練模型,并以此預(yù)測文檔中的詞。

      Doc2vec(https://radimrehurek.com/gensim/models/doc2vec.html)是一個(gè)有效的能夠?yàn)榉衷~后的文檔創(chuàng)建向量的工具,圖1中是通過Doc2vec對一門課程61名學(xué)生的電子作業(yè)文檔進(jìn)行向量化后得到的結(jié)果,每份電子作業(yè)文檔被表示為具有100個(gè)特征的特征向量。

      3 ? 學(xué)習(xí)預(yù)警建模(Modeling of school precaution)

      3.1 ? 聚類分析

      如圖6所示為根據(jù)電子作業(yè)文檔相似性矩陣在100個(gè)稀疏度上,分別計(jì)算全局效率和局部效率的結(jié)果??梢钥闯?,與通過與隨機(jī)網(wǎng)絡(luò)產(chǎn)生的仿真數(shù)據(jù)相比,實(shí)際數(shù)據(jù)的全局效率和局部效率在主要稀疏度區(qū)間上都比仿真數(shù)據(jù)要低。這說明實(shí)驗(yàn)用的電子作業(yè)文檔無論是整體的存在高中心度節(jié)點(diǎn)的情況,還是節(jié)點(diǎn)鄰居網(wǎng)絡(luò)存在高中心度節(jié)點(diǎn)的情況都不算嚴(yán)重,說明電子作業(yè)文檔具有較高的多樣性,質(zhì)量較高。

      5 ? 結(jié)論(Conclusion)

      信息技術(shù)的發(fā)展使得教學(xué)在形式上發(fā)生了變化,機(jī)器學(xué)習(xí)的應(yīng)用可以更好地對教學(xué)數(shù)據(jù)進(jìn)行建模和利用。同論文撰寫、項(xiàng)目申請等文檔的電子化一樣,作業(yè)的電子化也成為一種趨勢,將電子作業(yè)作為機(jī)器學(xué)習(xí)的樣本,不僅能夠得到作業(yè)質(zhì)量本身的信息,還能夠挖掘出學(xué)生的學(xué)習(xí)行為信息。本文正是從這點(diǎn)出發(fā),通過對學(xué)生電子作業(yè)的挖掘,從中建立學(xué)習(xí)預(yù)警模型,通過聚類效果的評價(jià)及網(wǎng)絡(luò)分析的度量對電子作業(yè)文檔的整體質(zhì)量作評估。

      參考文獻(xiàn)(References)

      [1] Kaplan A M,Haenlein M.Higher education and the digital revolution:About MOOCs,SPOCs,social media,and the Cookie Monster[J].Business Horizons,2016,59(4):441-450.

      [2] 秦新國.電子作業(yè)管理和作業(yè)抄襲檢測技術(shù)研究[D].南京師范大學(xué),2007:12-26.

      [3] 付兵,謝本貴.網(wǎng)絡(luò)環(huán)境與機(jī)房環(huán)境下電子作業(yè)反抄襲策略[J].實(shí)驗(yàn)室研究與探索,2013,32(04):79-82;91.

      [4] 張星,劉帥.基于空間向量的電子作業(yè)相似度檢測的設(shè)計(jì)與實(shí)現(xiàn)[J].福建電腦,2014,30(02):125-126.

      [5] 張潔,魚先鋒.基于直覺模糊聚類的電子作業(yè)抄襲檢測研究[J].計(jì)算機(jī)與現(xiàn)代化,2014,(06):106-110.

      [6] Le,Quoc V.,Mikolov,Tomas.Distributed Representations of Sentences and Documents[C].International Conference on Machine Learning,2014,(4):1188-1196.

      [7] Rousseeuw P J.Silhouettes:A graphical aid to the interpretation and validation of cluster analysis[J].Journal of Computational & Applied Mathematics,1999,20(20):53-65.

      [8] Amorim R C D,Hennig C.Recovering the number of clusters in data sets with noise features using feature rescaling factors[M].Elsevier Science Inc,2015:10-13.

      [9] Latora,V.,M.Marchiori.Efficient Behavior of Small-World Networks[J].Physical Review Letters,2001,87(19):1-4.

      [10] ?Latora,V.,M.Marchiori.Economic small-world behavior in weighted networks[J].The European Physical Journal B-Condensed Matter and Complex Systems,2003,32(2):249-263.

      作者簡介:

      張笑非(1980-),男,博士生,講師.研究領(lǐng)域:物聯(lián)網(wǎng)技術(shù),人工智能.

      段先華(1965-),男,博士,教授.研究領(lǐng)域:模式識別.

      劉 ?鎮(zhèn)(1961-),男,碩士,教授.研究領(lǐng)域:計(jì)算機(jī)系統(tǒng)結(jié)構(gòu),軟件定義網(wǎng)絡(luò).

      錢 ?萍(1978-),女,博士,講師.研究領(lǐng)域:信息安全.

      龙山县| 文成县| 永康市| 宁陕县| 休宁县| 马尔康县| 阳泉市| 铁力市| 大足县| 金山区| 万盛区| 邛崃市| 乃东县| 吉木乃县| 灵丘县| 安吉县| 岱山县| 德阳市| 德庆县| 清新县| 延安市| 瑞丽市| 施秉县| 垫江县| 望江县| 柘荣县| 宁海县| 洛宁县| 富阳市| 东乌珠穆沁旗| 克什克腾旗| 昔阳县| 民和| 白水县| 邻水| 上林县| 宜黄县| 阳原县| 江永县| 库伦旗| 耿马|