• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于圖卷積神經(jīng)網(wǎng)絡(luò)的高校評教文本垃圾識別模型

      2021-02-14 06:25:44
      電視技術(shù) 2021年12期
      關(guān)鍵詞:評教語句卷積

      熊 晗

      (重慶工商職業(yè)學(xué)院,重慶 400052)

      0 引 言

      高校評教系統(tǒng)如何準(zhǔn)確地刻畫與量化教師教書水平,學(xué)生評價是有效的信息反饋手段。然而,目前高校的學(xué)生評教未能真正達到智能化的程度。其中一個主要的困難在于,學(xué)生的評價有大量的無效、無用、甚至是干擾的評論。如何在海量的評教文本中準(zhǔn)確地實現(xiàn)垃圾信息識別,使評教系統(tǒng)智能化,是目前項目的工作重點。

      近年來,在高校研究工作中,評教內(nèi)容的使用與研究有很多突破與進展。在文本垃圾識別領(lǐng)域,深度學(xué)習(xí)技術(shù)有著相當(dāng)不錯的實現(xiàn)效果,特別是圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolution Network,GCN)的提出,將聚合節(jié)點的鄰居節(jié)點以及邊的信息來更新該節(jié)點的向量表征,捕捉到文本中更豐富和細(xì)致的特征,提升垃圾分類的識別效果[1-2]。本文結(jié)合大量學(xué)生評教語料的分析與處理,使用Bert完成詞嵌入,將文本特征以嵌入向量的形式輸入到圖網(wǎng)絡(luò)模型中。實驗證明,相較于未使用GCN模型的方法,Bert結(jié)合GCN模型有著更好的分類性能[3]。

      針對收集的學(xué)校的多年評教語句初步分析,進行分類識別垃圾評教語句的難點在于:

      (1)評教語句往往比較簡短,使用傳統(tǒng)的自然語言的處理框架如循環(huán)神經(jīng)網(wǎng)絡(luò)(Rerrent Neural Network,RNN)以及衍生框架很難獲取到語句有效特征;

      (2)部分評教語句從語言、語法上無法區(qū)分是否為垃圾評教,比如學(xué)生評價:“老師教得不錯”,可能是中肯的,也可能是敷衍的復(fù)制,這種情況需要收集足夠多的特征來區(qū)分[4];

      (3)文本數(shù)據(jù)量巨大,每年學(xué)生評教有大量的數(shù)據(jù)產(chǎn)生,人工標(biāo)注較為困難。

      本項目將按以下兩個思路進行文本圖結(jié)構(gòu)表示。

      第一類,將每個文本作為頂點,將頂點之間的實際拓?fù)潢P(guān)系作為邊條件與權(quán)值,例如文本作者與粉絲之間的關(guān)注關(guān)系,文本相互鏈接的關(guān)系等等。

      第二類是基于文本的實體與共指關(guān)系連接構(gòu)建。將文本中的實體作為節(jié)點,并把實體之間的共指同現(xiàn),鄰近實體連接作為邊,從而使用圖結(jié)構(gòu)進行表示。

      通過研究調(diào)查,圖卷積神經(jīng)網(wǎng)絡(luò)與自然語言處理結(jié)合已經(jīng)有理論基礎(chǔ)認(rèn)證,并有部分實際工作[4-5]。本文重點將結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點,使用目前前沿的Bert框架對文本詞嵌入做好預(yù)處理。融合學(xué)生屬性數(shù)據(jù)與評價文本的特征表示作為輸入,進行下一步圖卷積訓(xùn)練,用學(xué)生-教師-評語二部圖的關(guān)系聚合各節(jié)點的特征信息,捕獲局部上下文的關(guān)系,從而獲取更細(xì)致的特征。最后使用分類器對文本進行分類,完成相關(guān)分類工作。

      1 模型詳細(xì)設(shè)計

      1.1 特征表示與文本詞嵌入

      要得到更好的識別效果,使用的學(xué)生信息就應(yīng)該盡可能地多,才能充分挖掘?qū)W生評教質(zhì)量的高低,從而識別出垃圾信息。本次實驗,收集的維度不僅僅局限于文本。針對學(xué)生的成績好壞、平時作業(yè)是否喜愛抄襲、所在班級、關(guān)系緊密的同學(xué)等等信息都作為特征收集,這些信息在一定程度上可以反映出一個學(xué)生的評價信息是否質(zhì)量較高,這樣從一定程度上豐富了特征信息,補充了僅僅靠學(xué)生評教語句來挖掘信息的不足。比如成績不太好、平時作業(yè)就有網(wǎng)上復(fù)制習(xí)慣的學(xué)生,很大可能其評教語句也是隨意復(fù)制的。

      圖1 多維度評價特征向量

      1.2 圖神經(jīng)網(wǎng)絡(luò)構(gòu)架

      參考圖卷積在文本分類上的基本原理,設(shè)定G=,其中所有頂點可以表示為v∈V,特征節(jié)點Xv=hvo∈Rd0,其中do表示特征維度,隱層節(jié)點v在lth層學(xué)習(xí)到的狀態(tài)表示為表示隱層lth節(jié)點狀態(tài)。

      接下來,將學(xué)生的評教文本數(shù)據(jù)與評價老師的關(guān)系看做一個“學(xué)生、教師為頂點,評語為邊”的二部圖,如圖2所示。

      圖2 學(xué)生-教師-評教二部圖

      按照圖卷積網(wǎng)絡(luò)的提取過程,針對圖網(wǎng)絡(luò)的領(lǐng)域提取特征,同時將兩邊的特征容納到特征領(lǐng)域的提取過程中。對于邊特征的更新過程為:將邊E特征與二部圖兩側(cè)的頂點教師Vt與學(xué)生特征Vu進行更新,更新按照兩個步驟進行,即特征提取與特征融合,對應(yīng)公式如式(1)和式(2)所示。

      如上所述,在基于GCN的節(jié)點分類中齊次圖上的任務(wù),從最后一層嵌入節(jié)點用作分類器的輸入。相反地,利用上次傳播的邊緣嵌入層以及該邊鏈接到的兩個節(jié)點的嵌入,將這三個嵌入連接起來進行邊緣分類。根據(jù)設(shè)置的二部圖設(shè)定,在同構(gòu)圖上基于GCN的節(jié)點分類任務(wù)中,使用最后一層作為節(jié)點分類器的輸入。利用來自最后的傳播層的邊緣嵌入以及改變的邊緣鏈接到的兩個節(jié)點,使其鏈接起來作為邊緣分類,整體構(gòu)架分為Aggregation Sub-layer和Combination Sub-layer。其中Aggregation Sublayer使用TextCNN模型可得到:

      最后使用式(5)將sotfmax層接入神經(jīng)網(wǎng)絡(luò)層,對評教語句進行分類,最后選擇得到概率最大的類別,判斷是垃圾評價還是正常評價。

      1.3 總體網(wǎng)絡(luò)模型構(gòu)架

      總體流程如圖3所示。

      圖3 Bert+GCN垃圾識別模型整體構(gòu)架

      2 實驗與結(jié)果

      2.1 實驗數(shù)據(jù)與環(huán)境

      數(shù)據(jù)收集重慶工商職業(yè)學(xué)院2010—2015共5年的評教數(shù)據(jù),并且按照8∶2的比例分為訓(xùn)練集與測試集。針對原始數(shù)據(jù)進行清理。

      對于評教數(shù)據(jù)進行如下處理:

      (1)將評價過于簡短如“很好”“不錯”“可以”等詞語刪除,后續(xù)這部分詞語可以作為一部分低權(quán)重的特征加入對教師評價的判斷中,在本次實驗中暫不考慮;

      (2)刪除重復(fù)過多的評價短語,這部分幾乎是無意義地復(fù)制粘貼而來,對真實情況的反映意義不大;

      (3)處理停用詞與標(biāo)點。

      處理后,評教數(shù)據(jù)總量為18 986條。

      對于學(xué)生的屬性數(shù)據(jù),本次選取的學(xué)生屬性數(shù)據(jù)共13個維度,樣例如表1所示,共收集數(shù)據(jù)11 289條。

      表1 學(xué)生屬性數(shù)據(jù)特征樣例

      2.2 實驗結(jié)果分析

      根據(jù)模型詳細(xì)設(shè)計流程,為了測試圖卷積神經(jīng)網(wǎng)絡(luò)針對選取文本的分類效果,本文選擇了幾種常見的自然語言處理的機器學(xué)習(xí)構(gòu)架來進行比較。為了更加全面與科學(xué)地比較,本次實驗選取機器學(xué)習(xí)的代表方法支持向量機(Support Vector Machine,SVM),它是常見的深度學(xué)習(xí)基本框架方法,也是目前主流的組合框架方法。數(shù)據(jù)處理階段,統(tǒng)一使用數(shù)據(jù)特征的處理過程(圖1過程),保證輸入結(jié)構(gòu)一致。后面處理過程采用如下幾種框架進行比較。

      (1)SVM+樸素貝葉斯。提取的是TF特征,統(tǒng)計出每個特征及其頻次。以特征的id作為下標(biāo),頻次作為數(shù)值,假設(shè)一共有n個特征,一篇文檔就轉(zhuǎn)化為n維的詞袋向量。樸素貝葉斯法是最簡單常用的一種生成式模型。樸素貝葉斯法基于貝葉斯定理將聯(lián)合概率轉(zhuǎn)化為條件概率,然后利用特征條件獨立假設(shè)簡化條件概率的計算。

      (2)GBDT。GBDT是把所有樹的結(jié)論累加起來做最終結(jié)論的。GBDT的核心在于,每一棵樹學(xué)的是之前所有樹結(jié)論和的殘差(負(fù)梯度),這個殘差就是一個加預(yù)測值后能得到真實值的累加量,GBDT在各類比賽中針對分類類型問題均有非常好的分類表現(xiàn)。

      (3)TextCNN。TextCNN的最大優(yōu)勢是網(wǎng)絡(luò)結(jié)構(gòu)簡單,在模型網(wǎng)絡(luò)結(jié)構(gòu)如此簡單的情況下,通過引入已經(jīng)訓(xùn)練好的詞向量,依舊有很不錯的效果,在多項數(shù)據(jù)數(shù)據(jù)集上超越benchmark。并且網(wǎng)絡(luò)結(jié)構(gòu)簡單導(dǎo)致參數(shù)數(shù)目少,計算量少,訓(xùn)練速度快。

      實驗結(jié)果如表2所示。

      表2 評教垃圾評語識別各算法框架對比

      通過實驗可以看出,bert預(yù)處理的詞嵌入結(jié)合GCN的網(wǎng)絡(luò)模型,在本次實驗的環(huán)境中,極大程度地獲取了評教文本以及學(xué)生屬性信息的相關(guān)特征信息,很好地表示在文本評價質(zhì)量的分類工作中。

      3 結(jié) 語

      本文以目前近年來流行的圖卷積神經(jīng)網(wǎng)絡(luò)框架為研究對象,結(jié)合目前收集的學(xué)校評教數(shù)據(jù)的特征進行模型設(shè)計,解決評教語句中過多的垃圾評價很難單通過語句進行判斷的弱點。融入學(xué)生屬性數(shù)據(jù)后,結(jié)合學(xué)生-評教-教師的二部圖關(guān)系,設(shè)計圖卷積神經(jīng)網(wǎng)絡(luò)模型,形成在特定場景下的一些具有圖網(wǎng)絡(luò)關(guān)系的評價語句進行研究。最后通過實驗證明,在專業(yè)詞匯較多、文本簡短、評教文本之間有豐富連接關(guān)系且標(biāo)注數(shù)據(jù)量較少的語料場景下,使用圖卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練取得了更好的效果。

      猜你喜歡
      評教語句卷積
      地方高校教學(xué)評價指標(biāo)制訂與評教數(shù)據(jù)分析
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      重點:語句銜接
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      精彩語句
      高校學(xué)生網(wǎng)上評教的探索與實踐
      高校學(xué)生評教的問題與對策——以中國礦業(yè)大學(xué)為例
      評教,別忘記站在教師的立場上
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      双流县| 塘沽区| 赣州市| 漠河县| 固安县| 遂昌县| 调兵山市| 新营市| 双柏县| 永修县| 灵台县| 宁远县| 通海县| 南靖县| 鄂托克旗| 米易县| 靖宇县| 竹山县| 潼关县| 扎兰屯市| 枝江市| 苗栗县| 南城县| 同仁县| 抚远县| 蓝山县| 锡林浩特市| 吴旗县| 洛南县| 印江| 丹阳市| 苍南县| 洞头县| 彭阳县| 鄂尔多斯市| 化德县| 平乡县| 行唐县| 浪卡子县| 渭南市| 图木舒克市|