• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多模態(tài)學(xué)習(xí)的試題知識(shí)點(diǎn)分類方法

      2023-10-24 14:54:50李洋洋陳艷平唐瑞雪唐向紅
      中文信息學(xué)報(bào) 2023年7期
      關(guān)鍵詞:注意力試題模態(tài)

      李洋洋,譚 曦,陳艷平,唐瑞雪,唐向紅,林 川

      (1. 公共大數(shù)據(jù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽(yáng) 550025;2. 貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽(yáng) 550025;3. 貴州青朵科技有限公司,貴州 貴陽(yáng) 550025)

      0 引言

      2018年,教育部發(fā)行了《教育信息化2.0行動(dòng)計(jì)劃》[1]以推動(dòng)教育的現(xiàn)代化建設(shè),培養(yǎng)創(chuàng)新型人才。在《2020年教育信息化和網(wǎng)絡(luò)安全工作要點(diǎn)》中,國(guó)家又提出啟動(dòng)“百區(qū)千校萬(wàn)課”引領(lǐng)行動(dòng),樹(shù)立區(qū)域性標(biāo)桿,以此推動(dòng)各地智慧教育建設(shè)水平的提升[2]。由此看出隨著教育信息化的發(fā)展,智慧教育得到逐步推廣。智慧教育作為一種全面、豐富、多元、綜合的教育方式,既可以提高學(xué)生學(xué)習(xí)的趣味性,又可以調(diào)動(dòng)學(xué)生學(xué)習(xí)的積極性、主動(dòng)性;還可以突破傳統(tǒng)教學(xué)模式中的時(shí)空限制。試題知識(shí)點(diǎn)分類作為智慧教育領(lǐng)域中的一項(xiàng)基礎(chǔ)性工作,其主要任務(wù)是預(yù)測(cè)試題所考察的知識(shí)點(diǎn)。試題知識(shí)點(diǎn)是對(duì)試題考察內(nèi)容的概括,如物理學(xué)科的知識(shí)點(diǎn)包括電磁學(xué)、力學(xué)、電學(xué)等。通過(guò)試題知識(shí)點(diǎn)分類并結(jié)合學(xué)生的學(xué)習(xí)記錄,不僅可以了解學(xué)生對(duì)知識(shí)點(diǎn)的掌握情況,還可以為相似試題檢測(cè)[3-4]、智能組卷[5-6]、試卷質(zhì)量評(píng)估[7]、個(gè)性化試題推薦[8-9]等下游任務(wù)提供支撐。

      試題是命題者按照一定的考核要求編寫(xiě)出來(lái)的題目。通過(guò)對(duì)初高中物理試題的分析可知以下兩點(diǎn): ①試題由題面、答案、解析等構(gòu)成; ②試題中存在多源異構(gòu)數(shù)據(jù),如試題文本、圖片等信息。試題信息如表1所示。

      表1 試題信息

      通過(guò)上述試題信息可知,該試題考查的一級(jí)知識(shí)點(diǎn)為電磁學(xué),二級(jí)知識(shí)點(diǎn)為電磁學(xué)下的電場(chǎng)。隨著知識(shí)點(diǎn)層數(shù)的增加,知識(shí)點(diǎn)的數(shù)量也在增加,這不僅會(huì)影響試題知識(shí)點(diǎn)的分類性能,而且還將加劇小樣本試題占比的程度,導(dǎo)致分類器難以從小樣本試題中學(xué)習(xí)到有用的特征。傳統(tǒng)的試題知識(shí)點(diǎn)分類方法僅關(guān)注試題中的文本信息,而試題圖片作為試題的組成部分,也包含直接的語(yǔ)義信息。由于不同模態(tài)的試題特征之間存在互補(bǔ)關(guān)系,為了使試題的特征信息更加豐富飽滿,本文提出了一種基于多模態(tài)學(xué)習(xí)的試題知識(shí)點(diǎn)分類方法。本文主要工作如下:

      (1) 結(jié)合試題圖片提出了一個(gè)基于協(xié)同注意力機(jī)制的多模態(tài)融合模型,分別通過(guò)試題文本引導(dǎo)試題圖片的注意力和試題圖片引導(dǎo)試題文本的注意力來(lái)融合試題文本和試題圖片的特征,以獲取更豐富的試題語(yǔ)義信息;

      (2) 在某教育機(jī)構(gòu)提供的物理試題數(shù)據(jù)集上進(jìn)行驗(yàn)證分析,表明本文所提模型既可有效提高試題知識(shí)點(diǎn)的分類性能,可有效緩解小樣本試題知識(shí)點(diǎn)分類中的特征稀疏問(wèn)題。

      1 相關(guān)工作

      針對(duì)多模態(tài)數(shù)據(jù)的試題知識(shí)點(diǎn)分類問(wèn)題,其相關(guān)工作可分為以下兩種,即試題知識(shí)點(diǎn)分類和多模態(tài)融合。

      1.1 試題知識(shí)點(diǎn)分類

      傳統(tǒng)的知識(shí)點(diǎn)分類方法有兩種,即手工標(biāo)注方法[10]和基于機(jī)器學(xué)習(xí)的方法?;谑止?biāo)注的方法不僅耗時(shí)耗力,而且需要具備高水平的專業(yè)知識(shí),同時(shí)由于不同專家標(biāo)注標(biāo)準(zhǔn)的不同,因此存在標(biāo)注主觀性強(qiáng)、一致性低等問(wèn)題。傳統(tǒng)的基于機(jī)器學(xué)習(xí)的方法主要采用向量空間模型(Vector Space Model,VSM)[11]和支持向量機(jī)(Support Vector Machines,SVM)[12]。例如,植兆衍等人[13]設(shè)計(jì)了一個(gè)基于VSM的試題分類系統(tǒng),對(duì)試題按知識(shí)點(diǎn)進(jìn)行分類。朱劉影等人[14]借助TF-IDF提取試題中的關(guān)鍵詞,然后將SVM作為分類器對(duì)地理試題知識(shí)點(diǎn)進(jìn)行分類。郭崇慧等人[15]利用基于集成學(xué)習(xí)的方法來(lái)構(gòu)建多個(gè)SVM基分類器以預(yù)測(cè)數(shù)學(xué)試題考查的知識(shí)點(diǎn)。以上方法雖然解決了標(biāo)注一致性低的問(wèn)題但僅關(guān)注試題文本的淺層特征。因此,梁圣[16]采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,Bi-LSTM)對(duì)試題進(jìn)行語(yǔ)義編碼,然后通過(guò)分類器對(duì)試題知識(shí)點(diǎn)進(jìn)行分類。胡國(guó)平等[17]提出了一種教研知識(shí)強(qiáng)化的卷積神經(jīng)網(wǎng)絡(luò)方法對(duì)試題知識(shí)點(diǎn)進(jìn)行分類。上述研究均利用試題文本信息進(jìn)行分類,忽略了試題圖片與試題文本之間的深層語(yǔ)義關(guān)聯(lián),從而導(dǎo)致對(duì)試題的理解不充分。通過(guò)對(duì)數(shù)據(jù)集的統(tǒng)計(jì)分析可知,在物理試題數(shù)據(jù)集中約42%的試題均帶有圖片信息。因此,結(jié)合試題圖片信息進(jìn)行試題知識(shí)點(diǎn)分類是有必要的。以下將介紹多模態(tài)融合的研究現(xiàn)狀。

      1.2 多模態(tài)融合

      多模態(tài)由兩種或兩種以上的不同模態(tài)數(shù)據(jù)組合而成。不同模態(tài)的數(shù)據(jù)雖然在本質(zhì)上是異質(zhì)的,但是在模態(tài)內(nèi)部的特征中,模態(tài)之間又是相互關(guān)聯(lián)的。多模態(tài)融合就是利用計(jì)算機(jī)進(jìn)行多模態(tài)數(shù)據(jù)的綜合處理[18],如文本和圖片、視頻和音頻等。本文的多模態(tài)數(shù)據(jù)融合屬于文本和圖片的融合,許多學(xué)術(shù)專家在此方面進(jìn)行了大量的研究。例如,Liu等人[19]提出了一個(gè)基于注意力機(jī)制的多模態(tài)神經(jīng)網(wǎng)絡(luò)模型,用于學(xué)習(xí)多模態(tài)試題數(shù)據(jù)的統(tǒng)一表示,然后將其應(yīng)用于相似試題檢測(cè)中。Yin等人[20]通過(guò)嵌入層將異構(gòu)的試題數(shù)據(jù)映射到一個(gè)統(tǒng)一的空間中,然后采用層級(jí)預(yù)訓(xùn)練算法以無(wú)監(jiān)督學(xué)習(xí)的方式獲取試題的表示,并將其應(yīng)用到試題難度評(píng)估和學(xué)生學(xué)習(xí)行為預(yù)測(cè)中。Truong等人[21]提出了一種視覺(jué)注意力網(wǎng)絡(luò)VistaNet,用于對(duì)齊不同模態(tài)的情感信息,以將其應(yīng)用于情感分類中。Huang等人[22]結(jié)合注意力機(jī)制,對(duì)文本和圖片分別建模,然后對(duì)新生成的文本和圖片特征進(jìn)行融合,最后使用融合后的特征進(jìn)行情感分類。Wang等人[23]提出了一個(gè)多模態(tài)圖卷積網(wǎng)絡(luò)來(lái)建模文本信息和圖片信息以獲取統(tǒng)一的語(yǔ)義表示,最后將其應(yīng)用于假新聞檢測(cè)中。

      上述方法忽略了各模態(tài)內(nèi)部信息與模態(tài)之間交互作用的結(jié)合,無(wú)法有效捕獲不同模態(tài)之間的交互。

      2 問(wèn)題定義

      給定試題文本T={t1,t2,…,tn}和試題圖片I,其中n為試題文本信息的總長(zhǎng)度,試題文本信息包括試題題面文本信息、試題答案和試題解析。試題知識(shí)點(diǎn)分類的目標(biāo)是學(xué)習(xí)一個(gè)分類模型Ω,從中預(yù)測(cè)試題所考察的知識(shí)點(diǎn)Y,即

      Ω(T,I)→Y

      (1)

      3 基于多模態(tài)學(xué)習(xí)的試題知識(shí)點(diǎn)分類模型

      本文受Zhang等人[24]提出的應(yīng)用于命名實(shí)體識(shí)別任務(wù)的自適應(yīng)協(xié)同注意力網(wǎng)絡(luò)的啟發(fā),提出了一個(gè)基于多模態(tài)學(xué)習(xí)的試題知識(shí)點(diǎn)分類模型。結(jié)合基于Transformer的雙向編碼器表示(Bidirectional Encoder Representation from Transformers,BERT)[25]、文本卷積神經(jīng)網(wǎng)絡(luò)(Text Convolutional Neural Network,TextCNN)[26]、深層卷積神經(jīng)網(wǎng)絡(luò)VGG-Net16[27]和協(xié)同注意力機(jī)制的特點(diǎn),采用BERT預(yù)訓(xùn)練模型獲取試題文本的詞向量表示,并通過(guò)TextCNN捕獲不同粒度的試題文本特征;然后采用深層卷積神經(jīng)網(wǎng)絡(luò)VGG-Net16捕獲試題的圖片特征;再將兩者的特征通過(guò)協(xié)同注意力機(jī)制進(jìn)行融合;最后采用全連接層輸出試題知識(shí)點(diǎn)的分類結(jié)果。本文將從試題文本特征獲取、試題圖片特征獲取、基于協(xié)同注意力的多模態(tài)試題數(shù)據(jù)融合和試題知識(shí)點(diǎn)分類四個(gè)方面介紹該模型。模型結(jié)構(gòu)如圖1所示。

      圖1 基于多模態(tài)學(xué)習(xí)的試題知識(shí)點(diǎn)分類模型

      3.1 試題文本特征獲取

      BERT因其在Transformer的基礎(chǔ)上,采用大規(guī)模語(yǔ)料訓(xùn)練使之擁有強(qiáng)大的特征表示能力被廣泛應(yīng)用于預(yù)訓(xùn)練和下游任務(wù)中。因此,本文采用BERT預(yù)訓(xùn)練模型獲取試題文本信息的詞向量。令試題文本序列的詞向量表示如式(2)所示。

      w={w1,w2,…,wn}

      (2)

      其中,w∈n×d,d為詞向量的維度,n為試題文本的長(zhǎng)度,wi表示第i個(gè)字的詞向量表示。

      在分類任務(wù)中,TextCNN常被用于建立N-gram的語(yǔ)義特征,本文借助TextCNN的該特點(diǎn)捕獲不同粒度的試題文本特征。令卷積核的窗口大小為[l1,l2,…,lk],卷積核為[H1,H2,…,Hk],Hj∈lj×d,經(jīng)過(guò)卷積后所生成的試題文本特征圖表示式(3)~式(5)所示。

      其中,lj為卷積核的窗口大小,f為非線性激活函數(shù),bci為偏置項(xiàng)。C表示所有卷積核對(duì)應(yīng)的特征圖。為了捕獲試題文本中的重要特征,對(duì)卷積后得到的特征向量采取最大池化的操作,以輸出試題文本中的重要特征表示如式(6)所示。

      (6)

      最后,我們將不同卷積核窗口對(duì)應(yīng)的試題文本的重要特征進(jìn)行拼接,作為試題文本特征表示。

      (7)

      其中,⊕表示拼接操作。

      3.2 試題圖片特征獲取

      CNN在圖像處理領(lǐng)域擁有廣泛的應(yīng)用。為了獲取圖片信息的高階特征表示,現(xiàn)有方法多采用深層卷積神經(jīng)網(wǎng)絡(luò)。本文借助ImageNet中預(yù)訓(xùn)練的VGG-Net16捕獲試題的圖片特征。VGG-Net16由五段卷積神經(jīng)網(wǎng)絡(luò)和三段全連接層組成。由于試題圖片大小不一,因此首先將其處理為固定大小224×224 像素。為了獲取試題圖片的高階特征表示,本文選取VGG-Net16最后一層(池化層)的輸出作為試題的圖片特征,其大小為7×7×512,其中512為圖片特征向量的維度,7×7為特征圖的數(shù)量。因此,試題圖片可以被表示如式(8)所示。

      (8)

      為了獲得相同維度的圖片特征和文本特征,本文借助一個(gè)簡(jiǎn)單的線性層對(duì)圖片特征向量進(jìn)行轉(zhuǎn)換,如式(9)所示。

      (9)

      3.3 基于協(xié)同注意力的多模態(tài)試題數(shù)據(jù)融合

      由于試題知識(shí)點(diǎn)類別繁多,導(dǎo)致小樣本試題知識(shí)點(diǎn)分類性能較差。為了捕獲更豐富的試題語(yǔ)義信息,本文采用協(xié)同注意力機(jī)制,分別通過(guò)試題文本引導(dǎo)的試題圖片的注意力和試題圖片引導(dǎo)的試題文本的注意力來(lái)融合試題文本和試題圖片的特征。

      3.3.1 試題文本引導(dǎo)的注意力機(jī)制

      通過(guò)對(duì)試題文本和試題圖片的分析可知,試題文本和試題圖片之間存在一定的關(guān)聯(lián)。因此,直接利用試題文本特征與圖片特征預(yù)測(cè)試題考查的知識(shí)點(diǎn)將引入更多的噪聲,導(dǎo)致性能下降。通過(guò)試題文本引導(dǎo)試題圖片的注意力將會(huì)使注意力更多地關(guān)注與試題文本相關(guān)的區(qū)域。

      3.3.2 試題圖片引導(dǎo)的注意力機(jī)制

      通過(guò)試題文本引導(dǎo)的注意力機(jī)制將會(huì)使注意力更多地關(guān)注與試題文本相關(guān)的區(qū)域。通過(guò)試題圖片引導(dǎo)的注意力機(jī)制可以將注意力更多地關(guān)注到與試題圖片相關(guān)的試題文本。因此,采用更新后的試題圖片特征引導(dǎo)的注意力機(jī)制獲取與試題圖片相關(guān)的試題文本的表示,相關(guān)計(jì)算如式(13)~式(15)所示。

      其中,hT為重要的試題文本特征。Wvj、WT、Wβj都為權(quán)重矩陣,βj∈k,表示在試題文本中的重要特征的注意力分布,其值在[0-1]之間。為更新后的試題文本特征表示。

      3.3.3 多模態(tài)試題數(shù)據(jù)融合

      通過(guò)上述的協(xié)同注意力機(jī)制可以得到新生成的試題圖片特征表示和試題文本特征表示。為了獲取更豐富的試題語(yǔ)義信息,本文借助一個(gè)多模態(tài)門(mén)控機(jī)制對(duì)更新后的試題文本特征和試題圖片特征動(dòng)態(tài)融合,以選擇更適合于試題知識(shí)點(diǎn)分類的特征。最后,由于并非所有試題文本中的重要特征都與試題圖片關(guān)聯(lián),因此在多模態(tài)融合特征中可能會(huì)引入一些冗余信息和噪聲。為了解決該問(wèn)題,本文通過(guò)一個(gè)過(guò)濾門(mén)對(duì)試題文本與圖片的融合特征中的噪聲進(jìn)行過(guò)濾。多模態(tài)融合門(mén)的相關(guān)公式如式(16)~式(19)所示。

      過(guò)濾門(mén)的相關(guān)公式如式(20)~式(22)所示。

      3.4 試題知識(shí)點(diǎn)分類

      經(jīng)過(guò)基于協(xié)同注意力機(jī)制的多模態(tài)試題數(shù)據(jù)融合模塊后,本文獲得了試題文本和試題圖片特征的融合表示。最后通過(guò)一個(gè)全連接層輸出試題知識(shí)點(diǎn)的分類結(jié)果,如式(23)所示。

      (23)

      其中,y為每類知識(shí)點(diǎn)對(duì)應(yīng)的分類概率,Wy為全連接層的權(quán)重矩陣。

      4 實(shí)驗(yàn)

      4.1 數(shù)據(jù)集介紹

      本文所用數(shù)據(jù)集由貴州青朵科技有限公司提供。該數(shù)據(jù)集為物理學(xué)科試題數(shù)據(jù)集。試題知識(shí)點(diǎn)由該學(xué)科教育學(xué)領(lǐng)域?qū)<掖_定,并在其指導(dǎo)下由一線任課教師進(jìn)行人工標(biāo)注,對(duì)于標(biāo)注不一致的試題再由任課教師和學(xué)科專家共同討論確定。由于并非所有試題都有圖片信息,因此本文從10 000道初高中物理試題中抽取出帶有圖片信息的4 279道試題作為該文的數(shù)據(jù)集,并將其按照8∶1∶1的比例切分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。在該數(shù)據(jù)集中一級(jí)知識(shí)點(diǎn)有12個(gè),二級(jí)知識(shí)點(diǎn)有54個(gè)。以一級(jí)知識(shí)點(diǎn)“力學(xué)”為例,該教育機(jī)構(gòu)的試題知識(shí)點(diǎn)體系結(jié)構(gòu)如表2所示。

      表2 知識(shí)點(diǎn)體系結(jié)構(gòu)

      圖2為試題樣本分布圖,為了便于統(tǒng)計(jì),圖中將樣本量小于100的知識(shí)點(diǎn)歸為其他類。通過(guò)分析可知,隨著知識(shí)點(diǎn)層數(shù)的增加,知識(shí)點(diǎn)的數(shù)量也在增加,這將導(dǎo)致每類二級(jí)知識(shí)點(diǎn)對(duì)應(yīng)的試題樣本量減少,即小樣本試題占比增加。

      圖2 試題樣本分布圖

      4.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

      為了評(píng)價(jià)本文所提方法對(duì)試題知識(shí)點(diǎn)的分類效果。本文使用準(zhǔn)確率(Accuracy,Acc)、宏平均精準(zhǔn)率(Macro_P)、宏平均召回率(Macro_R)、宏平均F1值(Macro_F)作為評(píng)價(jià)指標(biāo)。其公式分別為:

      其中n為試題總數(shù)。P、R、F的表示如下:

      令試題所考察的知識(shí)點(diǎn)原本為y,則TP表示試題所考察的知識(shí)點(diǎn)被正確預(yù)測(cè)為y的試題數(shù)量;FN表示試題所考察的知識(shí)點(diǎn)被錯(cuò)誤預(yù)測(cè)的試題數(shù)量;FP表示試題所考察的知識(shí)點(diǎn)本來(lái)不是y,但被錯(cuò)誤預(yù)測(cè)為y的試題數(shù)量;TN表示試題所考察的知識(shí)點(diǎn)本來(lái)不是y,預(yù)測(cè)的知識(shí)點(diǎn)也不是y的試題數(shù)量。

      4.3 模型設(shè)置

      本文分別將RoBERTa和TAL-EduBERT作為預(yù)訓(xùn)練模型訓(xùn)練試題文本的詞向量。由于試題文本的平均長(zhǎng)度為217,因此本文將試題文本長(zhǎng)度設(shè)置為220,如果試題文本超過(guò)該長(zhǎng)度,則截?cái)?反之,則填充。設(shè)卷積核的窗口大小為[2,2,3,3,4,4],每個(gè)尺寸對(duì)應(yīng)的卷積核數(shù)量為256。由于試題中圖片的尺寸大小不一,因此將試題圖片大小處理為固定尺寸224×224×3。圖片特征的維度設(shè)置為512,圖片特征圖的數(shù)量為7×7。

      如果使用預(yù)訓(xùn)練模型提取試題文本詞向量表示,則模型的學(xué)習(xí)率設(shè)置為0.000 01;如果選用隨機(jī)生成的詞向量表示,則模型的學(xué)習(xí)率設(shè)置為0.001。損失函數(shù)選用交叉熵?fù)p失函數(shù),訓(xùn)練批次為16,Dropout設(shè)置為0.5。

      4.4 實(shí)驗(yàn)結(jié)果及分析

      為了驗(yàn)證本文所提模型的有效性,本文選用TextCNN、Bi-LSTM、FastText、RoBERTa、RoBERTa+TextCNN、TAL-EduBERT+TextCNN作為基線模型。這些模型均僅利用單一的試題文本信息進(jìn)行分類。一級(jí)知識(shí)點(diǎn)的實(shí)驗(yàn)結(jié)果如表3所示,二級(jí)知識(shí)點(diǎn)的實(shí)驗(yàn)結(jié)果如表4所示。

      表3 一級(jí)知識(shí)點(diǎn)的實(shí)驗(yàn)結(jié)果 (單位:%)

      表4 二級(jí)知識(shí)點(diǎn)的實(shí)驗(yàn)結(jié)果 (單位:%)

      表中“Ours”表示TextCNN的多模態(tài)融合模型;“Ours+Ro”表示RoBERTa+TextCNN的多模態(tài)融合模型;“Ours+Edu”表示TAL-EduBERT+TextCNN的多模態(tài)融合模型。實(shí)驗(yàn)結(jié)果表明,本文所提方法在一級(jí)知識(shí)點(diǎn)和二級(jí)知識(shí)點(diǎn)上均優(yōu)于上述基線模型。與TextCNN模型的實(shí)驗(yàn)結(jié)果相比,本文所提方法的準(zhǔn)確率在一級(jí)知識(shí)點(diǎn)上提高了3.5%,在二級(jí)知識(shí)點(diǎn)上提高了4.91%;宏平均F1值在一級(jí)知識(shí)點(diǎn)上提高了10.51%,在二級(jí)知識(shí)點(diǎn)上提高了13.47%。這表明結(jié)合試題圖片信息可以捕獲更豐富的試題語(yǔ)義信息。

      為了證明本文所提方法可以有效提高小樣本試題知識(shí)點(diǎn)的分類性能,本文分別選取5個(gè)典型的一級(jí)知識(shí)點(diǎn)和6個(gè)典型的二級(jí)知識(shí)點(diǎn)。在所選一級(jí)知識(shí)點(diǎn)中,能量、運(yùn)動(dòng)和相互作用的試題樣本較多,物質(zhì)居中,力學(xué)和電磁學(xué)對(duì)應(yīng)的試題樣本較少。在所選的二級(jí)知識(shí)點(diǎn)中,知識(shí)點(diǎn)歐姆定律和電流與電路的試題樣本占比較高,其余四種占比較低。圖3為五種典型的一級(jí)知識(shí)點(diǎn)的分類結(jié)果, 圖4為六種典型的二級(jí)知識(shí)點(diǎn)的分類結(jié)果。由圖可知,本文所提方法可以顯著提高小樣本試題知識(shí)點(diǎn)的分類性能,從而進(jìn)一步提高總體性能。

      圖3 五種典型的一級(jí)知識(shí)點(diǎn)的分類結(jié)果

      圖4 六種典型的二級(jí)知識(shí)點(diǎn)的分類結(jié)果

      為了進(jìn)一步驗(yàn)證本文所提方法的有效性,本文進(jìn)行了消融分析,即在未使用預(yù)訓(xùn)練模型的基礎(chǔ)上分別去除協(xié)同注意力層、多模態(tài)融合門(mén)、過(guò)濾門(mén)。Co-att表示去除協(xié)同注意力層;Fus-gate表示去除多模態(tài)融合門(mén);Fil-gate表示去除過(guò)濾門(mén)。表5為一級(jí)知識(shí)點(diǎn)消融實(shí)驗(yàn)的結(jié)果,表6為二級(jí)知識(shí)點(diǎn)消融實(shí)驗(yàn)的結(jié)果。通過(guò)分析可知,去除協(xié)同注意力層、多模態(tài)融合門(mén)、過(guò)濾門(mén)中的任意一個(gè)都將導(dǎo)致試題知識(shí)點(diǎn)分類性能下降。對(duì)實(shí)驗(yàn)結(jié)果影響最大的為過(guò)濾門(mén),其次為多模態(tài)融合門(mén),最后為協(xié)同注意力層。且過(guò)濾門(mén)對(duì)二級(jí)知識(shí)點(diǎn)的實(shí)驗(yàn)結(jié)果影響最大。原因可能是二級(jí)知識(shí)點(diǎn)類別繁多,導(dǎo)致試題知識(shí)點(diǎn)分類難度較大,通過(guò)過(guò)濾門(mén)可以很好地過(guò)濾掉與該類別無(wú)關(guān)的冗余信息,從而提高細(xì)粒度知識(shí)點(diǎn)的分類性能。

      表5 一級(jí)知識(shí)點(diǎn)消融實(shí)驗(yàn)結(jié)果 (單位:%)

      表6 二級(jí)知識(shí)點(diǎn)消融實(shí)驗(yàn)結(jié)果 (單位:%)

      5 結(jié)語(yǔ)

      本文針對(duì)小樣本試題知識(shí)點(diǎn)分類性能較差的問(wèn)題,考慮到試題圖片作為試題的一部分,其包含直接的語(yǔ)義信息,因此提出了一個(gè)基于多模態(tài)學(xué)習(xí)的試題知識(shí)點(diǎn)分類模型。通過(guò)結(jié)合試題圖片使試題的特征信息更加豐富飽滿。在某教育機(jī)構(gòu)提供的初高中物理試題數(shù)據(jù)集上進(jìn)行驗(yàn)證,相比僅使用試題文本信息的方法,本文所提方法可以捕獲更豐富的試題語(yǔ)義信息,以提高小樣本知識(shí)點(diǎn)的分類性能,從而進(jìn)一步提高總體性能。由于本文試題知識(shí)點(diǎn)體系結(jié)構(gòu)為兩層,因此下一步將考慮如何構(gòu)建級(jí)聯(lián)模型,同時(shí)輸出一級(jí)知識(shí)點(diǎn)和二級(jí)知識(shí)點(diǎn)。

      猜你喜歡
      注意力試題模態(tài)
      讓注意力“飛”回來(lái)
      2021年高考數(shù)學(xué)模擬試題(四)
      2019年高考數(shù)學(xué)模擬試題(五)
      《陳涉世家》初三復(fù)習(xí)試題
      2019屆高考數(shù)學(xué)模擬試題(二)
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
      基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
      由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
      分宜县| 石阡县| 烟台市| 彩票| 沅陵县| 龙山县| 综艺| 四子王旗| 滨州市| 普格县| 盘山县| 应城市| 安宁市| 双流县| 旬邑县| 巴林右旗| 凤凰县| 开封县| 会泽县| 星座| 神池县| 淮南市| 政和县| 禹城市| 南平市| 福建省| 莱阳市| 来凤县| 民县| 神木县| 靖远县| 巴南区| 醴陵市| 淅川县| 龙井市| 屯留县| 搜索| 金沙县| 西华县| 武川县| 盐源县|