• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多粒度標(biāo)簽擾動(dòng)的文本分類(lèi)研究

      2024-01-27 13:40:27姚汝婧王芳
      現(xiàn)代情報(bào) 2024年1期
      關(guān)鍵詞:文本分類(lèi)深度學(xué)習(xí)

      姚汝婧 王芳

      關(guān)鍵詞: 文本分類(lèi); 深度學(xué)習(xí); 標(biāo)簽擾動(dòng); 元學(xué)習(xí); 多粒度

      DOI:10.3969 / j.issn.1008-0821.2024.01.003

      〔中圖分類(lèi)號(hào)〕TP391 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2024) 01-0025-12

      文本分類(lèi)是信息組織和信息分析中的重要內(nèi)容,其涉及的范圍十分廣泛, 不僅包括學(xué)術(shù)文獻(xiàn)的分類(lèi)任務(wù), 如文獻(xiàn)結(jié)構(gòu)分類(lèi)、引文情感分類(lèi)、引文意圖分類(lèi)等, 也包含社交媒體信息分類(lèi)、突發(fā)事件的識(shí)別與分類(lèi)、政策文本分類(lèi)等。隨著文獻(xiàn)數(shù)量的飛速增長(zhǎng), 對(duì)于學(xué)術(shù)文獻(xiàn)相關(guān)內(nèi)容的分類(lèi)能夠幫助學(xué)者在面對(duì)浩如煙海的文獻(xiàn)資料時(shí), 快速地識(shí)別出所需信息, 了解目標(biāo)文獻(xiàn)的研究?jī)?nèi)容與研究?jī)r(jià)值[1-2] 。政策文本分類(lèi)能夠幫助政府、高校、企業(yè)等高效地獲取自身所需的科技政策[3] 。社交媒體信息分類(lèi)能夠幫助決策者快速了解公眾的情感和觀點(diǎn), 并利用這些有價(jià)值的分類(lèi)信息優(yōu)化和改進(jìn)現(xiàn)有的解決方案[4] 。突發(fā)事件的自動(dòng)識(shí)別與分類(lèi)能夠從海量信息中快速獲取有效信息, 并為應(yīng)急管理機(jī)構(gòu)提供幫助[5] 。

      深度學(xué)習(xí)算法因其良好的特征表示能力, 逐漸成為了解決上述問(wèn)題的首選方案。然而, 有監(jiān)督的深度學(xué)習(xí)算法的訓(xùn)練依賴(lài)于訓(xùn)練數(shù)據(jù), 一個(gè)大型高質(zhì)量的訓(xùn)練樣本集對(duì)能否有效訓(xùn)練深度學(xué)習(xí)算法幾乎起著決定性作用。但是, 由于標(biāo)注經(jīng)驗(yàn)、主觀性以及責(zé)任心等因素的影響, 人工標(biāo)注的數(shù)據(jù)集不可避免地存在著噪聲。如有研究表明圖像分類(lèi)中最為知名的大型數(shù)據(jù)集ImageNet 約包含了6%的噪聲標(biāo)簽[6] , 而NER 領(lǐng)域應(yīng)用最為廣泛的數(shù)據(jù)集CoNLL-2003 也被發(fā)現(xiàn)約5%的標(biāo)簽錯(cuò)誤存在于測(cè)試句中[7] 。可想而知, 對(duì)于深度學(xué)習(xí)任務(wù)所采用的非基準(zhǔn)數(shù)據(jù)集, 其噪聲標(biāo)簽比例極可能更高, 而這些噪聲標(biāo)簽會(huì)對(duì)深度學(xué)習(xí)的模型訓(xùn)練造成負(fù)面影響。因此, 在文本分類(lèi)研究中, 尋求有效的噪聲標(biāo)簽學(xué)習(xí)方法也已經(jīng)成為一個(gè)熱點(diǎn)問(wèn)題。

      迄今為止, 研究者們已經(jīng)提出了各種各樣的噪聲標(biāo)簽學(xué)習(xí)算法[8] , 通過(guò)降低噪聲標(biāo)簽對(duì)模型訓(xùn)練的負(fù)面影響進(jìn)而提升模型的性能, 基于標(biāo)簽擾動(dòng)的算法就是其中一類(lèi)典型的學(xué)習(xí)策略。顧名思義,標(biāo)簽擾動(dòng)的目標(biāo)是訓(xùn)練樣本的標(biāo)簽, 即通過(guò)對(duì)一部分訓(xùn)練樣本的標(biāo)簽添加擾動(dòng)來(lái)減少噪聲標(biāo)簽對(duì)模型造成的負(fù)面影響, 增強(qiáng)模型的魯棒性。按照擾動(dòng)粒度的不同, 標(biāo)簽擾動(dòng)算法可以分為樣本級(jí)粒度的擾動(dòng)、類(lèi)別級(jí)粒度的擾動(dòng)、數(shù)據(jù)集級(jí)粒度的擾動(dòng)。目前, 有3 種具有代表性的單一粒度的標(biāo)簽擾動(dòng)算法:Label Smoothing(標(biāo)簽平滑)算法[9] 、Bootstrapping 算法[10] 、Online Label Smoothing(在線標(biāo)簽平滑) 算法[11] 。Label Smoothing 和Online Label Smoothing 為類(lèi)別級(jí)粒度的標(biāo)簽擾動(dòng)算法, Bootstrapping 為樣本級(jí)粒度的標(biāo)簽擾動(dòng)算法。

      多項(xiàng)研究表明, 不同粒度的標(biāo)簽擾動(dòng)算法都能有效地提升模型性能, 然而, 現(xiàn)有的算法大多是從同一粒度下的深入探索, 缺乏對(duì)不同粒度信息的有效利用, 而不同級(jí)別的粒度信息能夠進(jìn)行互補(bǔ)從而提高模型的性能。基于此, 本文首先分析了LabelSmoothing、Bootstrapping、Online Label Smoothing 3種單粒度的標(biāo)簽擾動(dòng)算法如何具體地對(duì)學(xué)習(xí)過(guò)程起著調(diào)節(jié)作用。然后, 提出了一種多粒度的標(biāo)簽擾動(dòng)算法(Multi-granularity Label Perturbation, MGLP),該算法通過(guò)加權(quán)的方式將前述的3 種單粒度的標(biāo)簽擾動(dòng)算法融合在一起。隨著融合權(quán)重取值的不同,本文提出的MGLP 算法可以簡(jiǎn)化為3 種擾動(dòng)方式中的任意一種或者兩種的組合。對(duì)于融合權(quán)重, 本文采用元學(xué)習(xí)的思想對(duì)其進(jìn)行學(xué)習(xí), 使之能夠根據(jù)不同的數(shù)據(jù)特點(diǎn)自適應(yīng)地進(jìn)行調(diào)整, 減輕了人工調(diào)參的負(fù)擔(dān), 并減少了主觀性偏差對(duì)結(jié)果造成的負(fù)面影響。最后, 本文將提出的MGLP 算法應(yīng)用在推文情感分類(lèi)、電影評(píng)論情感分類(lèi)、引文意圖分類(lèi)3 個(gè)文本分類(lèi)數(shù)據(jù)集上, 通過(guò)施加不同類(lèi)型噪聲的方式驗(yàn)證算法的性能, 實(shí)驗(yàn)結(jié)果表明本文提出的MGLP算法有效地提升了深度學(xué)習(xí)算法在文本分類(lèi)任務(wù)上的準(zhǔn)確性, 對(duì)于深度學(xué)習(xí)算法更準(zhǔn)確地在信息組織和信息分析領(lǐng)域的應(yīng)用具有十分重要的價(jià)值和意義。

      1 相關(guān)研究

      1.1 文本分類(lèi)

      文本分類(lèi)在信息組織和信息分析中發(fā)揮著日益重要的作用。早期的文本分類(lèi)利用信息增益[12] 、互信息[13] 或者主題模型[14] 等提取特征, 然后利用淺層分類(lèi)器進(jìn)行分類(lèi)。近年來(lái), 以詞向量為基礎(chǔ)的分布表示和以LSTM[15] 、Transformer[16] 等為代表的深度學(xué)習(xí)算法逐步取代了早期文本分類(lèi)的方法。如BERT、ERNIE 等模型被用來(lái)對(duì)文獻(xiàn)的學(xué)科進(jìn)行分類(lèi)[17] 。基于SciBert 的模型被用于學(xué)術(shù)文獻(xiàn)致謝的識(shí)別[18] 。融合多種特征的深度學(xué)習(xí)模型可以較好地實(shí)現(xiàn)對(duì)評(píng)論中的用戶(hù)意見(jiàn)的分類(lèi)[19] 。除了在上述文本分類(lèi)任務(wù)上以外, 深度學(xué)習(xí)算法也廣泛地應(yīng)用在突發(fā)事件的識(shí)別與分類(lèi)任務(wù)以及政策文本分類(lèi)方面。吳雪華等[5] 提出了一個(gè)兩階段的突發(fā)事件應(yīng)急行動(dòng)支撐信息的識(shí)別與分類(lèi)框架, 且利用SVM、LR、TextCNN 以及BERT 等算法進(jìn)行實(shí)驗(yàn)來(lái)驗(yàn)證其性能。一種BERT 與多尺度CNN 融合的算法被提出且用來(lái)捕獲科技政策文本的特征信息, 對(duì)政策文本的主題進(jìn)行分類(lèi)[20] 。深度學(xué)習(xí)算法具有較強(qiáng)的特征表示能力, 被廣泛應(yīng)用于各種文本分類(lèi)任務(wù),且使得文本分類(lèi)任務(wù)的準(zhǔn)確性有了進(jìn)一步的提高。

      除了詞匯的分布表示、更為有效的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)等研究之外, 針對(duì)訓(xùn)練數(shù)據(jù)的不完美特點(diǎn)設(shè)計(jì)有效的學(xué)習(xí)策略, 如噪聲標(biāo)簽、類(lèi)別不平衡等問(wèn)題, 也是文本分類(lèi)領(lǐng)域的研究重點(diǎn)。針對(duì)類(lèi)別不平衡問(wèn)題, 研究者們提出了多種解決方案。Zong D等[21] 設(shè)計(jì)了一個(gè)雙通道的學(xué)習(xí)策略來(lái)解決文本分類(lèi)中的長(zhǎng)尾分布問(wèn)題。盧小賓等[22] 提出了綜合數(shù)據(jù)、算法、評(píng)估3 個(gè)層面的優(yōu)化框架以解決新興技術(shù)識(shí)別中的數(shù)據(jù)類(lèi)別不平衡問(wèn)題。為了更好地處理虛假評(píng)論識(shí)別任務(wù), 一種基于類(lèi)別可分性計(jì)算的代價(jià)敏感學(xué)習(xí)方法被提出[23] ?;陬?lèi)別先驗(yàn)Mixup數(shù)據(jù)增強(qiáng)策略被用來(lái)解決罪名分類(lèi)任務(wù)中的不平衡問(wèn)題[24] 。此外, 元學(xué)習(xí)和小樣本學(xué)習(xí)等方法也被引入來(lái)處理數(shù)據(jù)中存在問(wèn)題。一種在不平衡少樣本情況下基于元學(xué)習(xí)的文本分類(lèi)模型被提出[25] 。小樣本數(shù)據(jù)增強(qiáng)技術(shù)被用于對(duì)科技文檔的不平衡分類(lèi)問(wèn)題進(jìn)行解決[26] 。通過(guò)對(duì)上述研究的總結(jié)和分析發(fā)現(xiàn), 文本分類(lèi)在信息組織和信息分析中發(fā)揮著越來(lái)越重要的作用。此外, 針對(duì)數(shù)據(jù)的不完美特點(diǎn)探討有效的學(xué)習(xí)策略逐步成為研究的熱點(diǎn)。

      1.2 噪聲標(biāo)簽學(xué)習(xí)

      在文本分類(lèi)任務(wù)中, 基于淺層機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的算法逐漸成為主要方法, 而在算法的訓(xùn)練過(guò)程中, 訓(xùn)練數(shù)據(jù)中存在的噪聲標(biāo)簽會(huì)對(duì)算法的訓(xùn)練造成負(fù)面影響, 比如容易導(dǎo)致所學(xué)習(xí)到的模型產(chǎn)生過(guò)擬合等問(wèn)題, 因此, 噪聲標(biāo)簽學(xué)習(xí)逐漸成為一個(gè)重點(diǎn)的研究方向。在淺層機(jī)器學(xué)習(xí)時(shí)代, 噪聲標(biāo)簽學(xué)習(xí)就是一個(gè)極受關(guān)注的研究問(wèn)題。如經(jīng)典的支持向量機(jī)算法[27] , 所引入的松弛變量的一大動(dòng)機(jī)就是抑制噪聲標(biāo)簽的不利影響。相對(duì)于淺層學(xué)習(xí)時(shí)代相對(duì)規(guī)模較小的訓(xùn)練數(shù)據(jù), 深度學(xué)習(xí)的訓(xùn)練對(duì)人工標(biāo)注的數(shù)據(jù)集規(guī)模有著更高的要求, 不可避免地會(huì)進(jìn)一步帶來(lái)噪聲標(biāo)簽問(wèn)題。

      目前解決噪聲標(biāo)簽問(wèn)題的途徑主要有兩種, 一種是對(duì)噪聲標(biāo)簽樣本進(jìn)行離線檢測(cè), 另一種是基于噪聲標(biāo)簽樣本進(jìn)行在線檢測(cè)。離線檢測(cè)的方法主要利用損失[28] 、交叉驗(yàn)證錯(cuò)誤率[7] 、幾何邊界距離[29]等量化指標(biāo)來(lái)區(qū)分正常標(biāo)簽樣本與噪聲標(biāo)簽樣本。如置信學(xué)習(xí)被用來(lái)對(duì)樣本集進(jìn)行清洗, 降低噪聲數(shù)據(jù)對(duì)模型的負(fù)面影響, 進(jìn)而有效地提升了模型的性能[30] 。為了檢測(cè)命名實(shí)體識(shí)別任務(wù)中的噪聲樣本,一種基于交叉驗(yàn)證的方式被提出來(lái)計(jì)算每個(gè)樣本的預(yù)測(cè)正確率[7] 。該正確率越小那么該樣本更可能是噪聲樣本, 然后將正確率作為樣本權(quán)重重新進(jìn)行訓(xùn)練。此外, 汪敏等[31] 提出了一種噪聲識(shí)別與糾正算法, 通過(guò)篩選可信樣本對(duì)樣本標(biāo)簽的置信度進(jìn)行預(yù)測(cè), 然后識(shí)別噪聲標(biāo)簽, 對(duì)噪聲標(biāo)簽進(jìn)行糾正。Huang J 等[32] 提出了一個(gè)基于過(guò)擬合—欠擬合過(guò)程的策略來(lái)識(shí)別噪聲樣本。對(duì)噪聲標(biāo)簽樣本的離線檢測(cè)方法的主要缺陷在于通常需要增加大量的訓(xùn)練時(shí)間, 為此, 研究者們開(kāi)發(fā)出了基于噪聲標(biāo)簽樣本的在線檢測(cè)途徑。

      基于噪聲標(biāo)簽樣本的在線檢測(cè)方法隱式地降低噪聲標(biāo)簽的不利影響, 基于標(biāo)簽擾動(dòng)的方法就是其中一類(lèi)典型的學(xué)習(xí)策略。許多基于噪聲標(biāo)簽學(xué)習(xí)的深度學(xué)習(xí)算法, 甚至其一些研究分支, 本質(zhì)上都可以歸結(jié)為對(duì)訓(xùn)練數(shù)據(jù)的擾動(dòng)。如當(dāng)前深度學(xué)習(xí)中的熱點(diǎn)研究方向: 對(duì)抗攻擊[33] 以及基于對(duì)抗攻擊的對(duì)抗訓(xùn)練[34] 。對(duì)抗攻擊的根本性問(wèn)題就是尋求一個(gè)滿(mǎn)足特定目標(biāo)的樣本擾動(dòng)并疊加到輸入樣本上。從數(shù)據(jù)對(duì)象上看, 現(xiàn)有的方法可以分為特征擾動(dòng)、邏輯向量擾動(dòng)以及標(biāo)簽擾動(dòng)等幾大類(lèi)別。對(duì)抗攻擊可以看作是特征擾動(dòng)。此外, 近期一些代表性的研究從不同角度來(lái)提升算法的泛化性能, 如IS?DA[35] 、Logit Adjustment[36] 等在數(shù)學(xué)上都可以歸結(jié)為邏輯向量擾動(dòng)。Label Smoothing、Bootstrapping、Online Label Smoothing 可以歸結(jié)為標(biāo)簽擾動(dòng)。從擾動(dòng)粒度上, 現(xiàn)有的方法可以分為訓(xùn)練集級(jí)別、類(lèi)別級(jí)別以及樣本級(jí)別。Label Smoothing 和Online LabelSmoothing 是類(lèi)別級(jí)粒度的擾動(dòng), Bootstrapping 是樣本級(jí)粒度的擾動(dòng)。然而, 目前大多數(shù)研究通常在同一粒度下進(jìn)行探索和創(chuàng)新, 極少有研究綜合考慮利用不同粒度的有效信息, 而多種粒度信息的有效利用能夠幫助模型更好地學(xué)習(xí)特征表示, 有利于提升模型的性能?;诖?, 本文針對(duì)單一粒度的不足,探討多種粒度級(jí)別下的標(biāo)簽擾動(dòng), 以期通過(guò)多粒度信息的有效利用提升模型的性能。

      2 研究方法

      本節(jié)首先對(duì)3 種單粒度的經(jīng)典標(biāo)簽擾動(dòng)算法進(jìn)行了分析, 然后針對(duì)單粒度算法沒(méi)有有效地利用不同粒度級(jí)別信息的缺陷, 提出了一種多粒度標(biāo)簽擾動(dòng)算法。該算法綜合考慮了樣本級(jí)粒度和類(lèi)別級(jí)粒度信息, 彌補(bǔ)了單粒度算法的不足。對(duì)于不同粒度信息的融合權(quán)重, 本文采用了元學(xué)習(xí)的思想對(duì)其進(jìn)行學(xué)習(xí), 使本文提出的方法能夠根據(jù)不同的數(shù)據(jù)特點(diǎn)自適應(yīng)地調(diào)整融合權(quán)重, 減少了人工調(diào)參的負(fù)擔(dān), 降低了主觀因素對(duì)結(jié)果產(chǎn)生的不利影響。

      2.2 多粒度標(biāo)簽擾動(dòng)算法( Multi-granularity LabelPerturbation, MGLP)

      2.2.1 MGLP算法設(shè)計(jì)

      大量的理論和實(shí)驗(yàn)已經(jīng)證明, 類(lèi)別級(jí)的標(biāo)簽擾動(dòng)和樣本級(jí)的標(biāo)簽擾動(dòng)對(duì)于解決噪聲標(biāo)簽問(wèn)題非常有效和高效。然而, 當(dāng)前大部分研究都是在同一粒度下對(duì)算法的深入探索, 鮮有研究綜合考慮利用這些不同粒度的標(biāo)簽擾動(dòng)策略提升模型的性能, 而不同粒度的擾動(dòng)能夠從不同的角度對(duì)算法性能進(jìn)行補(bǔ)充。基于此, 本文提出了一種多粒度標(biāo)簽擾動(dòng)算法(Multi-granularity Label Perturbation, MGLP), 該算法對(duì)Label Smoothing、Bootstrapping、Online La?bel Smoothing 3 種單粒度的標(biāo)簽擾動(dòng)策略進(jìn)行了集成, 綜合考慮了樣本級(jí)粒度和類(lèi)別級(jí)粒度的擾動(dòng)。同時(shí), 利用元學(xué)習(xí)的思想對(duì)3 種標(biāo)簽擾動(dòng)策略的融合系數(shù)進(jìn)行學(xué)習(xí), 技術(shù)路線如圖1 所示。由于在文本分類(lèi)任務(wù)中, BERT 和BiLSTM 具有良好的特征表示能力[37,17] , 因此, 為了全面地驗(yàn)證本文所提出的算法的性能, 本研究分別利用BERT-Base 和BiLSTM-Attention 作為基線模型進(jìn)行實(shí)驗(yàn)。

      3 實(shí)驗(yàn)

      3.1數(shù)據(jù)

      為了充分地驗(yàn)證本文所提出的MGLP 算法的性能, 選擇3 個(gè)知名的國(guó)際公開(kāi)的英文文本分類(lèi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn): SemEval-2016 Task 4 Subtask A[40] 、Movie Reviews(MR)[41] 和SciCite[42] 。第一個(gè)數(shù)據(jù)集來(lái)自于SemEval-2016 的任務(wù)4 的子任務(wù)A, 是推文情感分類(lèi)數(shù)據(jù)集, 包含正面情感、中性情感、負(fù)面情感3 種類(lèi)型, 本文采用官方給定的訓(xùn)練集、驗(yàn)證集和測(cè)試集的劃分。第二個(gè)數(shù)據(jù)集是MR 數(shù)據(jù)集, 其為一個(gè)電影評(píng)論情感分類(lèi)數(shù)據(jù)集, 包含正面情感和負(fù)面情感兩種類(lèi)型的標(biāo)簽, 由于官方數(shù)據(jù)未劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集, 因此, 本文按照7 ∶1∶2 的比例將MR 數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。SciCite 是一個(gè)引文意圖分類(lèi)數(shù)據(jù)集, 包含背景、方法和結(jié)果3 種類(lèi)型, 本文采用該數(shù)據(jù)集官方給定的訓(xùn)練集、驗(yàn)證集和測(cè)試集的劃分。

      3.2 對(duì)比算法及參數(shù)設(shè)置

      為了有效地驗(yàn)證本文提出的MGLP 算法的性能, 采用以下幾種經(jīng)典的以及最先進(jìn)的噪聲標(biāo)簽處理算法進(jìn)行對(duì)比: Label Smoothing[9] 、Soft/ HardBootstrapping[10] 、Online Label Smoothing[11] 、Self-Distillation from Last Mini-Batch(DLB)[43] 、MarginbasedLabel Smoothing(MbLS)[44] 。本文在原始數(shù)據(jù)集的基礎(chǔ)上施加了兩種類(lèi)型的噪聲, 一種是對(duì)稱(chēng)噪聲, 一種是非對(duì)稱(chēng)噪聲[8] 。對(duì)稱(chēng)噪聲指的是樣本的真實(shí)標(biāo)簽以相同的概率隨機(jī)翻轉(zhuǎn)成其他類(lèi)別標(biāo)簽, 非對(duì)稱(chēng)噪聲指的是樣本的真實(shí)標(biāo)簽被翻轉(zhuǎn)成某類(lèi)特定的標(biāo)簽, 本文設(shè)置的樣本的真實(shí)標(biāo)簽翻轉(zhuǎn)比例(即噪聲比例)為10%、20%、30%。

      對(duì)于本文采用的BERT-Base, 其有12 層Trans?former 結(jié)構(gòu), 隱藏層維度為768, 學(xué)習(xí)率設(shè)為2e-5, epoch 設(shè)為10。對(duì)于BiLSTM-Attention, 本文采用300 維的Glove 詞向量, 隱藏層維度設(shè)為300,epoch 設(shè)為50。對(duì)于Label Smoothing、Soft Bootstrap?ping、Hard Bootstrapping、Online Label Smoothing、DLB、MbLS 等對(duì)比算法, 按照其對(duì)應(yīng)的原論文的設(shè)置進(jìn)行實(shí)驗(yàn)。在MGLP 算法中, 本文隨機(jī)選取驗(yàn)證集中的每類(lèi)樣本100 個(gè)作為元數(shù)據(jù)集。

      3.3 實(shí)驗(yàn)結(jié)果

      表1 為基線模型為BERT-Base 時(shí)不同噪聲標(biāo)簽處理算法在3 種不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果, 表2為基線模型為BiLSTM-Attention 時(shí)不同噪聲標(biāo)簽處理算法在3 種不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。采用分類(lèi)任務(wù)中常用的準(zhǔn)確率作為評(píng)價(jià)指標(biāo), 每個(gè)實(shí)驗(yàn)進(jìn)行3 次取其平均值作為最終結(jié)果。

      通過(guò)表1 的實(shí)驗(yàn)結(jié)果, 可以看出本文提出的MGLP 算法以BERT-Base 為基線模型時(shí), 在3 種數(shù)據(jù)集上都取得了最佳結(jié)果。

      具體來(lái)說(shuō), 在SemEval-2016 數(shù)據(jù)集上, 不添加噪聲的情況下, MGLP 算法相比于基線模型BERTBase提高了2.02%。相比于單粒度的Label Smoot?hing、Soft Bootstrapping、Hard Bootstrapping、On?line Label Smoothing 算法, MGLP 算法分別提升了1.35%、1.97%、0.92%、1.40%。說(shuō)明MGLP 算法充分利用了樣本級(jí)粒度和類(lèi)別級(jí)粒度的信息, 結(jié)合了Label Smoothing、Bootstrapping、Online Label Smoot?hing 3 種經(jīng)典的單粒度噪聲標(biāo)簽算法的優(yōu)勢(shì)。在施加噪聲的情況下, 相比于近年來(lái)的MbLS 算法, 本文提出的MGLP 算法平均提升了1.57%, 并且在施加20%對(duì)稱(chēng)噪聲的情況下, 準(zhǔn)確率高于MbLS 算法2.35%。在施加30%對(duì)稱(chēng)噪聲時(shí), 對(duì)比算法中準(zhǔn)確率最高的為MbLS 算法, 而本文提出的MGLP算法的準(zhǔn)確率相比于MbLS 算法提升了2.08%, 且相比于基線模型BERT-Base 算法提升了6.37%,具有明顯的性能優(yōu)勢(shì)。在MR 數(shù)據(jù)集上, 在不添加噪聲的情況下, MGLP 相對(duì)于基線模型BERT-Base提升了1.05%。在施加噪聲的情況下, 相比于經(jīng)典的Label Smoothing、Soft Bootstrapping、Hard Boot?strapping、Online Label Smoothing 算法, MGLP 算法分別平均提升了1.11%、1.39%、1.16%、1.12%。施加30%對(duì)稱(chēng)噪聲和30%非對(duì)稱(chēng)噪聲時(shí), MGLP 算法相比于對(duì)比算法中準(zhǔn)確率最高的MbLS 算法分別提升了1.66%和1.11%, 取得了最佳結(jié)果。在SciC?ite 數(shù)據(jù)集上, 不添加噪聲的情況下, MGLP 相對(duì)于基線模型BERT-Base 提升了1.06%, 相比于對(duì)比算法中準(zhǔn)確率最高的Online Label Smoothing 提升了0.70%。在施加噪聲20%對(duì)稱(chēng)噪聲的情況下,相比于對(duì)比算法中準(zhǔn)確率最高的MbLS 算法提升了0.86%, 實(shí)現(xiàn)了最優(yōu)性能。以上結(jié)果表明MGLP 算法能夠充分利用不同粒度的數(shù)據(jù)信息, 減少噪聲標(biāo)簽對(duì)模型性能產(chǎn)生的負(fù)面影響, 使模型的性能具有明顯的提升。

      通過(guò)表2 可知, 以BiLSTM-Attention 為基線模型時(shí), MGLP 算法在3 個(gè)數(shù)據(jù)集上也都實(shí)現(xiàn)了最優(yōu)的性能。

      在SemEval-2016 數(shù)據(jù)集上, MGLP 算法在不施加噪聲的情況下相比于基線模型提升了1.10%,相比于準(zhǔn)確率最高的MbLS 算法提升了0.73%。在SemEval- 2016 數(shù)據(jù)集施加對(duì)稱(chēng)噪聲的情況下,MGLP 算法相比于基線模型平均提升了1.75%; 在施加非對(duì)稱(chēng)噪聲的情況下, MGLP 算法相比于基線模型平均提升了2.04%, 相比于近年來(lái)的DLB 算法和MbLS 算法, MGLP 算法分別平均提升了1.18%、1.08%。在施加20%對(duì)稱(chēng)噪聲時(shí), MGLP 算法相比于對(duì)比算法中準(zhǔn)確率最高的MbLS 算法提升了1.46%。在MR 數(shù)據(jù)集上, 相比于經(jīng)典的Label Smoot?hing、Soft Bootstrapping、Hard Bootstrapping、OnlineLabel Smoothing 算法, MGLP 算法平均提升了1.45%、1.02%、1.19%、1.37%。在施加10%對(duì)稱(chēng)噪聲的情況下, MGLP 算法相比于對(duì)比算法中準(zhǔn)確率最高的Soft Bootstrapping 算法提升了1.02%, 實(shí)現(xiàn)了最佳性能。此外, 在MR 數(shù)據(jù)集施加30%非對(duì)稱(chēng)噪聲的情況下, MGLP 算法相比于基線模型提升了4.48%。在SciCite 數(shù)據(jù)集上, MGLP 算法準(zhǔn)確率也是最高的, 相比于BiLSTM-Attention 基線模型平均提升了1.40%。在SciCite 上施加30%對(duì)稱(chēng)噪聲的情況下, MGLP 算法相比于Label Smoothing、Soft Bootstrapping、Hard Bootstrapping、Online LabelSmoothing、DLB、MbLS 算法分別提升了1.47%、1.56%、1.32%、1.28%、1.34%、1.21%。此外,在施加20%非對(duì)稱(chēng)噪聲時(shí), 對(duì)比算法中準(zhǔn)確率最高的為MbLS 算法, 本文提出的MGLP 算法相比于MbLS 算法提升了1.07%, 取得了最優(yōu)結(jié)果。以上實(shí)驗(yàn)結(jié)果均表明, MGLP 算法充分利用了3 種經(jīng)典的單粒度的噪聲標(biāo)簽算法的優(yōu)勢(shì), 融合了樣本級(jí)粒度和類(lèi)別級(jí)粒度的數(shù)據(jù)信息, 提升了深度學(xué)習(xí)模型的性能。在模型進(jìn)行學(xué)習(xí)的過(guò)程中, MGLP 算法能夠根據(jù)不同數(shù)據(jù)的特點(diǎn), 自適應(yīng)地選取不同的比例對(duì)樣本級(jí)粒度和類(lèi)別級(jí)粒度的數(shù)據(jù)信息進(jìn)行融合,從而減少噪聲樣本對(duì)模型訓(xùn)練產(chǎn)生的負(fù)面影響。實(shí)驗(yàn)結(jié)果表明, 不管是在原始數(shù)據(jù)集上還是在施加噪聲的情況下, MGLP 算法均有效且明顯地提升了深度學(xué)習(xí)模型的性能。

      為了探究MGLP 算法的魯棒性, 本文以SciCite數(shù)據(jù)集為例, 對(duì)更高比例噪聲標(biāo)簽下算法的性能進(jìn)行了評(píng)估, 結(jié)果如圖2 ~ 圖5 所示。在施加40%、50%、60%比例的對(duì)稱(chēng)噪聲情況下, 本文提出的MGLP 算法相比于BERT-Base 和BiLSTM-Attention基線模型分別平均提升了5.09%、2.68%。在施加40%、50%、60%比例的非對(duì)稱(chēng)噪聲情況下, MGLP算法相比于BERT-Base 和BiLSTM-Attention 基線模型分別平均提升了2.24%、2.22%。實(shí)驗(yàn)結(jié)果表明, 即使在施加更高比例噪聲的情況下, 本文提出的MGLP 算法仍保持較高的準(zhǔn)確率, 具有良好的魯棒性。

      4結(jié)語(yǔ)

      本文針對(duì)現(xiàn)有的標(biāo)簽擾動(dòng)算法大都只在單一粒度層級(jí)下進(jìn)行深入探索, 而未有效利用多種粒度信息, 從而限制了算法的性能這一不足之處, 首先分析了Label Smoothing、Bootstrapping 和Online LabelSmoothing 3 種經(jīng)典的單一粒度的標(biāo)簽擾動(dòng)算法的原理, 然后提出了一種融合了樣本級(jí)粒度和類(lèi)別級(jí)粒度的多粒度標(biāo)簽擾動(dòng)算法(MGLP)。該算法通過(guò)加權(quán)的方式將類(lèi)別級(jí)的Label Smoothing 和Online La?bel Smoothing、樣本級(jí)的Bootstrapping 3 種單粒度的標(biāo)簽擾動(dòng)算法融合在一起, 集成了類(lèi)別級(jí)粒度和樣本級(jí)粒度的標(biāo)簽擾動(dòng)算法的特點(diǎn), 通過(guò)融合系數(shù)來(lái)控制不同粒度擾動(dòng)的比例, 并利用元學(xué)習(xí)的思想對(duì)融合系數(shù)進(jìn)行學(xué)習(xí), 使其能夠根據(jù)不同的數(shù)據(jù)特點(diǎn)自適應(yīng)地對(duì)融合系數(shù)進(jìn)行調(diào)整, 避免了人工調(diào)參所造成的主觀性誤差, 提高了模型的性能。本文在推文情感分類(lèi)數(shù)據(jù)集、電影評(píng)論情感分類(lèi)數(shù)據(jù)集、引文意圖分類(lèi)數(shù)據(jù)集3 個(gè)公開(kāi)的文本數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn), 結(jié)果表明本文提出的MGLP 算法與其他算法相比性能有明顯的提升, 能夠有效地減輕噪聲標(biāo)簽對(duì)深度學(xué)習(xí)模型訓(xùn)練的負(fù)面影響, 對(duì)于深度學(xué)習(xí)模型在信息組織和信息分析領(lǐng)域更準(zhǔn)確地應(yīng)用具有十分重要的價(jià)值和前景。

      本文也存在一些局限性。首先, 只考慮了利用樣本級(jí)粒度和類(lèi)別級(jí)粒度的數(shù)據(jù)信息, 還未研究與數(shù)據(jù)集級(jí)粒度信息的結(jié)合; 其次, 本文只在英文文本分類(lèi)數(shù)據(jù)集上對(duì)算法的性能進(jìn)行了驗(yàn)證。在未來(lái)研究中, 將探究如何將樣本級(jí)、類(lèi)別級(jí)以及數(shù)據(jù)集級(jí)粒度的信息進(jìn)行融合, 以期進(jìn)一步提高對(duì)多粒度信息的有效利用, 進(jìn)一步提升深度學(xué)習(xí)模型的性能, 并將在中文數(shù)據(jù)集上對(duì)多粒度標(biāo)簽擾動(dòng)算法的性能進(jìn)行探究。此外, 還將探究利用更多的信息對(duì)融合系數(shù)進(jìn)行求解。在算法未來(lái)的應(yīng)用層面, 除了將本文提出的算法應(yīng)用于文本分類(lèi)領(lǐng)域之外, 還將探究其在更多領(lǐng)域中的應(yīng)用, 如計(jì)算機(jī)視覺(jué)領(lǐng)域,以期在多個(gè)領(lǐng)域中發(fā)揮該算法的應(yīng)用價(jià)值。

      猜你喜歡
      文本分類(lèi)深度學(xué)習(xí)
      基于組合分類(lèi)算法的源代碼注釋質(zhì)量評(píng)估方法
      基于貝葉斯分類(lèi)器的中文文本分類(lèi)
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      基于蟻群智能算法的研究文本分類(lèi)
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于樸素貝葉斯分類(lèi)的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
      基于K—means算法的文本分類(lèi)技術(shù)研究
      铁岭县| 合作市| 囊谦县| 恩平市| 宁明县| 天全县| 南安市| 襄樊市| 长阳| 玉溪市| 吉首市| 东台市| 巴东县| 浦江县| 泸西县| 兖州市| 华安县| 仲巴县| 瓮安县| 微山县| 山东| 都匀市| 光山县| 黄陵县| 梧州市| 静宁县| 兴安盟| 宜阳县| 大连市| 林州市| 晋宁县| 广宗县| 肥东县| 巴彦淖尔市| 五河县| 安远县| 南靖县| 海兴县| 馆陶县| 晋江市| 咸丰县|