• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于局部對抗訓練的命名實體識別方法研究

      2021-04-08 06:29:42程芃森許麗丹劉嘉勇
      四川大學學報(自然科學版) 2021年2期
      關鍵詞:擾動困難邊界

      李 靜, 程芃森, 許麗丹, 劉嘉勇

      (四川大學網(wǎng)絡空間安全學院, 成都 610065)

      1 引 言

      命名實體識別旨在文本數(shù)據(jù)中劃分實體邊界、檢測實體類別,是自然語言處理任務中的基礎研究之一.當前命名實體識別研究已取得很多優(yōu)秀成果[1-5],但多側(cè)重于改進模型結(jié)構與特征工程,較少關注命名實體識別數(shù)據(jù)集中邊界樣本混淆問題.如圖1所示,邊界樣本混淆是指分類器通過類別標記劃分類邊界,在類邊界的某一范圍內(nèi)鄰近類樣本交錯分布的情況.混淆的邊界樣本比遠離邊界的內(nèi)部樣本更易識別錯誤,故模型正確識別邊界樣本的程度對整體識別性能有著至關重要的意義.

      傳統(tǒng)分類問題研究中常采用基于統(tǒng)計學習的樣本篩選方法提高模型邊界樣本的學習能力.張莉等人[6]通過聚類方法分析樣本離散度挑選出邊界樣本,剔除了對效果影響不大的冗余樣本;周玉等人[7]提出了一種基于最優(yōu)模糊矩陣誘導的陰影集篩選核心數(shù)據(jù)與邊界數(shù)據(jù)的方法,可保證分類器的泛化能力;Chen等人[8]提出多類實例選擇(Multiple Class Instances Select, MCIS)方法選出最接近邊界的實例,用來提高支持向量機的邊界劃分速度.這些方法雖減少了冗余數(shù)據(jù),提高識別速度,但也犧牲了原始文本數(shù)據(jù)的完整性,存在破壞文本結(jié)構,可能丟失重要特征的問題.

      近年來,深度學習結(jié)合對抗訓練的方式在文本處理領域表現(xiàn)突出,成為文本研究的新趨勢.Miyato等人[9]深度學習基礎上,首次在詞向量層面添加擾動,用于半監(jiān)督文本分類.Zhou等人[10]在詞嵌入層添加擾動提升了低資源命名實體識別模型的泛化能力.這類方法雖然可以處理更龐大更復雜的特征,但也因?qū)λ形谋緮?shù)據(jù)添加擾動合成對抗樣本而極大增加了訓練數(shù)據(jù)數(shù)量與計算代價.

      為解決上述問題,本文在深度學習模型可處理更多特征的基礎上,提出基于局部對抗訓練的命名實體識別方法.利用對抗訓練既保留原始數(shù)據(jù)特征,又以對抗攻擊的方式提升模型魯棒性與泛化能力的特點,提升模型識別混淆邊界樣本的能力.在困難樣本挖掘思想的啟發(fā)下,僅對數(shù)據(jù)中易分類錯誤的困難樣本添加擾動,減少冗余對抗樣本.實驗表明,本文方法保留對抗訓練效果,增強命名實體識別任務性能的同時提高了對抗樣本質(zhì)量.

      2 相關工作

      深度學習可處理更龐大復雜特征的優(yōu)勢,在命名實體識別領域獲得了蓬勃的發(fā)展.Graves[11]提出了長短時記憶模型LSTM解決經(jīng)典文本處理模型RNN的長句依賴問題.Hammerton[12]結(jié)合CRF的優(yōu)點,提出的LSTM+CRF模型在命名實體任務中表現(xiàn)優(yōu)異,F(xiàn)1值比基線模型提升了5%.Huang等人[13]提出的雙向LSTM結(jié)構比起單向LSTM可以更好地捕捉前后文的雙向語義特征,這種BiLSTM+CRF的組合在序列標注問題中表現(xiàn)出了極高的性能,使其逐漸成為命名實體識別中最常見的架構.

      對抗訓練由對抗生成網(wǎng)絡發(fā)展而來,最初應用于提升圖像處理模型的魯棒性[14].隨著具有連續(xù)特征的詞向量的發(fā)展,對抗訓練逐漸在文本處理任務中廣泛應用.Alzantot等[15]提出了一種基于種群的優(yōu)化算法,通過重復隨機選擇相近的目標標簽類的樣本,從而找到最近替換詞以生成擾動.Li等[16]捕獲對分類有意義的重要單詞,再對這些單詞添加微小擾動生成對抗樣本引導深度學習分類器進行誤分類.Gong等[17]采用梯度下降的方法將詞向量擾動為目標類,以此提高對抗文本的質(zhì)量.

      困難樣本挖掘思想是將數(shù)據(jù)分為簡單樣本與困難樣本,在訓練過程中選擇損失值較大的錯誤樣本送入模型再訓練,以提升網(wǎng)絡分類性能.Shrivastava等人[18]提出了一種在線困難樣本挖掘(Online Hard Example Mining, OHEM)算法動態(tài)選擇困難樣本,用于解決圖像中對象檢測調(diào)參成本較高的問題.Li等人[19]考慮了訓練過程不同損失分布的影響,提出根據(jù)錯誤分布抽樣訓練樣本,使困難樣本的再訓練更有針對性.

      針對命名實體識別數(shù)據(jù)集中存在邊界樣本混淆的問題,本文基于BiLSTM-CRF模型,結(jié)合對抗訓練與困難樣本的思想,篩選數(shù)據(jù)中損失值較大的困難樣本,僅對這部分樣本添加目標攻擊擾動生成對抗樣本;再將對抗樣本與原始數(shù)據(jù)混合進行對抗訓練,使模型充分學習類別邊界周圍困難樣本的特征,提高命名實體識別效果.

      3 局部對抗訓練模型

      3.1 基本概念

      3.1.1 非目標與目標攻擊 對抗訓練是基于對抗攻擊的訓練方式,在訓練過程中對模型進行對抗攻擊從而提升模型的魯棒性.對抗攻擊按照目的的不同可分為非目標攻擊與目標攻擊.如圖2(a)所示,非目標攻擊是使對抗樣本能讓模型分錯,不指定具體類別.如圖2(b)所示,目標攻擊是使生成的對抗樣本被模型錯分到某個特定的類別上.

      圖2 非目標攻擊與目標攻擊對比圖Fig.2 Comparison of non-target and target attack

      若設原始樣本集為X,ytrue為樣本真實類別;ytarget為目標攻擊的目標類別;F為采用的攻擊方法;控制擾動大小,非目標攻擊的擾動計算為

      rn_adv=∈·F(X,ytrue)

      (1)

      目標攻擊的擾動計算為

      rt_adv=∈·F(X,ytarget)

      (2)

      根據(jù)不同攻擊方式對應的對抗樣本生成原則[20],非目標攻擊方法生成對抗樣本公式為

      Xn_adv=X+rn_adv

      (3)

      目標攻擊方法生成對抗樣本公式為

      Xt_adv=X-rt_adv

      (4)

      非目標攻擊不需要計算擾動方向故而可以快速生成對抗擾動,但在攻擊中成功率較低.有明確指向的目標攻擊命中率更高,可以生成更多的使模型分類錯誤的樣本.模型的反向傳播機制決定了分類錯誤、損失較大的樣本對參數(shù)權重的調(diào)整有更大的價值,故本文選擇定向擾動的目標攻擊方式生成對抗樣本.

      3.1.2 全局與局部對抗訓練 從樣本數(shù)據(jù)本身來說,若以樣本在添加擾動后是否會被分類錯誤為標準,樣本可分為不易被擾動的、處于類邊界內(nèi)部的簡單樣本,與容易被擾動的、位于邊界周圍或遠離正確類邊界的困難樣本.如圖3(a)所示,不進行樣本篩選,直接對所有原始樣本添加對抗擾動的訓練為全局對抗訓練;如圖3(b)所示,剔除簡單樣本,僅對困難樣本添加擾動的訓練為局部對抗訓練.

      設Xadv為對抗樣本集,ATK為生成對抗樣本的攻擊方法;g,l作為下標分別表示全局與局部的方法.全局對抗訓練中所有訓練樣本集合可表示為

      Xg=X+Xg_adv

      (5)

      其中,Xg_adv=ATKg(X).設Hard為困難樣本篩選方法,從原始數(shù)據(jù)中篩選出困難樣本,再對困難樣本添加擾動生成對抗樣本,局部對抗樣本集可表示為

      Xl_adv=ATKl(Hard(X))

      (6)

      局部對抗訓練中的所有訓練樣本集合為

      Xl=X+Xl_adv

      (7)

      對抗訓練過程中,如果直接對所有樣本添加擾動,大量簡單樣本添加擾動后仍位于類別內(nèi)部,這些處于類別內(nèi)部的對抗樣本因?qū)Ψ聪騻鞑]有貢獻而變得冗余.因此,僅對篩選出的困難樣本添加擾動生成對抗樣本用于梯度回傳,可避免生成大量冗余對抗樣本,極大減少訓練的計算量.

      圖3 全局對抗訓練與局部對抗訓練對比圖Fig.3 Comparison of global and local adversarial training

      3.2 局部對抗訓練框架

      本文提出的局部對抗訓練框架見圖4.原始數(shù)據(jù)進入深度學習模型前,需將文本中的單詞預處理為詞向量;再對原始詞向量進行損失值大小的評估,以評估結(jié)果選擇與原始數(shù)據(jù)識別率相匹配的困難樣本篩選比例;然后,根據(jù)混淆矩陣錯誤概率分布按類對困難樣本計算目標攻擊擾動,添加擾動后生成對抗樣本;最后,將對抗樣本與原始語料一起用于對抗訓練,增強模型識別性能與泛化能力.

      圖4 局部對抗訓練模型框架圖Fig.4 Local adversarial training model

      添加擾動的神經(jīng)網(wǎng)絡結(jié)構見圖5,x代表輸入文本序列;w為單詞對應的詞向量表示;r為詞向量層的擾動;y為結(jié)果序列. Embedding為詞嵌入層,用于預處理文本數(shù)據(jù)使其向量化;BiLSTM層同時學習過去與未來的信息,通過前向與反向傳播兩個隱藏狀態(tài)的單元獲取句子特征;CRF層學習句子級標簽的上下文信息,語句進行序列標注.

      圖5 添加擾動的神經(jīng)網(wǎng)絡結(jié)構圖Fig.5 Neural models with perturbation

      (8)

      (9)

      (10)

      3.2.2 生成對抗樣本 本文提出了一種基于混淆矩陣的目標攻擊方式生成對抗樣本,簡稱為CTR方法,該方法利用混淆矩陣可反應樣本的分類錯誤占比的特點,對每類樣本中的困難樣本進行指向錯誤類的攻擊.設同類別困難樣本集合為C,樣本數(shù)量為S,C={c(1),c(2),…,c(S)}.其中,每個樣本都對應共同的真實標簽ltrue,L對應真實標簽集合,標簽類別的總數(shù)量為N.L與C共同組成訓練集,具體表示如下.

      (11)

      (12)

      設C對應的對抗攻擊標簽序列為Ltar,使用conf(L)表示按混淆矩陣的錯誤概率分布排列的標簽集合,其關系如下.

      Ltar={ltar|ltar∈L,ltar≠ltrue}=conf(L)

      (13)

      (14)

      (15)

      (16)

      3.2.3 對抗訓練 訓練的最終目的找到最大化真實標簽的預測概率,使數(shù)據(jù)總損失值最小的參數(shù)集合.

      對抗樣本的損失函數(shù)計算公式為

      (17)

      α用于控制原始語料與對抗樣本損失值比例,對抗訓練總損失為

      (18)

      對抗訓練最優(yōu)參數(shù)計算為

      (19)

      4 實驗結(jié)果與分析

      4.1 數(shù)據(jù)集

      為了驗證本文方法的性能,選擇3個專業(yè)領域的公開數(shù)據(jù)集進行了實驗.其中JNLPBA[21]為生物領域的數(shù)據(jù)集,標注了分子生物領域的專業(yè)實體,該數(shù)據(jù)集樣本數(shù)量相對較多,可用于對比本文方法在不同規(guī)模數(shù)據(jù)集的表現(xiàn).MalwareTextDB[22]為惡意軟件領域的數(shù)據(jù)集,其中數(shù)據(jù)來源于惡意軟件報告,數(shù)據(jù)集中標記了APT攻擊和惡意軟件等實體.Drugbank為醫(yī)藥領域的數(shù)據(jù)集[23].該數(shù)據(jù)集收集了大量醫(yī)藥信息,標注了各種藥物數(shù)據(jù),是醫(yī)藥領域最詳細的數(shù)據(jù)集之一.實驗中對3個數(shù)據(jù)集劃分訓練集/驗證集/測試集.各數(shù)據(jù)集的統(tǒng)計信息如表1.

      表1 數(shù)據(jù)集統(tǒng)計信息

      4.2 評價指標

      本文采用準確率(Precision)、召回率(Recall)和F1值評估各個數(shù)據(jù)集的學習情況,計算公式如下.

      (10)

      (11)

      (12)

      4.3 實驗設置

      4.3.1 實驗環(huán)境 本文實驗基于Tensorflow深度學習框架設計,采用Python 語言實現(xiàn),實驗運行平臺為Ubuntu16.04(64位),顯存為8 GB,GPU為 GTX 1070.

      4.3.2 參數(shù)設置 本文采用GLOVE方法[24]訓練所得的100維預訓練詞向量glove.6B.100d對文本數(shù)據(jù)進行預處理.為更好學習數(shù)據(jù)特征,批量大小的設置根據(jù)數(shù)據(jù)集的數(shù)據(jù)量變化,Drugbank、MalwareTextDB批量大小設置為64,JNLPBA的批量大小設置為128.設置LSTM隱藏層數(shù)為100,參數(shù)優(yōu)化由Adam優(yōu)化器[25]執(zhí)行.根據(jù)Srivastava等人[26]的經(jīng)驗,設置初始學習率為0.01,梯度裁剪率為5.0;為防止過擬合,在嵌入層與LSTM輸出層設置dropout為0.5.在對抗樣本生成過程中,ρ表示困難樣本篩選比例,根據(jù)的3個數(shù)據(jù)集在基線方法的效果,ρ在JNLPBA,MalwareTextDB,Drugbank數(shù)據(jù)集中分別設置為30%,50%,20%;根據(jù)Zhou等人[10]的經(jīng)驗,α依次從0.1至0.9中取值,用于平衡原始語料與對抗樣本的損失值影響;ε從0.01至1中取值用于控制擾動大小.最終可從測試集不同參數(shù)的訓練效果中選出最合適的α,ε參數(shù)組合.

      4.3.3 對比實驗 本文以BiLSTM-CRF模型為基線方法的同時,設置3個對比實驗用于證明局部目標對抗訓練方法于提升命名實體識別效果的優(yōu)越性.快速梯度符號下降(Fast Gradient Sign Method, FGSM)方法[17]為最常用的非目標攻擊算法,故3組對比實驗分別為基于FGSM的全局對抗訓練、基于FGSM的局部對抗訓練,基于CTR方法的全局對抗訓練.基線方法可用于對比本文方法與其余對抗訓練方法在命名實體識別任務的提升效果;全局與局部方法的對比用于證明局部對抗訓練是否保持了全局對抗訓練的效果,并展示識別率的損失情況.不同攻擊方式的對比用于展現(xiàn)本文中CTR攻擊方法與局部對抗訓練結(jié)合的優(yōu)越性.

      4.4 結(jié)果與分析

      4.4.1 實驗結(jié)果 表2展示了基線方法與各種對抗訓練方法的實驗結(jié)果,Baseline表示基線方法,F(xiàn)GSM_GOL表示采用FGSM方法的全局對抗訓練,F(xiàn)GSM_LOC表示采用FGSM方法的局部對抗訓練,CTR_GOL表示采用CTR方法的全局對抗訓練,CTR_LOC表示采用CTR方法的局部對抗訓練.

      (1) 表2顯示,較于基線方法,基于FGSM方法與基于CTR方法的對抗訓練都顯著地提升了實體識別F1值.同時,表3~表5中表現(xiàn)出3個數(shù)據(jù)集的準確率與召回率都有明顯的提升,證明了對抗訓練對增強命名實體識別效果的有效性.在3個數(shù)據(jù)集的表現(xiàn)中,最優(yōu)識別率均出現(xiàn)在運用了CTR方法的對抗訓練方法.JNLPBA數(shù)據(jù)集中,CTR_GOL方法F1值比基線方法高1.63%;MalwareTextDB數(shù)據(jù)集中,CTR_LOC 方法的F1值比基線方法高6.03%;Drugbank數(shù)據(jù)集中,CTR_LOC 方法的F1值比基線方法高3.65%.其中CTR_LOC方法在3個數(shù)據(jù)集的召回率分別提升0.88%、8.23%、3.74%.召回率與F1值的明顯提高,說明了該方法有效緩解了邊界樣本因混淆而難以識別的問題,增強了模型的泛化能力.

      (2) 不同攻擊方式的對抗訓練方法之間具有差異.在采用FGSM方法的兩個實驗中,JNLPBA、MalwareTextDB和Drugbank等3個數(shù)據(jù)集的局部對抗訓練F1值均低于全局模式的效果,分別降低0.49%,0.15%和0.55%.在采用CTR方法的兩個實驗中,MalwareTextDB和Drugbank數(shù)據(jù)集的局部對抗訓練效果較于全局對抗訓練分別增加2.40%和0.47%,JNLPBA數(shù)據(jù)集在局部對抗訓練的效果較全局對抗訓練降低0.29%.局部對抗訓練相比于全局對抗訓練的識別效果雖然具有細小的波動,但基本維持了全局對抗訓練的效果,并且在3個數(shù)據(jù)集中分別減少了70%,50%,80%(困難樣本篩選中的簡單樣本淘汰比例為1-ρ)的生成對抗樣本的計算量,極大地減少了冗余對抗樣本的生成,提升了對抗訓練的質(zhì)量.

      表2 實驗結(jié)果比較(F1值)

      表3 JNLPBA數(shù)據(jù)集上不同實驗結(jié)果

      表4 MalwareTextDB數(shù)據(jù)集上不同實驗結(jié)果

      表5 Drugbank數(shù)據(jù)集上不同實驗結(jié)果

      4.4.2 結(jié)果分析 (1) JNLPBA數(shù)據(jù)集在對抗訓練中的提升低于其數(shù)據(jù)集,分析原因應為JNLPBA數(shù)據(jù)集中樣本數(shù)量更大,為模型學習提供了更加充足的特征,故對抗訓練在此類大樣本數(shù)據(jù)中不能發(fā)揮最優(yōu)作用;而樣本數(shù)量相對較少的MalwareTextDB與Drugbank數(shù)據(jù)集在合成對抗樣本的環(huán)節(jié)中變相擴充了語料數(shù)據(jù),僅添加微小擾動的對抗樣本分布在原始樣本周圍,對模型充分學習樣本特征具有積極的意義. 除此之外,在MalwareTextDB數(shù)據(jù)集的全局對抗訓練中,F(xiàn)GSM方法高出CTR方法2.20%.這種明顯的差異可能源于該數(shù)據(jù)集中原始樣本的識別率較低,使指向錯誤分類的目標攻擊對抗樣本超過最合適的對抗訓練比例,導致效果明顯低于其他對抗訓練方法.

      (2) FGSM為非目標攻擊方法,訓練效果的提升主要依賴于大量隨機方向的對抗樣本對模型充分學習樣本特征,故采用局部對抗訓練時,對抗樣本的減少與非目標攻擊成功率低的雙重作用下,造成識別效果的損失.CTR是基于目標攻擊思想的方法,效果提升主要依賴于錯誤分類樣本在模型參數(shù)優(yōu)化機制上的重要性.與困難樣本篩選結(jié)合后不影響分類錯誤的對抗樣本的生成,反而降低類別內(nèi)部的對抗樣本對訓練效果的影響,從而能出現(xiàn)對抗訓練效果不降反升的情況.從實驗中可得出,對抗訓練是提升命名實體識別模型性能的有效手段,困難樣本篩選是提高對抗訓練質(zhì)量的輔助辦法.

      5 結(jié) 論

      本文從邊界樣本的角度出發(fā),提出了一種基于混淆矩陣錯誤概率分布的目標攻擊方法,并結(jié)合困難樣本的思想提出了局部對抗訓練方案,用于命名實體識別研究.該方法以BiLSTM-CRF模型為基線模型,采用困難樣本篩選的思想,篩選出對模型性能有關鍵影響的,包含大量邊界樣本的困難樣本;利用邊界樣本易被擾動的特性,結(jié)合基于混淆矩陣錯誤概率分布的目標攻擊方法生成對抗樣本用于對抗訓練.實驗結(jié)果證明了CTR方法在對抗訓練的有效性,也證明了本文提出的CTR結(jié)合困難樣本的局部對抗訓練方法的優(yōu)異性.該方案不僅有效緩解了邊界樣本混淆限制命名實體識別性能的問題,極大提升命名實體識別效果,而且減少了常規(guī)對抗訓練中增加計算成本的冗余對抗樣本,保留了對抗訓練效果的同時提高了對抗樣本質(zhì)量.下一步工作將考慮進一步優(yōu)化對抗攻擊方法,使對抗樣本在對抗訓練中發(fā)揮更積極的作用.

      猜你喜歡
      擾動困難邊界
      Bernoulli泛函上典則酉對合的擾動
      困難中遇見團隊
      困難我不怕
      拓展閱讀的邊界
      (h)性質(zhì)及其擾動
      論中立的幫助行為之可罰邊界
      選擇困難癥
      小噪聲擾動的二維擴散的極大似然估計
      用于光伏MPPT中的模糊控制占空比擾動法
      電源技術(2015年11期)2015-08-22 08:50:38
      有困難,找警察
      小說月刊(2014年11期)2014-04-18 14:12:26
      安远县| 汝城县| 太仆寺旗| 平原县| 大方县| 色达县| 临潭县| 金沙县| 嘉禾县| 河池市| 蒲城县| 吉木乃县| 常宁市| 涪陵区| 佛冈县| 隆昌县| 万源市| 临沧市| 汶上县| 都昌县| 赣榆县| 吕梁市| 新巴尔虎右旗| 五大连池市| 乌兰浩特市| 海淀区| 武威市| 阿拉善左旗| 抚远县| 黄骅市| 伊吾县| 新源县| 织金县| 清水县| 华坪县| 都兰县| 敦煌市| 武安市| 竹溪县| 西乌珠穆沁旗| 自贡市|