• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向中文命名實(shí)體識(shí)別任務(wù)的數(shù)據(jù)增強(qiáng)

      2022-05-05 13:55:18張克亮夏榕璟任靜靜
      關(guān)鍵詞:實(shí)體樣本文本

      李 健,張克亮,唐 亮,夏榕璟,任靜靜

      (戰(zhàn)略支援部隊(duì)信息工程大學(xué),河南 洛陽 471003)

      0 引 言

      相對(duì)于基于規(guī)則的方法,機(jī)器學(xué)習(xí)不需要顯式編程,而是針對(duì)任務(wù)建立學(xué)習(xí)模型,并根據(jù)訓(xùn)練樣本不斷調(diào)整參數(shù)以提高模型的預(yù)測(cè)能力[1]。傳統(tǒng)的機(jī)器學(xué)習(xí)算法需要將樣本特征作為輸入,特征工程就成為不可或缺的關(guān)鍵步驟。深度學(xué)習(xí)模型可以將原始數(shù)據(jù)直接作為輸入,實(shí)現(xiàn)有效特征的自動(dòng)提取,極大地緩解了自來特征工程的壓力[2]。

      自然語言處理(NLP)是人工智能重要的分支,被稱為人工智能皇冠上的明珠。以Word2Vec[3]為代表的詞向量技術(shù),將原本稀疏的高維向量轉(zhuǎn)化為稠密的低維向量,有效解決了文本數(shù)據(jù)的向量表示問題。以BERT[4]為代表的預(yù)訓(xùn)練(Pre-training)語言模型,不僅能夠?yàn)樵~語提供精確的向量表示,而且能夠利用上下文信息預(yù)測(cè)當(dāng)前詞。

      隨著深度學(xué)習(xí)的不斷發(fā)展,更多、更復(fù)雜的NLP任務(wù)被提出,其中很多屬于低資源任務(wù),尤其是面向小語種、專業(yè)領(lǐng)域相關(guān)的任務(wù)。這些任務(wù)的特點(diǎn)是專業(yè)性較強(qiáng)、標(biāo)注語料較少、標(biāo)注質(zhì)量不高?;跈C(jī)器學(xué)習(xí)的人工智能常被戲稱為“有多少人工,就有多少智能”,這說明機(jī)器學(xué)習(xí)十分依賴人工標(biāo)注的樣本。相對(duì)于圖像標(biāo)注,文本標(biāo)注的門檻更高、難度加大、耗時(shí)更多——標(biāo)注者不僅要熟悉某種語言,還要準(zhǔn)確理解每條文本的語義。

      在一些任務(wù)中,現(xiàn)有數(shù)據(jù)不足以訓(xùn)練一個(gè)理想的機(jī)器學(xué)習(xí)模型,因此需要通過數(shù)據(jù)增強(qiáng)(Data Augmentation)技術(shù),增加有效的訓(xùn)練數(shù)據(jù),以提高模型的精確度和魯棒性。本文將簡(jiǎn)要介紹文本數(shù)據(jù)增強(qiáng)的相關(guān)工作,并針對(duì)中文命名實(shí)體識(shí)別(Named Entity Recognition, NER)任務(wù)提出一組基于實(shí)例替換的數(shù)據(jù)增強(qiáng)方法。其中“實(shí)體之間交叉互換”可用于所有類型實(shí)體增強(qiáng),“實(shí)體內(nèi)部同義替換”主要用于組合型實(shí)體(如地名、機(jī)構(gòu)等)增強(qiáng),并根據(jù)中文人名特點(diǎn)設(shè)計(jì)一套“人名自動(dòng)生成器”用于人名實(shí)體增強(qiáng)。為驗(yàn)證上述方法的有效性,將在2個(gè)不同難度的數(shù)據(jù)集上進(jìn)行測(cè)試。

      1 相關(guān)工作

      Coulombe[5]認(rèn)為數(shù)據(jù)增強(qiáng)是一種“語義不變的轉(zhuǎn)換”,可將其看作“數(shù)據(jù)放大”(從已有數(shù)據(jù)產(chǎn)生新的數(shù)據(jù))。數(shù)據(jù)增強(qiáng)也可看作一種正則化的技術(shù),以避免模型過擬合[6]。

      數(shù)據(jù)增強(qiáng)的結(jié)果又被稱為擴(kuò)展數(shù)據(jù)、合成數(shù)據(jù)或人工數(shù)據(jù)[7]。數(shù)據(jù)增強(qiáng)的定義還可以再擴(kuò)大一些:數(shù)據(jù)增強(qiáng)是以提高訓(xùn)練效果為目標(biāo),對(duì)已有訓(xùn)練數(shù)據(jù)進(jìn)行二次加工的過程。數(shù)據(jù)增強(qiáng)主要包含2方面內(nèi)容:1)增加有效訓(xùn)練數(shù)據(jù)(數(shù)據(jù)擴(kuò)充);2)剔除無效訓(xùn)練數(shù)據(jù)(數(shù)據(jù)提純)。

      數(shù)據(jù)增強(qiáng)在圖像和語音領(lǐng)域已經(jīng)得到廣泛應(yīng)用。常見的圖像增強(qiáng)方法包括:等距變換(如反轉(zhuǎn)、旋轉(zhuǎn))、相似變換(如放縮、扭曲)、RGB通道變換、添加隨機(jī)噪聲等[8]。在語音方面,可通過快放、慢放、噪聲注入、聲譜修改等方法進(jìn)行數(shù)據(jù)增強(qiáng)[9]。

      相比之下,文本數(shù)據(jù)增強(qiáng)方面并沒有很多流行的技術(shù),唯一得到廣泛應(yīng)用的方法是基于詞表的同義詞替換[10]。Liu等[11]認(rèn)為,由于文本數(shù)據(jù)的符號(hào)性、離散性、組合性和稀疏性,使得文本數(shù)據(jù)增強(qiáng)比較困難。通用的文本數(shù)據(jù)增強(qiáng)方法主要包括:詞匯替換、句式轉(zhuǎn)換、噪聲注入等。

      1.1 基于詞匯替換的數(shù)據(jù)增強(qiáng)

      詞匯替換方法可以基于人工詞典、詞向量、掩碼語言模型等[12-14]?;谌斯ぴ~典(如WordNet、HowNet等)的替換可靠性高、簡(jiǎn)單易行,其局限性在于:一是詞匯量有限,二是需要區(qū)分一詞多義。

      基于詞向量(如Word2Vec)的替換能夠方便地獲取大規(guī)模詞向量表示,但是計(jì)算出的近義詞往往不能直接用于替換,比如“紅樓夢(mèng)”除了與“三國演義”很相似,也可能與“曹雪芹”很相似,替換時(shí)還需要進(jìn)一步篩選。

      基于掩碼語言模型(如BERT)的替換能使句子保持通順,但并不能保證語義的相似性[15],比如“我很喜歡這部電影”,如果把“喜歡”掩蔽掉,也可能預(yù)測(cè)出“我很討厭這部電影”。

      由于TF-IDF值較低的詞沒有太多信息量,Xie等[16]認(rèn)為對(duì)這類詞的替換不會(huì)改變語義,并將其作為一種數(shù)據(jù)增強(qiáng)方法。替換TF-IDF值較低的詞對(duì)訓(xùn)練樣本的擴(kuò)展作用并不大,因?yàn)檫@些詞往往不具備區(qū)分標(biāo)簽的能力,但可以作為一種輔助方法使訓(xùn)練數(shù)據(jù)更加平滑。

      1.2 基于句式轉(zhuǎn)換的數(shù)據(jù)增強(qiáng)

      句式轉(zhuǎn)換方法可以基于句法樹、回譯、樣本交叉、文本表層特征等[5,17-18]。基于句法樹的轉(zhuǎn)換通過句法分析器將一種句式轉(zhuǎn)化為另一種句式,比如將“主動(dòng)句”改為“被動(dòng)句”、將“被字句”改為“把字句”等,使用這種方法需要定義轉(zhuǎn)換規(guī)則庫。

      回譯是指把A語言的句子翻譯為B語言,再翻譯回A語言作為原句的擴(kuò)展??梢赃x擇不同的B語言以獲得多種擴(kuò)展樣式,但這種方法需要借助機(jī)器翻譯引擎。

      樣本交叉是指通過對(duì)原有樣本進(jìn)行拆分、組合,以生成新的樣本。比如在情感分析中,句子A可分為2個(gè)子句A1和A2,句子B也可分為2個(gè)子句B1和B2,若A和B都表達(dá)負(fù)面情感,那么擴(kuò)展的句子C=A1+B2也是負(fù)面的。

      基于文本表層特征的轉(zhuǎn)換也可以看作基于模式匹配的替換,例如:將“She is”轉(zhuǎn)換為“She’s”,這種方法需要定義一組模式匹配規(guī)則(可利用正則表達(dá)式實(shí)現(xiàn))。

      1.3 基于隨機(jī)噪聲的數(shù)據(jù)增強(qiáng)

      文本隨機(jī)噪聲包括:基于鍵盤的拼寫錯(cuò)誤、隨機(jī)刪除單詞、隨機(jī)插入單詞、隨機(jī)替換單詞、句子混排等[19-21]。其中,拼寫錯(cuò)誤屬于單詞級(jí)噪聲,對(duì)單詞的“增、刪、改”屬于句子級(jí)噪聲,對(duì)句子的亂序排列則屬于篇章級(jí)噪聲。

      隨機(jī)噪聲與語言密切相關(guān),上述方法主要針對(duì)英文。相比之下,中文噪聲應(yīng)當(dāng)主要考慮同音字、近形字、易混詞、詞內(nèi)用字顛倒等常見錯(cuò)誤。隨機(jī)噪聲并不能無條件地用于所有的NLP任務(wù),比如在情感分析的任務(wù)中,如果否定詞被隨機(jī)刪除,標(biāo)簽就會(huì)發(fā)生改變。

      1.4 面向中文文本的數(shù)據(jù)增強(qiáng)

      趙小兵等[22]利用藏漢平行語料和句子相似度計(jì)算的方法,擴(kuò)充藏漢跨語言文本改寫檢測(cè)訓(xùn)練語料,使機(jī)器學(xué)習(xí)模型性能得到明顯提升。何家勁[23]從中文主觀性評(píng)價(jià)文本的特點(diǎn)出發(fā),提出一種多粒度(詞語級(jí)、短語級(jí)、句子級(jí))的文本數(shù)據(jù)增強(qiáng)方案,并將其用于情感分析任務(wù)。趙鵬飛[24]提出了一種改進(jìn)的基于生成對(duì)抗網(wǎng)絡(luò)的文本復(fù)述模型來擴(kuò)增中文文本語料,并將其用于訓(xùn)練新的語言模型以改善數(shù)據(jù)稀疏問題。

      目前針對(duì)中文文本數(shù)據(jù)增強(qiáng)的研究還不夠全面深入,方法還比較單一,面向特定任務(wù)數(shù)據(jù)增強(qiáng)的研究就更少。筆者在百度學(xué)術(shù)以“中文命名實(shí)體識(shí)別數(shù)據(jù)增強(qiáng)”為主題進(jìn)行搜索,僅找到一篇強(qiáng)相關(guān)的期刊論文[25]。該文獻(xiàn)采用基于人名詞典的實(shí)體替換策略生成偽訓(xùn)練數(shù)據(jù),能夠有效提升系統(tǒng)對(duì)新類型人名的識(shí)別性能。上述文獻(xiàn)僅考慮到特定人名(主要指外國和少數(shù)民族人名)的數(shù)據(jù)增強(qiáng),但實(shí)際文本中出現(xiàn)更多的還是漢族人名,且基于人名詞典的替換也存在局限性。因此有必要進(jìn)一步研究面向更多實(shí)體的數(shù)據(jù)增強(qiáng)方法(包括所有人名以及其它類型實(shí)體)。

      2 方 法

      對(duì)于NER任務(wù),本文假設(shè)模型能夠?qū)W到的知識(shí)來自2個(gè)方面:一是實(shí)體內(nèi)部結(jié)構(gòu),二是實(shí)體外部結(jié)構(gòu)。前者是指哪些詞語可能構(gòu)成某個(gè)特定類型的實(shí)體,后者是指實(shí)體所在句子的結(jié)構(gòu)以及可能出現(xiàn)的位置。下面將針對(duì)中文NER任務(wù),介紹3種基于實(shí)例替換的數(shù)據(jù)增強(qiáng)方法。

      2.1 實(shí)體之間交叉互換

      實(shí)體交叉互換是一種簡(jiǎn)單的數(shù)據(jù)增強(qiáng)策略:將樣本中的某個(gè)實(shí)體隨機(jī)替換為訓(xùn)練集中的另一個(gè)同類實(shí)體,并將替換后的樣本作為擴(kuò)展樣本。請(qǐng)看以下示例:

      原始樣本1:[李小明]PER是我的大學(xué)同學(xué)。

      原始樣本2:[王亮]PER畢業(yè)后就到這里工作。

      擴(kuò)展樣本1:[王亮]PER是我的大學(xué)同學(xué)。

      雖然“實(shí)體交叉互換”不產(chǎn)生新的實(shí)體,但是可以豐富實(shí)體的外部結(jié)構(gòu),同樣能夠起到數(shù)據(jù)增強(qiáng)的效果。由于所替換的實(shí)體都來自原始樣本,擴(kuò)展出的新樣本幾乎不存在語法錯(cuò)誤,但所表述的語義可能與事實(shí)不符,請(qǐng)看以下示例:

      原始樣本1′:2008年奧運(yùn)會(huì)在[北京]LOC舉辦。

      原始樣本2′:美麗的[哈爾濱]LOC是我的故鄉(xiāng)。

      擴(kuò)展樣本1′:2008年奧運(yùn)會(huì)在[哈爾濱]LOC舉辦。

      命名實(shí)體識(shí)別是為了找出句子中的實(shí)體,而不是判斷句子內(nèi)容的真?zhèn)?。因此,可以忽略這種語義錯(cuò)誤——它或許是一個(gè)假命題,但卻是一個(gè)合法的句子。為便于描述,訓(xùn)練樣本數(shù)據(jù)格式如下:

      [[‘李小明’,‘PER’],[‘是我在’,‘O’],[‘青島科技大學(xué)’,‘ORG’],[‘的同學(xué)。’,‘O’]]

      基于上述樣本格式,實(shí)體交叉互換的數(shù)據(jù)增強(qiáng)算法如下:

      算法1 實(shí)體交叉互換

      輸入:原始樣本集T={s1,s2,…,sn};實(shí)體標(biāo)簽集labels

      輸出:擴(kuò)展樣本集E

      1 map←創(chuàng)建字典對(duì)象

      2 for each label in labels do

      3 map[label]←{}

      4 end for

      5 for eachsinTdo

      6 for eachbinsdo

      7 text, label←b

      8 map[label].Add(text)

      9 end for

      10 end for

      11E←{}//擴(kuò)展樣本集

      12 for eachsinTdo

      13s′←[]//擴(kuò)展樣本

      14 for eachbinsdo

      15 text, label←b

      16 if label∈labels then

      17 text←從map[label]中選擇一個(gè)實(shí)體

      18 end if

      19s′.Add([text, label])

      20 end for

      21E.Add(s′)

      22 end for

      23 returnE

      上述算法可分為2個(gè)步驟:第1~第10行用于統(tǒng)計(jì)原始樣本中的各類實(shí)體,并將它們存放在字典map中,字典的“鍵”為實(shí)體類型,字典的“值”為實(shí)體的集合;第11~第23行用于生成新樣本,遍歷每個(gè)樣本s中的每個(gè)實(shí)體,從map中選擇一個(gè)同類實(shí)體進(jìn)行替換(更新text而保持label不變),將替換后的樣本s′作為擴(kuò)展樣本。

      為控制擴(kuò)展樣本與原始樣本的差異度,在實(shí)際操作中可選用以下策略:1)限制每個(gè)句子中替換的最大實(shí)體數(shù)(比如最多替換1個(gè));2)讓每個(gè)實(shí)體按一定的概率進(jìn)行替換(比如按50%的概率替換);3)優(yōu)先選擇更相似的實(shí)體進(jìn)行替換。

      2.2 實(shí)體內(nèi)部同義替換

      由于“實(shí)體交叉互換”方法并不產(chǎn)生新的實(shí)體,它只能拓展實(shí)體的外部結(jié)構(gòu),而不能豐富實(shí)體的內(nèi)部結(jié)構(gòu)。為了增強(qiáng)實(shí)體的內(nèi)部結(jié)構(gòu),本文提出一種“實(shí)體內(nèi)部同義替換”的方法。其基本思想為:實(shí)體可能由一個(gè)或多個(gè)詞組成,將實(shí)體中某個(gè)詞替換為它的同(近)義詞,所衍生的新實(shí)體在原句中的標(biāo)簽保持不變。請(qǐng)看以下示例:

      原始樣本1:[洛陽市公安局]ORG發(fā)布了一條懸賞通告。

      擴(kuò)展樣本1:[洛陽市司法局]ORG發(fā)布了一條懸賞通告。

      擴(kuò)展樣本2:[鄭州市公安局]ORG發(fā)布了一條懸賞通告。

      在上述示例中,“公安局”被替換為“司法局”,“洛陽市”被替換為“鄭州市”,擴(kuò)展樣本無論在語法還是語義上都沒有問題。要使衍生的實(shí)體真實(shí)、合理,關(guān)鍵在于找到一個(gè)地位對(duì)等的替換詞。比如,“洛陽市”和“鄭州市”都是河南省的地級(jí)市,“司法局”和“公安局”都是市、縣所屬的行政機(jī)構(gòu)。但如果將“洛陽市”替換為“河南省”就會(huì)有些問題,因?yàn)楝F(xiàn)實(shí)中只有“河南省公安廳”,并沒有“河南省公安局”這個(gè)機(jī)構(gòu)。

      對(duì)于中文同(近)義詞的獲取,可以借助“HowNet”“同義詞詞林”等人工詞典,也可以利用“Word2Vec”等詞向量工具。人工詞典精確度高,但詞匯量有限;詞向量工具基于大規(guī)模語料進(jìn)行訓(xùn)練,能夠覆蓋到更多的詞匯,但得到的相似詞往往與原詞并不對(duì)等,還需要進(jìn)一步篩選。例如,通過Word2Vec查詢與“大學(xué)”最相似的詞,不僅會(huì)得到“學(xué)院”“高中”等詞(可以作為替換詞),還會(huì)得到“教授”“醫(yī)科”等詞(不能作為替換詞)。實(shí)體內(nèi)同(近)義詞替換算法如下:

      算法2 實(shí)體內(nèi)部同義替換

      輸入:實(shí)體文本text;分詞函數(shù)Segment();同義詞典SynDict;詞向量工具Word2Vec;詞性過濾函數(shù)POSFilter();編輯距離函數(shù)EditDistance()

      輸出:擴(kuò)展實(shí)體文本text′

      1 words←Segment(text)

      2 word←從words中隨機(jī)選擇一個(gè)詞

      3 if text in SynDict then

      4 synWords←SynDict[text]

      5 else

      6 synWords←Word2Vec.MostSimilar(text,20)

      7 end if

      8 synWords←POSFilter(text,word,synWords)

      9 synWordsWithDistance←[]//帶權(quán)候選同義詞集

      10 for each sWord in synWords do

      11 dis←EditDistance(sWord,word)

      12 synWordsWithDistance.Add([dis,sWord])

      13 end for

      14 synWordsWithDistance.Sort()//按權(quán)值排序

      15r←生成一個(gè)0~1之間的隨機(jī)數(shù)

      16n←synWordsWithDistance.Length

      17 return synWordsWithDistance[n*r*r][1]

      在上述算法中,首先對(duì)實(shí)體文本進(jìn)行分詞,隨機(jī)選擇一個(gè)作為被替換詞(第1~第2行);先后查詢?nèi)斯ぴ~典和Word2Vec詞向量,獲得候選同(近)義詞列表(第3~第7行);第8行對(duì)候選列表進(jìn)行詞性篩選,保證替換詞與被替換詞在原文中的詞性一致;第9~第13行用于計(jì)算候選詞與被替換詞之間的最小編輯距離,第14~第17行完成最終選取,并通過一些數(shù)學(xué)技巧(將隨機(jī)數(shù)r取平方)使得編輯距離較小的詞被選中的概率更大。

      2.3 自動(dòng)生成中文人名

      將句子中的某個(gè)詞語換成它的同(近)義詞通常不會(huì)影響樣本標(biāo)簽,人名替換也可以看作是一種特殊的同(近)義詞替換。可以將一個(gè)人名換成另一個(gè)全新的人名,以提高對(duì)人名實(shí)體的數(shù)據(jù)增強(qiáng)。由于普通人名不會(huì)被收錄在詞典中,就難以使用基于詞典的替換。為了得到更加“真實(shí)”的人名,本文專門設(shè)計(jì)了一個(gè)中文人名生成器。

      人名生成器的基本思想如下:將中文人名分為“姓”和“名”2部分,其中“姓”不區(qū)分性別,而“名”要區(qū)分性別。從網(wǎng)上搜集一些人名語料庫,分別統(tǒng)計(jì)“姓氏”、“男名”和“女名”的用字占比,共統(tǒng)計(jì)出約400個(gè)姓氏、4936個(gè)男名用字、3898個(gè)女名用字。在生成人名時(shí),以各姓氏的占比為概率選“姓”,以男名或女名用字的占比為概率取“名”,若為雙名則連續(xù)選取2次。中文人名生成算法描述如下:

      算法3 中文人名生成

      輸入:姓氏占比Surnames;男名用字占比GivenNames1;女名用字占比GivenNames2;選字函數(shù)SelectChar();性別sex;常見度freq;(除姓以外)取名長度n

      輸出:生成的人名name

      1r←生成一個(gè)0~1之間的隨機(jī)數(shù)

      2r←r**freq

      3 name=SelectChar(Surnames,r)

      4 if sex=1 then

      5 GivenNames←GivenNames1

      6 else

      7 GivenNames←GivenNames2

      8 end if

      9 fori←1 tondo

      10r←生成一個(gè)0~1之間的隨機(jī)數(shù)

      11r←r**freq

      12 name←name+SelectChar(GivenNames,r)

      13 end for

      14 return name

      在上述算法中,“姓”和“名”的選字均使用了SelectChar()函數(shù)。以“姓”為例,假設(shè)每個(gè)姓氏的占比區(qū)間已經(jīng)統(tǒng)計(jì)好(存放在Surnames中,總的區(qū)間范圍為[0,1],比如“王”的區(qū)間為[0,0.09),“李”的區(qū)間為[0.09,0.17)),生成一個(gè)0~1之間的隨機(jī)數(shù),采用二分查找快速定位隨機(jī)數(shù)落在哪個(gè)字的占比區(qū)間,即可檢出一個(gè)字。

      調(diào)用上述算法時(shí),若不指定性別,則按照1∶1的比例生成男名和女名;若不指定取名長度,則按2∶8的比例生成單名和雙名(根據(jù)《二〇一九年全國姓名報(bào)告》發(fā)布的數(shù)據(jù)[26],中國人單、雙名的比例約為2∶8)。

      上述算法亦可通過頻度(freq)參數(shù)調(diào)節(jié)人名的常見程度,頻度越高越傾向于選取常用字;頻度越低越傾向于選取生僻字。freq的有效取值范圍為[0.1,10],當(dāng)freq=1時(shí)為標(biāo)準(zhǔn)值。表1列出了上述算法在不同頻度下所生成的人名。

      表1 不同頻度的人名示例

      人名實(shí)體中通常還包含一些翻譯為中文的外國人名,外國人名可以通過名字長度、首字是否為常見姓氏進(jìn)行初步判斷。對(duì)于命名實(shí)體識(shí)別任務(wù),也可將句子中的外國人名替換為中國人名,但為了保持外國人名的比例,最好將它替換為一個(gè)同類人名。在實(shí)際處理中,本文通過計(jì)算Word2Vec相似度獲得一個(gè)外國人名。

      3 實(shí) 驗(yàn)

      3.1 測(cè)試任務(wù)

      為了驗(yàn)證方法的有效性和普適性,本文分別在PeopleDailyNER和CLUENER2020數(shù)據(jù)集上進(jìn)行測(cè)試。PeopleDailyNER是一個(gè)經(jīng)典的中文命名實(shí)體識(shí)別任務(wù),它以1998年人民日?qǐng)?bào)語料為基礎(chǔ),標(biāo)注了人名、地名、機(jī)構(gòu)3類實(shí)體,提供了20864條訓(xùn)練樣本。該數(shù)據(jù)集的特點(diǎn)是:文本規(guī)范、標(biāo)注精良、實(shí)體類型較少、訓(xùn)練語料充足、任務(wù)相對(duì)簡(jiǎn)單。

      CLUENER2020在清華大學(xué)文本分類數(shù)據(jù)集THUTCT的基礎(chǔ)上,選擇部分?jǐn)?shù)據(jù)進(jìn)行細(xì)粒度實(shí)體標(biāo)注(包括人名、地名、政府部門、公司、機(jī)構(gòu)、書籍、電影、游戲、職務(wù)、景點(diǎn)共10類實(shí)體),其訓(xùn)練集包括10748條樣本[27]。相比之下,該數(shù)據(jù)集的實(shí)體類型更多,訓(xùn)練數(shù)據(jù)更少,實(shí)體區(qū)別更細(xì)微,是一個(gè)更復(fù)雜的命名實(shí)體識(shí)別任務(wù)。

      3.2 實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)的主要硬件環(huán)境如下:Inter Core i7-9750H CPU、32 GB物理內(nèi)存、NVIDIA GeForce RTX 2070 顯卡。主要軟件環(huán)境如下:Windows 10 64位操作系統(tǒng)、Python 3.6、TensorFlow-GPU 1.15.3、Keras 2.3.1。

      訓(xùn)練模型選用標(biāo)準(zhǔn)的BERT+CRF架構(gòu)(如圖1所示),訓(xùn)練樣本統(tǒng)一轉(zhuǎn)換為BIO格式(例如:B-PER表示人名的起始元素,I-PER表示人名的中間元素,O表示當(dāng)前元素非實(shí)體),最大句子長度為128,Batch-Size為12。訓(xùn)練結(jié)束條件為:模型訓(xùn)練至少20輪且在驗(yàn)證集上的最優(yōu)F1值連續(xù)3輪不再提升。

      圖1 BERT+CRF命名實(shí)體識(shí)別模型

      為了驗(yàn)證數(shù)據(jù)增強(qiáng)方法在不同規(guī)模訓(xùn)練樣本上的表現(xiàn),本文從訓(xùn)練集中選取不同的比例作為實(shí)際訓(xùn)練數(shù)據(jù),分別進(jìn)行以下實(shí)驗(yàn):1)不做任何數(shù)據(jù)增強(qiáng),僅使用原始數(shù)據(jù)訓(xùn)練模型;2)分別單獨(dú)使用算法1~算法3進(jìn)行數(shù)據(jù)增強(qiáng),與原始數(shù)據(jù)合并后進(jìn)行訓(xùn)練;3)綜合使用算法1~算法3進(jìn)行數(shù)據(jù)增強(qiáng),與原始數(shù)據(jù)合并后進(jìn)行訓(xùn)練。

      在實(shí)驗(yàn)2和實(shí)驗(yàn)3中,擴(kuò)展數(shù)據(jù)與原始數(shù)據(jù)的比例為1∶1;調(diào)用算法3生成人名時(shí)頻度freq設(shè)為1;算法2中的人工詞典采用“同義詞詞林(擴(kuò)展版)”,Word2Vec詞向量由中文百科語料訓(xùn)練生成;在實(shí)驗(yàn)3中,50%的擴(kuò)展數(shù)據(jù)由算法1生成,另外50%由算法2和算法3生成。

      3.3 結(jié)果分析

      對(duì)于不同規(guī)模的訓(xùn)練數(shù)據(jù),分別執(zhí)行上述4組實(shí)驗(yàn),在PeopleDailyNER數(shù)據(jù)集上的訓(xùn)練結(jié)果如表2所示。

      表2 PeopleDailyNER數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

      由于CLUENER2020數(shù)據(jù)集上句子較短,本文將最大句子長度設(shè)置為64,Batch-Size為24,其它條件保持不變,實(shí)驗(yàn)結(jié)果如表3所示。

      表3 CLUENER2020數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

      對(duì)于2個(gè)數(shù)據(jù)集,本文分別選取9組不同比例的訓(xùn)練數(shù)據(jù)進(jìn)行測(cè)試(從1/256到全部數(shù)據(jù))。實(shí)驗(yàn)結(jié)果顯示,當(dāng)訓(xùn)練樣本較少時(shí),3種算法都能使模型F1值大幅提升(PeopleDailyNER數(shù)據(jù)集上的最大增幅約10%,CLUENER2020數(shù)據(jù)集上的最大增幅約為7%);隨著訓(xùn)練樣本的增加,數(shù)據(jù)增強(qiáng)的效果會(huì)有所下降;單獨(dú)使用算法1~算法3偶爾會(huì)出現(xiàn)模型表現(xiàn)下降的情況,但綜合使用3種算法總能使模型表現(xiàn)得到提升。

      為了進(jìn)一步分析3種算法對(duì)不同類別實(shí)體的影響,本文統(tǒng)計(jì)了PeopleDailyNER數(shù)據(jù)集在小樣本條件下(選用1/128的訓(xùn)練數(shù)據(jù))的識(shí)別結(jié)果,如表4所示。

      表4 數(shù)據(jù)增強(qiáng)算法對(duì)各類實(shí)體識(shí)別的影響

      統(tǒng)計(jì)結(jié)果顯示:算法3不僅有助于人名實(shí)體識(shí)別,而且使其它類型實(shí)體的識(shí)別率相對(duì)于僅使用原始數(shù)據(jù)而言也有所提高(相對(duì)幅度較小),這是由于在代換人名的同時(shí)也豐富了其它類型實(shí)體的外部結(jié)構(gòu);算法2與算法3類似,主要作用于非人名實(shí)體,同時(shí)對(duì)人名實(shí)體識(shí)別也起到積極作用;算法1對(duì)各類實(shí)體均有效,且增強(qiáng)效果比較均勻。建議在實(shí)際應(yīng)用中,可以對(duì)不同實(shí)體選用不同的數(shù)據(jù)增強(qiáng)方法(或組合),以達(dá)到最優(yōu)效果。

      4 結(jié)束語

      數(shù)據(jù)增強(qiáng)以提高模型訓(xùn)練效果為目標(biāo),主要包括數(shù)據(jù)擴(kuò)充和數(shù)據(jù)提純。在通用的文本數(shù)據(jù)增強(qiáng)方法中,同(近)義詞替換是簡(jiǎn)單有效的方法,句式轉(zhuǎn)換的成本較高,隨機(jī)噪聲需要有條件地使用。針對(duì)中文命名實(shí)體識(shí)別任務(wù),本文提出的數(shù)據(jù)增強(qiáng)方法(包括3個(gè)具體算法)在2個(gè)不同難度的數(shù)據(jù)集上均使模型的F1值得到明顯提升。由于實(shí)驗(yàn)條件限制,本文僅使用了與原始數(shù)據(jù)等量的擴(kuò)展數(shù)據(jù),在后續(xù)研究中將嘗試采用不同比例的擴(kuò)展數(shù)據(jù),并在更多模型和任務(wù)上進(jìn)行測(cè)試。

      本文所用的BERT+CRF基線模型來自開源項(xiàng)目(https://github.com/bojone/bert4keras),中文人名語料來自“數(shù)據(jù)科學(xué)社區(qū)”發(fā)布的一項(xiàng)數(shù)據(jù)挖掘任務(wù)(http://sofasofa.io/competition.php?id=3),“同義詞詞林(擴(kuò)展版)”來自哈工大社會(huì)計(jì)算與信息檢索研究中心(https://www.ltp-cloud.com/download)。在此向上述資源提供者表示衷心的感謝!

      猜你喜歡
      實(shí)體樣本文本
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      推動(dòng)醫(yī)改的“直銷樣本”
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      村企共贏的樣本
      玉屏| 广灵县| 宜春市| 阳曲县| 翁牛特旗| 宁都县| 合山市| 嫩江县| 凤庆县| 香港 | 新河县| 杭锦后旗| 梅州市| 关岭| 洛隆县| 宝山区| 鄂温| 潢川县| 赤峰市| 甘肃省| 绥芬河市| 汝城县| 富宁县| 苗栗县| 巴彦淖尔市| 浏阳市| 六枝特区| 桃江县| 萨迦县| 德安县| 湖南省| 五大连池市| 临夏县| 留坝县| 茂名市| 泗阳县| 大渡口区| 西乌珠穆沁旗| 武鸣县| 盐边县| 兴化市|