• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于孿生BERT網(wǎng)絡(luò)的科技文獻(xiàn)類目映射

      2021-08-17 00:57:36何賢敏李茂西何彥青
      計算機(jī)研究與發(fā)展 2021年8期
      關(guān)鍵詞:分類法類目語料

      何賢敏 李茂西 何彥青

      1(江西師范大學(xué)計算機(jī)信息工程學(xué)院 南昌 330022) 2(中國科學(xué)技術(shù)信息研究所 北京 100038)

      分類法是一種具有層級結(jié)構(gòu)的分類體系,根據(jù)內(nèi)容和屬性不同進(jìn)行組織.雖然不同分類法的層級結(jié)構(gòu)和編制原則差異很大,但其編制的基本原理和目的是相同的,都是為了提高檢索效率而編制的一系列表達(dá)概念及概念關(guān)系的標(biāo)識.因此,不同分類法在概念表達(dá)上存在一定的相似性,所以可以建立它們之間的映射關(guān)系[1].

      專利信息作為一種特殊的科技文獻(xiàn),通常使用國際專利分類法(international patent classification, IPC)來對其進(jìn)行組織和管理,為了標(biāo)識專利所屬的領(lǐng)域和范疇,每份專利文件會標(biāo)明適當(dāng)?shù)腎PC分類號.如表1第1行給出了IPC中“輸入機(jī)構(gòu)”有關(guān)的專利信息分類號及其類目文字描述,其中,符號“|”的個數(shù)表示分類法的類目層級數(shù).而在中文學(xué)術(shù)期刊中,普遍使用中國圖書館分類法(Chinese library classification, CLC)來標(biāo)識文獻(xiàn),如表1第2行給出了CLC中“輸入設(shè)備”有關(guān)的期刊分類號及其類目文字描述.

      Table 1 Examples of Identification of Patent and Journal Related to “Input Mechanisms (Devices)”

      建立IPC與CLC之間的類目映射對實現(xiàn)專利信息與期刊文獻(xiàn)相互關(guān)聯(lián)以及它們組織體系間交叉瀏覽和檢索有著重要的意義,因此,許多學(xué)者對此展開了研究.基于規(guī)則的方法[2-6]大都是對IPC和CLC類目描述文本分別提取關(guān)鍵詞集或特征詞集,用于替代原始類目的含義,通過計算詞集之間的相似性間接得出類目之間的相似度,從而建立映射關(guān)系.基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法[7]將類目映射轉(zhuǎn)化為分類問題,利用分類算法建立2部分類法之間的映射關(guān)系.但是它們都忽略了IPC和CLC類目描述文本的語義信息,導(dǎo)致映射的準(zhǔn)確率不高.

      針對這個問題,本文提出基于BERT預(yù)訓(xùn)練上下文語言模型的孿生網(wǎng)絡(luò)將IPC類目描述文本和CLC類目描述文本完整地輸入到映射模型中,獲取IPC和CLC類目描述文本的句子向量,通過計算句子向量的余弦相似度,建立起2部分類法之間的類目映射關(guān)系.為了定量地驗證所提模型的映射性能,人工標(biāo)注了1 000條IPC類目和CLC類目之間的映射語料庫,在該語料庫上使用5折交叉驗證,實驗結(jié)果表明本文提出的基于BERT模型的孿生網(wǎng)絡(luò)平均準(zhǔn)確率可達(dá)94%,顯著優(yōu)于其他對比模型.概括來說,本文的貢獻(xiàn)主要有3個方面:

      1) 提出基于BERT預(yù)訓(xùn)練上下文語言模型的孿生網(wǎng)絡(luò)對IPC和CLC進(jìn)行類目映射,提高了IPC與CLC自動映射的準(zhǔn)確率;

      2) 構(gòu)建了1000條高質(zhì)量的IPC類目與CLC類目之間的映射語料庫,該語料庫覆蓋了IPC的8大類別,能更準(zhǔn)確地訓(xùn)練和測試模型的泛化能力;

      3) 公開發(fā)布了相關(guān)代碼、模型和人工標(biāo)注的語料庫(1)GitHub開源地址:https://github.com/i-wanna-to/IPC2CLC/,供其他研究人員免費使用.

      1 相關(guān)工作

      分類法之間的類目映射方法包括人工標(biāo)注和自動映射,人工標(biāo)注盡管準(zhǔn)確率得到一定的保障,但人力成本高,主觀性強(qiáng),不利于構(gòu)建2部分類法中大規(guī)模類目之間的映射關(guān)系.隨著計算機(jī)技術(shù)的發(fā)展,自動映射方法取得了很大的進(jìn)步,它們大致可以分為4種:基于同現(xiàn)的方法[3]、基于類目相似度的方法[4-5]、基于交叉檢索的方法[6]和基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法[7].

      當(dāng)一批文獻(xiàn)或圖書可以同時利用2部分類法的分類號來進(jìn)行標(biāo)識,說明標(biāo)識同一文獻(xiàn)或圖書的2個分類號之間具有一定的聯(lián)系.基于同現(xiàn)的方法利用這種聯(lián)系建立2部分類法之間的映射[3].基于類目相似度的方法將分類法的每條類目描述文本分解成一組具有代表性的詞匯集,如類名詞、注釋詞和上下位類名詞等,通過計算詞匯集間的相似度,間接得到類目的相似度[4-5].基于交叉檢索的方法利用一種分類法在一個已被另一種分類法標(biāo)識的文檔集中進(jìn)行檢索,通過對檢索結(jié)果進(jìn)行分析,進(jìn)而構(gòu)建2個分類法之間的映射[6].基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法從2種分類法的類目描述文本中挑選出特征關(guān)鍵詞集,將一個分類法的特征關(guān)鍵詞集作為模型的訓(xùn)練集,訓(xùn)練得到一個分類器,用該分類器對另一個分類法的特征關(guān)鍵詞集進(jìn)行分類,將預(yù)測為同一類的類目作為映射目標(biāo),從而實現(xiàn)分類法的映射[7].

      有學(xué)者將人工標(biāo)注和自動映射相結(jié)合進(jìn)行類目映射.陳瑞等人[8]提出將眾包的思想應(yīng)用在分類法類目映射上,眾包用戶把自動映射結(jié)果作為類目之間的初步映射,在其基礎(chǔ)上進(jìn)行人工重新標(biāo)注.該方法的映射效率和準(zhǔn)確率隨眾包用戶標(biāo)注差異而不同,映射可控性較差.

      近年來,隨著深度學(xué)習(xí)的發(fā)展,許多神經(jīng)網(wǎng)絡(luò)模型,如TextCNN[9],LSTM[10]和Transformer[11]等被成功地應(yīng)用于文本序列建模任務(wù)中.同時,蘊(yùn)含豐富句法、語義信息的預(yù)訓(xùn)練上下文語言模型,如ELMo[12],BERT[13],GPT[14]等在自然語言處理領(lǐng)域引起了越來越多的關(guān)注,刷新了多個語言理解任務(wù)的最優(yōu)性能.它們在海量單語文本上預(yù)訓(xùn)練,獲得通用的語言模識(modeledge)[15],然后被應(yīng)用到下游任務(wù)中并根據(jù)任務(wù)的特點進(jìn)行微調(diào).這種預(yù)訓(xùn)練加微調(diào)的方式不僅極大地提升了下游任務(wù)的性能,而且大幅度降低了下游任務(wù)所需標(biāo)注語料的規(guī)模.因此本文提出基于BERT預(yù)訓(xùn)練上下文語言模型的孿生網(wǎng)絡(luò)以構(gòu)建IPC和CLC的類目映射模型,結(jié)合BERT模型和孿生網(wǎng)絡(luò)兩者的優(yōu)勢,提升映射的準(zhǔn)確率.

      2 背景知識

      2.1 BERT預(yù)訓(xùn)練上下文語言模型

      BERT[13]是一種深度雙向編碼表征的預(yù)訓(xùn)練上下文語言模型.它的網(wǎng)絡(luò)架構(gòu)基于Transformer編碼器結(jié)構(gòu),將原始Transformer編碼器層數(shù)加深,并在“遮擋語言模型”和“下一句預(yù)測”2個訓(xùn)練任務(wù)上同時訓(xùn)練網(wǎng)絡(luò)的參數(shù),得到一個表達(dá)能力很強(qiáng)的預(yù)訓(xùn)練上下文語言模型.

      BERT預(yù)訓(xùn)練上下文語言模型的網(wǎng)絡(luò)架構(gòu)如圖1所示,其結(jié)構(gòu)主要分為3層,分別為詞向量編碼層、多頭自注意力機(jī)制(multi-head self-attention)和位置全連接前饋網(wǎng)絡(luò)(position-wise feed-forward networks),圖1中簡化了位于多頭自注意力機(jī)制和位置全連接前饋網(wǎng)絡(luò)之后的歸一化層,左側(cè)的符號N表示Transformer編碼器層堆疊的個數(shù).

      Fig. 1 The BERT model architecture圖1 BERT模型架構(gòu)

      與Transformer編碼器不同,BERT的詞向量編碼層由3個子層組成.其中位置嵌入(position embeddings)的參數(shù)由模型在訓(xùn)練過程中自動學(xué)習(xí)得到,而不同于Transformer編碼器中通過規(guī)則進(jìn)行設(shè)置;分段嵌入(segment embeddings)是為了區(qū)分輸入序列中的不同句子而設(shè)置,如果將2條句子拼接輸入BERT中,那么第1條句子的分段嵌入為0,第2條為1;標(biāo)記嵌入(token embeddings)是將句子中的各個詞(token)轉(zhuǎn)化為特定維度的向量,這與Transformer編碼器相同;最終這3層嵌入會逐元素相加,得到詞向量編碼層的輸出.句子S={w1,w2,…,wn}的詞向量編碼層輸出經(jīng)過N個多頭自注意力機(jī)制和位置全連接前饋網(wǎng)絡(luò)的組合層,得到句子中每個詞語的深層抽象表示O=(o1,o2,…,on).

      2.2 孿生網(wǎng)絡(luò)

      孿生網(wǎng)絡(luò)(siamese network)最早應(yīng)用于數(shù)字圖像的手寫體識別,用于驗證支票上的簽名是否與銀行預(yù)留的簽名一致[16],由于其性能優(yōu)異,隨后在計算機(jī)視覺領(lǐng)域得到廣泛應(yīng)用,包括人臉識別[17]和目標(biāo)跟蹤[18].近年來,許多學(xué)者將孿生網(wǎng)絡(luò)應(yīng)用于自然語言處理任務(wù)中,Neculoiu等人[19]和Mueller等人[20]提出基于LSTM結(jié)構(gòu)的孿生網(wǎng)絡(luò)模型用于文本語義相似度計算;葉文豪等人[21]提出基于雙向門控循環(huán)單元(gate recurrent unit, GRU)以及Transformer編碼器的孿生網(wǎng)絡(luò)模型,用于檢測基金與受資助論文的相關(guān)性.

      孿生網(wǎng)絡(luò)的基本模型架構(gòu)如圖2所示,從圖2可以看出,模型中左右相同的子網(wǎng)絡(luò)共享參數(shù)權(quán)重,也由此得名“孿生網(wǎng)絡(luò)”.輸入的2個樣本(X1,X2)通過這個相同的子網(wǎng)絡(luò)分別得到其針對特定任務(wù)的深層抽象表示(R(X1),R(X2)),通過在抽象表示空間中計算2個樣本的距離Dw〈R(X1),R(X2)〉 即可獲取樣本的相似度Sw.

      Fig. 2 The siamese network model architecture圖2 孿生網(wǎng)絡(luò)模型架構(gòu)

      Fig. 3 Siamese network architecture based on BERT pre-training contextual language model圖3 基于BERT預(yù)訓(xùn)練上下文語言模型的孿生網(wǎng)絡(luò)架構(gòu)

      3 模 型

      為了建立IPC類目和CLC類目之間的映射,我們提出利用基于BERT模型的孿生網(wǎng)絡(luò)計算IPC類目描述文本和CLC類目描述文本之間的相似度,實現(xiàn)IPC分類號和CLC分類號的匹配.該方法的出發(fā)點是通過相同的BERT網(wǎng)絡(luò)模型對IPC類目描述文本和CLC類目描述文本進(jìn)行深層抽象,獲取它們的通用語義表示,在語義表示空間中對IPC類目和CLC類目進(jìn)行映射.這不僅可以利用BERT預(yù)訓(xùn)練模型實現(xiàn)語義映射,減少模型參數(shù)在訓(xùn)練中對有標(biāo)簽數(shù)據(jù)的需求;而且可以利用孿生網(wǎng)絡(luò)有效刻畫2個待匹配類目之間的差異,實現(xiàn)精準(zhǔn)匹配.

      3.1 基于BERT預(yù)訓(xùn)練上下文語言模型的孿生網(wǎng)絡(luò)

      基于BERT模型的孿生網(wǎng)絡(luò)總體架構(gòu)如圖3所示,給定IPC類目描述文本X={x1,x2,…,xn}和CLC類目描述文本Y={y1,y2,…,ym},通過BERT預(yù)訓(xùn)練模型可得IPC類目描述文本的抽象表示Ou和CLC類目描述文本的抽象表示Ov:

      Ou=(u1,u2,…,un)=
      BERT({x1,x2,…,xn}),

      (1)

      Ov=(v1,v2,…,vm)=
      BERT({y1,y2,…,ym}),

      (2)

      其中,Ou∈n×d,Ov∈m×d,符號n,m分別表示IPC和CLC類目描述文本的長度,ui和vj分別表示IPC類目描述文本中第i個詞xi的抽象表示和CLC類目描述文本中第j個詞yj的抽象表示,d代表句子語義表示向量的維度,設(shè)置d=768.

      為了直觀地說明IPC類目描述文本X和CLC類目描述文本Y的具體組成.例如當(dāng)前IPC和CLC都為與“輸入機(jī)構(gòu)(設(shè)備)”有關(guān)的專利信息和期刊文獻(xiàn),那么X和Y分別為表1中IPC類目描述文本和CLC類目描述文本(不包含符號“|”,類目層級之間用單個分號連接形成一條句子),之后將X和Y分別利用開源工具包Transformers[22]的分詞器Bert-Tokenizer進(jìn)行分詞,分詞后輸入到基于BERT模型的孿生網(wǎng)絡(luò)中.

      由于IPC類目描述文本和CLC類目描述文本經(jīng)BERT模型后語義表示Ou,Ov均為詞語級別,其長度不一定相同(m≠n),很難直接計算這2個不同維度張量的距離.為了進(jìn)一步對類目描述文本的詞語級別語義表示進(jìn)行抽象,我們初步對2種池化策略進(jìn)行實驗:CLS池化和全局平均池化,最終選擇了全局平均池化提取句子級別的語義表示U和V:

      U=GlobalAveragePooling((u1,u2,…,un)),

      (3)

      V=GlobalAveragePooling((v1,v2,…,vm)),

      (4)

      其中,U∈1×d為IPC類目描述文本句子語義表示,V∈1×d為CLC類目描述文本句子語義表示,GlobalAveragePooling表示在序列長度維度上對輸入向量進(jìn)行全局平均池化.

      利用余弦相似度計算U和V的距離:

      (5)

      其中,余弦相似度Dcos∈[-1,1].

      在IPC和CLC映射階段將U和V的余弦相似度作為IPC類目描述文本和CLC類目描述文本的相似度得分Sw,之后將距離最近的2個類目設(shè)為相互映射.需要說明的是由于歐氏距離的取值范圍為[0,+∞),數(shù)值分散,不易規(guī)范化,因此類目映射時選擇余弦相似度來衡量U和V之間的距離.

      3.2 對比損失函數(shù)

      在模型訓(xùn)練時,對比損失函數(shù)(contrastive loss function)[23]被用來計算2個類目描述文本之間的匹配損失,設(shè)計目的在于使匹配的IPC類目描述文本和CLC類目描述文本在它們語義空間中距離最小,而不匹配的類目描述文本之間距離最大.計算公式為

      (1-T)max(m-DEuc,0)2,

      (6)

      其中,θ為模型參數(shù),N為樣本個數(shù),T為樣本的標(biāo)簽,m為閾值,初步實驗經(jīng)驗設(shè)置為0.5,DEuc為U和V這2個句子向量之間的歐氏距離,其計算公式為

      (7)

      當(dāng)樣本標(biāo)簽T=1時,表示IPC類目描述文本和CLC類目描述文本為相互映射(正例),對比損失函數(shù)使模型調(diào)整參數(shù)以最小化U和V之間的距離;當(dāng)樣本標(biāo)簽T=0時,表示IPC類目描述文本和CLC類目描述文本不相互映射(負(fù)例),此時分2種情況:當(dāng)U和V之間的距離大于閾值m,損失為零則不做優(yōu)化;當(dāng)U和V之間的距離小于閾值m,則對比損失函數(shù)使模型調(diào)整參數(shù)以增大U和V之間的距離到閾值m.

      4 實 驗

      4.1 人工標(biāo)注語料

      由于前人工作均只在2部分類法的部分類目上進(jìn)行實驗測試,語料類目較為單一,很難充分驗證模型的泛化性能.而IPC分類法共有8個類別(部),CLC分類法共有22個類別,每個類別分屬不同的領(lǐng)域,為了構(gòu)建覆蓋面全的映射語料庫,本文以IPC類目為基準(zhǔn),聘請8位專家對IPC和CLC類目映射進(jìn)行人工標(biāo)注,再由一位專家統(tǒng)一對標(biāo)注后的語料進(jìn)行校正和核驗.總共構(gòu)建了包含1 000條完全映射的類目對用于模型測試.

      圖4統(tǒng)計了IPC的8個類別包含的類目數(shù)量情況.可以看出,IPC不同類別的類目數(shù)量有較大差異,如果在IPC的8個類別中使用簡單分層采樣抽取類目進(jìn)行人工映射,容易導(dǎo)致各個類別的采樣類目數(shù)量不平衡.為了保留各個類別之間的類目數(shù)量差異,提高使用其作為訓(xùn)練集訓(xùn)練后模型的泛化能力,借鑒跨語種預(yù)訓(xùn)練模型XLM[24]中對不同語言進(jìn)行隨機(jī)多項式采樣的方法計算IPC的8個類別的類目采樣數(shù)量,多項式采樣公式為

      (8)

      其中,參數(shù)α用來控制采樣比例,參考XLM取α=0.5,M為IPC類別的個數(shù),ni,pi為第i個IPC類別包含的類目數(shù)量和比例,qi即為第i個IPC類別的采樣比例.

      Fig. 4 Category quantity statistics of IPC圖4 IPC的類目數(shù)量統(tǒng)計

      經(jīng)過多項式采樣IPC各個類別后最終得到的類目數(shù)量如表2所示.從表2可以看出,如果使用簡單的分層采樣,IPC各個類別的采樣數(shù)量極不平衡,這不利于后續(xù)模型的充分訓(xùn)練.而使用多項式采樣后,可以緩解這種不平衡的情況.

      Table 2 Number of Samples in Each Category of IPC

      表3展示了一對IPC和CLC數(shù)據(jù)樣例.其中,IPC和CLC都具有嚴(yán)格的層級結(jié)構(gòu),IPC層級結(jié)構(gòu)分別為部、大類、小類,大組和小組,并且各小組的等級由小組類目名稱前的圓點數(shù)決定,r個·表示r點小組,最多有六點小組.本文映射語料庫建立在IPC的大組到六點小組之間,由多項式采樣方法從IPC的大組到六點小組中隨機(jī)采樣進(jìn)行人工標(biāo)注,CLC的類目級別由IPC人工標(biāo)注時決定.此外,在表3中IPC“大組”和“二點小組”行中括號內(nèi)加粗的句子在整個IPC分類法中重復(fù)出現(xiàn).因此,人工標(biāo)注時會進(jìn)行數(shù)據(jù)清洗,剔除類似這類重復(fù)出現(xiàn)的句子,避免實驗數(shù)據(jù)中包含過多的噪音.為詳細(xì)說明人工標(biāo)注語料庫的數(shù)據(jù)組成,例如,當(dāng)人工標(biāo)注表3中與IPC分類號“G06C7/02”相互映射的CLC分類號,專家根據(jù)IPC和CLC類目名稱定位到映射目標(biāo)CLC分類號“TP334.2”,之后專家將IPC分類號“G06C7/02”和CLC分類號“TP334.2”所在類目層級及所有上一級類目層級的類目名稱經(jīng)過數(shù)據(jù)清洗后利用分號連接成一條句子,最終得到IPC類目描述文本“物理;計算;推算;計數(shù);數(shù)字計算機(jī);輸入機(jī)構(gòu);鍵盤;”和CLC類目描述文本“工業(yè)技術(shù);自動化技術(shù)、計算機(jī)技術(shù);計算技術(shù)、計算機(jī)技術(shù);電子數(shù)字計算機(jī);外部設(shè)備;輸入設(shè)備;”,即構(gòu)造得到一條相互映射的語料.需要說明的是,人工標(biāo)注的語料庫中包含一對一和一對多的映射關(guān)系.

      Table 3 Examples of IPC and CLC Hierarchy Structure

      4.2 實驗設(shè)置

      為了測試基于BERT模型的孿生網(wǎng)絡(luò)在IPC和CLC類目映射中的性能,本文采用5折交叉驗證,將1 000條人工標(biāo)注的語料按照4∶1劃分成訓(xùn)練集和測試集,然后將5次結(jié)果取平均作為最終的模型性能.此外,訓(xùn)練集中的負(fù)例由排除正例后隨機(jī)產(chǎn)生,正負(fù)例的比例為1∶1.

      實驗使用預(yù)訓(xùn)練好的BERT上下文語言模型“bert-base-chinese”[22],它由12層Transformer編碼器堆疊而成,多頭自注意力個數(shù)為12,參數(shù)數(shù)量為1.03億,在中文維基百科語料上訓(xùn)練獲得.在基于BERT模型的孿生網(wǎng)絡(luò)訓(xùn)練時超參數(shù)設(shè)置為:批處理大小(batch size)設(shè)為64,學(xué)習(xí)率(learning rate)設(shè)為2E-5,優(yōu)化器使用AdamW,優(yōu)化器參數(shù)設(shè)為默認(rèn)參數(shù),為了減緩模型過擬合,dropout設(shè)為0.1,權(quán)重衰減(weight decay)設(shè)為0.01,使用15%的訓(xùn)練數(shù)據(jù)作為預(yù)熱(warm up),訓(xùn)練至模型收斂為止.

      準(zhǔn)確率(accuracy, AVE)、方差(variance, VAR)和Top-k準(zhǔn)確率(Top-kaccuracy)被用作為模型的評價指標(biāo).將基于BERT模型的孿生網(wǎng)絡(luò)方法(Sia-BERT)與其他8個相關(guān)模型進(jìn)行實驗對比:

      1) Category-Sim.本文復(fù)現(xiàn)的基于匹配計數(shù)的類目相似度映射模型.

      2) Sia-Multi.Reimers等人[25]開源的最佳多語言孿生網(wǎng)絡(luò)模型,該模型命名為“distiluse-base-multilingual-cased-v2”,支持中文處理.

      3) TextCNN.基于Kim提出的TextCNN模型[9],將其實現(xiàn)為TextCNN孿生網(wǎng)絡(luò),其中,卷積核大小為(1,3,5),每個尺寸的卷積核個數(shù)為256.

      4) Bi-TextCNN.基于雙線性池化(bilinear pooling)[26]的TextCNN孿生網(wǎng)絡(luò)模型,卷積核大小為(3,4,5),每個尺寸的卷積核個數(shù)為128.

      5) Bi-LSTM.基于雙向LSTM[27]實現(xiàn)的孿生網(wǎng)絡(luò)模型,Bi-LSTM的層數(shù)為1,隱藏層神經(jīng)元個數(shù)為768.

      6) T-Encoder.基于Transformer[11]編碼器實現(xiàn)的孿生網(wǎng)絡(luò)模型,層數(shù)為2,多頭自注意力個數(shù)為8.

      7) Sia-Multi-Zero.為了驗證孿生網(wǎng)絡(luò)模型在零樣本遷移學(xué)習(xí)方面的映射性能,在Sia-Multi的基礎(chǔ)上不對模型參數(shù)進(jìn)行微調(diào)訓(xùn)練,直接利用模型對1 000條實驗數(shù)據(jù)進(jìn)行映射.

      8) Sia-BERT-Zero.與Sia-Multi-Zero設(shè)置和目的相同,在Sia-BERT的基礎(chǔ)上不對模型進(jìn)行訓(xùn)練,直接進(jìn)行映射.

      4.3 實驗結(jié)果

      不同模型的IPC和CLC類目映射準(zhǔn)確率和5折交叉驗證準(zhǔn)確率的方差如表4所示,由于Category-Sim,Sia-Multi-Zero和Sia-BERT-Zero沒有進(jìn)行訓(xùn)練,因此表中沒有匯報這三者的方差.首先,本文提出的Sia-BERT方法取得了最高平均準(zhǔn)確率94.0%,顯著優(yōu)于其他在訓(xùn)練集上優(yōu)化的深度學(xué)習(xí)模型Bi-TextCNN,Sia-Multi,TextCNN,Bi-LSTM和T-Encoder.這說明本文提出的方法能極大地提高IPC和CLC類目映射的準(zhǔn)確率.其次,Sia-BERT方法的方差值也較小,說明Sia-BERT模型性能十分穩(wěn)定.再之,在訓(xùn)練集上進(jìn)行優(yōu)化的深度學(xué)習(xí)模型其平均準(zhǔn)確率超過80.0%,大幅度優(yōu)于不使用訓(xùn)練數(shù)據(jù)的深度學(xué)習(xí)方法Sia-Multi-Zero和Sia-BERT- Zero,它們平均準(zhǔn)確率僅為55.0%左右,這間接說明我們?nèi)斯?biāo)注的語料質(zhì)量較高,在其上訓(xùn)練的相關(guān)模型性能得到極大的提高.

      Table 4 Accuracy and Variance of Classification Mapping of Different Models

      同為基于預(yù)訓(xùn)練的語言模型,Sia-BERT比Sia-Multi性能高出5.2個百分點,這可能是因為多語言模型在訓(xùn)練時需要輸入多種語言,各種語言之間的差異導(dǎo)致訓(xùn)練時無法在每種語言上都達(dá)到最佳表現(xiàn).對比Bi-TextCNN模型和TextCNN模型,Text-CNN的平均準(zhǔn)確率比Bi-TextCNN高出11.2個百分點,這可能是因為TextCNN編碼的句子向量質(zhì)量已經(jīng)足夠好,如果再進(jìn)行雙線性池化操作導(dǎo)致學(xué)習(xí)到的句子語義被打亂,致使性能下降.而對比TextCNN,Bi-LSTM和T-Encoder三個模型,發(fā)現(xiàn)三者的性能比較接近,但是由于Transformer網(wǎng)絡(luò)本身的優(yōu)勢,其更適合捕捉句子的深層語義信息,因此T-Encoder在這三者中性能表現(xiàn)最好,其在類別C,E和G上都取得了最高的準(zhǔn)確率,分別為94.41%,98.72%和95.97%.

      4.4 實驗分析

      為了進(jìn)一步展示模型的性能,圖5統(tǒng)計了匹配得分前3的類目映射準(zhǔn)確率.Sia-BERT模型的Top-3準(zhǔn)確率達(dá)到99.2%,顯著高于其他相關(guān)模型的Top-3準(zhǔn)確率,且顯著優(yōu)于其本身的Top-1準(zhǔn)確率,這說明Sia-BERT模型性能還有很大的提升空間.

      表5給出了Sia-BERT模型一個IPC類目“A01C 21/00”的CLC映射Top-3實例.從實例可以看出,Sia-BERT模型可以很好地區(qū)分出與IPC類目的描述文本含義比較接近的3個CLC類目“S147.35”“S776.24+1”和“TQ440.2+2”,雖然這3個CLC類目描述文本都與肥料相關(guān),但是與IPC類目正確匹配的CLC類目“S147.35”相似度為0.92(最高為1),且3個CLC類目根據(jù)與IPC類目的相似度不同展現(xiàn)出明顯的數(shù)值差異.

      Fig. 5 Mapping accuracy of Top-3 of each model圖5 各模型Top-3的映射準(zhǔn)確率

      Table 5 Mapping Example of Sia-BERT Model

      4.5 孿生網(wǎng)絡(luò)中損失函數(shù)的消融實驗

      損失函數(shù)引導(dǎo)網(wǎng)絡(luò)參數(shù)優(yōu)化的方向,是孿生網(wǎng)絡(luò)訓(xùn)練中最重要的一環(huán).為了選擇最合適的損失函數(shù),實驗對比了孿生網(wǎng)絡(luò)中3個常用的損失函數(shù),分別為三元組損失(triplet loss)、多重否定排序損失(multiple negatives ranking loss)和對比損失(contrastive loss).表6給出了使用不同損失函數(shù)時模型的性能,其中對比損失函數(shù)的平均準(zhǔn)確率最高,達(dá)到94.0%,多重否定排序損失函數(shù)的性能與對比損失函數(shù)相當(dāng),三元組損失函數(shù)的性能最差,僅為90.7%.雖然多重否定排序損失函數(shù)的性能也較好,但是該損失函數(shù)要求任務(wù)中數(shù)據(jù)為一對一映射關(guān)系,而對比損失函數(shù)沒有強(qiáng)制的映射關(guān)系要求,為減少模型對訓(xùn)練數(shù)據(jù)的限制,本文選取對比損失函數(shù)作為模型優(yōu)化的目標(biāo).

      Table 6 Performance of Siamese Network Based on BERT Model Using Different Loss Functions

      5 結(jié)論與展望

      結(jié)合BERT模型在語義抽象和孿生網(wǎng)絡(luò)在差異表現(xiàn)上的優(yōu)勢,本文提出將基于BERT模型的孿生網(wǎng)絡(luò)應(yīng)用到IPC分類法和CLC分類法的類目映射任務(wù)上,實現(xiàn)2種類目的自動匹配.在高質(zhì)量的人工標(biāo)注語料上進(jìn)行5折交叉驗證實驗,結(jié)果表明所提方法顯著優(yōu)于對比的其他深度學(xué)習(xí)方法.實驗分析揭示基于BERT模型的孿生網(wǎng)絡(luò)能較好地刻畫類目文本的相似度,并在相似文本之間體現(xiàn)出適當(dāng)?shù)牟町愋?未來的工作包括借助現(xiàn)有的文本相似度語料訓(xùn)練模型,利用遷移學(xué)習(xí)將模型應(yīng)用到科技文獻(xiàn)類目匹配任務(wù)中,以克服人工標(biāo)注類目匹配語料耗時耗力的不足.

      猜你喜歡
      分類法類目語料
      本期練習(xí)題類目參考答案及提示
      分類法在高中化學(xué)中的應(yīng)用
      K 近鄰分類法在巖屑數(shù)字圖像巖性分析中的應(yīng)用
      錄井工程(2017年1期)2017-07-31 17:44:42
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      基于貝葉斯分類法的股票選擇模型的研究
      ABC分類法在介入耗材庫存管理中的應(yīng)用
      《中圖法》第5版交替類目研究綜述
      黃三角、長三角、珠三角明、清及民國通志一級類目比較*
      圖書館論壇(2015年2期)2015-01-03 01:43:00
      《苗防備覽》中的湘西語料
      农安县| 闽清县| 临夏市| 皮山县| 喀喇沁旗| 兴和县| 灵宝市| 湖州市| 宿松县| 浑源县| 沂南县| 卢龙县| 永福县| 岳阳市| 固阳县| 连山| 阳西县| 景谷| 布拖县| 西充县| 隆昌县| 吴川市| 廉江市| 怀宁县| 乐清市| 桐城市| 同仁县| 平潭县| 双峰县| 阳新县| 文登市| 巍山| 六盘水市| 新巴尔虎左旗| 重庆市| 藁城市| 中超| 甘德县| 建宁县| 贵南县| 静安区|