基于多視角注意力機(jī)制的專利匹配方法

2022-09-05 09:26:50殷亞玨高曉雅王晶晶李壽山徐邵洋曾雨豪

中文信息學(xué)報 2022年7期

殷亞玨，高曉雅，王晶晶，李壽山，徐邵洋，曾雨豪

(蘇州大學(xué) 自然語言處理實驗室，江蘇蘇州 215006)

0 引言

隨著科技不斷發(fā)展，人們對知識產(chǎn)權(quán)保護(hù)越來越重視。專利審核是知識產(chǎn)權(quán)保護(hù)的一個重要環(huán)節(jié)。審核過程中為了保證申請專利產(chǎn)權(quán)的唯一性，需要對申請專利進(jìn)行人工審查。

專利檢索是一項具有重要意義的技術(shù)，能夠協(xié)助審查員高效完成專利審核任務(wù)，而專利匹配是專利檢索技術(shù)中的一項基本環(huán)節(jié)。如何高效快速地審核當(dāng)前申請專利有無相似的已申請專利，已經(jīng)受到業(yè)界的廣泛關(guān)注。同時，專利匹配屬于文檔級語義匹配任務(wù)，該任務(wù)是自然語言處理領(lǐng)域的基礎(chǔ)任務(wù)，具有廣泛的應(yīng)用場景，如網(wǎng)頁檢索、醫(yī)療案例檢索等[1]。因此，該任務(wù)也受到學(xué)術(shù)界的廣泛關(guān)注。傳統(tǒng)的文檔級語義匹配任務(wù)，一部分使用TF-IDF等技術(shù)構(gòu)建特征結(jié)合余弦相似性[2]的度量方法, 然而，這種技術(shù)沒有考慮到文字本身的實際語義，單純以詞頻衡量詞的重要性，顯得不夠全面。近些年來，神經(jīng)網(wǎng)絡(luò)[3]等深度學(xué)習(xí)的方法在文檔級語義匹配任務(wù)上扮演了重要的角色。該方法能考慮句子的時序關(guān)系，并結(jié)合語義，明顯提升語義匹配任務(wù)的性能。然而，已有的神經(jīng)網(wǎng)絡(luò)方法僅考慮計算兩個句子之間兩兩的匹配度，忽略了文檔的整體信息。例如，在表1中，專利A和專利B是審查員判斷出來的兩個相似專利。在算法實現(xiàn)中，如果我們僅僅使用標(biāo)題信息，例如，“切片裝置”“沖孔機(jī)構(gòu)”等關(guān)鍵詞來判斷兩個專利的相似度，算法可能會把兩個專利判斷為不相似專利，從而得到錯誤的結(jié)論。因此，一個更好的專利匹配方法需要能夠利用整個專利里面不同的文本信息(如標(biāo)題、摘要、聲明等)。如何使用專利不同字段的多文本信息是專利匹配面臨的一項挑戰(zhàn)。

表1 專利各個關(guān)鍵字段特征的描述

此外，不同字段的文本信息對于最終的匹配具有不一樣的重要性。如圖1所示，雖然根據(jù)專利摘要和聲明信息可以判斷專利是匹配的，但是模型可能還是會傾向于關(guān)注標(biāo)題信息，最終將其預(yù)測為不匹配。因此，如何在模型中充分考慮不同信息對于計算匹配的重要程度是專利匹配的面臨另一項挑戰(zhàn)[4]。

圖1 基于注意力感知的多視角學(xué)習(xí)方法框架圖

為了應(yīng)對以上挑戰(zhàn)，本文設(shè)計了一個基于注意力感知的多視角學(xué)習(xí)模型(Multi-View Attentive Network，MVAN)。具體而言，首先，利用BERT[5]模型作為編碼層，對每個待匹配專利對各個視角的匹配特征進(jìn)行提取(標(biāo)題、摘要、聲明)。其次，針對如何體現(xiàn)不同字段文本信息的重要性的挑戰(zhàn)，使用多頭注意力[6]機(jī)制融合多個單視角匹配特征，從而得到多視角匹配特征。最后，針對如何使用專利不同字段的多文本信息的挑戰(zhàn)，本文設(shè)計了一種多視角學(xué)習(xí)機(jī)制，聯(lián)合學(xué)習(xí)單視角和多視角的匹配特征，來優(yōu)化融合后的多視角匹配結(jié)果?？傮w而言，本文的主要貢獻(xiàn)為： ①首次使用深度學(xué)習(xí)方法進(jìn)行專利匹配任務(wù)； ②利用多頭注意力機(jī)制融合專利不同字段信息； ③設(shè)計了一個多視角學(xué)習(xí)機(jī)制，使模型可以充分利用所有信息。

本文的組織結(jié)構(gòu)為: 第1節(jié)介紹專利匹配的相關(guān)工作；第2節(jié)介紹注意力感知的多視角學(xué)習(xí)模型的具體實現(xiàn)方法；第3節(jié)介紹實驗結(jié)果數(shù)據(jù)并對結(jié)果進(jìn)行分析；最后一節(jié)總結(jié)全文并對未來進(jìn)行展望。

1 相關(guān)工作

1.1 專利匹配

專利匹配是專利檢索的重要環(huán)節(jié)，傳統(tǒng)的專利匹配大多基于規(guī)則模板或特征構(gòu)建的方式，例如，布爾檢索[7]將文本匹配轉(zhuǎn)化成詞組間的相互匹配；BM25[8]計算查詢和文檔之間的相關(guān)性，對查詢的分詞進(jìn)行語素分析，通過語素權(quán)重判定進(jìn)一步獲得語素與文檔的相關(guān)性判定；向量空間模型[9]采用TF-IDF框架計算詞語權(quán)重后計算文檔和查詢的相似度作為查詢和文檔間的相關(guān)性度量；互信息[10]作為特征詞和類別之間的測度，利用互信息理論進(jìn)行特征抽取，度量文本間的相互語義關(guān)系，結(jié)合統(tǒng)計信息的計算實現(xiàn)文本間的語義關(guān)系的衡量。以上特征提取方法幾乎都是基于統(tǒng)計學(xué)的，其中一個主要缺陷就是需要用一個很龐大的訓(xùn)練集才能獲得近乎所有的對分類起關(guān)鍵作用的特征，這將使得現(xiàn)實應(yīng)用中特征提取的效率非常低，也會直接影響整個文本匹配任務(wù)的效率。

不同于以上的所有研究，本文致力于使用深度學(xué)習(xí)方法解決匹配任務(wù)，從語義角度去學(xué)習(xí)匹配，同時本文也是應(yīng)用深度學(xué)習(xí)的方法解決專利匹配任務(wù)的首次嘗試。

1.2 文檔級語義匹配

文檔級語義匹配(即專利匹配)是自然語言領(lǐng)域的基礎(chǔ)任務(wù)，一直受到廣泛的關(guān)注，有一些研究者致力于研究機(jī)器學(xué)習(xí)方法，例如，Yang利用SVM[11]算法構(gòu)建分類器對樣本所屬類別進(jìn)行決策分類；Adwait首次將最大熵模型應(yīng)用于文本分類，并且使用了MEDEFAULT和MEIFS兩種方法對基于最大熵[12]模型和基于決策樹[13]的分類方法進(jìn)行比較。這些方法均使用了局部的信息，或者僅對文本表征學(xué)習(xí)進(jìn)行改進(jìn)，其使用的特征對于句子層面或許是足夠的，而對于專利這種基于文檔層面的語料是很難捕獲到充足的信息的。

不同于以上的所有研究，本文提出了一個基于注意力感知[14]的多視角學(xué)習(xí)模型(Multi-View Attentive Network，MVAN)，旨在使用多視角學(xué)習(xí)方法，使模型捕捉專利文本所有視角的匹配特征。

2 方法

本文提出了一個基于注意力感知的多視角學(xué)習(xí)模型MVAN。如圖1所示，MVAN模型主要由3個部分組成： ①編碼層：利用BERT模型得到三種單視角匹配特征(標(biāo)題、摘要、聲明)； ②注意力感知融合層：輸入單視角匹配特征，通過多頭注意力機(jī)制得到多視角匹配特征； ③解碼預(yù)測層：輸入單視角特征及融合后的多視角特征，分別解碼后預(yù)測得到對應(yīng)的匹配結(jié)果，最后通過多視角學(xué)習(xí)機(jī)制，利用單視角結(jié)果優(yōu)化多視角結(jié)果，并將多視角優(yōu)化結(jié)果視為最終的匹配結(jié)果。

2.1 多視角編碼層

由于BERT是目前自然語言處理領(lǐng)域中學(xué)習(xí)文本表示性能最好的模型之一，本文中，我們使用專利語料預(yù)訓(xùn)練后的BERT模型(1)在實驗中，我們使用100萬條專利語料在BERT-base模型的基礎(chǔ)上利用預(yù)測遮蔽詞和預(yù)測下一句兩個上游任務(wù)重新預(yù)訓(xùn)練。得到專利文本的單視角匹配特征表示。

具體而言，對于給定待匹配專利對的標(biāo)題序列xT1、xT2，摘要序列xA1、xA2，聲明序列xC1、xC2，根據(jù)BERT中的語義匹配任務(wù)構(gòu)建輸入，即在句子的開頭插入“[CLS]”標(biāo)簽，句子對之間和句子末尾分別插入“[SEP]”標(biāo)簽，如式(1)～式(4)所示。

(1)

(2)

(3)

(4)

其中，qT、qA、qC分別是待匹配專利對的標(biāo)題、摘要及聲明的輸入詞序列。

其中，μ∈{T,A,C}，T表示標(biāo)題，A表示摘要，C表示聲明。

2.2 注意力感知融合層

其中，stack(:)表示將三個單視角匹配特征在時間維度上做拼接操作，MA(:)為多頭注意力方法，多頭注意力機(jī)制中多頭個數(shù)H=8，權(quán)重矩陣WO∈Hd×d用于融合多頭結(jié)果。

2.3 解碼預(yù)測層

輸入單視角特征及融合后的多視角特征，各自經(jīng)過線性變換后使用sigmoid函數(shù)[15]得到對應(yīng)的匹配結(jié)果，如式(10)、式(11)所示。

(10)

(11)

其中，yxi是專利樣本xi匹配的真實結(jié)果，Wμ∈d，WM∈d，bμ∈，bM∈是解碼層權(quán)重矩陣和偏置。在模型的預(yù)測過程中，我們僅使用多視角特征得到的匹配結(jié)果pM(yxi|xi)作為最終的結(jié)果。

2.4 訓(xùn)練與優(yōu)化策略

在訓(xùn)練過程中，模型可能會逐漸傾向于選擇一部分特征進(jìn)行學(xué)習(xí)，而利用多視角學(xué)習(xí)方法，可以幫助模型充分利用所有的特征信息[16]。因此，本文模型的目標(biāo)函數(shù)由基于單視角匹配特征得到的代價函數(shù)和基于多視角匹配特征得到的代價函數(shù)組成。函數(shù)定義如式(12)、式(13)所示。

其中，LT，LA，LC是單視角匹配特征得到的代價函數(shù)，LM是多視角匹配特征得到的代價函數(shù)，權(quán)重α，β，γ，δ用來調(diào)節(jié)各視角結(jié)果的平衡。

3 實驗

本節(jié)著重介紹本文方法在專利語料數(shù)據(jù)集上的實驗結(jié)果。

3.1 實驗設(shè)置

本文中所使用的數(shù)據(jù)集是來自專利局的數(shù)據(jù)。該數(shù)據(jù)集包含了超過5 000條專利匹配的樣本，其中待匹配專利對的正負(fù)樣本數(shù)目是相同的。專利匹配的正樣本是由專利審查員通過審查給出的，專利考題和待匹配專利如果是匹配的，那么將會被專利審查員標(biāo)記為一條正樣本；專利匹配的負(fù)樣本是從海量的專利語料庫中隨機(jī)抽取出的任意一條與考題不匹配的專利。每一對待匹配的專利樣本由專利的標(biāo)題、摘要、權(quán)利聲明構(gòu)成，最后附加上考題和待匹配專利是否匹配這一標(biāo)簽。語料數(shù)據(jù)集中將專利樣本按標(biāo)簽分成兩類，實驗中標(biāo)簽“0”代表負(fù)樣本，標(biāo)簽“1”代表正樣本。

我們首先使用BERT模型作為文本的編碼層，向量維度為768。其次，在對比實驗中，我們使用隨機(jī)向量初始化詞向量，向量維度為512。模型中所有層的權(quán)重由Glorot正則化[17]初始化，Dropout比例為0.3，Batch大小為32，其余超參根據(jù)驗證集結(jié)果調(diào)整優(yōu)化。另外，我們采用學(xué)習(xí)率為0.000 02的Adam優(yōu)化器優(yōu)化任務(wù)中基于專利匹配的自定義損失函數(shù)，其內(nèi)部用來調(diào)節(jié)各視角結(jié)果的平衡權(quán)重α，β，γ，δ分別根據(jù)對比實驗結(jié)果進(jìn)行調(diào)參優(yōu)化。

實驗中，我們采用準(zhǔn)確率和F1值作為衡量專利匹配性能的評價指標(biāo)。一般來說，當(dāng)深度學(xué)習(xí)的模型過于復(fù)雜時，會導(dǎo)致其專注于解釋訓(xùn)練數(shù)據(jù)，從而犧牲對未來數(shù)據(jù)的解釋能力。也是說訓(xùn)練數(shù)據(jù)效果非常好，但測試數(shù)據(jù)效果大打折扣，即過擬合現(xiàn)象[18]?？紤]到深層神經(jīng)網(wǎng)絡(luò)因為其結(jié)構(gòu)相較傳統(tǒng)模型有很強(qiáng)的表達(dá)能力，本文統(tǒng)計了250對、500對和2 500對匹配樣本在進(jìn)行匹配任務(wù)時的準(zhǔn)確率及F1值進(jìn)行更全面的對比，表2為本文實驗的專利語料數(shù)據(jù)分布情況。

表2 本文處理后的專利數(shù)據(jù)分布

3.2 實驗結(jié)果

為了驗證本文MVAN方法對于專利匹配語料任務(wù)的有效性，我們對比了幾種常見的文本匹配基線方法：

Siamese-LSTM[19]：一個基于LSTM模型的文本表示模型，分別利用LSTM對待比較的句對中的句子進(jìn)行建模，然后計算兩個隱層向量的曼哈頓距離來評價句子相似度。由于LSTM建模過程一致，因此可以用全部句子訓(xùn)練LSTM的參數(shù)，然后把參數(shù)共享給左右兩個LSTM網(wǎng)絡(luò)。其中，①Siamese-LSTM(標(biāo)題): 僅用標(biāo)題單視角特征作為輸入進(jìn)行專利匹配任務(wù)； ②Siamese-LSTM(摘要)：僅把摘要單視角特征作為輸入進(jìn)行專利匹配任務(wù)； ③Siamese-LSTM(聲明)：僅把聲明單視角特征作為輸入進(jìn)行專利匹配任務(wù)； ④Siamese-LSTM(全字段)：使用標(biāo)題、摘要、聲明三個特征拼接作為輸入進(jìn)行專利匹配任務(wù)； ⑤Siamese-LSTM(融合方法)：由Siamese-LSTM直接拼接獲取專利多視角的匹配特征進(jìn)行專利匹配任務(wù)； ⑥Siamese-LSTM(權(quán)重方法)：使用多頭注意力機(jī)制融合由Siamese-LSTM拼接得到的專利多視角的匹配特征進(jìn)行專利匹配任務(wù)。

BERT：自然語言處理領(lǐng)域中比較常用、性能較好且使用方便的文本編碼模型，模型基于注意力網(wǎng)絡(luò)和Transformer層，Transformer作為算法的主要框架，能更徹底地捕捉語句中的雙向關(guān)系；模型通過遮蔽詞預(yù)測和下一句預(yù)測兩個自監(jiān)督學(xué)習(xí)任務(wù)學(xué)習(xí)文本的表示，用于下游具體的自然語言處理任務(wù)。在本實驗中，我們通過加載BERT預(yù)訓(xùn)練好的模型進(jìn)行專利匹配任務(wù)。①BERT(標(biāo)題)：僅用標(biāo)題單視角特征作為輸入進(jìn)行專利匹配任務(wù)； ②BERT(摘要)：僅用摘要單視角特征作為輸入進(jìn)行專利匹配任務(wù)； ③BERT (聲明)：僅用聲明單視角特征作為輸入進(jìn)行專利匹配任務(wù)； ④BERT(全字段)：使用標(biāo)題、摘要、聲明三個特征拼接作為輸入進(jìn)行專利匹配任務(wù)。

MVAN w/o MA：本文方法，但是并未使用多頭注意力機(jī)制融合多個視角的特征，直接拼接BERT得到多視角匹配特征。

MVAN w/o MVL：本文方法，但是并未采用多視角學(xué)習(xí)機(jī)制，而是直接使用單個損失函數(shù)優(yōu)化多頭注意力機(jī)制融合得到的多視角匹配特征。

3.3 實驗例子分析

表3給出了本文方法同基準(zhǔn)方法的比較實驗結(jié)果。

表3 本文方法與基準(zhǔn)方法的性能比較

從表3可以看出，與一系列基準(zhǔn)方法的性能相比，本文采用的模型明顯效果更好。首先，通過對比表3基線方法中的BERT模型和Siamese-LSTM結(jié)果，不難發(fā)現(xiàn)大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的BERT模型在性能上明顯優(yōu)于Siamese-LSTM的基準(zhǔn)方法，因此在本文實驗中使用BERT模型作為文本的編碼層，以此提取待匹配專利樣本的特征[20]。此外，使用單個特征(標(biāo)題，摘要，聲明)進(jìn)行匹配時，模型關(guān)注的內(nèi)容趨向單一化，很難把握到專利樣本的整體信息，在僅選擇一部分信息作為匹配判斷依據(jù)的情況下，專利匹配的效果不如結(jié)合專利多個匹配特征的方法好。其中，結(jié)合專利多個匹配特征的方法有拼接專利的各個字段作為專利匹配任務(wù)的輸入與融合專利各個字段的匹配特征進(jìn)行專利匹配兩種。僅僅拼接專利的各個字段作為輸入難以讓模型很好地關(guān)注到專利各個字段的匹配信息，從而存在一定的局限性。因此，采用融合單視角匹配特征得到多視角匹配特征的方法進(jìn)行專利匹配任務(wù)具有更好的表現(xiàn)。

MVAN模型是基于BERT模型進(jìn)行改進(jìn)的，首先由于當(dāng)預(yù)訓(xùn)練模型作用于相似度匹配任務(wù)時，其性能與一般基線模型相比達(dá)到了新的高度。因此，MVAN模型利用BERT模型對于專利語料進(jìn)行編碼，對其進(jìn)行更好的表示，然后將三個特征進(jìn)行融合，共享一套參數(shù)進(jìn)行優(yōu)化。

其次，通過對比我們的多視角學(xué)習(xí)方法和僅僅使用BERT模型利用專利的單個特征進(jìn)行匹配的實驗結(jié)果，我們可以看出：由于同時利用了專利的多個特征進(jìn)行匹配任務(wù)，能夠讓模型學(xué)習(xí)到專利語料多方面的信息，這使得在大部分情況下我們的模型都能夠比僅使用單個特征進(jìn)行匹配任務(wù)的結(jié)果更好。

我們的MVAN模型在性能上明顯優(yōu)于所有基線模型，在500條專利數(shù)據(jù)集上的準(zhǔn)確率相較于最好的基準(zhǔn)方法BERT提高了2.6%，1 000條數(shù)據(jù)集上提高了5.6%，5 000條提高了2.1%，這表明我們的方法適用于大規(guī)模語料上的專利匹配任務(wù)。

最后，本文進(jìn)行了消融實驗，實驗結(jié)果如表4、表5所示?？梢钥闯觯?/p>

表4 實驗結(jié)果樣例分析1

表5 實驗結(jié)果樣例分析2

(1) 本文提出的MVAN模型相較于MVAN w/o MA方法在性能上有明顯提升，其中250對專利樣本上的準(zhǔn)確率提高了1.1%，500對專利樣本上準(zhǔn)確率提高了1.6%，2 500對專利樣本上準(zhǔn)確率提高了0.7%。這驗證了多頭注意力機(jī)制能夠更好地捕獲對于專利多視角特征的表示。

(2) 本文提出的MVAN模型相較于MVAN w/o MVL方法在性能上有明顯的提升，其中250對專利樣本上的準(zhǔn)確率提高了6.1%，500對專利樣本上準(zhǔn)確率提高了2.1%，2 500對專利樣本上準(zhǔn)確率提高了1.3%。這驗證了多視角學(xué)習(xí)的方法能夠適用于專利匹配任務(wù)。

因此，本文提出的多視角學(xué)習(xí)思想在作用于專利這種具有多個關(guān)鍵字段信息語料的匹配任務(wù)上是非常有意義的。

4 總結(jié)

本文提出了一種基于注意力感知的多視角學(xué)習(xí)模型(MVAN)，用于解決基于多字段文本信息的專利匹配任務(wù)。具體而言，首先，使用BERT模型提取待匹配專利對的單視角匹配特征；其次，使用多頭注意力機(jī)制融合單視角匹配特征，得到多視角匹配特征；最后，基于多視角學(xué)習(xí)方法，在模型訓(xùn)練過程中聯(lián)合學(xué)習(xí)單視角匹配特征和多視角匹配特征得到的結(jié)果，對多視角匹配特征的結(jié)果進(jìn)行優(yōu)化，并將其視為最終的結(jié)果。實驗結(jié)果表明，本文提出的MVAN模型在專利匹配任務(wù)中性能明顯優(yōu)于其他基準(zhǔn)方法。

未來工作中，我們擬探索利用專利的正文信息進(jìn)一步提升專利匹配的性能。此外，還將嘗試將本文的模型應(yīng)用到其他文檔級匹配任務(wù)中，如法律文檔匹配等。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看