基于多視角匹配和比較-聚合框架的文本匹配模型

2022-04-29 03:51:16田學(xué)志王同喜

電腦知識(shí)與技術(shù) 2022年4期

田學(xué)志王同喜

摘要：機(jī)器理解、答案選擇和文本蘊(yùn)涵等許多自然語言處理任務(wù)都需要對(duì)序列進(jìn)行比較。序列間重要單元的匹配是解決這些問題的關(guān)鍵。文章引用了一種基于多角度匹配的方法來改進(jìn)通用的“比較聚合”框架的文本匹配模型。給定兩個(gè)句子p和q，模型首先使用預(yù)訓(xùn)練的詞嵌入模型將其轉(zhuǎn)換為向量矩陣，然后對(duì)其進(jìn)行編碼使每個(gè)詞都能獲得上下文信息，接下來對(duì)編碼后的兩個(gè)句子進(jìn)行多視角匹配，然后使用卷積神經(jīng)網(wǎng)絡(luò)將匹配結(jié)果聚合成定長的匹配向量，最后基于匹配向量進(jìn)行決策。將改進(jìn)后的模型在WiKiQA和Quora數(shù)據(jù)集上進(jìn)行了測試，實(shí)驗(yàn)結(jié)果表明相比原來的模型性能有較大的提升。

關(guān)鍵詞：深度學(xué)習(xí);自然語言處理;文本匹配;文本相似度

中圖分類號(hào)：TP311? ? ?文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2022）04-0103-03

1 引言

最近，對(duì)序列匹配問題的一些研究的一個(gè)共同特點(diǎn)是使用了“比較-聚合”框架[1]。在這樣的框架中，兩個(gè)序列的比較是通過比較兩個(gè)分別代表整個(gè)序列的向量來完成的，然后聚合這些比較結(jié)果，做出最終決定。然而框架[2]中的比較部分的組成單元選擇過于單一，并且比較函數(shù)過于簡單，不能很好比較兩個(gè)序列中的語義相似性。所以在本文中，筆者引入了一種多視角、多比較決策的比較匹配方法[3]。

2 問題描述

可以將QA任務(wù)的每個(gè)例子表示為一個(gè)包含三個(gè)元素的元組（P， Q， y），其中P= （p1， ...， pj， ...， pM）是一個(gè)長度為M的句子，Q= （q1， ...， qi， ...， qN）是另一個(gè)長度為N的句子，y∈ Y是表示P，Q之間關(guān)系的標(biāo)簽。QA任務(wù)可以表示為基于訓(xùn)練集估計(jì)條件概率Pr（y|P， Q），并通過y*= arg maxy∈YPr（y|P， Q）.預(yù)測測試示例的關(guān)系。具體地說在問答匹配任務(wù)中P是一個(gè)問題，Q是一個(gè)候選答案，Y={0，1}，y=1表示Q是對(duì)P的回答，y=0則表示不是。

3 方法

本節(jié)，首先在第3.1小節(jié)介紹比較-聚合框架模型，然后在第3.2小節(jié)中給出引入的多角度匹配操作。

3.1 模型介紹

筆者提出的基于多角度、多比較策略的比較-聚合框架模型來估計(jì)概率分布Pr（y|P， Q）。圖1顯示了模型結(jié)構(gòu)，模型分為以下五個(gè)層次。

1）詞嵌入層

這一層的目標(biāo)是用預(yù)訓(xùn)練的GloVe模型[4]將P和Q中的每個(gè)單詞用d維向量來表示這一層的輸入是兩個(gè)由單詞序號(hào)組成序列，輸出是兩個(gè)由詞向量組成的序列P： [p1， ...，pM]和Q： [q1， ...，qN]。

2）上下文表示層

該層使用遞歸神經(jīng)網(wǎng)絡(luò)來處理這兩個(gè)序列，使用LSTM[5]的改進(jìn)版本，其中只保留用于記憶有意義單詞的輸入門。其中⊙為逐元素相乘，W和b是要學(xué)習(xí)的參數(shù)，Wi、Wu∈Rl×d，bi、bu∈Rl?！癰?eX”表示將偏置向量b重復(fù)X次。

3）比較層

這是模型的核心層。這一層的目標(biāo)是將P的每個(gè)上下文嵌入（時(shí)間步長）與Q的所有上下文嵌入（時(shí)間步長）進(jìn)行比較。如圖1所示，將p的每個(gè)時(shí)間步與q的所有時(shí)間步進(jìn)行多角度匹配操作?得到匹配結(jié)果T=[tp1，...，tpM]，將在第3.2小節(jié)中詳細(xì)介紹?這一操作。這一層的輸出是一個(gè)匹配向量序列（圖1中?操作的正上方），其中每個(gè)匹配向量對(duì)應(yīng)于一個(gè)時(shí)間步與另一個(gè)句子的所有時(shí)間步的匹配結(jié)果。

4）聚合層

該層用于將兩個(gè)序列的匹配向量聚合成一個(gè)定長匹配向量。將匹配向量輸入單層CNN網(wǎng)絡(luò)進(jìn)行聚合得到一個(gè)定長匹配向量。

其中r∈Rn×l，n為CNN的窗口數(shù)，文中使用的CNN結(jié)構(gòu)為text-CNN[6]中所使用的結(jié)構(gòu)相同。

5）預(yù)測層

該層使用了一個(gè)兩層前饋神經(jīng)網(wǎng)絡(luò)并使用SoftMax激活函數(shù)來評(píng)估概率分布Pr（y|P， Q）。

3.2 多角度匹配

多角度匹配首先定義一個(gè)相似度函數(shù)

其中v 1與v 2表示的是兩個(gè)d維度的向量，W ∈ R l × d 是權(quán)重，其維度為（ l ， d ），其中l(wèi)表示的是匹配的角度數(shù)量，結(jié)果m是一個(gè)l維度的向量，m = [ m 1 ， . . . ， m k ， . . . ， m l ]每一個(gè)mk表示的是第k個(gè)角度的匹配結(jié)果，其值的相似度計(jì)算方法如下

如圖2所示，fm有四種策略來求相似度。

（1） Full-Matching.如圖2（a）所示，該策略會(huì)把序列P每個(gè)時(shí)間步pi和序列Q最后一個(gè)時(shí)間步qN進(jìn)行相似度計(jì)算。

（2） Max-Matching.如圖2（b）所示，該策略會(huì)把序列P每個(gè)時(shí)間步pi和序列Q每個(gè)時(shí)間步qj進(jìn)行相似度計(jì)算，最后只保留每個(gè)維度的最大值。

（3） Attentive-Matching.如圖2（c）所示，該策略首先會(huì)計(jì)算序列P每個(gè)時(shí)間步pi和序列Q每個(gè)時(shí)間步qj余弦相似度，然后用該相似度作為對(duì)應(yīng)時(shí)刻的權(quán)重與序列Q加權(quán)平均得到注意力加權(quán)的序列Qmean，最后求序列P每個(gè)時(shí)間步pi和序列Qatt每個(gè)時(shí)間步的相似度。

（4） Max-Attentive-Matching.如圖2（d）所示，該方法和Attentive-Matching類似，只不過把加權(quán)求平均改為求最大值。

將這四種匹配策略應(yīng)用到序列P的每個(gè)時(shí)間步上，并將生成的四個(gè)向量串聯(lián)起來作為序列P的每個(gè)時(shí)間步的匹配向量。

4 實(shí)驗(yàn)及結(jié)果

4.1 數(shù)據(jù)集

本文采用公開的WikiQA數(shù)據(jù)集和Quora數(shù)據(jù)集，其中WikiQA數(shù)據(jù)集由問題ID、問題、回答ID、回答和標(biāo)簽組成，標(biāo)簽為0表示不是答案，為1則表示是答案，數(shù)據(jù)集有20360條訓(xùn)練數(shù)據(jù)、2733條驗(yàn)證數(shù)據(jù)、6165條測試數(shù)據(jù)。而Quora數(shù)據(jù)集同樣由以上特征組成，但是標(biāo)簽為0表示語義不同，為1則表示語義相同，數(shù)據(jù)集有404000條數(shù)據(jù)，本文按8：1：1將其劃分為訓(xùn)練集、驗(yàn)證集、測試集。

4.2 模型參數(shù)設(shè)置

詞嵌入層使用使用預(yù)訓(xùn)練的glove.6B.300d，里面包含常用英文單詞的詞向量，向量維度為300，問題長度為30，答案長度為90，batch_size為64，所有隱藏層節(jié)點(diǎn)數(shù)均為128，dropout為0.5，學(xué)習(xí)率為0.001，匹配角度數(shù)為8。

4.3 實(shí)驗(yàn)結(jié)果及分析

首先驗(yàn)證匹配角度數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響，將匹配角度數(shù)量分別設(shè)置為{4，8，12，16，20}，在其他參數(shù)不變的情況下在Quora數(shù)據(jù)集上進(jìn)行測試。結(jié)果如圖3所示，可以看到模型就算是只增加4個(gè)匹配角度也能有較大的提升，但不宜增加過多，匹配角度數(shù)量大于16之后雖然還能提升但會(huì)增加模型訓(xùn)練難度。

筆者還驗(yàn)證了四種匹配策略在該模型上的有效性。每次測試都會(huì)去除一種匹配決策，并與全匹配策略和改進(jìn)之前的策略進(jìn)行比較，在Quora數(shù)據(jù)集上測試。結(jié)果如表1所示，從表中可以看出去除任何一種匹配策略都將影響模型的性能，并且明顯優(yōu)于改進(jìn)之前的策略，驗(yàn)證了匹配策略在模型中的有效性。

最后對(duì)比了模型在采用改進(jìn)之前的策略和改進(jìn)之后的策略在WikiQA數(shù)據(jù)集上的測試結(jié)果，結(jié)果如表2所示?？梢钥闯龈倪M(jìn)匹配策略之后模型性能有較大的提升。

5 結(jié)束語

本文將一種基于多視角的匹配策略引用到基于“比較聚合”框架的文本匹配模型中在性能上取得了較大的提升，但仍然有很多提升空間，還可以在多個(gè)粒度上來表達(dá)句子并在不同粒度上進(jìn)行匹配，在上下文表示層還可以使用更高級(jí)復(fù)雜的基于RNN的網(wǎng)絡(luò)來提高模型性能。

參考文獻(xiàn)：

[1] Wang S， Jiang J. A compare-aggregate model for matching text sequences[J]. arXiv preprint arXiv：1611.01747， 2016.

[2] Wang Z， Bian W， Li S， et al. Improved Compare-Aggregate Model for Chinese Document-Based Question Answering[C]//National CCF Conference on Natural Language Processing and Chinese Computing. Springer， Cham， 2017： 712-720.

[3] Wang Z， Hamza W， Florian R. Bilateral multi-perspective matching for natural language sentences[J]. arXiv preprint arXiv：1702.03814， 2017.

[4] 周艷平，朱小虎.基于正負(fù)樣本和Bi-LSTM的文本相似度匹配模型[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2021，30（4）：175-180.

[5] 孟金旭，單鴻濤，萬俊杰，賈仁祥.BSLA：改進(jìn)Siamese-LSTM的文本相似模型[J/OL].計(jì)算機(jī)工程與應(yīng)用：1-10[2022-01-04].http：//kns.cnki.net/kcms/detail/11.2127.TP.20210726.0907.014.html.

[6] 郭知鑫，鄧小龍.基于BERT-BiLSTM-CRF的法律案件實(shí)體智能識(shí)別方法[J].北京郵電大學(xué)學(xué)報(bào)，2021，44（4）：129-134.

收稿日期：2021-09-15

作者簡介：田學(xué)志（1998—），男，湖北武漢人，碩士，學(xué)生，研究方向?yàn)樽匀徽Z言處理。