融合語境語義差異特征的短文本匹配模型

2023-02-10 06:31:42張文慧汪美玲侯志榮

北京大學學報（自然科學版） 2023年1期

關(guān)鍵詞：字面語句分值

張文慧汪美玲侯志榮

北京大學學報(自然科學版) 第59卷第1期 2023年1月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 1 (Jan. 2023)

10.13209/j.0479-8023.2022.071

2022-05-13;

2022-08-04

融合語境語義差異特征的短文本匹配模型

張文慧汪美玲侯志榮?

工商銀行金融科技研究院, 北京 100029; ?通信作者, E-mail: houzr@tech.icbc.com.cn

在字面相同語義不同和字面不同語義相同的情況下, 短文本匹配往往不能準確地得到語句間語義的相似程度。針對這一問題, 提出一種融合語境語義差異特征的短文本匹配模型。該模型以 BERT 系列的語言模型作為基礎(chǔ)匹配模型, 采用一種新的 Diff Transformer 結(jié)構(gòu)作為差異特征提取器, 并以門控方式融合基礎(chǔ)語義表示和差異特征表示來提升匹配效果。在中文測試數(shù)據(jù)集上的實驗結(jié)果表明, 所提出的模型可以達到先進模型的效果。

短文本匹配; 差異特征; 語境語義; Diff Transformer

短文本匹配(short text matching)是自然語言理解的一個基本問題, 其研究目標是判定兩條文本語句是否語義相同, 常應用于信息檢索以及智能問答等場景, 核心任務是語句的表征及其相似程度的度量。自然語言的歧義性和多樣性導致短文本匹配研究面臨字面不同而語義相同以及字面相同而語義不同兩大難點[1]。字面相同而語義不同指兩個語句中某些詞語字面一致, 但置于不同的語境, 導致詞義隨之變化以及語句的語義不同。例如在語句“買一斤蘋果”和“買一部蘋果”中, “蘋果”的詞義不同, 進而兩個語句的語義不相似。字面不同而語義相同指兩個語句中某些詞語字面不一致, 但互為同義詞, 對應語句的語義相似。例如在語句“您多大年紀了”和“您今年貴庚？”中, “年紀”和“貴庚”互為同義詞, 兩個語句的語義相似。

目前的研究主要從增強模型對短文本的語義表征能力入手, 從設(shè)計模型結(jié)構(gòu)、借助外部知識以及增加差異特征 3 個角度探索解決方案。

在模型結(jié)構(gòu)設(shè)計方面, 基于表示的結(jié)構(gòu)和基于交互的結(jié)構(gòu)是目前文本匹配模型的主流結(jié)構(gòu)。基于表示的模型結(jié)構(gòu)分別對文本語句進行表征, 然后進行語義相似度量。Huang 等[2]首次提出 DSSM 模型結(jié)構(gòu), 此后的研究大都以該結(jié)構(gòu)為主, 比如 CDSSM模型[3]?；诮换サ哪Ｐ徒Y(jié)構(gòu)先對兩個文本語句進行交互匹配, 然后再獲取文本表征, 進行語義相似判斷。Hu 等[4]首次提出 ARC-II 模型結(jié)構(gòu)。交互匹配的結(jié)構(gòu)設(shè)計極大地提升了文本語義表征能力, 是目前研究的主流模型結(jié)構(gòu)。注意力機制與交互匹配結(jié)構(gòu)相結(jié)合, 使得文本匹配效果再次得到提升, 比較經(jīng)典的模型有 ESIM[5]以及各類基于語言模型進行編碼的文本匹配模型。

在借助外部知識方面, 通過構(gòu)建外部知識以豐富語義的方式來增強文本語義表征能力。外部知識通常為結(jié)構(gòu)化知識庫[6–7], 其構(gòu)建需要大量人工參與, 來增加匹配模型訓練的成本。

在增加差異特征方面, 將字面、語法以及語義等層面的差異信息作為特征添加到匹配模型中, 達到增強匹配效果的目的。在基于語法的差異特征提取工作中, 針對句法關(guān)系和依存關(guān)系等語法類型提取差異特征并增強文本的表征。在句法關(guān)系方面, Qiu 等[8]和 Yadav 等[9]將未匹配的謂詞三元組作為句子匹配的差異特征, 通過標記差異特征的重要程度來判斷語句是否相似。在依存關(guān)系方面, Lintean等[10]通過計算共同依賴項和非共同依賴項在分值上的比值進行相似度判斷。Chi 等[11]將共同依賴項和非共同依賴項進行編碼后輸入神經(jīng)網(wǎng)絡, 進行語義判斷。在基于語義的差異特征提取工作中, 提取語句中詞語的語義差異, 并增強文本的語義表征。Wang 等[12]通過靜態(tài)編碼方式提取詞義表示差異, 然后通過卷積網(wǎng)絡學習新的語義表征。Liu 等[13]提出將語句間的非公共詞匯輸入編碼器來獲得差異特征表示。

在以上三類方法中, 增加差異特征的方法可適配到匹配模型的任何結(jié)構(gòu)上, 也不需要借助外部知識。并且, 以特征增強的方式提升匹配效果, 對應的模型復雜度和訓練成本也會更小。然而, 在目前研究中, 基于語法的差異特征提取只能捕獲淺層差異信息, 且受限于語法分析器的分類上限?；谡Z義的差異特征提取只能捕獲到字面不同語義相同這一種情況下的差異信息, 并且大多使用靜態(tài)編碼, 未考慮詞匯在具體語境下的詞義[12–13]。

針對上述問題, 本文從語境語義角度提取差異特征, 捕獲深層差異信息, 構(gòu)建一種融合語境語義差異特征的短文本匹配模型。該模型在不借助于外部知識的前提下, 可以提取字面不同而語義相同和字面相同語義不同而兩種情況下短文本間語境語義的差異特征, 通過網(wǎng)絡學習進行差異特征表示, 與文本匹配的語義表示融合后進行語義判斷。

1 研究方法

1.1 模型框架

如圖 1 所示, 本文提出的模型框架, 由以下 4部分組成: 句對語境編碼器、差異特征提取器、差異特征編碼器以及門控融合。句對語境編碼器選擇BERT[14]系列語言模型作為基礎(chǔ)短文本匹配模型, 輸出語義匹配的向量表示, 同時也輸出文本的動態(tài)編碼。差異特征提取器基于 Transformer[15]改造得到, 被稱為 Diff Transformer。Diff Transformer 包含差異分值計算、差異類型判別和差異特征提取 3 部分, 以判別的方式, 提取不同類型下的差異特征。差異特征編碼器利用卷積神經(jīng)網(wǎng)絡, 從提取到的差異特征中學習到關(guān)鍵差異特征并輸出特征表示。最后用門控方式, 將文本匹配的語義表示和差異特征表示融合后, 輸出相似度判斷結(jié)果。

1.2 句對語境編碼器

其中,–1表示BERT中第–1層Transformer的隱層輸出。

1.3 差異特征提取器

差異特征提取器從BERT的第層Transformer開始, 并行構(gòu)建層Diff Transformer。Diff Trans-former在Transformer結(jié)構(gòu)上進行兩點改造: 1)將注意力分值計算改造為差異分值計算; 2)將 MASK 矩陣的掩碼功能改造為差異類型判別功能。最后, 基于差異類型的判別結(jié)果, 選擇對應的差異分值, 提取得到差異特征, Diff Transformer的詳細結(jié)構(gòu)如圖2所示。

圖1 模型框架圖

1.3.1 差異分值計算

在 Transformer 的網(wǎng)絡結(jié)構(gòu)中, 自注意力機制分值矩陣(self_attention_score)的計算過程以及點積相似度(dot_similarity_score)的計算過程都通過內(nèi)積實現(xiàn):

在自注意力分值的計算過程中, 矩陣與的轉(zhuǎn)置相乘, 得到中每個 token 向量以及中每個token 向量的點積相似度, 因此得到的自注意力分值同時也是相似度量的分值。通過式(3)得到語句S1 的 token 序列和 S2 的 token 序列之間的相似分值矩陣, 分值范圍為 0～1。本文定義 Sim_score∈Rí(=+)表示相似分值矩陣, Dissim_score∈Rí表示不相似分值矩陣:

Sim_score = self_attention_score, (4)

Dissim_score = (1 – Sim_score)。 (5)

Diff Transformer 結(jié)構(gòu)的示例如圖 3 所示,Sim_ score 矩陣中的分值表示語句 S1 與語句 S2 的 token序列之間的相似分值, Dissim_score 矩陣中的分值表示語句 S1 與語句 S2 的 token 序列之間的不相似分值。

1.3.2 差異類型判別

在差異分值計算模塊中, 我們得到語句 S1 的token 序列和語句 S2 的 token 序列之間的相似分值矩陣和不相似分值矩陣, 但是對于同一個 token, 最終只保留一個分值, 因此設(shè)計差異類型判別矩陣來判斷這些 token 對應的差異類型, 根據(jù)判別結(jié)果, 選擇保留相似分值或不相似分值。判別規(guī)則如下。

1)判別的兩個 token 來自不同的語句。

2)當兩個 token 所在的詞語字面一致時, 需考慮語義差異的程度, 用不相似度量分值表示。

3)當兩個 token 所在的詞語字面不一致時, 需考慮語義相似的程度, 用相似度量分值表示。

圖2 Diff Transformer結(jié)構(gòu)圖

圖3 Diff Transformer示例圖

基于設(shè)定的判別規(guī)則, 輸入語句 S1 和 S2 的token 序列、詞序列和詞長序列分別表示如下: token序列 S1token=(11,12,13, …,1p), S2token=(21,22,23, …,2p); 詞序列 S1word=(11,12, …,1x), S2word=(21,22, …,2y); 詞長序列 S1word_length=(11,12, …,1x), S2word_length= (21,22, …,2y)。其中,1i表示 S1 中的詞,2j表示S2 中的詞。

例如, 語句 S1 為“買一斤蘋果”, 語句 S2 為“買一部蘋果”, 對應的 token 序列、詞序列和詞長序列分別表示如下: S1token= (買, 一, 斤, 蘋, 果), S2token= (買, 一, 部, 蘋, 果); S1word= (買, 一斤, 蘋果), S2word= (買, 一部, 蘋果); S1word_length= (1, 2, 2), S2word_length= (1, 2, 2)。依次取出語句 S1 中的詞, 然后與 S2 中的所有詞進行差異類型判別。根據(jù)判別規(guī)則 2, 語句 S1 的第 3 個詞“蘋果”與語句 S2 的第 3 個詞“蘋果”字面一致, 所以判別為字面相同而語義不同, 則提取兩個詞語中 token 間的不相似分值。

差異判別矩陣的實現(xiàn)需要構(gòu)建一個交互可見的標識矩陣 Mask_interaction。在該矩陣中, 語句 S1和 S2 只對對方可見(賦值為 1), 對自身不可見(賦值為 0)。然后構(gòu)建兩個判別矩陣, 分別為針對字面相同語義不同的判別矩陣 Mask_dissim 和針對字面不同語義相同的判別矩陣 Mask_sim。將標識矩陣和兩個判別矩陣分別對位相乘后, 對判別矩陣中的值進行更新。具體步驟如下(⊕代表矩陣對位相加, ?代表矩陣對位相乘, ?代表矩陣相乘)。

1)在判別矩陣 Mask_dissim 中, 當兩個詞語字面一致時, 矩陣中對應位置的值為 1, 表示要保留不相似分值。在判別矩陣 Mask_sim 中, 當兩個詞語字面不一致時, 對應位置的值為 1, 表示要保留相似分值。

2)我們將 S1 和 S2 交互可見的判別矩陣 Mask_ interaction 分別與兩個判別矩陣相乘, 得到最終的差異判別矩陣 Mask_dissim 和 Mask_sim。

Mask_dissim=Mask_dissim?Mask_interaction, (8)

Mask_sim=Mask_sim?Mask_interaction。 (9)

因為 Mask_dissim 和 Mask_sim 是從詞粒度的判別得到, 而模型是以 token 粒度進行拆分和編碼, 所以需要將詞粒度的判別矩陣和 token 級的編碼進行統(tǒng)一: 借助于詞長序列, 將詞級判別矩陣中的值按照詞長復制后, 轉(zhuǎn)換為 token 級別的判別矩陣。

如圖 3 所示, 在 Mask_sim 判別矩陣中, 淺灰色圓點表示判別兩個 token 之間為字面不同而語義相同, 保留相似分值。在 Mask_dissim 判陣矩陣中, 深灰色圓點表示判別兩個 token 之間為字面相同而語義不同, 保留不相似分值。淺灰色和深灰色圓點在判別矩陣中的值設(shè)為 1, 白色圓點在判別矩陣中的值設(shè)為 0。

1.3.3 差異特征提取

通過差異分值計算, 可以得到用來衡量不同token 的相似分值和不相似分值; 通過差異類型判別, 可以得到用來判別不同 token 保留分值類型的判別矩陣?；谂袆e矩陣和分值矩陣, 得到差異分值矩陣 Diff_score。

1)分別將相似判別矩陣與相似分值對位相乘, 再與不相似判別矩陣和不相似分值對位相乘的結(jié)果相加, 得到差異分值矩陣 Diff_score, 圖 3 中, 灰色部分代表差異分值矩陣 Diff_score 計算的結(jié)果。

Diff_score=(Mask_dissim?Dissim_score)⊕

(Mask_sim?Sim_score)。 (10)

2)差異分值矩陣與 Value 相乘, 得到所有 token差異特征的隱層表示diff:

_diff = Diff_score·Value。 (11)

1.4 差異特征編碼器

差異特征提取器中輸出的是 Diff Transformer中提取到的所有 token 的差異特征, 此時的差異特征是分散到各個 token 中, 并且不是所有差異特征都有用。將這些 token 的差異特征表示向量輸入卷積網(wǎng)絡中, 進行關(guān)鍵差異特征的學習, 最終輸出蘊含所有關(guān)鍵差異特征的表示向量。

定義一個卷積核的列表{W},代表卷積核的個數(shù)。每一個卷積核的大小為××,是輸入 token向量的維度,是輸入的通道數(shù)(1≤≤,是 Diff Transformer 訓練的最大層數(shù))。代表卷積的窗口, 通過 n-gram (=3, 4, 5)設(shè)置 3 種類型的卷積窗口。將第～層到第層 Diff Transformer 的差異特征向量拼接為卷積網(wǎng)絡的多通道輸入。

將多個卷積核經(jīng)過一層卷積后拼接到一起, 然后做最大值池化處理, 得到最終的差異特征表示Diffemb:

1.4 門控融合

借鑒 GSD 模型[13]的融合方法, 用門控方式, 將句對語境編碼器輸出的語義表示 CLSemb與差異特征編碼器輸出的差異特征表示 Diffemb融合后, 再進行語義相似判斷。

1)分別對初始的 CLSemb和 Diffemb進行共享權(quán)重的非線性轉(zhuǎn)換, 轉(zhuǎn)換后得到cls和diff:

2)同時對 CLSemb和 Diffemb以非共享權(quán)重的方式進行門轉(zhuǎn)換, 得到

3)通過加權(quán)變換的方式來控制語義表示和差異特征表示輸入的信息量:

從式(19)可以看出,可以對語義表示和差異表示進行有選擇的融合。融合后的信息經(jīng)過一個全連接層后, 最終輸出語義是否相似的判別結(jié)果。

2 實驗分析

2.1 實驗數(shù)據(jù)

本文實驗分別在公開域數(shù)據(jù)集和垂直域數(shù)據(jù)集上進行。公開域數(shù)據(jù)集選擇中文問題匹配語料庫(LCQMC)[16], 是基于海量百度問題構(gòu)建的問題匹配數(shù)據(jù)集。LCQMC 數(shù)據(jù)集包含 28.3 萬條訓練語料、1.25 萬條測試數(shù)據(jù)和 0.8 萬條驗證數(shù)據(jù)。垂直域數(shù)據(jù)集選擇 BQ 數(shù)據(jù)集[17], 是金融領(lǐng)域下智能客服問句匹配數(shù)據(jù)集。BQ 數(shù)據(jù)集包含 10 萬條訓練語料、1 萬條測試數(shù)據(jù)和 1 萬條驗證數(shù)據(jù)。

2.2 實驗設(shè)置與參數(shù)選擇

2.3 實驗結(jié)果與分析

2.3.1 對比實驗

1)與基線模型的對比實驗: 在借助外部知識方面, 以 LET[6]和 KBERT[7]作為基線模型; 在增加差異特征方面以 GSD[13]作為基線模型。LET 和 KBERT均是借助外部 HowNet 知識[18]的文本匹配模型, 區(qū)別在于 KBERT 將外部知識直接嵌入文本中, 通過預訓練任務學習語義表征; LET 用詞格圖的方式, 將外部知識輸入到圖注意力網(wǎng)絡中, 通過短文本匹配任務學習語義表征。GSD 是基于門控語義差異的文本匹配模型, 與本文提出的 Diff 模型在整體設(shè)計上類似, 不同之處在于 Diff 模型不是單獨對詞匯編碼, 而是保留詞語在具體語境下的語義, 同時還兼顧字面相同而語義不同以及字面不同而語義相同這兩種情況。

實驗結(jié)果如表 1 所示, 可以看出, Diff 比 GSD在準確率上更具優(yōu)勢, 說明提取詞語在具體語境下的語義差異特征, 比單獨提取詞語的差異特征效果好。Diff 的準確率比 KBERT 高, 說明增加差異特征比直接嵌入外部知識更具有優(yōu)勢。Diff 比 LET的準確率有所下降, 說明當對嵌入的外部知識按照詞粒度進行充分的學習時, 效果要優(yōu)于特征的加入。

表1 Diff模型和相關(guān)研究中基線模型的對比實驗(%)

說明: 粗體數(shù)字表示最佳結(jié)果。

2)與不同語言模型融合后的對比實驗: 語言模型選擇 BERT[14], BERT-wwm[19]和Chinese-BERT[20]。BERT-wwm 在預訓練任務中使用全詞 MASK 預測, 與 Diff 模型的粒度一致。Chinese-BERT 是目前最先進的語言模型。表 2 中, 從 Diff (BERT-base)和Diff (BERT-wwm)的實驗對比來看, 詞粒度的差異特征提取模型效果更具優(yōu)勢, 說明編碼粒度上的統(tǒng)一可以使模型達到更好的匹配效果。從 Diff (BERT- base)和 Chinese-BERT 的實驗結(jié)果對比來看, 相比于 Chinese-BERT (base)版, Diff 模型的效果更具有優(yōu)勢; 相比 Chinese-BERT (large), Diff 模型可以達到同樣的匹配效果。但是, 在 BQ 數(shù)據(jù)集上, Diff 模型的效果低于 Chinese-BERT (large), 主要是由于預訓練模型對文本編碼的限制, Chinese-BERT 從漢字本身特性出發(fā), 將漢字字形和拼音信息融入預訓練過程中, 使模型更加綜合地建立漢字、字形、讀音與上下文間的聯(lián)系, 在語義的深度和豐富性方面實現(xiàn)進一步提升, 因此在垂直域數(shù)據(jù)集上的正則化效果更加明顯。

表2 Diff模型和BERT系列語言模型的對比實驗(%)

此外, 通過設(shè)計參數(shù)矩陣對 Diff Transformer訓練的層數(shù)和輸入卷積網(wǎng)絡的層數(shù)進行動態(tài)調(diào)參可以發(fā)現(xiàn), 當為3,為 1 時, 在 LCQMC 數(shù)據(jù)集上達到最好的模型效果。當為 4,為 2 時, 在 BQ數(shù)據(jù)集上達到最好的效果。這是因為與LCQMC 數(shù)據(jù)集相比, BQ 數(shù)據(jù)集語料量級更小且內(nèi)容更專業(yè),模型訓練難度也相對更大, 因此在提取差異特征的訓練過程中, 對訓練深度的要求也更高。這也體現(xiàn) Diff 模型可以根據(jù)訓練語料的難易程度靈活地調(diào)整訓練的層數(shù)。

2.3.2 消融實驗

我們在 LCQMC 數(shù)據(jù)集上, 設(shè)計以下 3 組消融實驗。

1)是否有差異分值矩陣: 取消差異分值之后, Diff Transformer 的結(jié)構(gòu)只保留語句間相互可見的相似度量分值。該實驗用于評估以相似度量分值來代表字面不同的語義相同以及以不相似度量分值來代表字面相同而語義不同的差異特征時對匹配效果的影響。

2)是否為詞級差異判別: 取消詞語級差異判別后, Diff Transformer 的結(jié)構(gòu)變?yōu)?token 級別的差異判別。該實驗用于評估基于詞粒度的差異特征對匹配效果的影響。

3)是否為門控融合: 取消門控融合后, 在融合部分以最簡單的拼接方式進行融合。該實驗用于評估當語義表示和差異特征表示以不同占比進行融合時對匹配效果的影響。

從表 3 的消融實驗結(jié)果來看, 差異分值、詞語級差異判別以及門控融合對模型效果均產(chǎn)生積極影響, 其中差異分值對模型效果的影響最大。這說明融合語義差異特征的短文本匹配模型中的改造點對匹配效果均有正向提升, 可以驗證在編碼粒度和提取粒度均統(tǒng)一的前提下, 用相似度量值和不相似度量值來衡量差異特征, 并有選擇地控制差異特征和語義表示的輸入占比, 可以讓匹配模型得到性能最優(yōu)化。

表3 Diff模型的消融實驗(%)

說明: 粗體字表示消融對比實驗的變量。

表4 實驗樣例

3 結(jié)語

本文從語境語義角度提取差異特征, 捕獲深層差異信息, 構(gòu)建一種融合語境語義差異特征的短文本匹配模型。該模型可以提取字面不同而語義相同以及字面相同而語義不同兩種情況下, 短文本間語境語義的差異特征, 通過網(wǎng)絡學習進行差異特征表示, 與文本匹配的語義表示用門控方式融合后進行語義判斷, 達到增強匹配效果的目的。實驗結(jié)果表明, 本文提出的短文本匹配模型在不增加外部數(shù)據(jù)的前提下, 在基準中文匹配數(shù)據(jù)集上均達到與已有先進模型相同的效果。

未來工作中, 我們將圍繞字面與語義一致情況下的特征表示與融合展開相關(guān)工作, 進一步提升短文本匹配模型的效果。

[1]Sujatha B, Raju S V. Ontology based natural language interface for relational databases. Procedia Computer Science, 2016, 100(92): 487–492

[2]Huang P S, He X, Gao J, et al. Learning deep struc-tured semantic models for web search using click-through data // Proceedings of the 22nd ACM inter-national conference on Information & Knowledge Management. San Francisco, 2013: 2333–2338

[3]Shen Y, He X, Gao J, et al. A latent semantic model with convolutional-pooling structure for information retrieval // Proceedings of the 23rd ACM international conference on conference on information and know-ledge management. Shanghai, 2014: 101–110

[4]Hu B, Lu Z, Li H, et al. Convolutional neural network architectures for matching natural language sentences // Proceedings of the 27th International Conference on Neural Information Processing Systems-Volume 2. Kuching, 2014: 2042–2050

[5]Chen Q, Zhu X, Ling Z H, et al. Enhanced LSTM for Natural Language Inference // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Canada, 2017: 1657–1668

[6]Lyu B, Chen L, Zhu S, et al. LET: linguistic know-ledge enhanced graph transformer for Chinese short text matching [C/OL]. (2021–02–05) [2022–08–03]. https://doi.org/10.48550/arXiv.2102.12671

[7]Liu W, Zhou P, Zhao Z, et al. K-BERT: enabling language representation with knowledge graph // Pro-ceedings of the AAAI Conference on Artificial Intelli-gence. New York, 2020: 2901–2908

[8]Qiu L, Kan M Y, Chua T S. Paraphrase recognition via dissimilarity significance classification // Procee-dings of the 2006 Conference on Empirical Methods in Natural Language Processing. Sydney, 2006: 18–26

[9]Yadav R, Kumar A, Kumar A V, et al.Conceptuali-zation of sentence paraphrase recognition with se-mantic role labels // Proceedings of the International Conference on Data Science (ICDATA).The Steering Committee of The World Congress in Computer Sci-ence, Computer Engineering and Applied Computing (WorldComp), Las Vegas, 2012: 1

[10]Lintean M C, Rus V. Paraphrase identification using weighted dependencies and word semantics. Informa-tica, 2010, 34(1): 19–29

[11]Chi X, Xiang Y, Shen R. Paraphrase detection with dependency embedding // 2020 4th International Con-ference on Computer Science and Artificial Intelli-gence. Stockholm, 2020: 213–218

[12]Wang Z, Mi H, Ittycheriah A. Sentence similarity learning by lexical decomposition and composition // Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. Osaka, 2016: 1340–1349

[13]Liu X, Chen Q, Wu X, et al. Gated semantic diffe-rence based sentence semantic equivalence identifi-cation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 28: 2770–2780

[14]Devlin J, Chang M W, Lee K, et al. BERT: pre-trai-ning of deep bidirectional transformers for language understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Tech-nologies. Minneapolis, 2019: 4171–4186

[15]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need // Advances in Neural Information Pro-cessing Systems. California, 2017: 5998–6008

[16]Liu X, Chen Q, Deng C, et al. LCQMC: a large-scale chinese question matching corpus // Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, 2018: 1952–1962

[17]Chen J, Chen Q, Liu X, et al. The BQ corpus: a large-scale domain-specific chinese corpus for sentence semantic equivalence identification // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, 2018: 4946–4951

[18]Dong Z, Dong Q. HowNet — a hybrid language and knowledge resource // International Conference on Natural Language Processing and Knowledge Engi-neering, Beijing, 2003: 820–824

[19]Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for chinese BERT. IEEE/ACM Tran-sactions on Audio, Speech, and Language Processing, 2021, 29: 3504–3514

[20]Sun Z, Li X, Sun X, et al. ChineseBERT: Chinese pre-training enhanced by Glyph and Pinyin information // Proceedings of the 59th Annual Meeting of the Asso-ciation for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Bangkok, 2021: 2065–2075

A Short Text Matching Model Incorporating Contextual Semantic Differences

ZHANG Wenhui, WANG Meiling, HOU Zhirong?

ICBC Technology Co Ltd, Beijing 100029;?Corresponding author, E-mail: houzr@tech.icbc.com.cn

Short text matching is often unable to accurately obtain the degree of semantic similarity between sentences when the semantic difference of the same wording and the semantic equivalence of the different wording. To solve this problem, the paper proposes a short text matching model which integrates contextual semantic differences. In this model, language models from the BERT series are utilized as a basic matching model, a novel Diff Transformer structure is implemented for extracting difference feature, and a gate mechanism is applied to integrate basic semantic representations and difference feature for a better matching effect. The model achieves the effect of advanced models on Chinese test datasets.

short text matching; difference feature; context semantic; Diff Transformer

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

融合語境語義差異特征的短文本匹配模型

1 研究方法

1.1 模型框架

1.2 句對語境編碼器

1.3 差異特征提取器

1.4 差異特征編碼器

1.4 門控融合

2 實驗分析

2.1 實驗數(shù)據(jù)

2.2 實驗設(shè)置與參數(shù)選擇

2.3 實驗結(jié)果與分析

3 結(jié)語