姬美琳,王德軍,孟博,孫貝爾
(中南民族大學(xué) 計算機科學(xué)學(xué)院,武漢 430074)
實體鏈接(Entity Linking, EL)[1]指將用戶問句中的實體指稱正確地鏈接到知識庫中的實體上,完成問句實體與候選實體的關(guān)聯(lián)匹配,解決同義詞和多義詞導(dǎo)致的歧義問題.實體鏈接是自動問答(Question Answering, QA)任務(wù)的核心環(huán)節(jié),是識別用戶問句意圖的關(guān)鍵步驟.實體鏈接過程中存在大規(guī)模的實體匹配計算,實體鏈接的準確性和響應(yīng)時間直接決定問答系統(tǒng)的性能.本文主要針對政務(wù)知識圖譜問答性能需求,研究滿足政務(wù)交互式問答應(yīng)用場景的高準確度、低響應(yīng)時延的實體鏈接模型.
傳統(tǒng)的知識圖譜問答系統(tǒng)基于字符相似和統(tǒng)計學(xué)方法解決實體鏈接任務(wù),模型缺乏語義匹配能力,鏈接準確率低,不能充分滿足政務(wù)問答需求[2].基于深度學(xué)習(xí)的實體鏈接模型近年來成為研究熱點,利用神經(jīng)網(wǎng)絡(luò)強大的特征抽象能力,實體鏈接模型的語義表示能力和求解準確性得到較大提高,但模型計算復(fù)雜度高,模型的性能尚存在瓶頸[3],無法滿足政務(wù)領(lǐng)域交互式場景的實時性要求.此外,政務(wù)實體的標準名稱與公眾口語表述之間存在較大的差異,給政務(wù)實體鏈接任務(wù)帶來了挑戰(zhàn).
針對政務(wù)領(lǐng)域圖譜問答需求,本文提出了一種基于偽孿生網(wǎng)絡(luò)架構(gòu)的政務(wù)實體鏈接模型,主要特點包括:(1)引入偽孿生網(wǎng)絡(luò)架構(gòu),解耦問句和候選實體的特征提取過程,通過預(yù)先計算候選實體的向量表示,降低鏈接過程中的計算復(fù)雜度;(2)將政務(wù)知識圖譜中實體的上下文子圖信息引入到候選實體特征提取過程,利用神經(jīng)網(wǎng)絡(luò)模型提取文本所蘊含的深層語義信息,增強模型對相似政務(wù)實體的區(qū)分力,提高鏈接的準確率.
知識圖譜(Knowledge Graph,KG)[4]是一種結(jié)構(gòu)化的語義知識庫,具有強大的語義描述能力,在智能問答、個性化推薦等領(lǐng)域得到廣泛應(yīng)用.知識圖譜包含開放域(open domain)和限定域(closed domain)兩種類型,如Freebase[5]、DrugBank[6]等.開放域圖譜注重知識的廣度,通常采取自底向上方式從多源異構(gòu)的數(shù)據(jù)源中抽取、融合知識,構(gòu)建過程高度自動化,需要用戶對圖譜質(zhì)量有一定的容忍.限定域圖譜關(guān)注知識的深度,通常采取自頂向下方式從行業(yè)內(nèi)積淀的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)集中抽取知識,并在領(lǐng)域?qū)<抑笇?dǎo)下構(gòu)建,同時具有人工審核機制,構(gòu)建過程半自動化,因此限定域圖譜的質(zhì)量更高、語義信息更加豐富[7].政務(wù)知識圖譜本身屬于限定域,其涵蓋多個部門1500項以上個人、法人業(yè)務(wù)事項,圖譜規(guī)模較大,所支持的政務(wù)自動問答應(yīng)用屬于面向終端用戶的交互式服務(wù),應(yīng)用場景對實體鏈接的準確性和響應(yīng)時間具有綜合性能要求.政務(wù)問答應(yīng)用中,用戶問句屬于短文本,問句中實體指稱數(shù)量少,指稱上下文信息不足,無法通過聯(lián)合推理解決政務(wù)實體鏈接任務(wù).因此本文提出引入實體在政務(wù)知識圖譜中的上下文信息,增強實體的背景知識,從而提高模型在相似實體上的區(qū)分度.
實體鏈接一般包含兩個子任務(wù):實體生成和實體消歧,相關(guān)研究一般通過這兩個階段提高鏈接任務(wù)的準確率.實體生成階段目的是生成候選實體集合,一般通過加入部分匹配、模糊匹配以及構(gòu)建別名詞典等方式來提高候選實體的召回率[8-10];實體消歧階段目的是從候選實體集合中選擇符合問句語義的目標實體,該階段主要有傳統(tǒng)基于字符相似、基于機器學(xué)習(xí)和基于深度學(xué)習(xí)的實體消歧算法[2].基于字符相似的鏈接算法一般通過字符相似度排序候選實體,如編輯距離等,這種方法忽略了問句實體指稱和候選實體的上下文信息,不適用于解決重名實體或者別名情況[11].基于機器學(xué)習(xí)的實體鏈接模型依賴人工提取的特征和高質(zhì)量的數(shù)據(jù)集,模型的移植性差,在缺乏標記數(shù)據(jù)的領(lǐng)域中,模型無法達到最佳效果[2].基于深度學(xué)習(xí)的實體鏈接算法核心在于將不同類型的文本信息映射到同一特征空間內(nèi),學(xué)習(xí)問句和候選實體的語義向量表示,通過向量相似性求解實體鏈接任務(wù).文獻[10]為了增強候選實體語義特征,利用候選實體的類別、關(guān)系以及知識庫鄰近實體節(jié)點的特征信息作為候選實體的表示方法,并在WebQuestions-SP外文知識庫問答數(shù)據(jù)集上驗證了算法的有效性,準確率達到88%.
基于深度學(xué)習(xí)的實體鏈接模型雖然有效地提高了鏈接準確率,但是由于計算量大的缺點,模型響應(yīng)時間較長,很難滿足交互式場景下的應(yīng)用需求,模型的整體性能有待提升.孿生網(wǎng)絡(luò)(Siamese Network)[12]包含兩支相同結(jié)構(gòu)的網(wǎng)絡(luò)模型,通過共享參數(shù)方式優(yōu)化網(wǎng)絡(luò)模型結(jié)構(gòu),兩個子網(wǎng)計算過程相互獨立,常應(yīng)用于建模相似性比較任務(wù),在人臉識別、語義搜索等任務(wù)中得到廣泛應(yīng)用.文獻[13]基于孿生網(wǎng)絡(luò)提出SBERT模型,解決了基于BERT的語義搜索任務(wù)計算量大的問題,并且證明了模型具有學(xué)習(xí)句子語義化向量表示的能力.
綜上所述,為了提高政務(wù)領(lǐng)域鏈接任務(wù)的準確率,并滿足交互式問答場景下的低時延需求,本文基于偽孿生網(wǎng)絡(luò)(Pseudo-Siamese Network)[14]解耦問句和候選實體的向量提取過程,通過預(yù)先提取所有候選實體的特征向量,減少模型在鏈接過程中的計算量,使得候選實體的特征抽取不再依賴于用戶輸入的問句,因此顯著地減少了模型的計算次數(shù),降低了響應(yīng)時間.同時,引入候選實體在知識圖譜中的上下文信息,填充實體背景知識以增強其語義特征,使得鏈接模型在區(qū)分相似實體上具有更好的效果,從而提高鏈接的準確率.
影響政務(wù)實體鏈接任務(wù)準確性的關(guān)鍵因素是問句中實體指稱上下文信息不足,如何有效地挖掘問句及知識圖譜的深層語義信息,是提高政務(wù)實體鏈接任務(wù)準確性的重要因素.本文通過引入候選實體在知識圖譜中的上下文子圖信息,填充實體的背景知識,增強模型的語義匹配能力,從而提升實體鏈接效果.
候選實體在知識圖譜中的上下文子圖信息包含實體名稱、實體類型、實體的結(jié)構(gòu)化屬性以及實體與其他實體間的語義關(guān)系.其中對實體鏈接任務(wù)具有價值的信息包括:候選實體的名稱特征(以N表示),候選實體的結(jié)構(gòu)化屬性特征(以S表示)以及候選實體的描述性文本摘要特征(以A表示).特征N包含了實體的標準名稱、常用名稱、別名、縮寫;特征S包含了實體的辦理條件、辦理材料、受理對象、辦理流程四個結(jié)構(gòu)化屬性特征;特征A主要通過獲取政務(wù)事項的法律依據(jù)、設(shè)定依據(jù)信息作為政務(wù)事項實體的文本摘要.
本文所使用的政務(wù)知識圖譜數(shù)據(jù)來源于湖北省政務(wù)服務(wù)網(wǎng),政務(wù)服務(wù)網(wǎng)按照事項主題、辦事部門等類別梳理了多種政務(wù)領(lǐng)域數(shù)據(jù)信息,其提供的數(shù)據(jù)全面且權(quán)威,可以有效地增強實體的語義特征.以問句“公積金的身份證號碼錯了在哪里修改?”為例,問句正確的實體鏈接結(jié)果為“住房公積金個人賬戶信息變更服務(wù)”事項,如表 1所示為從政務(wù)知識圖譜中抽取的兩個政務(wù)事項實體上下文信息,所抽取的上下文信息將作為實體的背景知識,通過本文所提模型進行特征抽取,得到候選實體的語義向量表示.
表1 政務(wù)事項實體上下文信息示例Tab.1 Examples of government affairs entity context information
政務(wù)實體鏈接模型需要支持編碼多元信息,并具有較高的計算效率和較低的時間復(fù)雜度,因此本文基于偽孿生網(wǎng)絡(luò)架構(gòu)提出一種新的政務(wù)實體鏈接模型,結(jié)構(gòu)如圖 1所示.網(wǎng)絡(luò)模型包含兩個非對稱的左右分支子網(wǎng),每個分支由嵌入層、卷積層、池化層和全連接層組成.其中嵌入層將問句詞序列和候選實體特征詞序列映射成低維稠密向量,得到初始輸入矩陣,本文使用BERT(Bidirectional Encoder Representations from Transformers)[15]作為嵌入層模型;卷積層進行局部特征提取工作,得到多個特征的向量表示;池化層用于降低向量維度;全連接層對池化后的向量進行線性映射,得到問句和候選實體的最終向量表示.兩個子網(wǎng)在嵌入層共享參數(shù),在其他層不共享參數(shù).
圖1 政務(wù)實體鏈接模型結(jié)構(gòu)Fig.1 Structure of government affairs entity linking model
左右分支子網(wǎng)分別負責編碼問句和候選實體的上下文信息,左側(cè)網(wǎng)絡(luò)用于提取問句的文本特征,得到問句的向量表示,右側(cè)網(wǎng)絡(luò)用于提取候選實體上下文信息特征,得到候選實體的向量表示.本文通過計算向量余弦距離得到問句與候選實體的語義相關(guān)度,并對實體鏈接的結(jié)果進行篩選和排序,選擇最高得分的候選實體作為目標實體返回.在鏈接過程中兩個子網(wǎng)絡(luò)相互獨立,模型預(yù)先計算出所有候選實體的特征向量并保存,然后接收用戶問句并提取問句特征,得到問句的特征向量,最后計算向量余弦距離,對候選實體進行打分排序.
本文所提網(wǎng)絡(luò)模型主要具有以下優(yōu)點:(1)模型基于偽孿生網(wǎng)絡(luò)架構(gòu)解耦問句和候選實體的向量映射過程,使得候選實體的向量映射過程獨立于用戶實際輸入的問句,模型在鏈接過程中只需要針對問句進行一次特征提取,顯著地降低了模型的計算次數(shù),提高了模型計算速度;(2)融合BERT和CNN,提升了實體鏈接模型的語義表示能力和特征抽象能力,使得模型在政務(wù)領(lǐng)域?qū)嶓w鏈接任務(wù)上具有更好的表現(xiàn)力和預(yù)測效果.
具體地,政務(wù)實體鏈接模型的計算過程包含問句特征向量映射、實體特征向量映射和語義相關(guān)度計算三個過程.
2.3.1 問句向量映射
問句的向量映射過程如圖 1左側(cè)子網(wǎng)所示,主要包含嵌入層、卷積層、池化層和全連接層,其中卷積層包含兩個一維卷積操作.問句query=(q1q2…qn),qn表示問句第n個詞短語,問句向量映射的具體計算過程如下:
step1問句矩陣化表示:將問句轉(zhuǎn)換成BERT標準輸入序列“[CLS]q1q2…qn[SEP]”,通過獲取BERT最后一層每個詞短語的輸出向量作為問句的初始輸入矩陣Hq=(T1T2…Tn),其中Hq∈R|query|×d,|?|表示字符長度,d表示BERT模型輸出向量的維度大小.
step2問句特征抽?。菏褂脙蓚€卷積核對Hq進行卷積操作,并通過最大池化層進行池化降維,得到問句兩個特征向量E′和E″.E′的計算如式(1)和式(2)所示:
E′=max{c},
(1)
c=[c1,c2,…,cn-k+1],
(2)
其中E′∈R1×h,c∈Rh×(n-k+1),c為卷積操作的輸出矩陣,h為卷積操作的輸出通道大小,k為卷積核大小.對于單個卷積操作,計算如式(3)所示:
ci,j=f(wHj:j-k+1+b),
(3)
其中w∈Rd×k,b∈R,Hj:j-k+1表示問句從第j到第j-k+1個詞短語所對應(yīng)的BERT輸出向量矩陣,f為非線性激活函數(shù).對于特征向量E″,其計算過程與E′相同,但是卷積核k的大小以及參數(shù)w和b不同.
step3問句向量表示:將兩個特征向量E′和E″按行拼接,并輸入到全連接神經(jīng)網(wǎng)絡(luò)中進行線性映射,得到問句的向量表示Eq,計算公式如下:
Eq=W′([E′,E″])+b′,
(4)
其中Eq∈R1×d′,W′與b′為全連接層的權(quán)值和偏置參數(shù),在訓(xùn)練中更新,且W′∈R2h×d′,b′∈R1×d′,d′表示鏈接模型輸出層詞向量的維度大小.
2.3.2 實體向量映射
候選實體e的向量映射過程具體如下:
step1實體矩陣化表示:從知識圖譜中抽取實體e的上下文信息,并按照BERT的標準輸入格式構(gòu)建輸入序列,依次輸入到BERT模型中,獲取BERT最后一層的輸出向量,得到政務(wù)實體e的3個特征矩陣:HN、HS、HA,其中HN∈R|N|×d,HS∈R|S|×d,HA∈R|A|×d,|?|表示字符長度,d為BERT模型輸出向量的維度大小.
step2實體特征抽?。簩嶓we的3個特征矩陣HN、HS、HA分別進行卷積操作,并通過最大池化層進行降維,得到3個特征向量:EN,ES,EA,每個特征的參數(shù)互不共享.
step3實體向量表示:將3個特征向量EN、ES和EA按行拼接,并將得到的結(jié)果輸入到全連接神經(jīng)網(wǎng)絡(luò)中進行線性投影,得到實體e的特征向量表示Ee,計算公式如下:
Ee=W″([EN,ES,EA])+b″,
(5)
其中Ee∈R1×d′,W″∈R3h×d′,b″∈R1×d′,d′表示鏈接模型輸出層詞向量的維度大小.
通過式(4)和式(5)計算得到問句的向量表示Eq和候選實體e的向量表示Ee,本文通過拼接Eq和Ee進行二分類任務(wù),并使用softmax模型進行歸一化,從而得到用戶問句與候選實體e的語義相關(guān)度,計算公式如下:
o=softmax(W(Eq,Ee)),
(6)
其中o為鏈接模型最終輸出的分類結(jié)果,代表問句與該候選實體的語義相關(guān)度,且W∈R2d′×2.
2.3.3 模型訓(xùn)練與預(yù)測
在訓(xùn)練過程中,實體鏈接模型共享BERT層參數(shù),其他層參數(shù)不共享,使用交叉熵函數(shù)作為模型的損失函數(shù).在預(yù)測過程中,模型主要存在兩個階段:初始化階段和語義搜索階段.初始化階段指預(yù)先計算出知識庫實體的特征向量表示,并加入到向量集合V中;語義搜索階段指接收用戶問句輸出鏈接的目標實體.具體來說,模型預(yù)測過程中首先計算知識庫中所有實體的特征向量并保存到集合V中,得到實體向量查詢表;然后接收用戶問句,使用jieba中文分詞工具切分問句,得到實體指稱短語集合,通過實體指稱短語召回知識庫中的相關(guān)實體,得到候選實體集合;最后通過實體鏈接模型左側(cè)子網(wǎng)對問句進行向量映射,得到問句的向量表示Eq,并通過式(7)計算問句和候選實體的語義相關(guān)度,通過閾值λ對結(jié)果進行篩選排序,按照式(8)從知識庫中選擇最高得分的實體作為鏈接結(jié)果返回,公式如下:
(7)
(8)
政務(wù)領(lǐng)域缺乏相關(guān)公開數(shù)據(jù)集,為了驗證所提模型的有效性,本文利用網(wǎng)絡(luò)爬蟲技術(shù)獲取湖北省政務(wù)服務(wù)網(wǎng)15個區(qū)縣級政務(wù)事項的數(shù)據(jù)信息,得到2576條常見問題集,經(jīng)過人工清洗、拓展后得到常見問題集1900多條,獲得53個政務(wù)部門、400多個政務(wù)事項以及政務(wù)材料等信息,通過這些信息可以構(gòu)建起政務(wù)知識圖譜,作為政務(wù)實體上下文信息的知識來源.
對于政務(wù)實體鏈接任務(wù)數(shù)據(jù)集的構(gòu)建策略如下:正抽樣(即問句對應(yīng)的標準政務(wù)實體)采取人工標注方法,標簽為“1”;負抽樣(反例數(shù)據(jù)集)來源于正抽樣的相似子項,標簽為“0”.每個政務(wù)服務(wù)事項都有所屬的上級父類,例如“個人公積金賬戶信息變更服務(wù)”事項,其父類為“公積金”類.本文首先對正抽樣的實體(以上述實體為例)進行中文分詞[16]操作,得到核心詞語“公積金”,使用“公積金”在知識庫中進行模糊查詢,從而得到反例數(shù)據(jù).本文最終獲得7100條實體鏈接數(shù)據(jù)集.
給定一個政務(wù)問句,實體鏈接返回的結(jié)果為某個政務(wù)實體或者為空.以P表示模型預(yù)測的結(jié)果,O表示人工標注的結(jié)果,Pe和Oe表示鏈接到實體的指稱,Pn和On表示鏈接到空的實體指稱.當前針對實體鏈接模型的評測指標主要包含準確率(Accuracy)、精確率(Precision)、召回率(Recall)以及F1值,各指標的定義如下:
(9)
(10)
(11)
(12)
實驗設(shè)備信息:CPU i5 8400,GPU Nvidia RTX 3070 8G.實體鏈接模型中參數(shù)設(shè)置如下:(1)本文使用BERT作為模型的嵌入層,得到用戶問句和候選實體的向量表示,其中問句的最大序列長度為64,實體特征N、特征S和特征A的最大序列長度分別為128、512和512;(2)問句卷積核大小分別設(shè)置為2和3;特征N的卷積核大小為2,特征S的卷積核大小為3,特征A的卷積核大小為2,步長均為1.模型的初始學(xué)習(xí)率為5×10-5,迭代20輪,嵌入層輸出的向量維度大小d為768,卷積層輸出的向量維度大小h為256,模型最終輸出的向量維度大小d′為128,問句與候選實體的語義相關(guān)度閾值λ取值為0.8.
為了驗證所提模型的準確性,在相同實驗環(huán)境下,本文選擇魏成志[17]提出的基于TF-IDF的政務(wù)實體鏈接模型進行對比,實驗結(jié)果如表 2所示.
表2 不同算法實驗結(jié)果對比Tab.2 Comparison of experimental results of different algorithms
從結(jié)果中可以看出,基于TF-IDF的政務(wù)實體鏈接模型準確率明顯低于本文所提模型準確率.通過分析發(fā)現(xiàn):基于TF-IDF的實體鏈接模型依據(jù)詞頻衡量候選實體的重要性,模型缺乏語義匹配能力,而本文提出的實體鏈接模型通過引入實體在知識圖譜中的上下文信息,豐富了實體的背景知識,使得模型在區(qū)分相似實體上具有更好的表現(xiàn),因此提高了鏈接準確率.如問句“買房子怎么提取公積金?”,本文所提模型由于融合了“購房公積金提取”的結(jié)構(gòu)化屬性知識,其“受理條件”的第一條:“在本市行政區(qū)域內(nèi)非按揭購買擁有所有權(quán)的自住住房”表明該政務(wù)事項適用于“購買”情況下提取公積金,因此使得最終鏈接的結(jié)果為“購房公積金提取”,而非“租房公積金提取”.
本文進一步通過組合實體不同類型的上下文信息來探討其對鏈接準確率的影響,實驗結(jié)果如表 3所示.從結(jié)果中可以發(fā)現(xiàn)政務(wù)實體不同維度的上下文信息對模型的準確率有著不同的重要性,其中候選實體的名稱特征N和實體結(jié)構(gòu)化屬性特征S影響力相當.
表3 不同上下文信息實驗結(jié)果Tab.3 Experimental results of different context information
本文基于BERT作為問句和候選實體的向量嵌入層,為了驗證BERT的引入是否有利于提升政務(wù)實體鏈接模型的性能,本文進行了相關(guān)消融實驗.在相同的實驗環(huán)境下,使用傳統(tǒng)的靜態(tài)詞向量替換BERT,取得的結(jié)果如表 4所示.從結(jié)果中可以看出,通過遷移BERT模型可以提升政務(wù)實體鏈接模型的性能,從而驗證了BERT具有更強的語義表示能力.
表4 消融實驗結(jié)果Tab.4 Results of ablation experiments
為了證明所提模型在響應(yīng)時間上的優(yōu)越性,本文選擇曾宇濤等[18]提出的實體鏈接模型進行對比實驗.曾宇濤等基于深度學(xué)習(xí)技術(shù),提出一種面向知識庫問答的實體鏈接模型,模型接收“問句-實體”對形式的輸入樣本,在鏈接過程中,依賴用戶問句提取候選實體不同類型的語義特征.而本文所提模型解耦了問句和候選實體的特征提取過程,通過預(yù)先計算所有實體的語義向量表示,使得模型在預(yù)測過程中只需對問句進行向量映射,因此降低了模型的計算復(fù)雜度.具體來說,模型響應(yīng)時間包含候選實體集合生成和實體消歧兩個階段的時間,在相同的實驗環(huán)境下,當候選實體集合大小為30時,兩個模型的響應(yīng)時間隨著知識庫規(guī)模的變化曲線如圖 2所示,可以看出:隨著知識庫規(guī)模的增加,兩個模型的響應(yīng)時間也在增加,而本文所提模型的響應(yīng)時間明顯低于曾宇濤等提出的模型,由此證明了本文所提模型在響應(yīng)時間上的有效性.
圖2 模型響應(yīng)時間Fig.2 Response time of model
為了提升政務(wù)領(lǐng)域?qū)嶓w鏈接任務(wù)的準確率和計算效率,本文基于偽孿生網(wǎng)絡(luò),提出一種具有深度語義匹配能力的實體鏈接模型.實驗結(jié)果發(fā)現(xiàn):模型通過融合政務(wù)實體知識圖譜中的上下文信息,增強了模型的語義匹配能力,相比于現(xiàn)有基于統(tǒng)計學(xué)的政務(wù)實體鏈接模型,本文所提模型顯著地提高了鏈接任務(wù)的準確率;遷移BERT有助于提高政務(wù)領(lǐng)域?qū)嶓w鏈接模型的性能;模型基于偽孿生網(wǎng)絡(luò)解耦用戶問句和候選實體的特征提取過程,有效地減少了模型在鏈接過程中的計算量,提高了響應(yīng)速度,在10萬候選實體數(shù)據(jù)量下,鏈接時間在0.5 s左右,滿足政務(wù)問答交互式場景的使用需求.