融合了問句釋義和詞級別注意力的關(guān)系檢測模型

2019-10-08 06:43:30李寬宇袁健沈?qū)庫o

軟件 2019年5期

李寬宇袁健沈?qū)庫o

摘 ?要：在知識庫問答系統(tǒng)任務(wù)中，由于自然語言表達方式的多樣性與復(fù)雜性，語義相同表達方式不同的問句得到的答案可能不同，生成問句釋義可以緩解這一問題。其次，關(guān)系檢測是知識庫問答系統(tǒng)中至關(guān)重要的一步，問答系統(tǒng)回答問題的準(zhǔn)確性主要受這一步驟的影響，傳統(tǒng)的基于注意力機制的關(guān)系檢測模型沒有考慮到答案路徑不同抽象級別的不同重要程度。因此，本文提出了基于問句釋義和詞級別注意力機制的關(guān)系檢測模型，用于知識庫問答系統(tǒng)任務(wù)中，實驗表明本文模型回答問題準(zhǔn)確率較高。

關(guān)鍵詞：問句釋義;詞級別注意力;關(guān)系檢測;知識庫問答系統(tǒng)

中圖分類號： TP391.1 ? ?文獻標(biāo)識碼： A ? ?DOI：10.3969/j.issn.1003-6970.2019.05.013

本文著錄格式：李寬宇，袁健，沈?qū)庫o. 融合了問句釋義和詞級別注意力的關(guān)系檢測模型[J]. 軟件，2019，40（5）：7176

【Abstract】： In the knowledge base question answer system， due to the diversity and complexity of natural language expression， the question with the same semantic but different expressions may yield different answer. The generation of paraphrase can alleviate this problem. Secondly， relation detection is a crucial step in the knowledge base question answer system. The accuracy of the question answering system to answer questions is mainly affected by this step. The traditional attention-based relation detection model does not take into account the importance of different part of the different abstract levels of the answer path expression. Therefore， this paper proposes a relation detection model based on paraphrase and word-level attention mechanism， which is used in the knowledge base question answer system end task. Experiments show that the model has higher accuracy in answering questions.

【Key words】： Paraphrase; Word-level attention; Relation detection; KB-QA

0 ?引言

知識庫問答系統(tǒng)以自然語言為基本輸入方式，給用戶返回一個精準(zhǔn)的答案。隨著越來越多的大規(guī)模知識庫的發(fā)展，比如像Freebase[1]、yago[2]、DBpedia[3]，基于知識庫的問答系統(tǒng)使得傳統(tǒng)的搜索引擎處于深度變革的尖端。不同于現(xiàn)有的基于關(guān)鍵字匹配的搜索方式，基于知識庫的問答系統(tǒng)需要從語義角度對自然語言進行理解，然后從知識庫中進行推理查詢找出問題答案。常見的基于知識庫的問答系統(tǒng)大致遵循兩個步驟：（1）實體鏈接，將問句中的主題詞對應(yīng)到知識庫中的節(jié)點實體，找出包含問題答案的候選知識庫子圖。（2）關(guān)系檢測，檢查知識庫中某個節(jié)點到主題詞節(jié)點之間的路徑是否與問句中的謂詞相匹配。

在自然語言表達中，相同的意思可以有多種不同的表達方式，例如“阿里巴巴的創(chuàng)始人是誰？”和“誰創(chuàng)建了阿里巴巴？”。這種情況在問答系統(tǒng)中普遍存在，對于語義相同但表達方式不同的句子，問答系統(tǒng)給出的答案可能會不同。在關(guān)系檢測這一子任務(wù)中，需要依據(jù)某些規(guī)則對問句和知識庫子圖中候選答案到主題詞節(jié)點之間的路徑進行信息抽取，利用深度學(xué)習(xí)方式進行自動特征提取是近幾年主流的研究方向，首先需要對自然語言問句和候選答案進行向量化建模，考慮到問句不同部分具備不同的重要程度，因此在深度學(xué)習(xí)模型中引入注意力機制。對于答案路徑的向量化表示中，有兩種不同抽象級別的表示方法，一種是關(guān)系級別表示法，另一種是詞級別表示法，前者更考慮的是與問句全局語義信息進行匹配，而后者考慮的局部信息的匹配，目前很多文章結(jié)合這兩種不同抽象級別的表達方式。傳統(tǒng)注意力機制只考慮了問句各部分的注意力程度，沒有考慮到不同表達方式問句適合用不同抽象級別答案路徑表示來與它進行匹配。

為解決以上問題，本文為知識庫問答系統(tǒng)提出了一種基于融入了問句釋義（paraphrase）和詞級別注意力的關(guān)系檢測模型，用問題-答案對進行端到端的訓(xùn)練，將整個模型分成釋義預(yù)測和關(guān)系檢測模型兩個部分，實驗表明本文模型能提高問答系統(tǒng)回答問題的準(zhǔn)確率。

1 ?相關(guān)研究

現(xiàn)有的知識庫問答系統(tǒng)主要有兩大分支：（1）基于語義分析的方式，例如有文獻[4]文獻[5]。（2）基于信息檢索的方式，例如有文獻[6]文獻[7]?；谡Z義分析方式為了將自然語言翻譯成包含語義信息的邏輯形式，需要大量帶注解的邏輯形式作為訓(xùn)練數(shù)據(jù)，嚴重消耗人工成本。

語義分析方式最主要的缺點沒有利用到知識庫提供的背景知識，為此，Yao和Van Durme等人[6]提出信息檢索的方法，通過實體鏈接縮小了查找范圍。針對關(guān)系檢測這一步驟，最開始Yao和Van Durme通過手工構(gòu)建問題與候選答案路徑的特征，構(gòu)造分類器對問句中的關(guān)系謂詞進行識別，再與候選答案路徑進行相似度匹配。為減少人工成本bordes等人[8]將問題和答案路徑都映射到低維空間，通過模型的訓(xùn)練，學(xué)習(xí)到它們的向量化表示，向量相似度最高的那條答案路徑對應(yīng)的節(jié)點作為問題的答案。

用深度學(xué)習(xí)模型在知識庫問答系統(tǒng)當(dāng)中進行關(guān)系檢測是目前主流的方法，Zeng等人[9]用CNN-RNN（卷積神經(jīng)網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò)）網(wǎng)絡(luò)提取問句特征，依據(jù)候選關(guān)系對問句關(guān)系類型進行分類，Bordes等人[15]將自然語言問句與候選答案路徑用神經(jīng)網(wǎng)絡(luò)映射到相同維度的向量空間，然后比較他們的相似度，Wang等人[10]在此基礎(chǔ)上加入注意力機制對反應(yīng)實體關(guān)系更重要的詞基于更大的權(quán)重，從而提高關(guān)系檢測的精度，Dong等人[9]用卷積神經(jīng)網(wǎng)絡(luò)（CNN）對自然語言進行建模，依據(jù)候選答案的三個方面分別求得相同問句不同部分不同的注意力權(quán)重，簡單的將答案路徑表示為固定的向量。

大多數(shù)深度學(xué)習(xí)方法都需要對自然語言和候選答案的答案路徑進行相似度評估，在這之前需要對問句和路徑信息進行向量化建模，以上這些方法重點在于對問句的向量化建模，對于答案路徑的向量化表示，主要有兩類，第一類將關(guān)系表示為一種語義單元，用提前訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型例如TransE[12]生成它的向量化表示，另一類將關(guān)系表示為一系列的單詞或者是一系列符號[13]，與自然語言共享詞嵌入，Yu等人[14]結(jié)合了兩種不同的表示方法，但不能求得答案路徑不同抽象級別的部分的注意力權(quán)重。

為了解決語義相同表達方式不同的問句獲得的答案不同這一問題，很多深度學(xué)習(xí)模型將問句和它的釋義都輸入到問答系統(tǒng)模型當(dāng)中進行訓(xùn)練，以求得問句與它的釋義相似的向量化表示，如文獻[9]文獻[15]。現(xiàn)有的問句釋義生成模型有很多，但將生成所有的釋義同等看待并不合理，為此Chen等人[17]構(gòu)建語法特征來評估其與原問句之間的相似性，Narayan等人[18]提出了一種基于深度學(xué)習(xí)的相似性評估模型，將與問句相似度高的釋義作為最終的釋義。然而這些模型沒有充分利用問題答案對這種監(jiān)督數(shù)據(jù)，生成的釋義不能放到問答系統(tǒng)任務(wù)中檢驗其有效性。

本文提出了一種融合問句釋義和答案路徑詞級別注意力模型，將模型分成兩個模塊：（1）首先生成問句的釋義，基于神經(jīng)網(wǎng)絡(luò)的評估模型評估其與原問句之間的語義相似度，將問句與它的釋義作為問答系統(tǒng)的輸入，來預(yù)測候選答案子圖中的答案概率分布，整個系統(tǒng)用問題-答案作為訓(xùn)練數(shù)據(jù)進行端到端的訓(xùn)練。（2）用已有的實體鏈接系統(tǒng)得到候選答案子圖，然后用Bi-LSTM為自然語言和候選答案路徑進行向量化建模，用交叉注意力模型求得他們之間的詞級別注意力得分，最終求得他們之間帶權(quán)重的向量化表示，用點乘積求它們之間的相似性得分，得分最高的作為最終答案。

2 ?模型概述

自然語言問句表示為q，答案表示為a。模型先通過實體鏈接找到對應(yīng)的候選答案知識庫子圖，然后對這些候選答案求概率分布，即求，概率最高的即為問題的答案。本文將整個問答系統(tǒng)分解成問句與釋義語義相似度評估模塊和問答系統(tǒng)模塊，將分解為公式1。

Yih等人[13]提出的AMPCNN模型用CNN（卷積神經(jīng)網(wǎng)絡(luò)）最大池化操作對問句進行編碼，在當(dāng)時的基于答案路徑注意力的一系列關(guān)系檢測模型中取得了最高的準(zhǔn)確度。Yu等人[14]利用了不同抽象級別的答案路徑表示，為匹配不同抽象級別的答案路徑表示，用HR-Bi-LSTM網(wǎng)絡(luò)為問句進行建模。Zhang等人[20]提出的ABWIM模型，讓比較操作在問句和答案路徑的詞級交互信息上進行。本文模型同樣利用了問句與答案路徑的詞級交互信息，并且受益于融入問句釋義這種端到端訓(xùn)練方式，增加了問句與謂詞之間重疊的可能性，即使原問句不能生成正確答案，但它的某個釋義卻能生成正確答案，因此模型的精確度會提高。

（2）模型消融分析

為分析模型不同部分所起的作用，將對應(yīng)部分替換為普通方法，并進行對比實驗，結(jié)果如表3所示。

無注意力的模型將注意力矩陣中注意力權(quán)重都置為1，基于路徑的注意力的模型只求問句不同部分的注意力權(quán)重，沒有求答案路徑方面的注意力得分，實驗結(jié)果說明注意力機制在對于提高關(guān)系檢測模型的準(zhǔn)確度具有相當(dāng)?shù)淖饔茫⑶以~級別注意力機制不僅求得更精確的問句向量表示，而且能更加精確地求得答案路徑向量。本文的這種問句釋義模型使得準(zhǔn)確度提高了0.5%，說明本文這種融入問句釋義的端到端訓(xùn)練模型具有一定作用。

5 ?結(jié)論

關(guān)系檢測模型是知識庫問答系統(tǒng)中最重要的一步，這一步的準(zhǔn)確率直接影響知識庫問答系統(tǒng)回答問題的準(zhǔn)確度。從實驗結(jié)果來看，可以得出如下結(jié)論：（1）同時使用詞級別和關(guān)系級別的答案路徑表示法，能充分匹配不同表達形式的問句。（2）若模型能充分利用問句與答案路徑的詞級別交互信息，并且求得帶權(quán)重的細粒度的問句和答案路徑向量表示法，對于提高關(guān)系檢測的準(zhǔn)確度起到非常大的作用。（3）本文融入的問句釋義模型，并利用端到端的訓(xùn)練，生成了新的訓(xùn)練數(shù)據(jù)，提高了模型的準(zhǔn)確度。

參考文獻

[1] Bollacker， Kurt， Evans， Colin， Paritosh. Freebase： a colla-boratively created graph database for structuring human kno?w?ledge[C]// Sigmod Conference. 2008.

[2] Fabian M. Suchanek， Gjergji Kasneci， Gerhard Weikum. Yago： a core of semantic knowledge[C]// International Confere?nce on World Wide Web. 2007， pp. 697-706.

[3] Sren Auer， Christian Bizer， Georgi Kobilarov， Jens Lehmann， Richard Cyganiak， Zachary . DBpedia： A Nucleus for a Web of Open Data[C]// Semantic Web， International Semantic Web Conference， Asian Semantic Web Conference， Iswc + Aswc， Busan， Korea， November. 2007.

[4] Jonathan Berant， Andrew Chou， Roy Frostig， and Percy Liang. 2013. Semantic parsing on freebase from question- answer pairs[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. 2013： 1533-1544.

[5] Wen-tau Yih， Xiaodong He， and Christopher Meek. Semantic parsing for single-relation question answering[C]//Proc?eedings of the 52nd Annual Meeting of the Association for Computational Linguistics （Volume 2： Short Papers）. 2014， 2： 643-648.

[6] Xuchen Yao and Benjamin Van Durme. Information extrac-tion over structured data： Question answering with freebase[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）. 2014， 1： 956-966.

[7] Kun Xu， Yansong Feng， Songfang Huang， and Dongyan Zhao. Hybrid question answering over knowledge base and free text[C]//Proceedings of COLING 2016， the 26th International Conference on Computational Linguistics： Technical Papers. 2016： 2397-2407.

[8] Antoine Bordes， Sumit Chopra， and Jason Weston. 2014a. Question answering with sub-graph embeddings[C]//Proc-eedings of the 2014 Conference on Empirical Methods in Natural Language Processing （EMNLP）. Association for Computational Linguistics， pages 615-620.

[9] Daojian Zeng， Kang Liu， Siwei Lai， Guangyou Zhou， and Jun Zhao. 2014. Relation classification via convolutional deep neural network[J]. In Proceedings of COLING 2014， the 25th International Conference on Computational Linguistics： Tec?hni?cal Papers. Dublin City University and Association for Computational Linguistics， Dublin， Ireland， pages 2335- 2344.

[10] Li Dong， Furu Wei， Ming Zhou， and Ke Xu. Question answering over freebase with multi-column convolutional neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing （Volume 1： Long Papers）. 2015， 1： 260-269.

[11] Linlin Wang， Zhu Cao， Gerard de Melo， and Zhiyuan Liu. Relation classification via multi-level attention cnns[J]//Pro-ce?edings of the 54th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）. Asso-ciation for Computational Linguistics， Berlin， Germany. 2016， pages 1298-1307.

[12] Antoine Bordes， Nicolas Usunier， Alberto Garcia-Duran. Translating embeddings for modeling multi-relational data[C]//Advances in neural information processing systems. 2013： 2787-2795.

[13] Wenpeng Yin， Mo Yu， Bing Xiang， Bowen Zhou， Hinrich Schütze， Simple question answering by attentive convolu-tional neural network[J]. arXiv preprint arXiv： 1606.03391， 2016.

[14] Mo Yu， Wenpeng Yin， Kazi Saidul Hasan， Cicero dos Santos， Bing Xiang， Bowen Zhou. Improved Neural Relation Detec?tion for Knowledge Base Question Answering[J]. In Procee?dings of the 55th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）， Associa?tion for Computational Linguistics， Vancouver， Canada， 2017， pp. 571-581.

[15] Antoine Bordes， Jason Weston， Nicolas Usunier. Open Question Answering with Weakly Supervised Embedding Models[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer-Verlag New York， Inc. 2014.

[16] Shashi Narayan， Siva Reddy， and Shay B Cohen. Paraphrase generation from Latent-Variable PCFGs for semantic parsing[J]. arXiv preprint arXiv： 1601.06068， 2016.

[17] Bo Chen， Le Sun， Xianpei Han， and Bo An. Sentence rewriting for semantic parsing [C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）， 2016， pages 766-777.

[18] Ellie Pavlick， Pushpendre Rastogi， Juri Ganitkevitch， Benjamin Van Durme， and Chris Callison-Burch. PPDB 2.0： Better paraphrase ranking， fine-grained entailment relations， word embeddings， and style classification[C]//Proceedings of the 53rd Annual Meeting of the Association for Computa?tional Linguistics and the 7th International Joint Conference on Natural Language Processing （Volume 2： Short Papers）. 2015， 2： 425-430.

[19] Dzmitry Bahdanau， Kyunghyun Cho， and Yoshua Bengio. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv： 1409.0473， 2014.

[20] Zhang Hongzhi， Xu Guangdong， Liang Xiao， et al. An Attention-Based Word-Level Interaction Model： Relation Detection for Knowledge Base Question Answering[J]. arXiv preprint arXiv： 1801. 09893， 2018.

軟件2019年5期

軟件的其它文章: 數(shù)據(jù)庫中存儲過程教學(xué)探討; 基于MIMU的FastICA算法鉆頭故障振動信號分析; 移動互聯(lián)網(wǎng)技術(shù)在高校思政課教學(xué)中的輔助作用探討; 基于52單片機的農(nóng)田溫濕度監(jiān)測系統(tǒng); 基于JMP的神經(jīng)網(wǎng)絡(luò)設(shè)計實例分析; 高墩大跨連續(xù)剛構(gòu)橋地震響應(yīng)參數(shù)分析