朱海潮+劉銘+秦兵
摘要: 關(guān)鍵詞: 中圖分類號(hào): 文獻(xiàn)標(biāo)志碼: A文章編號(hào): 2095-2163(2017)06-0157-04
Abstract: Understanding text is the ultimate goal for machine reading comprehension task. The understanding ability of machines can be evaluated by the accuracy of question answering for specific document. The paper proposes a deep learning model and applies it to span extraction based machine reading comprehension. The model encodes the document and question with Recurrent Neural Networks and then performs information interaction with attention mechanism. Finally, the answer can be selected by predicting the start and end position in the source document. The proposed model performs better than manual features based conventional methods and obtains 53.1% F1 and 39.6% EM.
0引言
自然語言理解作為一個(gè)終極的人工智能目標(biāo),極具現(xiàn)實(shí)挑戰(zhàn)性,而且讓機(jī)器理解語言的意義也是非常重大的。從學(xué)術(shù)研究的角度來看,這是學(xué)術(shù)研究的最前沿,代表著機(jī)器在當(dāng)今時(shí)代可能達(dá)到的最高智能水平。從工業(yè)界的視角來看,對(duì)搜索引擎、聊天機(jī)器人、私人機(jī)器助手等重要產(chǎn)品都有直接的應(yīng)用創(chuàng)新進(jìn)展,擁有可產(chǎn)生巨大商業(yè)價(jià)值的發(fā)展空間。近年來,深度學(xué)習(xí)發(fā)展迅速,以深度學(xué)習(xí)為基礎(chǔ)的模型在圖像處理、自然語言處理、語音識(shí)別等研究領(lǐng)域已經(jīng)取得了廣泛的應(yīng)用和良好的效果,并且其自動(dòng)抽取特征的能力極大地降低了人工的參與。
閱讀理解作為常見的一種題型,對(duì)于絕大多數(shù)人來說都不陌生,在中考、高考的語文和英語科目中非常普遍。機(jī)器閱讀理解任務(wù)類似地包含原文、問題和答案,目標(biāo)就是讓機(jī)器閱讀給定的原文和問題,得到正確的答案,與面向人類的閱讀理解要求是一樣的。本文以片段抽取型機(jī)器閱讀理解數(shù)據(jù)集SQuAD[1]為基礎(chǔ),應(yīng)用深度學(xué)習(xí)方法,使用多層基于注意力的方式對(duì)原文和問題進(jìn)行交互,最后通過類似PointerNetwork[2]的機(jī)制來預(yù)測(cè)答案的邊界。
1基于深度學(xué)習(xí)的實(shí)驗(yàn)方法
隨著計(jì)算能力的不斷提升,基于深度學(xué)習(xí)的復(fù)雜機(jī)器閱讀理解模型是現(xiàn)在的主流方法,其效果已經(jīng)超過基于特征工程的傳統(tǒng)方法和淺層的深度學(xué)習(xí)模型,并且注意力機(jī)制的引入更是顯著可觀地提高了深度學(xué)習(xí)模型的效果。
2實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)
2.1實(shí)驗(yàn)數(shù)據(jù)
SQuAD數(shù)據(jù)集由Rajpurkar[1]發(fā)布在EMNLP2016上,獲得該會(huì)議2016年的最佳資源獎(jiǎng),是機(jī)器閱讀理解領(lǐng)域里頗具代表性的大規(guī)模數(shù)據(jù)集,其中每個(gè)樣例包括原文、問題和答案,其中問題一定與原文相關(guān),并且答案是原文中的一段文本,如圖1中加粗部分所示。
研究中,采用眾包的方式基于536篇Wikipedia文本構(gòu)建了107 785個(gè)問答對(duì),數(shù)據(jù)集的主題也很豐富,包含音樂名人、抽象概念、歷史事件等類別。質(zhì)量和難度上較之前數(shù)據(jù)集更呈明顯優(yōu)勢(shì),而且也更具有挑戰(zhàn)和研究價(jià)值。
由于該數(shù)據(jù)集的測(cè)試集并不公開,基于方便實(shí)驗(yàn)的考慮,本文將開發(fā)集中部分?jǐn)?shù)據(jù)劃分為測(cè)試集進(jìn)行實(shí)驗(yàn),劃分后的數(shù)據(jù)集規(guī)模如表1所示。
分析模型預(yù)測(cè)答案的準(zhǔn)確程度與答案長度之間的關(guān)系,統(tǒng)計(jì)測(cè)試集上不同答案長度對(duì)應(yīng)的平均F1值和EM值,如圖2基于答案長度的統(tǒng)計(jì)所示。當(dāng)答案長度較短時(shí),模型能夠準(zhǔn)確地預(yù)測(cè)答案,并且EM值與F1值相差不多,但隨著答案長度的增加,預(yù)測(cè)的準(zhǔn)確程度出現(xiàn)下降趨勢(shì),并且EM值比F1值受長度影響更大,答案越長則使預(yù)測(cè)答案與標(biāo)準(zhǔn)答案完全相同就越發(fā)困難。
分析模型預(yù)測(cè)答案的準(zhǔn)確程度與問題類型之間的關(guān)系,本文通過問題中前兩個(gè)詞是否包含特定疑問詞,將問題分為8類,統(tǒng)計(jì)測(cè)試集上不同問題類型對(duì)應(yīng)的平均F1值和EM值,如圖3所示??梢钥吹侥P驮赪hen和Who兩類事實(shí)型問題上表現(xiàn)最好,說明模型通過計(jì)算問題和原文的相似性,能夠準(zhǔn)確地在原文中找到事實(shí)類問題的答案。但在Why這類原因推理型問題上表現(xiàn)非常差,說明模型目前只具有淺顯的推理能力,還不能圓滿有效地綜合問題與原文信息經(jīng)過推理后在原文中找到答案。
4結(jié)束語
本文使用片段抽取型數(shù)據(jù)集SQuAD作為研究的實(shí)驗(yàn)數(shù)據(jù),受Pointer Networks啟發(fā)提出了深度學(xué)習(xí)模型Pointer GAReader,通過Pointer來預(yù)測(cè)答案在原文中的起始和結(jié)束位置。實(shí)驗(yàn)結(jié)果表明基于深度學(xué)習(xí)的模型超過基于人工特征的Logistic回歸模型,但與人類的表現(xiàn)仍有相當(dāng)大的差距,因而尚存較大的提升空間。通過統(tǒng)計(jì)不同答案長度和問題類型的F1值與EM值,分析模型的表現(xiàn)可知,模型能夠在一定程度上理解文本和問題,但缺乏回答復(fù)雜問題時(shí)的推理能力。
參考文獻(xiàn):
[1] RAJPURKAR P, ZHANG J, LOPYREV K, et al. SQuAD: 100,000+ questions for machine comprehension of text[J]. arXiv preprint arXiv: 1606.05250.endprint
[2] VINYALS O, FORTUNATO M, JAITLY N. Pointer networks[J]. arXiv preprint arXiv:1506.03134.
[3] DHINGRA B, LIU Hanxiao, YANG Zhilin, et al. Gatedattention readers for text comprehension[J]. arXiv preprint arXiv:1606.01549.
[4] PENNINGTON J, SOCHER R, MANNING C. Glove: Global vectors for word representation[C]// Conference on Empirical Methods in Natural Language Processing. Doha, Qatar:dblp, 2014:1532-1543.
[5] ANGELI G, MANNING C D. NaturalLI: Natural logic inference for common sense reasoning[C]// Conference on Empirical Methods in Natural Language Processing. Doha, Qatar:dblp, 2014:534-545.
[6]KADLEC R, SCHMID M, BAJGAR O, et al. Text understanding with the attention sum reader network[J]. arXiv preprint arXiv: 1603.01547.
[7] WANG Hai, BANSAL M, GIMPEL K, et al. Machine comprehension with syntax, frames, and semantics[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China: ACL,2015:700-706.
[8] SACHAN M, DUBEY K, XING E, et al. Learning answerentailing structures for machine comprehension[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China: ACL,2015:239-249.
[9] SMITH E, GRECO N, BOSNJAK M, et al. A strong lexical matching method for the machine comprehension test[C]// Conference on Empirical Methods in Natural Language Processing.NewYork:ACL, 2015:1693-1698.endprint