李家樂 吳明禮
摘要:針對非事實(shí)類問答任務(wù),本文搭建了帶有注意力機(jī)制的雙向長短時(shí)記憶(BiLSTM)網(wǎng)絡(luò)模型。實(shí)驗(yàn)表明,在2016 NLPCC QA任務(wù)數(shù)據(jù)集上,該模型MRR可達(dá)到75.12%,優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。
關(guān)鍵詞:問題回答;深度學(xué)習(xí);注意力機(jī)制;雙向長短時(shí)記憶網(wǎng)絡(luò)
中圖分類號:TP311.52 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2019)02-0116-02
0 引言
近年來,深度學(xué)習(xí)在自然語言處理領(lǐng)域的一些任務(wù)上取得了較好的成績。非事實(shí)類問答任務(wù)基于深度學(xué)習(xí)的技術(shù)研究具有較高的學(xué)術(shù)及應(yīng)用價(jià)值。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),其結(jié)構(gòu)可對數(shù)據(jù)信息起到傳遞的作用,非常適合于文本數(shù)據(jù),因此其及其變體網(wǎng)絡(luò)在自然語言處理任務(wù)中得到了廣泛應(yīng)用[1]。
面向中文問答任務(wù),本文搭建了RNN的變體BiLSTM模型,探索了學(xué)習(xí)率、注意力機(jī)制的影響,并取得了較好的實(shí)驗(yàn)效果。
1 模型構(gòu)建
模型的整體框架包括:向量化模塊、深度模型及評分計(jì)算模塊。
向量化模塊:通過一個(gè)詞表將問題與答案句子轉(zhuǎn)化為向量表示。此處詞表是由Word2Vec模型以中文維基百科作為訓(xùn)練語料得到的。其中,Word2Vec是一個(gè)可將字詞轉(zhuǎn)化為向量形式表達(dá)的模型,并且意思相近的詞將被映射到向量空間中的相近位置。
深度模型:通過網(wǎng)絡(luò)模型提取深層語義信息,得到問題與答案更高層次的抽象表示oq與oa,具體結(jié)構(gòu)如圖1所示。
問題與答案分別進(jìn)行向量化Word embedding表示,然后經(jīng)過BiLSTM網(wǎng)絡(luò)處理后得到隱藏層輸出hq、ha,再由最大池化(Max Pooling)和注意力(attention)機(jī)制處理,最后便可得到抽象表示oq、oa。其中,最大池化作用為獲取隱藏層輸出向量中最突出的特征;而注意力機(jī)制則可根據(jù)問題賦予答案的各個(gè)部分不同的權(quán)重,進(jìn)而動(dòng)態(tài)為答案提供更多信息。
注意力機(jī)制:在時(shí)間步t,問題經(jīng)過BiLSTM及最大池化層后得到向量oq,答案經(jīng)過BiLSTM后得到向量ha,更新后的h~a可通過以下方式獲?。?/p>
sa,q為ha(t)的注意力權(quán)值,h~a(t)為更新后的ha(t)。其中,Wam,Wqm和Wms是注意力參數(shù)。
評分計(jì)算模塊:包含評分標(biāo)準(zhǔn)與損失函數(shù)。前者使用余弦相似度衡量問題與答案間的相似度;后者使用鉸鏈損失函數(shù)指導(dǎo)模型的訓(xùn)練優(yōu)化,具體公式如下:
其中,q表示問題,a+表示正確答案,a-表示錯(cuò)誤答案,而M是為優(yōu)化目標(biāo)函數(shù)而設(shè)置的閾值參數(shù),且為常值。
2 參數(shù)選擇
學(xué)習(xí)率在很大程度上影響著深度模型的訓(xùn)練優(yōu)化。其值過大時(shí),會(huì)導(dǎo)致模型參數(shù)在最優(yōu)值附近震蕩而無法收斂;而值過小時(shí),會(huì)消耗大量訓(xùn)練時(shí)間,造成計(jì)算機(jī)資源的浪費(fèi)。經(jīng)試驗(yàn),設(shè)置最佳的學(xué)習(xí)率初始值為0.2,并采用指數(shù)衰減的方式動(dòng)態(tài)更改學(xué)習(xí)率大小以便于獲取最優(yōu)解。
評分計(jì)算模塊中損失函數(shù)的M閾值,控制著正確答案和錯(cuò)誤答案與問題之間的差距,其值過小不足以區(qū)分,而其值過大則不利于模型的收斂。在反復(fù)試驗(yàn)后,設(shè)置為0.1。
3 實(shí)驗(yàn)
在2016 NLPCC QA數(shù)據(jù)集上,我們對問答模型進(jìn)行了評估,選用評測指標(biāo)MRR,其實(shí)驗(yàn)結(jié)果可達(dá)到75.12%。就Wu等[2]基于傳統(tǒng)的人工構(gòu)造特征模型,如TFIDF SVM、Edit distance,其實(shí)驗(yàn)性能分別可達(dá)到45.31%與20.98%;而深度模型BiLSTM則可達(dá)到66.34%。通過對比可知,深度模型BiLSTM明顯優(yōu)于其他幾種傳統(tǒng)機(jī)器學(xué)習(xí)模型;而本文中基于注意力機(jī)制的BiLSTM模型比簡單的BiLSTM模型提高了將近9%足以說明了注意力機(jī)制的有效性。
4 結(jié)語
本文中,我們探索了BiLSTM與注意力機(jī)制在非事實(shí)類中文問答任務(wù)中的應(yīng)用。實(shí)驗(yàn)所選數(shù)據(jù)集具有一定權(quán)威性,其規(guī)模較大,且為開放域。通過實(shí)驗(yàn)對比分析,可知深度模型及注意力機(jī)制在問答任務(wù)中的有效性。
參考文獻(xiàn)
[1] Wang B, Liu K, Zhao J. Inner Attention based Recurrent Neural Networks for Answer Selection[C]//ACL (1).2016:1288-1297.
[2] Wu F,Yang M,Zhao T,et al.A Hybrid Approach to DBQA[C]// International Conference on Computer Processing of Oriental Languages. Springer International Publishing, 2016.
Question Answering Technology Research Based on Deep Learning
LI Jia-le,WU Ming-li
(School of Information Science and Technology, North China University of Technology,Beijing? 100144)
Abstract:For non-factoid QA tasks, in this paper,we build a BiLSTM model with Attention mechanism.Experiments show that in 2016 NLPCC QA dataset, this model can reach 75.12% on MRR, which is better than the traditional machine learning method.
Key words:question answering; deep learning; attention; BiLSTM