• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于注意力機制的上下文相關(guān)的問答配對方法

      2019-02-25 05:32:06李壽山周國棟
      中文信息學(xué)報 2019年1期
      關(guān)鍵詞:注意力架構(gòu)向量

      王 路,張 璐,李壽山,周國棟

      (蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

      0 引言

      問答相關(guān)的研究是自然語言處理領(lǐng)域的一個熱點領(lǐng)域。以往的研究主要集中于問答匹配,且主要是針對正式文本。然而,社會媒體上存在大量非正式文本的問答對。非正式文本存在問題文本里包含多個問題及回答文本里包含多個回答的情況。針對該情況,我們提出了問答配對任務(wù)。問答配對是針對問題文本中的每個問題,從答案中找到和該問題相關(guān)句子的任務(wù)。如圖1所示,例1中的問題文本“系統(tǒng)更新后卡嗎?屏幕怎么樣?續(xù)航怎么樣?”可以被切分為三個問題,分別是“系統(tǒng)更新后卡嗎?”、“屏幕怎么樣?”以及“續(xù)航怎么樣?”。答案文本“一點都不卡,內(nèi)存是4G的。不一直玩游戲的話,可以用一天。”根據(jù)空格、逗號、頓號、問號、感嘆號和句號可以被切分為四個句子,分別是“一點都不卡”、“內(nèi)存是4G的”、“不一直玩游戲的話”以及“可以用一天”。對于第一個問題“系統(tǒng)更新后卡嗎?”,答案文本中只有第一個句子回答了該問題,對于第二個問題“屏幕怎么樣?”,答案文本中第三個和第四個句子共同回答了該問題。對于第三個問題“電池怎么樣”,答案文本中并沒有針對該問題的回答。因此,非正式文本的問答配對是一個嶄新并富有挑戰(zhàn)性的任務(wù)。為了簡化問題,我們假設(shè)問題已經(jīng)被切分成多個子問題。本文關(guān)注于從答案文本中找到針對每一個問題的具體回答。總體而言,針對該問題的研究主要存在以下難點。

      圖1 非正式文問答對

      答案文本中句子較多,換言之,噪聲較多,挑選出正確的句子有一定難度。并且,有的問題的回答是由答案文本中多個句子組合而成的,例如,圖1中,問題文本中的第三個問題“續(xù)航怎么樣?”是由答案文本中“不玩游戲的話”以及“可以用一天”這兩個句子共同回答的?;诖?,將答案文本中每個句子和問題進行單獨分類就顯得不合理。

      本文中,我們關(guān)注非正式文本的問答配對。首先,我們從產(chǎn)品評論網(wǎng)站上收集了大規(guī)模非正式文本的問答對,并標(biāo)注這些問答對,從而創(chuàng)建了一個非正式文本的問答配對語料庫。然后,針對上述難點,我們提出了一種上下文相關(guān)的輸入架構(gòu)來處理答案中多個句子共同回答一個問題的情況,為了處理答案文本中的噪聲問題,我們引入了注意力機制來準(zhǔn)確地挑選出正確的答案句子。實驗結(jié)果表明,本文提出的基于注意力機制的上下文相關(guān)的問答配對方法能夠在非正式文本的問答配對任務(wù)中獲得較好的性能。

      本文的結(jié)構(gòu)組織如下:第1節(jié)介紹與本文相關(guān)的一些工作;第2節(jié)介紹語料收集和標(biāo)注工作;第3節(jié)介紹本文提出的關(guān)于問答配對的模型;第4節(jié)給出實驗結(jié)果和分析;第5節(jié)總結(jié),并對下一步工作進行展望。

      1 相關(guān)工作

      目前尚無問答配對的相關(guān)工作。與之接近的是問答匹配的相關(guān)工作,即給定一個問題和一個答案,判斷該答案和問題是否匹配。

      總體而言,問答匹配方法可以分為兩大類:淺層學(xué)習(xí)方法和深度學(xué)習(xí)方法。

      淺層學(xué)習(xí)方法:Wang[1]等采用一些淺層學(xué)習(xí)算法,如條件隨機場、支持向量機和最大熵等來訓(xùn)練模型。除了淺層學(xué)習(xí)算法,淺層學(xué)習(xí)方法的相關(guān)研究還關(guān)注于特征工程、語言學(xué)工具和外部資源等。如Yih[2]等采用了語義資源Word-Net,Yao[3]等采用了樹的編輯距離,Severyn[4]等采用了命名實體等。

      深度學(xué)習(xí)方法:采用神經(jīng)網(wǎng)絡(luò)來進行模型訓(xùn)練。主要分為三類:單純網(wǎng)絡(luò)(siamense networks)、注意力網(wǎng)絡(luò)(attentive networks)以及聚合比較網(wǎng)絡(luò)(compare-aggregate networks)。

      (1) 單純網(wǎng)絡(luò):相關(guān)研究采用的是經(jīng)典的神經(jīng)網(wǎng)絡(luò)。Feng[5]等采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來獲得問題和答案的融合表示,并利用這個表示進行分類。Yang[6]等采用卷積神經(jīng)網(wǎng)絡(luò)(RNN)來分別表示問題和答案,并連接它們進行分類。

      (2) 注意力網(wǎng)絡(luò):不同于用LSTM的最終時間步來表示一個句子,一般采用注意力機制來得到每個時間步的權(quán)重,然后用這些權(quán)重來表示句子。Tan[7]等通過計算出問題的權(quán)重來附加到答案中,然后利用問題和附加了問題信息的回答來進行分類。Yin[8]等將問題和答案通過卷積神經(jīng)網(wǎng)絡(luò)計算出注意力矩陣,利用注意力矩陣來進行分類。

      (3) 聚合比較網(wǎng)絡(luò):采用不同的匹配策略來獲得單詞間的關(guān)系,從而進行分類。Wang[9]等將問題和答案間的時間步分別進行了矩陣乘法、元素級別乘法、元素級別除法和歐幾里得距離等計算,從而進行分類。Wang[10]等提出了一種新的計算方式,相對于傳統(tǒng)的單角度計算,他采用了多角度的計算方式,獲得了較好的效果。He[11]等利用卷積神經(jīng)網(wǎng)絡(luò)計算出一個配對的詞的相互作用矩陣,并利用該矩陣進行分類。

      然而,上述所有方法都是一對一(一個問題句子對應(yīng)一個答案句子)匹配模型。本文為了充分利用上下文信息,采用的是上下文相關(guān)的結(jié)構(gòu),并結(jié)合注意力機制來進行問答配對。

      2 語料收集和標(biāo)注

      淘寶[注]https://www.taobao.com/是中國最大的電子商務(wù)平臺。我們從淘寶的“問大家”板塊收集了2 000個問答對,這些問答對主要來自于數(shù)碼領(lǐng)域。需要注意的是,如果一個問題包含多個子問題,我們把問題切分為多個子問題,且把每個子問題和答案所有的句子看作是一個問答對。例如,如圖1所示,例1包含了三個問題,每一個問題的答案都是通過該問題的答案句子在所有答案句子中的位次來標(biāo)注的。其中“X-Y”表示的是第X個問題的回答是答案文本中的第Y個句子。

      為了確保較高的一致性,在多次標(biāo)注少量語料后,我們提出了一些標(biāo)注規(guī)范。然后,我們讓更多人根據(jù)該標(biāo)注規(guī)范來標(biāo)注整個數(shù)據(jù)集。下面具體展示一些標(biāo)注的例子。

      例2:問題:怎么查是不是正品?另外是新機嗎?

      答案:是的,手機設(shè)置理由

      標(biāo)注:1-2,2-1

      例3:問題:有沒有買紅米4高配的?手機是不是正品?卡不卡?

      答案:手機正品 還可以!送的耳機不能用

      標(biāo)注:1-0,2-1,3-2

      例4:問題:可以玩王者嗎?卡不?

      答案:可以,不開高特效的話,不卡

      標(biāo)注:1-1,2-2+3

      對于每個問答對,我們安排了兩位標(biāo)注人員來標(biāo)注類別,一致性檢驗kappa值為0.83。為了應(yīng)對兩位標(biāo)注人員標(biāo)注不一致的情況,我們安排了一位熟練的標(biāo)注人員來檢查,確保標(biāo)注的一致性。表1展示了語料的類別分布(把每一個問題和答案的每一個句子進行分類,看該答案是否匹配該問題)。

      表1 語料類別分布

      3 基于注意力機制的上下文相關(guān)的問答配對

      本章中,我們把問答配對的方法分為兩步。首先,提出了充分利用上下文信息的輸入架構(gòu)。然后,提出計算問題文本和融合了上下文信息答案文本間匹配度的基于注意力機制的配對模型。

      3.1 基于注意力機制的上下文相關(guān)的輸入架構(gòu)

      圖2給出上下文相關(guān)的輸入架構(gòu)的整體框架圖。該架構(gòu)的主要目的是充分將當(dāng)前文本與上下文信息相結(jié)合,從而提升信息量。圖中的相關(guān)層將在下面進行詳細介紹。

      圖2 基于注意力機制的上下文相關(guān)的輸入架構(gòu)

      詞編碼層:該層有三個輸入,當(dāng)前答案句子前面所有的句子,當(dāng)前答案句子和當(dāng)前答案句子后面所有的句子。首先,用word2vec[注]https://radimrehurek.com/gensim/models/word2vec.html來預(yù)訓(xùn)練詞向量,并用這些詞向量來表示這三個輸入。然后,利用三個雙向長短期記憶網(wǎng)絡(luò)(Bi-directional Long Short Term Memory,Bi-LSTM)來同時把三個句子的時間步編碼為上下文相關(guān)的詞向量,如式(1)~式(3)所示。

      注意力層:該層的目的是給詞向量矩陣分配權(quán)重,從而獲得當(dāng)前句子最有信息量的表示。

      通過下面的句子計算注意力權(quán)重,并歸一化,如式(4)、式(5)所示。

      其中,WFro.和WBeh.是權(quán)重矩陣,bFro.和bBeh.是偏置矩陣。

      然后,我們分別計算出句子向量vFro.和vBeh.,如式(6)、式(7)所示。

      連接層:該層的目的是連接當(dāng)前句子的詞向量矩陣和上下文句子向量vFro.以及vBeh.,從而獲得上下文相關(guān)的答案表示,如式(8)所示。

      HCon.=vFro.⊕Ha⊕vBeh.

      (8)

      3.2 基于注意力機制的上下文相關(guān)的問答配對

      圖3給出基于注意力機制上下文相關(guān)問答配對的整體框架圖。該模型的主要目的是利用問答匹配機制來進行分類。圖中的相關(guān)層將在下面進行詳細介紹。

      圖3 基于注意力機制的上下文相關(guān)的問答配對

      詞編碼層:該層有兩個輸入,問題文本和答案文本。答案文本參照上文提出的基于注意力機制的上下文相關(guān)的輸入架構(gòu)進行編碼,再按前向和后向兩個方向分別拆分為HCon.。將問題文本通過一個雙向長短期記憶網(wǎng)絡(luò)來把問題的時間步編碼為上下文相關(guān)的詞向量。

      匹配層:該層的目的是在每個方向上分別比較問題的最終時間步向量和問題的每個時間步向量,反之亦然。

      通常,我們通過余弦函數(shù)來計算兩個向量間的相似度,如式(11)所示。

      (11)

      受到Wang[10]的影響,我們采用了多角度的全匹配策略,如式(12)所示。

      (12)

      其中,°代表元素級別的乘法,Wp代表W的第p行,它控制著第p個角度并且給維度空間中的不同維度分配不同的權(quán)重。

      然后,我們可以得到相似度矩陣,如式(13)所示。

      (13)

      其中,P表示角度的數(shù)量。

      注意力層:該層的目的是給匹配矩陣分配權(quán)重,從而獲得當(dāng)前問答對最有信息量的表示。

      首先,我們連接Q→A和A→Q相似度矩陣,從而得到問答匹配矩陣,如式(14)所示。

      (14)

      然后,我們計算出注意力權(quán)重并歸一化,如式(15)所示。

      aq a=softmax(tanh(Wq aHq a+bq a))

      (15)

      其中,Wq a是權(quán)重矩陣,bq a是偏置矩陣。

      最后,將aq a和M相乘,從而獲得問答向量vq a,如式(16)所示。

      vq a=aq aMT

      (16)

      分類層:該層的目的是利用問答向量vq a來進行分類。我們將vq a傳入softmax分類器,如式(17)所示。

      o=Wlvq a+bl

      (17)

      其中,o∈RK是輸出,Wl是權(quán)重矩陣,bl是 偏置矩陣。K表示類別的數(shù)目,那么對于類別k∈[1,K]的概率計算如式(18)所示。

      (18)

      最后,具有最高概率的標(biāo)簽作為最終的分類結(jié)果。

      3.3 模型訓(xùn)練

      我們采用交叉熵損失函數(shù)來端到端訓(xùn)練模型。具體而言,輸入訓(xùn)練數(shù)據(jù)集合xt,yt,xt是第t個要被預(yù)測的問答對,yt是xt的真實標(biāo)簽。模型表示為一個黑盒函數(shù)σ(x)。模型的輸出是一個代表了每個類別概率的向量。訓(xùn)練的目標(biāo)是最小化下面的損失函數(shù),如式(19)所示。

      (19)

      其中,N代表訓(xùn)練樣例的數(shù)目,λ是對偏置參數(shù)的L2正則化。

      4 實驗

      4.1 實驗設(shè)置

      數(shù)據(jù)設(shè)置:采用第二節(jié)內(nèi)容介紹的數(shù)據(jù)集作為實驗數(shù)據(jù)。該數(shù)據(jù)集包含5 698個問答對。我們隨機將數(shù)據(jù)分為訓(xùn)練集(每個類別的80%)和測試集(每個類別剩下的20%)。此外,將來自訓(xùn)練集的10%數(shù)據(jù)作為開發(fā)集,用于學(xué)習(xí)算法中的參數(shù)調(diào)整。

      詞切分和詞向量訓(xùn)練:采用Jieba[注]https://pypi.python.org/pypi/jieba/分詞來進行分詞,并采用Word2Vec來訓(xùn)練詞向量。訓(xùn)練詞向量的數(shù)據(jù)來自于數(shù)碼領(lǐng)域,共計200 000條問答對。詞向量的維度設(shè)置為100。

      句子切分:采用斯坦福大學(xué)自然語言處理實驗室公布的CoreNLP[注]https://stanfordnlp.github.io/CoreNLP/download.html工具來進行句子切分。

      模型參數(shù):實驗中所有模型使用深度學(xué)習(xí)開源框架Tensorflow[注]https://www.tensorflow.org/搭建。模型中所有的超參數(shù)都是通過開發(fā)集的性能來進行調(diào)整。LSTM的單元數(shù)設(shè)置為128。Batch size設(shè)置為64。優(yōu)化器的學(xué)習(xí)率為0.001。迭代次數(shù)為30。

      評價標(biāo)準(zhǔn)和顯著性測試:我們用標(biāo)準(zhǔn)的精確率(P),召回率(R),F(xiàn)1值和準(zhǔn)確率(Accuracy)來評價性能。我們采用t測試來評價兩個方法間的顯著性程度。

      4.2 基線模型

      所有基線模型均采用3.1節(jié)與3.2節(jié)提出的切分方式。

      (1) 最大熵(MaxEnt):劉[31]等提出一種基于淺層學(xué)習(xí)方法最大熵訓(xùn)練的分類器。

      (2) LSTM:Bowman[14]等提出的一種基于單純網(wǎng)絡(luò)的問答匹配方法。

      (3) SCNN:Zhang[15]等提出的一種基于單純網(wǎng)絡(luò)的隱含話題識別的最佳方法。

      (4) Attentive LSTM:Tan[7]等提出的一種屬于注意力網(wǎng)絡(luò)的性能最佳的問答匹配方法。

      (5) MULT:Wang[9]等提出的一種基于聚合比較網(wǎng)絡(luò)的性能最佳的問答匹配方法。

      (6) BIMPM:Wang[10]等提出的另一種基于聚合比較網(wǎng)絡(luò)的性能最佳的問答匹配方法。我們實現(xiàn)了集成了四種匹配方式的BIMPM(Ensemble)。

      4.3 我們的方法

      (1) 上下文相關(guān)的輸入架構(gòu)(Contextual Input Structure,CIS):具體實現(xiàn)中,只采用了上下文相關(guān)的輸入架構(gòu),并沒有采用注意力機制,所有通過注意力機制挑選的向量均用LSTM輸出的所有時間步的詞向量的平均來代替。

      (2) 注意力機制(Attention Mechanism,AM):具體實現(xiàn)中,只采用了注意力機制,并沒有采用上下文相關(guān)的輸入架構(gòu)。即輸入只有當(dāng)前句子,不再需要當(dāng)前句子的上下文信息。

      (3) 基于注意力機制的上下文相關(guān)的問答配對方法(Contextual QA Pairing Method based on Attention Network,CPMAN):具體實現(xiàn)中,同時利用了上下文相關(guān)的輸入架構(gòu)以及注意力機制,整體結(jié)果如圖2及圖3所示。

      4.4 實驗結(jié)果

      表2和表3給出了不同問答匹配方法的總體性能及每個類別上面的性能。從表中結(jié)果來看,所有深層學(xué)習(xí)方法的性能均優(yōu)于淺層學(xué)習(xí)方法。我們方法的3種實現(xiàn)性能均優(yōu)于所有基線方法。t測試結(jié)果表明我們方法帶來的性能提升具有統(tǒng)計顯著性(p-value<0.05)。此外,我們的方法在“匹配”這個類別上表現(xiàn)更出色。我們的CPMAN的實現(xiàn)比基線方法中最好的BIMPM在P值上高了0.050,在R值上高了0.094,且在F值上高了0.073。在所有的實現(xiàn)中,CPMAN的整體性能最好。該結(jié)果表明在問答配對中,上下文相關(guān)的輸入架構(gòu)以及注意力機制均可以顯著提高配對性能,并且兩者相結(jié)合的性能最佳。

      表2 不同問答配對方法的整體性能

      表3 不同問答配對方法在每個類別中的性能

      4.5 注意力可視化

      為了更好地理解注意力機制并檢驗?zāi)P褪欠窨梢垣@取句子中的關(guān)鍵信息,我們對注意力權(quán)重進行了可視化。

      圖4給出了某個問答對的注意力可視化結(jié)果。圖中陰影部分表示詞的權(quán)重,陰影顏色的深度表示了重要程度,顏色越深表示重要性越高。從圖中結(jié)果可以看出,注意力機制確實可以挑選出和匹配相關(guān)的詞。例如,當(dāng)前句子中的詞“的話”,隱含地表示了條件型回答,模型從之后的句子中挑選出“可以”和“一天”兩個詞,最終分類問題和當(dāng)前句子匹配。

      圖4 問答對的注意力可視化

      5 結(jié)束語

      本文構(gòu)造了一個問答配對語料庫,用于研究非正式文本的問答配對方法。在此基礎(chǔ)上,本文提出一種基于注意力機制的上下文相關(guān)問答配對方法。該方法提出一種上下文相關(guān)的輸入架構(gòu)并結(jié)合注意力機制。實驗結(jié)果表明,本文提出的方法能夠顯著提升問答配對的性能。

      下一步工作中,我們準(zhǔn)備進一步擴大語料的標(biāo)注規(guī)模,嘗試標(biāo)注其他領(lǐng)域的數(shù)據(jù)。此外,我們將測試本文的方法在其他領(lǐng)域或其他語言問答配對任務(wù)中的有效性。

      猜你喜歡
      注意力架構(gòu)向量
      基于FPGA的RNN硬件加速架構(gòu)
      向量的分解
      讓注意力“飛”回來
      聚焦“向量與三角”創(chuàng)新題
      功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實踐
      汽車工程(2021年12期)2021-03-08 02:34:30
      LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實現(xiàn)
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      周宁县| 平远县| 天水市| 遂平县| 罗甸县| 黄山市| 河东区| 罗甸县| 建瓯市| 通江县| 乡宁县| 榆林市| 睢宁县| 九江市| 天台县| 手游| 常德市| 班戈县| 济阳县| 静乐县| 抚松县| 民勤县| 秦安县| 象山县| 濮阳县| 图木舒克市| 东乌珠穆沁旗| 嘉兴市| 淮北市| 汽车| 武夷山市| 海淀区| 龙井市| 阿图什市| 抚宁县| 龙里县| 勐海县| 东光县| 吴忠市| 巴林右旗| 永宁县|