• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      機(jī)器閱讀理解的技術(shù)研究綜述

      2020-05-12 09:40:24徐霄玲鄭建立尹梓名
      關(guān)鍵詞:注意力機(jī)器向量

      徐霄玲,鄭建立,尹梓名

      (上海理工大學(xué) 醫(yī)療器械與食品學(xué)院,上海 200093)

      E-mail:172702146@st.usst.edu.cn

      1 引 言

      機(jī)器閱讀理解(MRC,Machine Reading Comprehension)是自然語(yǔ)言處理的長(zhǎng)期目標(biāo),是人工智能向前邁進(jìn)的關(guān)鍵一步.互聯(lián)網(wǎng)日益普及,深度學(xué)習(xí)等人工智能技術(shù)蓬勃發(fā)展,人們?cè)趫D像識(shí)別、語(yǔ)音識(shí)別、圍棋AI等領(lǐng)域已經(jīng)使計(jì)算機(jī)達(dá)到接近人類甚至超越人類的水平.于是,人們開始往更為復(fù)雜的機(jī)器閱讀理解領(lǐng)域進(jìn)行探索.機(jī)器閱讀理解是為了培養(yǎng)計(jì)算機(jī)對(duì)自然文本理解的能力,讓其能像人類一樣對(duì)文本進(jìn)行閱讀、推理,也就是意味著計(jì)算機(jī)在接受自然語(yǔ)言輸入后能夠給出正確的反饋[1].此概念在1972年首先[2]被提出.經(jīng)過(guò)幾十年的變化發(fā)展,已經(jīng)由最初依據(jù)規(guī)則和詞性、依存句法、語(yǔ)義角色等傳統(tǒng)特征,演變?yōu)榛诖髷?shù)據(jù)和深度學(xué)習(xí)進(jìn)行閱讀推理.本文將從其具體任務(wù),數(shù)據(jù)集和關(guān)鍵技術(shù)三方面,對(duì)機(jī)器閱讀理解做出進(jìn)一步闡述.

      2 機(jī)器閱讀理解任務(wù)概述

      機(jī)器閱讀理解實(shí)際上是由自然語(yǔ)言理解所衍生的子任務(wù),用以衡量計(jì)算機(jī)“理解”自然語(yǔ)言所達(dá)到的程度.首先由Hirschmann[3]等人提出利用文本閱讀并通過(guò)回答問(wèn)題的形式評(píng)估機(jī)器閱讀理解,此種評(píng)估方式延續(xù)至今.通常情況下,機(jī)器閱讀理解任務(wù)主要由Document(需要機(jī)器閱讀的篇章)、Question(需要機(jī)器回答的問(wèn)題)、Answer(機(jī)器閱讀理解的答案)三個(gè)要素構(gòu)成.根據(jù)任務(wù)的不同,Answer可能是篇章中的單個(gè)實(shí)體或者是篇章中的片段,也可能是機(jī)器生成的句子.當(dāng)任務(wù)是閱讀選擇題時(shí),在上述基礎(chǔ)上需要增加Candidate(候選答案)要素,Answer來(lái)自于候選答案.近年來(lái),在篇章數(shù)據(jù)集上學(xué)者們做了大量工作,使閱讀理解更加貼近真實(shí)應(yīng)用場(chǎng)景:內(nèi)容上,由虛構(gòu)故事向真實(shí)問(wèn)答靠攏;回答方法上,由單純依靠篇章回答向依賴外部知識(shí)推理發(fā)展;數(shù)據(jù)量上,從以前的幾百到現(xiàn)在動(dòng)輒上萬(wàn).數(shù)據(jù)集的具體比較詳見第3節(jié).

      機(jī)器閱讀理解雖然在認(rèn)知智能領(lǐng)域是一個(gè)極具挑戰(zhàn)的任務(wù),但卻有著較為悠久的歷史.最初由Terry Winograd提出構(gòu)想[2],認(rèn)為語(yǔ)法、語(yǔ)義和推理是實(shí)現(xiàn)閱讀理解的三大要素.1999年,出現(xiàn)首個(gè)自動(dòng)閱讀理解測(cè)試系統(tǒng)Deep Read[3],該系統(tǒng)以故事為基礎(chǔ)衡量閱讀理解任務(wù),利用詞袋模型BOW和人工編寫的規(guī)則進(jìn)行模式匹配,達(dá)到了40%的正確率.考慮到閱讀理解需要大量常識(shí),Schubert[4]等人在2000年率先提出一個(gè)基于情節(jié)邏輯的敘事理解框架,情節(jié)邏輯被用于語(yǔ)義表示和外部知識(shí)表示.總的說(shuō)來(lái),機(jī)器閱讀理解早期發(fā)展速度緩慢,大量依靠手工提取的語(yǔ)法特征以及三元組信息,具有耗時(shí)長(zhǎng)、魯棒性差等缺點(diǎn).直到Hermann等人[5]提出使用神經(jīng)網(wǎng)絡(luò)模型,該領(lǐng)域近年來(lái)才開始逐步發(fā)展起來(lái).其提出的Deep LSTM Reader、Attentive Reader和Impatient Reader三種神經(jīng)網(wǎng)絡(luò)模型,奠定了機(jī)器閱讀領(lǐng)域的方法基礎(chǔ).在此之后,Match-LSTM[6]、BiDAF[7]、Dynamic Coattention Networks[8]等大量?jī)?yōu)秀模型頻現(xiàn),權(quán)威刷榜評(píng)測(cè)任務(wù)排名不斷更新,為機(jī)器閱讀理解提供了統(tǒng)一衡量標(biāo)準(zhǔn),極大地促進(jìn)了自然語(yǔ)言理解的發(fā)展.

      3 MRC數(shù)據(jù)集

      機(jī)器閱讀理解實(shí)際上是一個(gè)數(shù)據(jù)驅(qū)動(dòng)型任務(wù),因此數(shù)據(jù)集是其技術(shù)發(fā)展的基礎(chǔ).無(wú)論是基于人工規(guī)則還是基于深度學(xué)習(xí)等熱門手段,數(shù)據(jù)集的質(zhì)量和難度都直接關(guān)系到模型的質(zhì)量和實(shí)用性,每次不同形式數(shù)據(jù)集的出現(xiàn)都會(huì)帶來(lái)模型的創(chuàng)新.隨著數(shù)據(jù)集規(guī)模增大和考查形式的變化,任務(wù)難度不斷上升,對(duì)模型的要求也越來(lái)越高[9].到目前為止,已經(jīng)出現(xiàn)很多經(jīng)典英文數(shù)據(jù)集.這兩年,國(guó)內(nèi)對(duì)閱讀理解任務(wù)逐步重視,積極向國(guó)際靠攏,開放了DuReader[10]等中文數(shù)據(jù)集.

      表1 各個(gè)數(shù)據(jù)集基本統(tǒng)計(jì)信息比較

      Table 1 Comparisons of basic statistical Information in datasets

      數(shù)據(jù)集名稱語(yǔ)言類型文章數(shù)量問(wèn)題數(shù)量MCTest英文5002000RACE英文2793397687CNN英文92579387420Daily Mail英文119506997467CBT英文108687343BookTest英文-14140825PD&CFT中文28000100000SQuAD英文536107785NewsQA英文12744120000MS MARCO英文88418231010916DuReader中文1000000200000NarrativeQA英文157246765

      3.1 選擇型數(shù)據(jù)集

      選擇題能有效避免模棱兩可的答案,因此于2013年微軟推出MCTest[11].MCTest是一個(gè)面向開放領(lǐng)域的數(shù)據(jù)集, 文章內(nèi)容是適合7歲孩子理解的童話故事,提問(wèn)形式為四選一選擇題,且問(wèn)題選項(xiàng)基本來(lái)自于原文,這說(shuō)明基于此數(shù)據(jù)集的MRC評(píng)估模型基本不需要推理能力.MCTest雖然通過(guò)眾包的方式反復(fù)檢查校驗(yàn)以確保高質(zhì)量,但由于其數(shù)據(jù)規(guī)模較小(僅包含了近500篇文章和2000個(gè)問(wèn)題),無(wú)法滿足神經(jīng)網(wǎng)絡(luò)等更加復(fù)雜的訓(xùn)練模型.2017年學(xué)界開放了RACE數(shù)據(jù)集[12].RACE同樣利用選擇題的方式評(píng)估MRC任務(wù).相較于MCTest,它數(shù)據(jù)量上占絕對(duì)優(yōu)勢(shì),詳見表1.RACE數(shù)據(jù)來(lái)源于中國(guó)12-18歲中學(xué)生的英語(yǔ)考試試題,由語(yǔ)言專家出題,59.2%的問(wèn)題需要聯(lián)系上下文進(jìn)行推理,能更加真實(shí)地以人類標(biāo)準(zhǔn)衡量機(jī)器閱讀理解的能力.在SemEval-2018任務(wù)11發(fā)布了基于常識(shí)的閱讀理解[13],要求模型引入外部知識(shí),從兩個(gè)候選答案中選出一個(gè)作為正確答案.

      3.2 填空型數(shù)據(jù)集

      填空就是要求讀者補(bǔ)充句子中缺失的詞語(yǔ)[14].以填空形式構(gòu)造問(wèn)題,數(shù)量上可以任意擴(kuò)充.CNN/Daily Mail[5]率先解決了MRC領(lǐng)域數(shù)據(jù)量不足的問(wèn)題.Hermann等人從美國(guó)有線電視新聞網(wǎng)和每日郵報(bào)網(wǎng)中收集了近100萬(wàn)新聞數(shù)據(jù),利用實(shí)體檢測(cè)和匿名化算法,將新聞中概括性語(yǔ)句轉(zhuǎn)換為<文章(c),問(wèn)題(q),答案(a)>三元組.文章中的實(shí)體用隨機(jī)數(shù)字代替,模型利用數(shù)字回答相應(yīng)問(wèn)題,有利于幫助研究者注重語(yǔ)義關(guān)系.CBT[15]和BookTest[16]等也是填空型數(shù)據(jù)集.兩者任務(wù)類似,都是從書中抽取連續(xù)21個(gè)句子,前20句子作為文章,預(yù)測(cè)第21句中缺失的詞.但是BT數(shù)據(jù)規(guī)模更大,將近是CBT的60倍,更能滿足復(fù)雜深度學(xué)習(xí)模型的數(shù)據(jù)需求.哈爾濱工業(yè)大學(xué)訊飛聯(lián)合實(shí)驗(yàn)室于2016年7月提出首個(gè)中文填空型閱讀理解數(shù)據(jù)集PD&CFT[17],增加了該領(lǐng)域語(yǔ)言的多樣性,促進(jìn)了中文閱讀理解的發(fā)展.

      3.3 篇章片段型數(shù)據(jù)集

      篇章片段數(shù)據(jù)集指的是:在該數(shù)據(jù)集中,問(wèn)題的答案不再是單一實(shí)體,而是文章中的片段(span).既可以是單一片段,也可以是多個(gè)片段的組合,答案類型更加豐富.由于答案的特殊性,因此多采用F1值、EM(準(zhǔn)確匹配)、Bleu[18]和Rouge[19]等作為衡量預(yù)測(cè)值和真實(shí)值重疊程度的指標(biāo).

      SQuAD[20]和NewsQA[21]是篇章片段數(shù)據(jù)集的代表,數(shù)據(jù)分別來(lái)自于維基百科和CNN新聞.目前,SQuAD數(shù)據(jù)集已經(jīng)成為權(quán)威刷榜評(píng)測(cè)任務(wù),且到發(fā)文為止在SQuAD1.1數(shù)據(jù)集中,機(jī)器表現(xiàn)已經(jīng)超越人類.由于SQuAD1.1數(shù)據(jù)主要集中在可回答的問(wèn)題,因此斯坦福在其基礎(chǔ)上增加了50000個(gè)不可回答問(wèn)題,提出SQuAD2.0[22],進(jìn)一步提升了數(shù)據(jù)集難度.2018年第二屆“訊飛杯”在其評(píng)測(cè)任務(wù)中發(fā)布了首個(gè)人工標(biāo)注的中文篇章片段抽取型閱讀理解數(shù)據(jù)集,填補(bǔ)了中文在這方面的空白.

      3.4 多任務(wù)型數(shù)據(jù)集

      4 機(jī)器理解方法分析與研究

      解決機(jī)器閱讀理解問(wèn)題需要關(guān)注以下三個(gè)問(wèn)題:

      1)問(wèn)題和文檔表示:將自然語(yǔ)言文本轉(zhuǎn)換為計(jì)算機(jī)能夠理解的形式;

      2)檢索上下文:聯(lián)系上下文并適當(dāng)推理,檢索出文檔中與問(wèn)題最相關(guān)的文章片段;

      3)獲取答案:對(duì)檢索出的文章片段進(jìn)行歸納總結(jié),得到答案.

      用于解決機(jī)器閱讀理解問(wèn)題方法有傳統(tǒng)方法和深度學(xué)習(xí)方法.傳統(tǒng)方法更多地是在句子粒度上回答問(wèn)題.將問(wèn)題和文檔提取特征后表示成矩陣,或利用人工規(guī)則,對(duì)問(wèn)題Q的每個(gè)候選答案句應(yīng)用相應(yīng)類型規(guī)則集中的所有規(guī)則,累計(jì)計(jì)算得分,總得分最高者為問(wèn)題Q的答案句[26];或把閱讀理解當(dāng)成分類任務(wù),根據(jù)已經(jīng)得到的特征,利用SVM等傳統(tǒng)機(jī)器學(xué)習(xí)算法,得到答案A[27].傳統(tǒng)方法核心是特征抽取,包括抽取淺層特征和深層語(yǔ)義特征.目前被認(rèn)為有效的特征主要有依存句法、詞頻共現(xiàn)、語(yǔ)篇關(guān)系等.雖然傳統(tǒng)方法能在一些數(shù)據(jù)集上取得較好結(jié)果,但是由于特征需要專家根據(jù)數(shù)據(jù)集制定,魯棒性差;再加之,只能從現(xiàn)有文本中提取特征,不能對(duì)文本進(jìn)行推理,因此無(wú)法真正解決機(jī)器理解問(wèn)題.

      如今隨著數(shù)據(jù)量幾何級(jí)增長(zhǎng),硬件計(jì)算能力不斷增強(qiáng),深度學(xué)習(xí)方法被廣泛運(yùn)用到詞粒度的機(jī)器閱讀理解任務(wù)中.深度學(xué)習(xí)的最大優(yōu)勢(shì)在于能夠通過(guò)通用的端到端的過(guò)程學(xué)習(xí)數(shù)據(jù)的特征,自動(dòng)獲取到數(shù)據(jù)的高層次表示,而不依賴于人工設(shè)計(jì)特征[28].用于MRC任務(wù)的深度學(xué)習(xí)模型基本包含嵌入層、編碼層、語(yǔ)義交互層和答案抽取層.嵌入層將文章和問(wèn)題映射成包含相關(guān)文本信息的向量表示,便于計(jì)算機(jī)理解;編碼層利用RNN、LSTM等神經(jīng)網(wǎng)絡(luò)對(duì)文章和問(wèn)題編碼,得到上下文語(yǔ)義信息;匹配層根據(jù)將上述文章和問(wèn)題編碼信息進(jìn)行融合匹配,最終得到混合兩者語(yǔ)義的交互向量,這是整個(gè)模型中最重要的部分;答案預(yù)測(cè)層,根據(jù)語(yǔ)義交互向量,或選擇答案,或抽取答案邊界,或生成答案[29]

      4.1 預(yù)訓(xùn)練模型

      研究工作表明,預(yù)訓(xùn)練模型能有效提升大多數(shù)自然語(yǔ)言處理任務(wù)效果,MRC任務(wù)同樣也適用.預(yù)訓(xùn)練模型是前人為了解決類似問(wèn)題所創(chuàng)造出來(lái)的模型,該模型參數(shù)能直接應(yīng)用于當(dāng)前任務(wù)中,既能彌補(bǔ)在語(yǔ)料不足的情況下構(gòu)造復(fù)雜神經(jīng)網(wǎng)絡(luò),又能在語(yǔ)料充足的情況下加快收斂速度.預(yù)訓(xùn)練模型的輸出值,一般被應(yīng)用于嵌入層,用以得到通用文本特征.

      自然語(yǔ)言處理的所有任務(wù)本質(zhì)上都是對(duì)向量的進(jìn)一步使用,詞作為語(yǔ)言表示中的基本單位,如何將其轉(zhuǎn)化為向量是基礎(chǔ)工作之一.通常情況下,詞向量是預(yù)先訓(xùn)練好的,可以將其看成單層的預(yù)訓(xùn)練模型.在深度學(xué)習(xí)時(shí)代未到來(lái)以前,最為簡(jiǎn)單的詞向量表示方法就是one-hot編碼.但由于其無(wú)法解決維度災(zāi)難和語(yǔ)義表達(dá)問(wèn)題,Rumelhart等人[30]提出分布式詞表示,使用稠密的低維向量表示每個(gè)詞.研究者在此理論基礎(chǔ)上,提出眾多構(gòu)建詞向量的方法:Word2Vec[31]、Glove[32]和FastText[33],這些方法被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域的各項(xiàng)任務(wù)中.

      4.1.1 ELMo

      近年來(lái),出現(xiàn)三大預(yù)訓(xùn)練模型.ELMo(Embeddings from Language Models)[34]是其中之一,它利用雙向LSTM提取到訓(xùn)練數(shù)據(jù)的單詞特征、句法特征和語(yǔ)義特征.包含N個(gè)詞的語(yǔ)料(t1,t2,…,tN),前向LSTM根據(jù)已知詞序列(t1,t2,…,tk-1),求詞語(yǔ)tk的概率,如公式(1)所示.后向LSTM則反之,根據(jù)已知詞序列(tk+1,tk+2,…,tN)求概率,如公式(2)所示.ELMo就是結(jié)合前向和后向LSTM,求取聯(lián)合似然函數(shù)的最大值,見公式(3),其中Θ表示神經(jīng)網(wǎng)絡(luò)中的各項(xiàng)參數(shù).ELMo用于MRC任務(wù)時(shí),將模型的每層輸出按照權(quán)重相乘得到詞向量ELMok,再將ELMok與普通詞向量xk或者是隱層輸出向量hk拼接作為模型嵌入層輸入.實(shí)驗(yàn)表明,ELMo使當(dāng)時(shí)最好的單模型[35]在SQuAD數(shù)據(jù)集上F1值提升了1.7%.

      (1)

      (2)

      (3)

      4.1.2 GPT

      GPT(Generative Pre-Training)(1)https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf是生成式預(yù)訓(xùn)練模型,是一種結(jié)合了無(wú)監(jiān)督預(yù)訓(xùn)練和監(jiān)督微調(diào)(supervised fine-tuning)的半監(jiān)督方法.在預(yù)訓(xùn)練階段,使用谷歌提出的單向Transformer[36]作為特征提取器.Transformer依靠自注意力機(jī)制抽取特征,能力強(qiáng)于LSTM,被認(rèn)為是NLP領(lǐng)域效果最好的長(zhǎng)距離特征提取器.其他方面,仍然采用標(biāo)準(zhǔn)的語(yǔ)言模型訓(xùn)練目標(biāo)函數(shù),根據(jù)已知前k-1個(gè)詞,求取當(dāng)前詞概率的最大似然估計(jì):

      (4)

      式(3)和式(4)比較,不難發(fā)現(xiàn),GPT只依靠上文信息進(jìn)行預(yù)測(cè),而ELMo則結(jié)合了上下文信息.

      Radford等人提出GPT-2[37],是GPT的升級(jí)版.GPT-2與GPT最大的區(qū)別在于數(shù)據(jù)規(guī)模更大,模型層數(shù)更多,高達(dá)48層.GPT應(yīng)用于具體NLP任務(wù)時(shí),要保證任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)與GPT一致,最簡(jiǎn)單的做法就是在GPT的最后一層Transformer層接入softmax作為任務(wù)輸出層,通過(guò)訓(xùn)練對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào).實(shí)驗(yàn)表明,GPT應(yīng)用于RACE數(shù)據(jù)集,使最佳模型結(jié)果提高了5.7%.

      4.1.3 BERT

      考慮到GPT模型的不足,谷歌團(tuán)隊(duì)提出BERT(Bidirectional Encoder Representations from Transformers)預(yù)訓(xùn)練模型[38],得到了學(xué)術(shù)界廣泛關(guān)注.BERT預(yù)訓(xùn)練模型在流程上,與GPT保持了一致,都包含了預(yù)訓(xùn)練階段和微調(diào)階段.它與GPT最大的不同在于其使用雙向Transformer完成了語(yǔ)言模型的訓(xùn)練,是GPT模型的進(jìn)一步發(fā)展.同為雙向語(yǔ)言模型,但其與ELMo訓(xùn)練的目標(biāo)函數(shù)是不同的.ELMo分別將P(tk|t1,t2,…,tk-1)和(tk+1,tk+2,…,tN)作為目標(biāo)函數(shù),求兩者結(jié)合后的最大似然概率.而BERT則以P(tk|t1,t2,…,tk-1,tk+1,…,tN)為目標(biāo)函數(shù),真正意義上表征了上下文語(yǔ)境特征.BERT提出后,在11個(gè)NLP任務(wù)中均取得了最好效果.在MRC任務(wù)中,單個(gè)BERT模型在SQuAD數(shù)據(jù)集中較最優(yōu)模型F1值提高了1.5%.

      三大預(yù)訓(xùn)練模型結(jié)構(gòu)差異詳見圖1.Trm代表Transformer,(E1,E2,…,EN)為預(yù)訓(xùn)練模型輸入,(T,T2,…,TN)則表示輸出.ELMo使用雙向LSTM的輸出用于下游任務(wù),而GPT使用單向Transformer,BERT使用雙向Transformer.

      圖1 預(yù)訓(xùn)練模型結(jié)構(gòu)對(duì)比圖

      4.2 注意力機(jī)制(Attetion Mechanism)

      閱讀理解任務(wù)中,篇章往往較長(zhǎng),但與答案相關(guān)的內(nèi)容只是其中的一小部分.在傳統(tǒng)方法中,通常利用循環(huán)網(wǎng)絡(luò)將篇章編碼成固定長(zhǎng)度的中間語(yǔ)義向量,然后利用該向量指導(dǎo)每一步長(zhǎng)輸出.此舉既造成了信息過(guò)載,限制了模型效果,也降低了模型的運(yùn)行效率.為改變上述狀況,學(xué)者們從機(jī)器翻譯領(lǐng)域借鑒注意力機(jī)制[39],在MRC模型的語(yǔ)義交互層加入注意力機(jī)制,獲取文章中與問(wèn)題最相關(guān)的部分以提升效果.

      4.2.1 基本概念

      圖2 注意力機(jī)制流程

      谷歌指出注意力機(jī)制就是加權(quán)求和[36].注意力實(shí)現(xiàn)機(jī)制如圖2所示,分為兩個(gè)步驟:計(jì)算注意力分布和加權(quán)平均.MRC任務(wù)中,P=[p1,p2,p3,…,pn-1,pn]代表篇章信息,向量pi為篇章中的每個(gè)詞的向量表示,i表示詞在文中的索引,i∈[1,n];Q為問(wèn)題的向量表示.通過(guò)打分函數(shù)s計(jì)算篇章中每個(gè)詞與問(wèn)題Q的相關(guān)性分?jǐn)?shù),然后經(jīng)過(guò)softmax函數(shù)層,得到和為1的注意力分布αi,如公式(5)所示:

      (5)

      其中函數(shù)s為注意力打分函數(shù),可以是簡(jiǎn)單的計(jì)算,也可以是復(fù)雜的神經(jīng)網(wǎng)絡(luò),常見的主要有點(diǎn)積運(yùn)算、雙線性模型、縮放點(diǎn)積模型和加性模型(2)https://nndl.github.io/,分別見公式(6)-公式(9):

      (6)

      (7)

      (8)

      s(pi,Q)=vTtanh(Wpi+UQ)

      (9)

      其中W、U、v為神經(jīng)網(wǎng)絡(luò)模型可學(xué)習(xí)參數(shù),d表示篇章向量的維度.不同的打分函數(shù)對(duì)模型的意義是不一樣的,例如點(diǎn)積運(yùn)算相較于加性模型,能更好的利用矩陣乘法,有利于訓(xùn)練效率地提高;雙線性模型相較于點(diǎn)積運(yùn)算,引入了非對(duì)稱項(xiàng),有利于信息提取等.因此,需要根據(jù)數(shù)據(jù)和模型需要選擇合適的打分函數(shù).

      注意力分布αi獲取了篇章中與問(wèn)題強(qiáng)相關(guān)的部分,最后根據(jù)加權(quán)平均聚合所有篇章信息,強(qiáng)化相關(guān)信息,弱化甚至舍棄無(wú)關(guān)信息,用于最后的答案預(yù)測(cè),見公式(10).

      (10)

      4.2.2 相關(guān)模型

      Attentive Reader[5]率先將注意力機(jī)制應(yīng)用于機(jī)器閱讀理解中,使用雙向LSTM對(duì)文章進(jìn)行編碼,利用注意力機(jī)制求出每個(gè)詞對(duì)應(yīng)的權(quán)重,加權(quán)求和后最終表示出文章.其中使用公式(9)作為計(jì)算注意力分布的打分函數(shù).Stanford Attentive Reader使用雙線性項(xiàng)(公式(7))代替上述模型中tanh函數(shù)計(jì)算權(quán)重,在其基礎(chǔ)上效果提升了7%~10%[23].Impatient Reader[5]模型基本結(jié)構(gòu)與Attentive Reader一致,但同時(shí)考慮了問(wèn)題對(duì)文章權(quán)重的影響,因此每當(dāng)從問(wèn)題中獲取一個(gè)詞就迭代更新一次文章表示的權(quán)重.Attention Sum Reader[40]通過(guò)點(diǎn)積運(yùn)算獲取注意力權(quán)重,同時(shí)將相同詞概率進(jìn)行合并獲取概率,得出答案.Gated-Attention[41]在AS Reader模型基礎(chǔ)上,增加網(wǎng)絡(luò)層數(shù),并改用Hadamard乘法求解權(quán)重,提出新的注意力模型.Match-LSTM[42]則是第一個(gè)適用于SQuAD數(shù)據(jù)集的端到端神經(jīng)網(wǎng)絡(luò)模型.

      之后,出現(xiàn)很多關(guān)于注意力的變體.2016年,科大訊飛提出Attention-over-Attention Reader層疊式注意力模型[43],在原有注意力上增加一層注意力,來(lái)描述每一個(gè)注意力的重要性.并在其基礎(chǔ)上衍生出交互式層疊注意力模型(Interactive AoA Reader)和融合式層疊注意力模型(Hybrid AoA Reader),在SQuAD數(shù)據(jù)集上均表現(xiàn)不俗.針對(duì)選擇題型機(jī)器閱讀理解,朱海潮[44]等人提出Hierarchical Attention Flow,通過(guò)使用詞級(jí)別和句子級(jí)別注意力,將文章、問(wèn)題和選項(xiàng)進(jìn)行充分交互,在RACE數(shù)據(jù)集上取得優(yōu)于基準(zhǔn)模型的效果.DCN[45]利用Co-attention技術(shù)分別生成關(guān)于文檔和問(wèn)題的權(quán)重分布并結(jié)合,通過(guò)多次迭代得到答案;BiDAF[7]在交互層引入雙向注意力機(jī)制context-to-query和query-to-context;DFN[46]將一般模型中固定的注意力機(jī)制擴(kuò)展到多策略注意力,使模型能根據(jù)問(wèn)題類型動(dòng)態(tài)選擇出適宜的注意力機(jī)制;Reasonet[47]則將Memory Network(見4.3節(jié))和attention結(jié)合,動(dòng)態(tài)決定閱讀次數(shù),直至能回答問(wèn)題為止.這些均為MRC任務(wù)中注意力的使用提供了新思路.具體模型在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果詳見表2、表3.

      表2 模型在RACE數(shù)據(jù)集上的正確率

      Table 2 Accuracy on RACE datasets

      模 型 RACE-MRACE-HRACEStanford AR44.243.043.3GA Reader43.744.244.1Hierarchical Attention[44]45.046.446.0DFN[46]51.545.747.4Human Performance95.494.294.5

      表3 模型在CNN/DailyMail和CBT數(shù)據(jù)集的正確率

      Table 3 Accuracy on CNN/DailyMail and CBT datasets

      模 型 CNNValTestCBT-NEValTestDaily MailValTestAttentive Reader[5]61.663.070.569.0--Impatient Reader[5]61.863.869.068.0--Stanford AR[23]73.873.677.676.6--AS Reader[40]68.669.575.073.973.868.6GA Reader[41]73.073.876.775.774.969.0AoA Reader[43]73.174.4--77.872.0ReasoNet[47]72.974.777.676.6--BiDAF[7]76.376.980.379.6--

      4.3 記憶網(wǎng)絡(luò)(Memory Network)

      隨著數(shù)據(jù)量不斷增加,學(xué)者認(rèn)為傳統(tǒng)機(jī)器學(xué)習(xí)模型(如RNN、LSTM等)利用隱含狀態(tài)記憶,容量太小,無(wú)法完整記錄文本內(nèi)容.除了使用注意力機(jī)制提取與問(wèn)題最相關(guān)的文章內(nèi)容之外,他們提出一種可讀寫的外部記憶模塊,與問(wèn)題相關(guān)的信息保存在外部記憶中,需要時(shí)再進(jìn)行讀取.并將其和推理組件聯(lián)合訓(xùn)練,最終得到具有長(zhǎng)期記憶推理能力的靈活記憶能力.MRC任務(wù)中,不僅文章篇幅較長(zhǎng),而且還有可能需要添加先驗(yàn)知識(shí),記憶網(wǎng)絡(luò)的使用能有效改善網(wǎng)絡(luò)容量不足、長(zhǎng)距離依賴等問(wèn)題.

      4.3.1 基本概念

      記憶網(wǎng)絡(luò)的概念在2014年首次被提出[48].從某種程度上說(shuō),記憶網(wǎng)絡(luò)是一個(gè)框架,包含輸入模塊、輸出模塊、記憶模塊等.學(xué)者可以根據(jù)自己的需要定制框架下的各個(gè)模塊.記憶網(wǎng)絡(luò)常見模塊構(gòu)成如圖3所示.

      圖3 記憶網(wǎng)絡(luò)基本組成模塊

      輸入模塊X:輸入訓(xùn)練數(shù)據(jù),包括篇章、問(wèn)題等.

      輸出模塊Y:輸出答案.

      主網(wǎng)絡(luò)C:控制信息交互.既包括與外界信息交互:根據(jù)輸入X,獲取篇章內(nèi)容P和問(wèn)題Q;得到預(yù)測(cè)答案后輸出到Y(jié).也包括與外部記憶單元交互,控制讀寫操作完成外部記憶單元的動(dòng)態(tài)更新.

      讀操作R:根據(jù)輸入中的問(wèn)題Q、主網(wǎng)絡(luò)在多次推理過(guò)程中生成的問(wèn)題向量qr,從外部記憶單元中讀取相應(yīng)的信息.

      寫操作W:根據(jù)主網(wǎng)絡(luò)在多次推理過(guò)程中生成的問(wèn)題qw、待寫入的信息a,更新外部記憶單元內(nèi)的相關(guān)信息.

      外部記憶單元M:引入的外部記憶模塊,用于存儲(chǔ)信息.存儲(chǔ)形式可以為數(shù)組、棧、隊(duì)列等,也就是說(shuō)每個(gè)記憶單元都是擁有自己的地址的,讀寫操作都是根據(jù)尋址后完成的.

      4.3.2 相關(guān)模型

      Weston等人[48]首先提出記憶網(wǎng)絡(luò)的雛形,指出記憶網(wǎng)絡(luò)由一個(gè)記憶模塊m和四個(gè)組件I(輸入)、G(泛化)、O(輸出)、R(回答)組成.將上下文和問(wèn)題輸入之后,利用記憶模塊進(jìn)行存儲(chǔ),并能根據(jù)相關(guān)信息動(dòng)態(tài)更新,最后找到與問(wèn)題最相關(guān)的記憶作為答案并輸出.上述模型雖然能解決網(wǎng)絡(luò)容量不足的問(wèn)題,但模型每一層都需要監(jiān)督,無(wú)法進(jìn)行反向傳播計(jì)算,這與現(xiàn)階段端到端的模型思想相違背.為了解決上述問(wèn)題,End-to-End Memory Networks(MemN2N)[49]被提出.它在滿足基本組成模塊的前提下,重新搭建模型框架,使用加權(quán)求和的方式得到輸出向量,是一個(gè)端到端的反向傳播記憶網(wǎng)絡(luò),同時(shí)支持多跳推理.Key-Value Memory Network[50]在端到端記憶網(wǎng)絡(luò)的基礎(chǔ)上,優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),擴(kuò)大了記憶規(guī)模,使其能更好地存儲(chǔ)先驗(yàn)知識(shí).上述三個(gè)模型為記憶網(wǎng)絡(luò)的發(fā)展奠定了理論基礎(chǔ),卻一直沒(méi)有運(yùn)用到相關(guān)機(jī)器閱讀理解數(shù)據(jù)集上,直到MEMEN模型的出現(xiàn)[51].MEMEN對(duì)篇章和問(wèn)題采取多層次輸入,包括字向量輸入、詞向量輸入、詞性輸入和命名實(shí)體輸入,充分融合文檔和問(wèn)題當(dāng)中的信息,將其存儲(chǔ)到記憶單元中.同時(shí)使用一種新的分層注意力機(jī)制尋址記憶單元,并動(dòng)態(tài)更新單元內(nèi)容.類似地還有MAMCN[52],增加額外記憶單元,并利用BiGRU更新,嘗試解決長(zhǎng)距離依賴問(wèn)題,實(shí)現(xiàn)跨文檔預(yù)測(cè)答案.

      表4 模型在SQuAD測(cè)試數(shù)據(jù)集上的EM值和F1值

      Table 4 Exact Match(EM)and F1 scores on SQuAD 1.1 test

      模 型 EM F1Match-LSTM[42]64.773.7DCN[45]66.275.9BiDAF68.077.3ReasoNet69.178.9MEMEN[51]70.980.4MAMCN[52]70.979.9InteractiveAoA Reader73.681.9HybridAoA Reader80.087.3Bert[38]87.493.2Human Performance82.391.2

      從表2-表4中,我們不難發(fā)現(xiàn)現(xiàn)階段模型往往是針對(duì)特定類型數(shù)據(jù)集設(shè)計(jì),大多數(shù)模型不具備遷移到其他類型數(shù)據(jù)集的能力.即使遷移成功,模型也不是一成不變,相同模型在不同類型數(shù)據(jù)集上的效果也不同.我們需要根據(jù)數(shù)據(jù)集特點(diǎn)對(duì)模型進(jìn)行選擇、設(shè)計(jì)和改進(jìn).

      5 總 結(jié)

      機(jī)器理解能力是機(jī)器從感知智能走向認(rèn)知智能的關(guān)鍵,機(jī)器閱讀理解近些年來(lái)取得了較快的發(fā)展.在答案形式上,從最初的選擇題,變成單詞填空,最終發(fā)展到篇章片段抽取或自主生成答案;在數(shù)據(jù)集內(nèi)容上,從簡(jiǎn)單的孩童虛構(gòu)故事,往依托常識(shí)、看重推理能力的真實(shí)世界人類問(wèn)答發(fā)展;在關(guān)鍵技術(shù)上,由通過(guò)基于傳統(tǒng)特征完成閱讀理解,到如今使用深度學(xué)習(xí)技術(shù)并結(jié)合預(yù)訓(xùn)練模型、注意力機(jī)制、記憶網(wǎng)絡(luò)等新型技術(shù)提升效果.近兩年,注意力機(jī)制較記憶網(wǎng)絡(luò)發(fā)展更為火熱,出現(xiàn)很多變體.

      對(duì)機(jī)器閱讀理解未來(lái)發(fā)展有以下幾點(diǎn)值得關(guān)注:

      1)縱觀現(xiàn)有閱讀理解數(shù)據(jù)集,針對(duì)專業(yè)領(lǐng)域數(shù)據(jù)集較少,適用于通用領(lǐng)域的模型并不一定在特定領(lǐng)域有好的效果,因此,應(yīng)該結(jié)合行業(yè)趨勢(shì),推出如金融、醫(yī)療領(lǐng)域的相關(guān)數(shù)據(jù)集.

      2)從上述研究方法中,不難發(fā)現(xiàn)attention的設(shè)計(jì)與任務(wù)息息相關(guān),如何根據(jù)任務(wù)設(shè)計(jì)合理的attention方法仍會(huì)是研究熱點(diǎn).

      3)現(xiàn)閱讀理解模型基本是在沒(méi)有融合外部知識(shí)的情況下,直接從給定文檔中抽取相關(guān)信息作為答案,這與人類閱讀習(xí)慣有較大差異.因此,如何整合多數(shù)據(jù)源外部知識(shí),并將其融入現(xiàn)有模型是值得我們關(guān)注的.

      4)大多數(shù)相關(guān)中文模型依賴于英文模型,應(yīng)該綜合考慮中文和英文語(yǔ)言特點(diǎn)上的差異,構(gòu)建更加適用于中文的模型.

      5)將機(jī)器閱讀理解技術(shù)與其他自然語(yǔ)言處理任務(wù)相結(jié)合,有利于促進(jìn)自然語(yǔ)言處理技術(shù)整體發(fā)展.

      猜你喜歡
      注意力機(jī)器向量
      機(jī)器狗
      向量的分解
      讓注意力“飛”回來(lái)
      機(jī)器狗
      聚焦“向量與三角”創(chuàng)新題
      未來(lái)機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      县级市| 额尔古纳市| 湘潭市| 信丰县| 封开县| 西宁市| 四会市| 徐州市| 沾化县| 安庆市| 乌拉特后旗| 资阳市| 昌宁县| 盐边县| 临安市| 清丰县| 深水埗区| 左云县| 元朗区| 长子县| 彝良县| 虎林市| 阳原县| 浑源县| 赤峰市| 丹巴县| 阳城县| 吴江市| 义乌市| 龙里县| 鸡泽县| 汝南县| 太仆寺旗| 铅山县| 凤凰县| 永善县| 澄迈县| 虞城县| 佛坪县| 饶阳县| 阳高县|