• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      文本特征提取的研究進(jìn)展

      2019-05-30 23:39:38曾明睿袁夢(mèng)奇邵曦鮑秉坤徐常勝
      關(guān)鍵詞:自然語(yǔ)言處理

      曾明睿 袁夢(mèng)奇 邵曦鮑 秉坤 徐常勝

      摘要 文本理解是人工智能的一個(gè)重要分支,其技術(shù)推動(dòng)了人與計(jì)算機(jī)之間在自然語(yǔ)言上的有效交互.為了讓計(jì)算機(jī)準(zhǔn)確地理解和感知文本數(shù)據(jù),文本特征提取是最為基礎(chǔ)和關(guān)鍵的步驟之一.基于此,本文介紹文本特征提取研究的發(fā)展歷史,以及近年來(lái)主流特征提取的方法,并對(duì)未來(lái)的研究方向進(jìn)行展望.首先,介紹語(yǔ)義最底層的詞級(jí)表示;接著,總結(jié)在詞級(jí)表示基礎(chǔ)上衍生出的句級(jí)表示上的研究進(jìn)展;隨后,介紹比詞級(jí)表示和句級(jí)表示更高層的篇分析;最后,通過(guò)文本特征提取的一個(gè)典型應(yīng)用——問(wèn)答系統(tǒng)的介紹,闡述文本特征提取的最新方法和技術(shù)在問(wèn)答系統(tǒng)上的應(yīng)用,并對(duì)未來(lái)的研究方向做了展望.

      關(guān)鍵詞 自然語(yǔ)言處理;文本特征提取;問(wèn)答系統(tǒng)

      中圖分類號(hào)TP391.1

      文獻(xiàn)標(biāo)志碼A

      0 引言

      互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,以及硬件產(chǎn)品的不斷更新?lián)Q代,使得網(wǎng)絡(luò)上的數(shù)據(jù)呈現(xiàn)出“爆炸式”的增長(zhǎng)態(tài)勢(shì).特別是作為信息主要載體的文本數(shù)據(jù),一方面數(shù)量迅速增長(zhǎng),另一方面其表現(xiàn)形式和結(jié)構(gòu)也變得復(fù)雜多樣,為文本理解帶來(lái)了巨大的挑戰(zhàn).文本理解的核心是將文本數(shù)據(jù)通過(guò)數(shù)學(xué)運(yùn)算轉(zhuǎn)換為計(jì)算機(jī)可以感知和分析的信號(hào),并根據(jù)任務(wù)的不同,對(duì)其進(jìn)行自動(dòng)處理以反饋結(jié)果.在文本理解中,最基礎(chǔ)和最關(guān)鍵的步驟之一就是文本特征提取.文本特征提取是為文本數(shù)據(jù)集尋找一個(gè)具有判別力的特征空間,并將所有的文本數(shù)據(jù)映射到這一空間上,以抽取有代表性的、魯棒的特征表示向量.

      互聯(lián)網(wǎng)上涌現(xiàn)的海量文本數(shù)據(jù),既帶來(lái)了豐富的語(yǔ)料資源,同時(shí)也使文本感知、分析和處理面臨了巨大的挑戰(zhàn).首先,每個(gè)用戶都可以產(chǎn)生和傳播數(shù)據(jù),而其中文本的占比又最大,這導(dǎo)致了文本語(yǔ)料規(guī)模的迅速增長(zhǎng),因此“大數(shù)據(jù)”是面臨的第一個(gè)挑戰(zhàn);其次,在大數(shù)據(jù)的背后隱藏了大量重復(fù)且無(wú)意義的數(shù)據(jù),這些數(shù)據(jù)良莠不齊,價(jià)值密度低,因此“大噪聲”是面臨的第二個(gè)挑戰(zhàn);最后,數(shù)據(jù)存在于各種各樣的平臺(tái)中,其類型包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等,因此“結(jié)構(gòu)復(fù)雜”是面臨的第三個(gè)挑戰(zhàn).

      近年來(lái),許多學(xué)者針對(duì)新環(huán)境下文本數(shù)據(jù)的這三個(gè)挑戰(zhàn),在文本特征提取上提出了大量有效的方法和技術(shù).本文將對(duì)這些研究成果進(jìn)行歸納和總結(jié),為該方向的研究人員快速了解文本特征提取提供參考.依據(jù)語(yǔ)義單元的大小,本文首先介紹詞上的特征提取方法和技術(shù),包括利用上下文信息和外部知識(shí)引入;隨后介紹比詞級(jí)更高一層的句級(jí)特征表示,主要基于詞級(jí)表示的方法,通過(guò)引入詞和詞之間的關(guān)聯(lián),對(duì)句子進(jìn)行更高層語(yǔ)義的理解;再次,對(duì)語(yǔ)篇表示的研究成果進(jìn)行總結(jié),主要關(guān)注語(yǔ)篇關(guān)系挖掘的方法和技術(shù).最后,介紹文本特征提取在問(wèn)答系統(tǒng)上的典型應(yīng)用,將結(jié)合雙向Transformer的編碼表示、注意力模型和卷積神經(jīng)網(wǎng)絡(luò)的方法展開(kāi)闡述.新時(shí)代背景下所面臨的大數(shù)據(jù)、大噪聲和結(jié)構(gòu)復(fù)雜三個(gè)挑戰(zhàn),也是詞級(jí)表示、句級(jí)表示、語(yǔ)篇表示和問(wèn)答系統(tǒng)需要解決的難點(diǎn),因此本文在文獻(xiàn)總結(jié)的過(guò)程中將側(cè)重這三個(gè)方面詳細(xì)闡述相關(guān)的應(yīng)對(duì)方法和解決方案.

      本文第1章到第3章將依次詳細(xì)闡述在對(duì)于詞級(jí)表示、句級(jí)表示和語(yǔ)篇關(guān)系三層語(yǔ)義做特征提取時(shí)所采用的技術(shù),并對(duì)每層語(yǔ)義級(jí)再次細(xì)分做介紹.第4章是對(duì)文本特征提取方法進(jìn)行結(jié)合和實(shí)際在問(wèn)答系統(tǒng)的應(yīng)用.最后,展望了文本特征提取的未來(lái)研究方向并對(duì)全文進(jìn)行總結(jié).

      1 詞級(jí)表示

      詞作為文本中最基礎(chǔ)的單位,是構(gòu)成句子和語(yǔ)篇的最小元素.對(duì)詞的特征提取通常稱為詞級(jí)表示,但在文本中,不管是英文單詞還是中文詞匯的數(shù)量都是非常龐大的,僅僅對(duì)這些詞進(jìn)行順序編碼,不僅人力花費(fèi)高昂,還難以揭示詞與詞之間的語(yǔ)義關(guān)系,因此對(duì)詞級(jí)進(jìn)行語(yǔ)義距離可度量的向量化表示是非常必要的.具體來(lái)說(shuō),在給定某一語(yǔ)義度量準(zhǔn)則下,將每個(gè)詞或詞組投影為高維的向量,這些向量形成的空間稱為詞級(jí)的向量空間,以此將非結(jié)構(gòu)化的文本轉(zhuǎn)化為了可處理的結(jié)構(gòu)化形式.然而這種工作是屬于預(yù)訓(xùn)練的范疇的,當(dāng)我們把詞級(jí)表示應(yīng)用到實(shí)際問(wèn)題的時(shí)候,無(wú)須從零開(kāi)始訓(xùn)練一個(gè)新的模型,這為后面的訓(xùn)練大大節(jié)省了時(shí)間.目前關(guān)于詞的預(yù)訓(xùn)練方法,可以分為兩條思路:利用上下文相關(guān)信息和外部知識(shí)關(guān)系的結(jié)合.

      1.1 利用上下文相關(guān)信息

      在自然語(yǔ)言中,很多單詞有著多種含義,而其真實(shí)含義是根據(jù)所在的上下文語(yǔ)境來(lái)決定的.因此在設(shè)計(jì)詞的特征提取模型時(shí),需要引入上下文相關(guān)信息,以消除一詞多義的影響.根據(jù)模型種類的不同,基于上下文信息的詞級(jí)表示方法可以分為基于LSTM模型和基于Transformer模型兩類.

      基于LSTM模型這類方法,是針對(duì)于傳統(tǒng)方法(如word2vec等)忽略詞的上下文關(guān)系,無(wú)法建模詞的一詞多義的缺陷所提出的.具體實(shí)現(xiàn)是通過(guò)將整句的單詞,輸入進(jìn)LSTM神經(jīng)網(wǎng)絡(luò)中,通過(guò)LSTM建模目標(biāo)詞和句子里其他單詞的上下文的語(yǔ)義關(guān)聯(lián),來(lái)獲得融合其他單詞信息的詞級(jí)表征.根據(jù)融合單詞與目標(biāo)詞的位置不同,這類詞級(jí)表示的方法可以分為兩類:前向融合[1](圖1)和雙向融合[2](圖2).前向融合只考慮目標(biāo)詞之前的詞對(duì)其產(chǎn)生的語(yǔ)義影響,如圖1所示,對(duì)“into”進(jìn)行詞級(jí)表示,將“into”之前的單詞“problems”、 “turning”等依次輸入至LSTM模型中,根據(jù)單詞與目標(biāo)詞的遠(yuǎn)近,進(jìn)行有選擇的記憶存儲(chǔ)和遺忘,并將記憶信息融合至“into”的詞級(jí)表示中.很顯然,不僅“into”之前的單詞對(duì)其有語(yǔ)義影響,其之后的單詞“banking”、”crises”、“as”等也會(huì)有影響,因此學(xué)者又在前向融合的基礎(chǔ)上,考慮目標(biāo)詞之后的詞,提出雙向融合的方法(圖2).具體而言,建模由兩個(gè)LSTM構(gòu)成的Bi-LSTM模型,分別從前往后和從后往前對(duì)單詞進(jìn)行輸入,以融合目標(biāo)詞前后的所有單詞的語(yǔ)義.基于Bi-LSTM模型,Melamud等[2]改進(jìn)了基于word2vec的CBOW圖,提出context2vec.其中,基于word2vec的CBOW圖計(jì)算窗口內(nèi)所有詞嵌入的平均值(圖3),而context2vec是基于Bi-LSTM融合目標(biāo)詞的上下文(圖4).為了建模更為復(fù)雜的上下文語(yǔ)義關(guān)系,Peters等[3]提出了ELMo(Embeddings from Language Models)模型,這是一種深度語(yǔ)境化詞表示方法,由兩層Bi-LSTM組成的語(yǔ)言模型內(nèi)部狀態(tài)函數(shù)生成的詞向量,通過(guò)Bi-LSTM連接的語(yǔ)言模型將每個(gè)輸入字上方堆疊的向量的線性組合以組合表示多樣的文字特征,表示更加豐富的語(yǔ)義.

      相比于基于LSTM模型的方法,Transformer模型不僅不需要通過(guò)循環(huán)來(lái)并行處理句中的單詞,還能結(jié)合上下文的信息,因此在處理長(zhǎng)語(yǔ)句時(shí),效率較高.Radford等[4]最先基于Transformer提出了Open AI GPT,該模型克服了LSTM的短期預(yù)測(cè)能力,通過(guò)捕捉長(zhǎng)距離的語(yǔ)言結(jié)構(gòu),來(lái)學(xué)習(xí)一個(gè)通用表示.2018年,Devlin等[5]提出了基于深度雙向Transformer的BERT(Bidirectional Encoder Representation from Transformer)模型,與Open AI GPT單方向的預(yù)訓(xùn)練模型不同的是,BERT提出了一種遮蔽語(yǔ)言模型(Mask Language Model)來(lái)訓(xùn)練出上下文的特征(圖5),它通過(guò)遮蔽一個(gè)單詞,訓(xùn)練一個(gè)深度雙向Transformer模型,從單詞的左右兩個(gè)方向來(lái)預(yù)測(cè)遮蔽單詞.2019年,Dai等[6]通過(guò)引入相對(duì)位置編碼和片段循環(huán)機(jī)制對(duì)Transformer模型進(jìn)行改進(jìn),提出Transformer-XL模型,循環(huán)機(jī)制在每處理完一個(gè)片段之后都會(huì)將輸出保留在隱藏層中以便后面循環(huán),建立長(zhǎng)期的依賴關(guān)系.而相對(duì)位置編碼則是通過(guò)對(duì)隱藏狀態(tài)的相對(duì)位置進(jìn)行編碼,克服了不同片段編碼可能導(dǎo)致編碼一樣的問(wèn)題.兩種方法的融合解決了由于固定上下文的長(zhǎng)度所帶來(lái)的無(wú)法獲取超出定義長(zhǎng)度的依賴關(guān)系的問(wèn)題.

      1.2 外部知識(shí)的引入

      傳統(tǒng)的詞級(jí)表示方法在情感分類、文本分類等任務(wù)上取得了令人滿意的結(jié)果,但當(dāng)處理稀疏詞匯時(shí),由于詞匯出現(xiàn)的頻率較低,無(wú)法對(duì)其抽取得到準(zhǔn)確的語(yǔ)義,甚至容易受到噪聲的干擾.因此,學(xué)者們提出通過(guò)加入維基百科等其他語(yǔ)料庫(kù),引入外部的知識(shí),以獲得更為準(zhǔn)確的詞級(jí)表示.

      如何將外部語(yǔ)料庫(kù)有效地引入到目標(biāo)語(yǔ)料庫(kù)中,生成融合外部知識(shí)的詞嵌入,是目前這部分工作面臨的挑戰(zhàn).2017年,Cao等[7]建模文本和知識(shí)庫(kù)之間的關(guān)聯(lián),以解決多義詞引起的歧義的問(wèn)題.Sarma等[8]分別在目標(biāo)語(yǔ)料庫(kù)上訓(xùn)練一個(gè)通用詞嵌入和在外部語(yǔ)料庫(kù)上訓(xùn)練一個(gè)外來(lái)詞嵌入,然后對(duì)兩組嵌入使用線性CCA[9]或非線性CCA[10],沿著最大相關(guān)

      的方向投射,再取平均值,最終得到引入外部知識(shí)的詞級(jí)特征表示.Xu等[11]將通用詞嵌入和外來(lái)詞嵌入的雙重嵌入機(jī)制與CNN網(wǎng)絡(luò)結(jié)合,讓CNN網(wǎng)絡(luò)決定兩種嵌入中可用信息的比重,從而使文本特征提取更加高效、簡(jiǎn)單.相較于BERT的Mask Language Model無(wú)法對(duì)顯式語(yǔ)義單元進(jìn)行建模,百度的Paddle發(fā)布了知識(shí)增強(qiáng)的預(yù)訓(xùn)練模型ERNIE[12]( Enhanced Language Representation with Informative Entities),該模型通過(guò)將知識(shí)圖譜在編碼輸入至預(yù)訓(xùn)練模型,從而有效地挖掘了圖譜中實(shí)體間關(guān)系,最終增強(qiáng)了模型語(yǔ)義表示能力.例如在圖6中,“哈爾濱”作為一個(gè)整體被抹去時(shí),則需要通過(guò)更長(zhǎng)的依賴性來(lái)預(yù)測(cè)學(xué)習(xí),而ERNIE可以通過(guò)先驗(yàn)知識(shí)“黑龍江的省會(huì)”預(yù)測(cè)表示出遮掩詞“哈爾濱”.

      2 句級(jí)表示

      僅依靠詞級(jí)表示,無(wú)法獲得對(duì)文本的準(zhǔn)確理解,需要考慮詞和詞之間的關(guān)聯(lián)對(duì)語(yǔ)義的影響,因此句子級(jí)表示的研究就應(yīng)運(yùn)而生了.句級(jí)表示方法最常用的是句子嵌入,具體來(lái)說(shuō)是用向量來(lái)表示自然語(yǔ)言中的語(yǔ)句,使其攜帶句子中的語(yǔ)義信息.句子嵌入方法可分為基于詞向量的線性組合和基于深度學(xué)習(xí)兩類方法.

      2.1 基于詞向量的線性組合

      把句子中所有詞的詞嵌入取平均值是一種非常成功和高效的獲得句子嵌入的方法[13].具體來(lái)說(shuō),是將句子中每個(gè)詞嵌入相加除以句中詞數(shù)得到的向量值作為句嵌入.這一方法的缺陷在于忽略了句中詞的權(quán)重和順序.Kenter等[14]基于word2vec中的CBOW提出了Siamese CBOW(圖7),與CBOW有著相同的原理,只不過(guò)該模型是將句中的詞向量先做平均值處理表征句向量,然后通過(guò)周?chē)木渥訉?duì)目標(biāo)句子進(jìn)行預(yù)測(cè)來(lái)學(xué)習(xí)詞嵌入以便達(dá)到優(yōu)化的目的,最后對(duì)優(yōu)化之后的詞嵌入做平均值處理形成句向量.Arora等[15]僅計(jì)算句子中詞向量的加權(quán)平均,然后刪除第一個(gè)向量上的平均投影,權(quán)重的計(jì)算來(lái)自于作者提出的SIF,即一個(gè)詞的權(quán)重:w=aa+p(w),其中,a為參數(shù),p(w)為預(yù)測(cè)詞的詞頻.這樣的加權(quán)方案具有十分不錯(cuò)的魯棒性:使用從不同語(yǔ)料庫(kù)得出的單詞頻率不會(huì)損害性能并且a的取值很廣,可以讓結(jié)果達(dá)到最佳.

      2.2 基于深度學(xué)習(xí)的句級(jí)表示

      近年來(lái),隨著深度學(xué)習(xí)在文本領(lǐng)域的廣泛應(yīng)用,越來(lái)越多的學(xué)者在句級(jí)表示上嘗試引入深度學(xué)習(xí)模型,以建模詞與詞之間的復(fù)雜關(guān)系.目前基于深度學(xué)習(xí)的方法主要基于循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和encoder-decoder.

      在基于循環(huán)神經(jīng)網(wǎng)絡(luò)方面,Zhang等[16]提出sentence-state LSTM,每次循環(huán)都對(duì)所有單詞語(yǔ)義特征的隱藏狀態(tài)進(jìn)行建模,而不再是一次一個(gè)單詞輸入.將整個(gè)句子看成一個(gè)狀態(tài),這個(gè)狀態(tài)是由各個(gè)詞的子狀態(tài)和一個(gè)整體的句子層狀態(tài)組成.在每次循環(huán)時(shí),單詞的隱藏狀態(tài)都能捕捉到越來(lái)越大的n-gram信息,并與句子狀態(tài)進(jìn)行信息交換.最終,循環(huán)得到一句話的表示.

      卷積神經(jīng)網(wǎng)絡(luò)方法在圖像處理上已經(jīng)取得了非常不錯(cuò)的效果,要求輸入值是一個(gè)固定的圖像分辨率.近年來(lái),學(xué)者也在嘗試將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在自然處理上,但是輸入的文本或者句子長(zhǎng)度不固定會(huì)造成多余的卷積結(jié)果丟失,從而對(duì)模型結(jié)果產(chǎn)生影響.Kim[17]先將詞表示變成矩陣,然后通過(guò)一個(gè)僅有一層卷積層的簡(jiǎn)單CNN,對(duì)其進(jìn)行Max-overtime pooling,最后經(jīng)過(guò)全連接層得到句向量.Santos等[18]讓詞嵌入和字符嵌入通過(guò)卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合表示形成句向量,其創(chuàng)新之處在于利用兩層卷積層去提取詞和句中的相關(guān)特征.第一層提取句子級(jí)的特征,第二層獲取每個(gè)單詞字符周?chē)傻木植刻卣饔米畲蠡姆绞綄⑵浣M合,最終生成一個(gè)固定大小的向量.

      在encoder-decoder方面,句級(jí)表示主要是將詞級(jí)表示中的word2vec模型推廣到句子上.Kiros等[19]提出了Skip-Thought Vectors,通過(guò)大量連續(xù)的語(yǔ)料庫(kù)訓(xùn)練出一個(gè)encoder-decoder模型,將多個(gè)詞向量編碼成句向量,并同時(shí)用一個(gè)句子來(lái)預(yù)測(cè)上下文另一個(gè)的句子.模型如圖8,模型中是用一個(gè)三元組(si-1,si,si+1)表示連續(xù)的三句話,將來(lái)自連續(xù)語(yǔ)庫(kù)si編碼重建前一句si-1和后一句si+1.圖中未連接的箭頭連接到編碼器輸出,顏色指示了共享參數(shù)的組件.受到BOW編碼思想的啟發(fā),Hill等[20]提出了對(duì)數(shù)線性語(yǔ)句模型——FastSent,將一個(gè)連續(xù)句子的三元組(si-1,si,si+1),對(duì)于中間的句子si進(jìn)行編碼,編碼方式是將si中的詞向量求和即∑w∈sisi,這種方法沒(méi)有考慮句中的詞序,因此使得FastSent的訓(xùn)練速度大幅提升.根據(jù)實(shí)驗(yàn)用Skip-Thought Vectors[19]和FastSent兩種模型訓(xùn)練得到參數(shù)的數(shù)據(jù)如表1所示,其中*表示在GPU上進(jìn)行訓(xùn)練.

      3 語(yǔ)篇分析

      事實(shí)上,句子之間也會(huì)存在著復(fù)雜的邏輯關(guān)系,因此需要引入語(yǔ)篇分析挖掘來(lái)進(jìn)一步理解文本.語(yǔ)篇分析又稱篇章分析,是通過(guò)對(duì)文本內(nèi)部實(shí)體關(guān)系的挖掘和理解,對(duì)語(yǔ)篇整體進(jìn)行分析,從而獲得整個(gè)文檔的高層語(yǔ)義.本章將分別介紹語(yǔ)篇分析中文本關(guān)系和隱式語(yǔ)篇表示嵌入兩部分的研究.

      文本關(guān)系抽取需要深入理解語(yǔ)篇內(nèi)所有實(shí)體之間的關(guān)系,由此學(xué)習(xí)到的文本關(guān)系嵌入可以用來(lái)擴(kuò)充現(xiàn)有的關(guān)系提取模型,并能顯著地提高它們的性能.Xu等[21]通過(guò)卷積神經(jīng)網(wǎng)絡(luò)從實(shí)體間最短依賴路徑學(xué)習(xí)更穩(wěn)健的關(guān)系表示文本關(guān)系.但是這一方法需要依賴大量的標(biāo)注句子作為訓(xùn)練集生成嵌入模型.Su等[22]提出GloRE,通過(guò)定義句子依賴圖中兩個(gè)實(shí)體的最短路徑去改進(jìn)關(guān)系提取,同時(shí)將文本關(guān)系和知識(shí)庫(kù)關(guān)系的全局共現(xiàn)統(tǒng)計(jì)來(lái)學(xué)習(xí)文本關(guān)系的嵌入.可是由于手工標(biāo)注的訓(xùn)練集太少,這一方面僅適用于小規(guī)模的訓(xùn)練數(shù)據(jù)的關(guān)系提取.2019年,Chen等[23]將GloRE方法與可以從缺少標(biāo)簽的數(shù)據(jù)中提取關(guān)系的遠(yuǎn)程監(jiān)督方法[24]相結(jié)合進(jìn)一步應(yīng)用于大規(guī)模、領(lǐng)域無(wú)關(guān)的數(shù)據(jù),目的是學(xué)習(xí)通用文本關(guān)系嵌入.

      作為語(yǔ)篇分析另一重要分支,隱式語(yǔ)篇分析是在沒(méi)有顯式連接詞的情況下提取關(guān)系,這很難從輸入句子對(duì)的表面特征派生出來(lái),所以需要從文本語(yǔ)義理解的角度中去尋找關(guān)系.近幾年不少學(xué)者已經(jīng)提出了基于神經(jīng)網(wǎng)絡(luò)的方法或高級(jí)表示的模型:CNN[25]、注意神經(jīng)張量網(wǎng)絡(luò)[26]、記憶網(wǎng)絡(luò)(memory network)[27]和RNN[28]等.還有一些方法考慮到了上下文段落和段落間相關(guān)性[29].但是對(duì)于機(jī)器來(lái)說(shuō),如何更好地理解文本成為了隱式語(yǔ)篇關(guān)系識(shí)別研究前進(jìn)的障礙.因此,Bai等[30]通過(guò)字詞和ELMo[2]的增強(qiáng)嵌入和深度剩余雙注意力編碼器,讓表示更加豐富和深入模型結(jié)構(gòu)(圖9).

      4 文本特征提取結(jié)合實(shí)際的應(yīng)用

      問(wèn)答系統(tǒng)是文本特征提取的一個(gè)典型應(yīng)用,任務(wù)是能夠準(zhǔn)確地理解用戶用自然語(yǔ)言提出的問(wèn)題,并通過(guò)檢索語(yǔ)料庫(kù)、知識(shí)圖譜或問(wèn)答知識(shí)庫(kù)返回簡(jiǎn)潔、準(zhǔn)確的答案.相較于搜索引擎,問(wèn)答系統(tǒng)能夠根據(jù)已有語(yǔ)料庫(kù)學(xué)習(xí)問(wèn)答知識(shí),進(jìn)而更有效地滿足用戶的信息需求.將文本特征提取的技術(shù)應(yīng)用在問(wèn)答系統(tǒng)中可以很好地幫助計(jì)算機(jī)理解人類語(yǔ)言的重點(diǎn),同時(shí)在提高訓(xùn)練速度、檢索答案質(zhì)量等方面都會(huì)有很好的表現(xiàn).

      在問(wèn)答系統(tǒng)領(lǐng)域方面,有效的提取問(wèn)句的意圖識(shí)別和填槽可以為快速準(zhǔn)確匹配出答案和使其更加人性化奠定基礎(chǔ).表2顯示了一個(gè)用戶查詢的意圖分類和填槽的實(shí)例.

      此外,對(duì)于問(wèn)題的理解對(duì)于問(wèn)答系統(tǒng)來(lái)說(shuō)也是十分重要的.Dong等[32]介紹了多列卷積神經(jīng)網(wǎng)絡(luò),模型不依賴于手工特征和規(guī)則,通過(guò)共享相同的詞向量來(lái)表示問(wèn)題單詞,使用不同列的網(wǎng)絡(luò)來(lái)提取答案類型、關(guān)系和上下文信息.同時(shí),也會(huì)在知識(shí)庫(kù)中共同學(xué)習(xí)實(shí)體和關(guān)系的低維嵌入.使用問(wèn)題-答案組合對(duì)模型進(jìn)行訓(xùn)練,以對(duì)候選答案進(jìn)行排序.如圖10不同網(wǎng)絡(luò)列獲取得問(wèn)題表示.

      2017年,Seo等[33]提出BIDAF(Bidirectional Attention Flow for Machine Comprehension)雙向注意力矩陣來(lái)計(jì)算上下文的每個(gè)字與查詢問(wèn)題之間的相關(guān)性,從而建立查詢感知的上下文表示.然而這種模型卻不能像人類一樣對(duì)候選答案進(jìn)行反思,因此Gong等[34]將BIDAF擴(kuò)展成Ruminating Reader使其能夠進(jìn)行第二遍閱讀和推理,通過(guò)門(mén)控機(jī)制讓第一遍和第二遍閱讀的內(nèi)容進(jìn)行融合(模型框架如圖11),在選擇答案的時(shí)候能夠有效地使用上下文并更好地權(quán)衡答案.

      5 展望

      本文根據(jù)語(yǔ)義層面的由低到高依次總結(jié)了詞、句和篇章三個(gè)層次上文本特征提取方法的研究進(jìn)展.近年來(lái),學(xué)者們注意到圖作為一種特殊的數(shù)據(jù)結(jié)構(gòu),能夠面對(duì)一組對(duì)象和對(duì)象之間的聯(lián)系進(jìn)行建模.由于這一強(qiáng)大的優(yōu)點(diǎn),把基于圖神經(jīng)網(wǎng)絡(luò)的方法用于機(jī)器學(xué)習(xí)的方向越來(lái)越受人追捧.同時(shí),現(xiàn)在數(shù)據(jù)平臺(tái)的多樣性使得數(shù)據(jù)結(jié)構(gòu)變得極為復(fù)雜,給文本特征提取帶來(lái)了不小的挑戰(zhàn),而圖神經(jīng)網(wǎng)絡(luò)作為一種可以在圖結(jié)構(gòu)上運(yùn)行的神經(jīng)網(wǎng)絡(luò),能夠保存圖形嵌入中的全局結(jié)構(gòu)信息,因此在處理具有豐富關(guān)系結(jié)構(gòu)的任務(wù)時(shí)可以得到很好的效果.所以,利用圖神經(jīng)網(wǎng)絡(luò)來(lái)應(yīng)對(duì)結(jié)構(gòu)復(fù)雜的文本信息也成為了一個(gè)新的研究方向.在問(wèn)答系統(tǒng)方面,生成的回答也更加人性化,因此,在未來(lái)的文本特征提取中,應(yīng)該建立新的文本特征表示模型,并結(jié)合領(lǐng)域知識(shí)快速定位用戶的興趣反饋,以達(dá)到更加流暢的使用感受.

      參考文獻(xiàn)

      References

      [1]Hochreiter S,Schmidhuber J.Longshort-term memory[J].Neural Computation,1997,9(8):1735-1780

      [2]Melamud O,Goldberger J,Dagan I.Context2vec:learning generic context embedding with bidirectional LSTM[C]∥Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning,2016:51-61

      [3]Peters M E,Neumann M,Iyyer M,et al.Deep contextualized word representations[J].arXiv Preprint,2018,arXiv:1802.05365

      [4]Radford A,Narasimhan K,Salimans T,et al.Improving language understanding by generative pre-training[EB/OL].[2019-10-12].https:∥s3-us-west-2.amazonaws.com/openai-assets/researchcovers/l ̄a ̄n ̄g ̄u ̄a ̄g ̄e ̄u ̄n ̄s ̄u ̄p ̄e ̄r ̄v ̄i ̄s ̄e ̄d/language understanding paper.pdf,2018

      [5]Devlin J,Chang M W,Lee K,et al.Bert:pre-training of deep bidirectional transformers for language understanding[J].arXiv Preprint,2018,arXiv:1810.04805

      [6]Dai Z,Yang Z,Yang Y,et al.Transformer-xl:attentive language models beyond a fixed-length context[J].arXiv Preprint,2019,arXiv:1901.02860

      [7]Cao Y X,Huang L F,Ji H,et al.Bridge text and knowledge by learning multi-prototype entity mention embedding[C]∥Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers),2017:1623-1633

      [8]Sarma P K,Liang Y,Sethares W A.Domain adapted word embeddings for improved sentiment classification[J].arXiv Preprint,2018,arXiv:1805.04576

      [9]Hotelling H.Relations between two sets of variates[J].Biometrika,1936,28(3/4):321.

      [10]Hardoon D R,Szedmak S,Shawe-Taylor J.Canonical correlation analysis:an overview with application to learning methods[J].Neural Computation,2004,16(12):2639-2664

      [11]Xu H,Liu B,Shu L,et al.Double embeddings and CNN-based sequence labeling for aspect extraction[J].arXiv Preprint,2018,arXiv:1805.04601

      [12]Zhang Z,Han X,Liu Z,et al.ERNIE:enhanced language representation with informative entities[J].arXiv Preprint,2019,arXiv:1905.07129

      [13]Faruqui M,Dodge J,Jauhar S K,et al.Retrofitting word vectors to semantic lexicons[J].arXiv Preprint,2014,arXiv:1411.4166

      [14]Kenter T,Borisov A,De Rijke M.Siamese CBOW:optimizing word embeddings for sentence representations[J].arXiv Preprint,2016,arXiv:1606.04640

      [15]Arora S,Liang Y,Ma T.A simple but tough-to-beat baseline for sentence embeddings[C]∥International Conference on Learning Representations,2017

      [16]Zhang Y,Liu Q,Song L.Sentence-state LSTM for text representation[J].arXiv Preprint,2018,arXiv:1805.02474

      [17]Kim Y.Convolutional neural networks for sentence classification[J].arXiv Preprint,2014,arXiv:1408.5882

      [18]Dos Santos C,Gatti M.Deep convolutional neural networks for sentiment analysis of short texts[C]∥Proceedings of COLING 2014,the 25th International Conference on Computational Linguistics:Technical Papers,2014:69-78

      [19]Kiros R,Zhu Y,Salakhutdinov R R,et al.Skip-thought vectors[C]∥Advances in Neural Information Processing Systems,2015:3294-3302.

      [20]Hill F,Cho K,Korhonen A.Learning distributed representations of sentences from unlabelled data[J].arXiv Preprint,2016,arXiv:1602.03483

      [21]Xu K,F(xiàn)eng Y S,Huang S F,et al.Semantic relation classification via convolutional neural networks with simple negative sampling[J].arXiv Preprint,2015,arXiv:1506.07650

      [22]Su Y,Liu H L,Yavuz S,et al.Global relation embedding for relation extraction[J].arXiv Preprint,2017,arXiv:1704.05958

      [23]Chen Z Y,Zha H W,Liu H L,et al.Global textual relation embedding for relational understanding[J].arXiv Preprint,2019,arXiv:1906.00550

      [24]Mintz M,Bills S,Snow R,et al.Distant supervision for relation extraction without labeled data[C]∥Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 2- ACL-IJCNLP,2009:1003-1011

      [25]Qin L H,Zhang Z S,Zhao H.A stacking gated neural architecture for implicit discourse relation classification[C]∥Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing,2016:2263-2270

      [26]Guo F Y,He R F,Jin D,et al.Implicit discourse relation recognition using neural tensor network with interactive attention and sparse learning[C]∥Proceedings of the 27th International Conference on Computational Linguistics,2018:547-558

      [27]Jia Y Y,Ye Y,F(xiàn)eng Y S,et al.Modeling discourse cohesion for discourse parsing via memory network[C]∥Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2:Short Papers),2018:438-443

      [28]Ji Y F,Eisenstein J.One vector is not enough:entity-augmented distributed semantics for discourse relations[J].Transactions of the Association for Computational Linguistics,2015,3:329-344

      [29]Dai Z Y,Huang R H.Improving implicit discourse relation classification by modeling inter-dependencies of discourse units in a paragraph[J].arXiv Preprint,2018,arXiv:1804.05918

      [30]Bai H X,Zhao H.Deep enhanced representation for implicit discourse relation recognition[J].arXiv Preprint,2018,arXiv:1807.05154

      [31]Chen Q,Zhuo Z,Wang W.BERT for joint intent classification and slot filling[J].arXiv Preprint,2019,arXiv:1902.10909

      [32]Dong L,Wei F R,Zhou M,et al.Question answering over freebase with multi-column convolutional neural networks[C]∥Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1:Long Papers),2015:260-269

      [33]Seo M,Kembhavi A,F(xiàn)arhadi A,et al.Bidirectional attention flow for machine comprehension[J].arXiv Preprint,2016,arXiv:1611.01603

      [34]Gong Y C,Bowman S R.Ruminating reader:reasoning with gated multi-hop attention[J].arXiv Preprint,2017,arXiv:1704.07415

      Abstract Text understanding is an important research branch in artificial intelligence,which avails the effective interaction between human and computer with natural language.Text feature extraction is one of the basic and key steps for computers to understand and perceive the textual data.In this paper,we introduce the development history of text feature extraction and the mainstream feature extraction methods in recent years,and prospects the future research directions of text feature extraction.The three semantic hierarchies,namely word representation,sentence representation and discourse relationship mining are elaborated,then a case is given to show the typical application of text feature extraction on question answering system.

      Key words natural language processing;text feature extraction;question answering system

      猜你喜歡
      自然語(yǔ)言處理
      基于LSTM自動(dòng)編碼機(jī)的短文本聚類方法
      自然語(yǔ)言處理與司法案例
      國(guó)外基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)相關(guān)研究進(jìn)展及其啟示
      基于依存句法的實(shí)體關(guān)系抽取
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
      詞向量的語(yǔ)義學(xué)規(guī)范化
      漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      HowNet在自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀與分析
      科技視界(2016年5期)2016-02-22 11:41:39
      基于.NET的維哈柯多語(yǔ)種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      铜梁县| 徐水县| 黄梅县| 许昌市| 哈巴河县| 健康| 平阴县| 宁阳县| 嘉义县| 韩城市| 博客| 习水县| 武隆县| 筠连县| 遂川县| 镶黄旗| 神木县| 清水县| 甘德县| 包头市| 梁河县| 宜阳县| 会宁县| 玉山县| 巴东县| 西和县| 沙坪坝区| 天柱县| 尚义县| 武鸣县| 交城县| 中江县| 易门县| 莫力| 英吉沙县| 通许县| 托里县| 莱阳市| 额敏县| 当雄县| 昭平县|