• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中文復(fù)述問句生成技術(shù)研究

      2019-01-11 06:03:04雨,宇,
      智能計算機與應(yīng)用 2019年1期
      關(guān)鍵詞:語料模板實驗

      曹 雨, 張 宇, 劉 挺

      (哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001)

      0 引 言

      復(fù)述生成技術(shù)在很多方面有著重要應(yīng)用,如:在問答系統(tǒng)中,可用來提升系統(tǒng)對問句的理解能力,優(yōu)化系統(tǒng)性能;在機器翻譯領(lǐng)域[1],可用來擴展語料規(guī)模,解決數(shù)據(jù)稀疏問題;在閱讀理解任務(wù)中,可用于問句多樣性的研究,使機器自動生成的問題更符合人類的自然語言規(guī)范。

      復(fù)述模板的表示和抽取[2]是研究復(fù)述的重要方法之一,合適的復(fù)述模板表示方法和復(fù)述模板自動抽取方法是主要難點。復(fù)述模板擁有很強的表達能力,能夠有效地表達自然語句的結(jié)構(gòu)和特征,可以用來進行大量復(fù)述實例的生成。目前已存在很多種復(fù)述模板的表達方法,如:利用詞的詞性作為特征表示復(fù)述模板;將某些詞語替換成變量作為復(fù)述模板。本研究從句法分析入手,結(jié)合詞性、命名實體和功能詞等信息,形成了一種新的復(fù)述模板抽取的方法,同時也保留了句子的結(jié)構(gòu)信息、語義信息以及每個詞對應(yīng)的上下文信息。在該方法中,每條中文問句對應(yīng)一個句子模板,從而每組復(fù)述語料可對應(yīng)一組模板,再結(jié)合匹配生成方法,生成一系列的候選生成句,最后利用基于相似度計算和語言模型相結(jié)合的方式,對候選生成句進行打分排序。

      本文引入現(xiàn)有較好的其它基于問句模板的復(fù)述生成方法以及基于深度學(xué)習(xí)模型的復(fù)述生成方法作為對比,進行實驗。實驗結(jié)果證明了本文所提出的方法的有效性,可以大大提升復(fù)述生成的準(zhǔn)確率。

      1 相關(guān)工作

      近年來,學(xué)界已陸續(xù)涌現(xiàn)了許多研究方法與模型,并且均取得了可觀成果,但這些模型與方法也都有著各自的弊端,有些準(zhǔn)確率偏低,如:Lin等人[3]提出的DIRT方法;有些規(guī)模受限、領(lǐng)域受限,如:基于機器翻譯評測語料的復(fù)述句抽取方法;有些生成的結(jié)果偏于復(fù)雜,如:Pang等人[4]提出的有窮自動機方法;有些復(fù)述的來源受到限制,如:Zhou等人[5]提出的翻譯特征方法。

      目前,雖然國內(nèi)對于復(fù)述的研究日漸重視,但與國外相比中文的復(fù)述研究仍亟待完善,尤其是針對開放領(lǐng)域問答系統(tǒng)的問句復(fù)述技術(shù)的研究上,面臨著較大的研究挑戰(zhàn)。僅就問句分析技術(shù)而言,因其作為自動問答系統(tǒng)中至關(guān)重要的組成部分,分析效果的好壞將對整個問答系統(tǒng)的表現(xiàn)發(fā)揮決定性的影響作用。其中,針對問句分析模型可以理解和分析更多的可變長度的問句的問題,在很長一段時間內(nèi),主要遵循了2種途徑方法:問句擴展和復(fù)述生成;基于句法結(jié)構(gòu)復(fù)述生成方法,與之前2種方法相比可以生成更多可擴展的問句,但前述方法多數(shù)情況下會用于英文語料的研究,究其原因則在于中文語料存在以下3個難點:

      (1)中文語料不足,且規(guī)模較小。

      (2)不存在面向中文語料的語法分析器。

      (3)中文語法過于靈活和復(fù)雜。

      機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的迅速發(fā)展,也為復(fù)述生成技術(shù)的研究提供了更多可能的有效解決方法。但其對語料的要求較高,需要大規(guī)模高精度的中文復(fù)述資源庫,針對開放領(lǐng)域問答系統(tǒng)的研究,需要大量的高精度單語復(fù)述問句句對,因此中文問句復(fù)述語料規(guī)模的限制成為問句復(fù)述技術(shù)研究應(yīng)用于開放領(lǐng)域問答系統(tǒng)的瓶頸。

      2 基于模板匹配的復(fù)述生成方法

      研究提出的方法主要分為問句模板抽取、模板匹配生成以及候選生成句排序三個模塊。對于某一問句qinput,首先采用一系列的預(yù)處理操作,然后通過問句模板抽取模塊,抽取模板tinput,再利用匹配生成模塊生成候選模板集T和候選問句集Q,最后利用候選生成句排序模塊對候選生成問句進行排序。下面,將對每部分研究展開詳述如下。

      2.1 復(fù)述語料獲取及預(yù)處理

      本次研究主要針對開放領(lǐng)域,且復(fù)述語料資源有限,因此選取“百度知道”相似問題作為語料來源,共爬取百度知道完整問句2 232 051條、373 704組。研究采取的具體形式可見表1。

      表1 語料格式

      語料中的很多問句較長,其中含有引用成分,如:“白日依山盡”這首詩的作者是誰。引號中的成分在模板抽取的過程中應(yīng)作為一個成分,在后續(xù)的分詞過程中不應(yīng)進行處理。所以,研究將語料中書名號和引號中的內(nèi)容進行標(biāo)記,不參與分詞,在模板抽取過程中直接對應(yīng)標(biāo)簽。

      從線上問答系統(tǒng)中獲取的語料資源來自于用戶提出,問句中符號、標(biāo)點的使用極其不規(guī)范,必將影響后續(xù)的實驗研究過程,因而需要刪除。但實驗過程中發(fā)現(xiàn),標(biāo)點、符號的使用會牽涉到句子的分詞、詞性標(biāo)注及依存關(guān)系分析,如圖1所示,基于此,研究中將采用LTP平臺對語料進行依存關(guān)系分析和詞性標(biāo)注后,再將問句資源中的符號進行刪除處理。

      圖1 符號對依存關(guān)系分析的影響

      語料中還有很多問句的成分是不完整的。這類問句在后續(xù)實驗的問句簡化過程中,句子長度會急劇減少。如:“河北城鄉(xiāng)建設(shè)小學(xué)宿舍”,這個句子中,“河北城鄉(xiāng)建設(shè)小學(xué)”作為“宿舍”的修飾限定,在句子成分簡化過程中會被暫時移除,保留其中心詞“宿舍”,無法構(gòu)成一個完整的句子,對后續(xù)問句模板提取沒有任何貢獻。又因為構(gòu)成一個完整的中文問句至少需要包括3個詞,如:“馬云是誰”,且問句長度過長難以進行有效分析。所以,對語料進行依存關(guān)系分析,去掉其中修飾限制成分后,問句長度最短為3,最長設(shè)定為20。

      經(jīng)上述預(yù)處理過程后,研究中共保留復(fù)述語料1 178 126條、272 174組。

      2.2 問句模板抽取

      問句模板提取主要包括5個部分:分詞、詞性標(biāo)注、命名實體識別、功能標(biāo)簽替換以及句法分析。對此可做闡釋論述如下。

      采用LTP平臺對語料進行分詞、詞性標(biāo)注、命名實體識別,在保持句子中詞匯順序不變的條件下,用詞性標(biāo)簽和實體標(biāo)簽代替其所對應(yīng)的詞匯,初步形成問句模板,過程解析詳見表2。

      表2 初步形成問句模板

      此時的問句模板已經(jīng)具有一定的表達和泛化能力,可代表與此句式結(jié)構(gòu)相同的一部分自然語言問句。但在諸如表2所示的實驗樣例中,研究觀察初步生成的問句模板可以發(fā)現(xiàn),“哪”表示地點疑問詞,在上述過程中僅僅被簡單地標(biāo)注為‘r’(代詞)標(biāo)簽,無法表征出其語義特征;“能”、“找到”兩個詞都被標(biāo)注為‘v’標(biāo)簽,但這并不準(zhǔn)確,實際上“能”屬于情態(tài)動詞,并不表示實際或具體的動作。因此,上述步驟是不完善的,無法真實有效地表示出某些詞匯的語義特征、語法結(jié)構(gòu)及句法結(jié)構(gòu)。至此,為了將諸如上例所述的這部分特殊詞與其它與之具有相同詞性的詞匯進行區(qū)分,研究專門收集了一些與表2實例中“哪”類似的可表示問句特征的關(guān)鍵詞以及一些與“能”類似的情態(tài)動詞,形成詞表,進行人工標(biāo)注,為每一個詞賦予一個標(biāo)簽,最終形成的功能詞表可見表3。更新后的問句模板為: 。

      中文語法靈活多變,導(dǎo)致某些問句結(jié)構(gòu)成分復(fù)雜,難以分析。此類問句在語料中占有較大比重,經(jīng)分析發(fā)現(xiàn),句中含有大量的修飾限制成分,如:“中國北京有多少家好吃的餐館”,在此例中“中國”是用來修飾“北京”的,“好吃”和“的”是用來修飾“餐館”的,此類詞匯的有無對句義不會造成很大的影響,卻會在后續(xù)的模板匹配和生成過程中產(chǎn)生重大影響,使得同類型的句子因為修飾限制詞的影響而無法成功匹配生成。綜上可知,雖然無法具體去確定每一個詞的修飾限制用法,但卻可以就某一類詞進行研究,從而找出其通常情況下用法,將句中的修飾限定成分暫時移除,簡化句子結(jié)構(gòu),從而使得句子模板更具泛化性,尋找到更多匹配模板,生成更多的候選問句。

      表3 功能詞表

      句子結(jié)構(gòu)的簡化過程極其繁瑣、費時。在此過程中,并不能簡單地將某一類詞直接從句子中移除, 如:形容詞(詞性標(biāo)注為a)是最常見的修飾詞,通常情況下用來修飾名詞(詞性標(biāo)注為n),可以被移除,但通過實驗及對語料的分析,發(fā)現(xiàn)類似于“馬爾代夫和毛里求斯,哪個風(fēng)景更漂亮”這樣的問句,本句中“漂亮”是一個形容詞,但卻不能直接移除,若直接移除,則該句成分將會出現(xiàn)嚴重缺失。與此類似的句子在語料中還存在很多,如:“視頻轉(zhuǎn)換大師與格式工廠哪個更快”。中文句法過于靈活,其中還存在著多種修飾限制關(guān)系,如:“文化教育”為名詞修飾名詞;“調(diào)查研究”為動詞修飾動詞;“漂亮美麗”為形容詞修飾形容詞等等。本次研究中采用句法分析,并根據(jù)句法分析的結(jié)果構(gòu)建句法樹,先引入6種較為常見的修飾關(guān)系對語料進行簡化,分析句子簡化的結(jié)果,根據(jù)某種修飾關(guān)系對語料簡化的影響程度,排除已有的修飾關(guān)系或引入新的修飾關(guān)系,如此反復(fù),最后篩選確認8種對句子簡化最為有效、且移除后不會對句子主干造成影響的修飾關(guān)系,對此描述可參見表4。

      句子成分精簡后,如表2所示的樣例的最終模板變?yōu)?ns> 。按照上述方法對語料進行句式簡化和模板抽取,所得結(jié)果可見表5。

      2.3 模板匹配生成

      上述模板抽取過程結(jié)束后,會生成2部分資源。一部分為原始語料進行句子精簡后的自然問句復(fù)述資源,另一部分為其對應(yīng)的復(fù)述模板資源。將這2部分資源作為匹配生成過程中待查詢的資源庫。

      輸入某一新問句,作為待改寫生成的問句,采用上述的句式精簡和模板抽取對該問句進行處理。在對此問句的精簡過程中,僅僅是暫時移除句子中的修飾限制成分,將其保留起來,待后續(xù)使用,如圖2所示。抽取待改寫問句模板,將該模板在整個復(fù)述模板庫中進行全匹配檢索,在某一復(fù)述組中檢索到該匹配項,則證明該組其它句子具有改寫成該句的可能性,將這若干組模板復(fù)述資源重組,形成新的候選復(fù)述模板資源,候選復(fù)述模板資源所對應(yīng)的精簡自然問句構(gòu)成新的候選自然句復(fù)述資源,即如圖3所示。

      表4 可簡化修飾關(guān)系

      表5 部分語料句式精簡、模板抽取結(jié)果

      圖2 句式精簡及還原過程

      圖3 復(fù)述組合并

      選取候選復(fù)述模板資源中的某一條,與待改寫問句模板進行比對,將其與原模板相同的標(biāo)簽部分作為槽,其余部分為其特征部分,保持不變,如此可形成待生成的特征模板。將待生成的特征模板與其自然問句對應(yīng),保留其特征部分的詞,其余部分作為槽。將帶改寫問句中的詞根據(jù)槽所對應(yīng)的標(biāo)簽,依次填寫進槽內(nèi),生成新的問句。其設(shè)計過程如圖4所示。

      圖4 復(fù)述改寫生成過程

      2.4 候選生成句排序

      本部分研究提出一種基于相似度計算與語言模型相結(jié)合的方式進行候選生成句的打分排序,其中語言模型采用RNN-LM,相似度計算采用Wang等人[6]研發(fā)的基于相似與相異信息的CNN模型。

      RNN-LM[7]利用神經(jīng)網(wǎng)絡(luò)對語言進行建模,與傳統(tǒng)的N-gram相比,尤為突出的一個優(yōu)點就是將歷史信息映射到了一個低維的空間,從而降低了模型的參數(shù),并將相似的歷史信息進行了聚類。先用RNN-LM對候選生成句進行打分,記為Slm,然后對其進行歸一化操作,所得分值作為語言模型對于候選生成句的最終打分,記為S1。

      基于相似與相異信息的相似度計算方法,可得模型設(shè)計結(jié)構(gòu)如圖5所示。研究中,首先使用由Mikolov等人[8]提出的模型訓(xùn)練出來的詞向量進行句子的表示。對于句子S和T,則將其表示為向量矩陣S=[S0,…,Si,…,Sm]和T=[T0,…,Tj,…,Tn],其中S和T是句子中詞匯的d維詞向量,m和n則是句子中包含詞匯的數(shù)量。

      圖5 基于相似與相異信息的CNN模型

      首先使用余弦相似度計算句子S和T的相似度矩陣Am×n,對于相似矩陣Am×n,矩陣中的元素aij是Si和Tj的余弦相似度,則可通過式(1)進行計算:

      (1)

      通過Am×n運算得到了句子T中同Si最相似的詞匯Tk,并使用Tk及其上下文來表示Si,研究推得數(shù)學(xué)公式如下:

      (2)

      其中,k=argmaxjaij為T中同Si最相似的詞的下標(biāo)。

      研究中使用Tk及其窗口大小為w的上下文的詞向量的加權(quán)平均來表示Si,每個詞的權(quán)值大小為該詞同Si的相似度,以Tk為例,其權(quán)值為相似矩陣Am×n的元素aik。

      (3)

      這里,將使用以上信息對S和T進行建模并計算兩者的相似度。受到Kim等人的啟發(fā),研究使用雙通道的CNN模型對相似矩陣S+及相異矩陣S-進行建模,得到句子S的特征向量Fs和句子T的特征向量Ft。最后研究中再次使用Fs和Ft計算S和T的相似度。

      CNN模型一共包含3層,即:卷積層、max-pooling層以及全連接層。以S為例,在卷積層中,將重點在相似通道和相異通道上設(shè)置了一組過濾器{w0,w1},用于生成一組特征,其數(shù)學(xué)運算則可寫作如下形式:

      (4)

      最后,研究即使用全連接層對Fs和Ft進行計算,通過sigmoid函數(shù)將結(jié)果歸一化得到句子S和T的相似度。通過利用這種方法對候選生成句進行相似度計算,所得分值記為S2。

      通過反復(fù)實驗與觀察,討論后確定了候選生成句分值的數(shù)學(xué)運算公式可表示為:

      Score=0.000 1S1+S2

      (5)

      運算后,則按照分值高低對所得的候選生成句進行排序。

      3 實驗

      為了對上述方法進行有效性的驗證,研究采用“百度知道”的相似問句作為復(fù)述語料資源,并以目前效果較好的其它基于問句模板的復(fù)述生成方法[9]以及由Prakash等人[10]最新提出的基于殘差LSTM模型的復(fù)述生成方法作為對比,進行實驗。研究中,將對此闡述如下。

      3.1 實驗設(shè)置

      研究采用哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心的語言云平臺對語料進行分詞、詞性標(biāo)注與依存關(guān)系分析。

      在RNN-LM的使用過程中,研究以語料資源的2/3作為訓(xùn)練集,1/3作為驗證集,隱含層單元數(shù)設(shè)為40,控制開關(guān)個數(shù)設(shè)置為2,控制通過環(huán)反向傳播錯誤設(shè)置為4,詞語分類為200類。

      在使用基于相似與相異信息的CNN模型計算相似度的過程中,研究中對所用語料使用Mikolov的模型訓(xùn)練了100維的詞向量,并從語料中抽取了3 259對問題對,添加了人工標(biāo)注,將其中2 500對作為訓(xùn)練集,500對作為開發(fā)集,759對作為測試集。設(shè)置過濾器的大小為3,過濾器個數(shù)為500,學(xué)習(xí)率為0.01,共進行了10輪訓(xùn)練。

      3.2 實驗結(jié)果

      實驗過程中,研究隨機選擇100條問句作為測試集,分別用傳統(tǒng)的模板匹配生成方法、基于殘差LSTM的復(fù)述生成方法以及本文提出的基于模板匹配的復(fù)述生成方法進行實驗,并以覆蓋率與準(zhǔn)確率作為評價指標(biāo)。對此研究內(nèi)容可分述如下。

      (1)覆蓋率。成功復(fù)述生成的問句在測試集中所占的比例,運算時可參考數(shù)學(xué)公式如下:

      (6)

      其中,Tparaphrase為測試集中被成功復(fù)述的問句數(shù)量,Tall為測試集中的問句總數(shù)量。

      如:測試集問句共100條,其中70條問句經(jīng)過復(fù)述生成產(chǎn)生了新的結(jié)果。則其覆蓋率為70%,該指標(biāo)可以反映不同方法的復(fù)述生成能力。

      (2)準(zhǔn)確率。提取的候選生成結(jié)果中正確的數(shù)量與提取的候選生成結(jié)果總數(shù)量的比值,運算時可參考數(shù)學(xué)公式如下:

      (7)

      其中,Ncorrect為提取的候選生成句中正確的數(shù)量,Nextract為提取的候選生成句總數(shù)量。

      如:研究共選取了50條候選生成問句進行標(biāo)注,其中有20條是正確的,則其準(zhǔn)確率為40%,該指標(biāo)可以反映不同方法的復(fù)述生成效果。

      選取候選生成結(jié)果中的Top3和Top1進行人工標(biāo)注評價,實驗結(jié)果見表6。

      表6 不同方法的復(fù)述生成結(jié)果

      在表6中,Template為已有效果較好的基于模板匹配的復(fù)述生成方法,R_LSTM為基于殘差LSTM的復(fù)述生成方法,F(xiàn)D_Template為本文提出的基于模板匹配的復(fù)述生成方法。

      研究分析后可知,Template和FD_Template方法為基于模板匹配的復(fù)述生成方法,部分問句無法進行復(fù)述生成,因此需要統(tǒng)計覆蓋率,且每條可復(fù)述的問句可能生成多個候選結(jié)果,因此結(jié)果中包含Top3、Top1兩個評價部分。R_LSTM為基于殘差LSTM的復(fù)述生成方法,每個問句能且只能生成一種可能性最大的候選結(jié)果,因此其覆蓋率無需參與對比,且不存在Top3結(jié)果統(tǒng)計。

      采用本文所提出的FD_Template復(fù)述生成方法進行實驗,并取其生成結(jié)果的Top3,部分結(jié)果可見表7。其中,Qi為原始問句,Pj為復(fù)述生成的候選結(jié)果。

      表7 FD_Template復(fù)述生成的Top3結(jié)果

      3.3 實驗分析

      通過對以上結(jié)果的分析,可以得出本文所提出的FD_Template復(fù)述生成方法在覆蓋率和準(zhǔn)確率指標(biāo)上均取得不錯結(jié)果,與傳統(tǒng)的基于模板匹配的復(fù)述生成方法和基于殘差LSTM的復(fù)述生成方法相比,效果提升明顯。

      與傳統(tǒng)的基于模板匹配的復(fù)述生成方法相比,本文的方法在模板抽取部分引入了功能詞和句式精簡,突出了模板的特征,增強了模板的泛化能力,探索出了一種更為適合的問句模板的表示方法;在候選生成句抽取的過程中,本文提出了一種近似于復(fù)述檢測的方法—基于相似度計算與語言模型相結(jié)合的方法,該方法不但考慮了生成句的流暢性,更利用了問句所涵蓋的語義信息。

      與基于殘差LSTM的復(fù)述生成方法相比,基于殘差LSTM的復(fù)述生成方法將復(fù)述生成研究視為一種機器翻譯任務(wù)。該模型對問句的語義可以進行更深程度的挖掘,但由于當(dāng)前缺少大規(guī)模、高精度的復(fù)述問句語料資源,故而該模型的學(xué)習(xí)能力受到極大限制。而本文提出的方法對于語料的要求較低,在現(xiàn)有的低精度的復(fù)述語料資源上即可取得不錯效果。

      4 結(jié)束語

      本文在傳統(tǒng)的基于模板匹配的復(fù)述生成方法的基礎(chǔ)上,加入了功能詞、句式精簡,可對問句模板進行更合理的表示,提出了一種新的候選生成句打分排序方法,可對候選生成句實現(xiàn)更為有效的抽取,且避免了基于深度學(xué)習(xí)方法開展復(fù)述生成研究時面臨的大規(guī)模、高精度語料缺少的問題。通過最終的實驗結(jié)果可以發(fā)現(xiàn),本文提出的復(fù)述生成方法的覆蓋率與準(zhǔn)確率較高,證明其可對大部分問句進行復(fù)述并得到不錯效果。

      猜你喜歡
      語料模板實驗
      鋁模板在高層建筑施工中的應(yīng)用
      記一次有趣的實驗
      鋁模板在高層建筑施工中的應(yīng)用
      做個怪怪長實驗
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      NO與NO2相互轉(zhuǎn)化實驗的改進
      實踐十號上的19項實驗
      太空探索(2016年5期)2016-07-12 15:17:55
      鋁模板在高層建筑施工中的應(yīng)用
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      城市綜改 可推廣的模板較少
      贵州省| 彭泽县| 隆子县| 深水埗区| 丹棱县| 郑州市| 姜堰市| 平陆县| 中江县| 封丘县| 曲阜市| 杂多县| 吉林省| 太白县| 濉溪县| 荃湾区| 平安县| 永定县| 锡林郭勒盟| 开原市| 玛纳斯县| 临澧县| 胶州市| 孟州市| 靖安县| 大英县| 靖远县| 盘山县| 东至县| 桃园县| 都安| 新河县| 蕉岭县| 定结县| 河南省| 秦安县| 舞阳县| 新和县| 和田市| 汝城县| 灌阳县|