• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中文句法異構(gòu)蘊(yùn)含語(yǔ)塊標(biāo)注和邊界識(shí)別研究

      2019-04-02 03:08:26金天華趙美倩
      中文信息學(xué)報(bào) 2019年2期
      關(guān)鍵詞:語(yǔ)塊語(yǔ)序省略

      金天華,姜 姍,于 東,2,趙美倩,劉 璐

      (1. 北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院,北京 100083;2. 北京語(yǔ)言大學(xué) 語(yǔ)言資源高精尖創(chuàng)新中心,北京 100083)

      0 引言

      文本蘊(yùn)含定義為一對(duì)文本之間的有向推理關(guān)系[1],其中蘊(yùn)含前件記作P(premise),蘊(yùn)含后件記作H(hypothesis)。文本蘊(yùn)含識(shí)別(recognizing textual entailment, RTE)是基于語(yǔ)義理解,對(duì)兩個(gè)句子之間的蘊(yùn)含和矛盾關(guān)系做出判斷的任務(wù)。文本蘊(yùn)含作為語(yǔ)義理解的基礎(chǔ)任務(wù),可以建立起不同文本之間的語(yǔ)義推理關(guān)系網(wǎng),促進(jìn)關(guān)系識(shí)別、事件抽取、自動(dòng)文摘等任務(wù)的發(fā)展,同時(shí)在問(wèn)答系統(tǒng)、文本挖掘、閱讀理解、信息檢索等應(yīng)用領(lǐng)域發(fā)揮關(guān)鍵作用。

      文本蘊(yùn)含識(shí)別早期的研究工作[2-4]多從詞匯蘊(yùn)含角度出發(fā),探索近義詞、上下位詞、整體和部分等詞匯關(guān)系在文本蘊(yùn)含識(shí)別中的應(yīng)用。然而單純?cè)~匯蘊(yùn)含并不能完全涵蓋文本蘊(yùn)含的所有范疇。目前對(duì)文本蘊(yùn)含成因的定量研究仍處于初步階段。另一方面,近年來(lái),隨著SICK[5]、SNLI[6]、MultiNLI[7]等數(shù)據(jù)集的提出,用機(jī)器學(xué)習(xí)方法建立end-to-end模型判斷整句的句法蘊(yùn)含關(guān)系成為研究熱點(diǎn)[8-10]。此類模型可以有效判斷整句級(jí)別的蘊(yùn)含關(guān)系,但無(wú)法確定引起蘊(yùn)含的關(guān)鍵語(yǔ)塊位置,其結(jié)果缺乏可解釋性,因而大大削弱了其應(yīng)用價(jià)值。

      針對(duì)第一個(gè)問(wèn)題,本文將蘊(yùn)含成因歸納為詞匯蘊(yùn)含、句法異構(gòu)蘊(yùn)含、常識(shí)和社會(huì)經(jīng)驗(yàn)三種類型。我們翻譯并校對(duì)了SNLI數(shù)據(jù)集中的3 766條蘊(yùn)含句對(duì)數(shù)據(jù),由人工對(duì)其蘊(yùn)含成因類型進(jìn)行標(biāo)注,其中詞匯蘊(yùn)含僅占31.5%,說(shuō)明詞匯蘊(yùn)含只是蘊(yùn)含的一種類型。常識(shí)和社會(huì)經(jīng)驗(yàn)占比為29.1%,由于常識(shí)的概念模糊,包含的信息粒度大,因而不在本文討論范圍內(nèi)。標(biāo)注結(jié)果中,句法異構(gòu)導(dǎo)致的蘊(yùn)含占比最多,達(dá)到占39.4%,故本文以此為研究對(duì)象。

      所謂句法異構(gòu)蘊(yùn)含,是指通過(guò)語(yǔ)言的位移、添加、刪除、替換等手段[11]對(duì)P的形式進(jìn)行有選擇的篩選和強(qiáng)調(diào),得到H、P和H的句法變化,使得它們?cè)谡Z(yǔ)義上具有蘊(yùn)含關(guān)系,則P和H是句法異構(gòu)蘊(yùn)含。如下文T1、T2的兩組例句就是句法異構(gòu)蘊(yùn)含。

      值得一提的是,句法異構(gòu)蘊(yùn)含與復(fù)述有本質(zhì)區(qū)別。句法異構(gòu)蘊(yùn)含不追求語(yǔ)義信息的完整性和一致性。分析發(fā)現(xiàn),句法異構(gòu)蘊(yùn)含會(huì)保留或概括P中需要強(qiáng)調(diào)的、不可省略的部分,而刪除不需要強(qiáng)調(diào)的部分。例如,T1的H省略了P的地點(diǎn)狀語(yǔ)“在藍(lán)色卡車旁邊”,突出強(qiáng)調(diào)了動(dòng)詞性謂語(yǔ)“拍攝”,這兩句話具有句法異構(gòu)蘊(yùn)含關(guān)系。T2的H省略了P的謂語(yǔ)“拍攝”和賓語(yǔ)“電影”,而H的謂語(yǔ)和賓語(yǔ)是由P的地點(diǎn)狀語(yǔ)“在藍(lán)色卡車旁邊”充當(dāng)。P和H是句法異構(gòu)的,它們之間也具有句法異構(gòu)蘊(yùn)含關(guān)系。

      T1: P: 一群人在藍(lán)色卡車旁邊拍攝電影。

      H: 一群人在拍攝電影。

      T2: P: 一群人在藍(lán)色卡車旁邊拍攝電影。

      H: 一群人在藍(lán)色卡車旁邊。

      本文研究導(dǎo)致蘊(yùn)含現(xiàn)象的句法異構(gòu)類型,通過(guò)觀察大量蘊(yùn)含句對(duì),分析歸納得出以下結(jié)論: 句法異構(gòu)類型分為結(jié)構(gòu)變化和省略變化;結(jié)構(gòu)變化又分為成分抽取、從句抽取、語(yǔ)序變化;省略變化分為省略修飾語(yǔ)和省略中心語(yǔ)。

      針對(duì)第二個(gè)問(wèn)題,本文需深入語(yǔ)料內(nèi)部確定引起整句級(jí)別蘊(yùn)含關(guān)系的關(guān)鍵語(yǔ)塊,我們認(rèn)為這些關(guān)鍵語(yǔ)塊可以被稱為句法異構(gòu)蘊(yùn)含語(yǔ)塊。語(yǔ)塊的概念最早由Skehan提出[12],指兼具詞匯和句法特征的半固定的語(yǔ)言結(jié)構(gòu)。在本文中,句法異構(gòu)蘊(yùn)含語(yǔ)塊是P和H中句法成分或句法結(jié)構(gòu)不同,且具有蘊(yùn)含關(guān)系的部分。蘊(yùn)含語(yǔ)塊可以是句中充當(dāng)句法成分的詞、短語(yǔ),甚至是整個(gè)單句或者復(fù)句中的某個(gè)小句。例如“香甜的蘋果—蘋果”“漫長(zhǎng)的夜晚—夜晚”都屬于從“adj+的+n”到“n”的變化,那么“adj+的+n”和“n”就分別是P和H的句法異構(gòu)蘊(yùn)含語(yǔ)塊。

      顯然,句法異構(gòu)蘊(yùn)含語(yǔ)塊的確認(rèn)依賴于蘊(yùn)含成因的研究。從機(jī)器學(xué)習(xí)角度來(lái)說(shuō),句法異構(gòu)蘊(yùn)含語(yǔ)塊的識(shí)別問(wèn)題可以轉(zhuǎn)化為邊界識(shí)別問(wèn)題。本文主要采用深度學(xué)習(xí)模型,處理整合P和H的蘊(yùn)含信息用于識(shí)別蘊(yùn)含邊界下標(biāo)。受Wang[13]的啟發(fā),我們利用match_LSTM計(jì)算獲得包含P和H蘊(yùn)含信息的表示向量,作為Ptr-Net的輸入,進(jìn)而尋找蘊(yùn)含邊界。

      本文首先介紹國(guó)內(nèi)外蘊(yùn)含類型研究,在此基礎(chǔ)上針對(duì)句法異構(gòu)蘊(yùn)含現(xiàn)象進(jìn)行分析總結(jié),歸納得到句法異構(gòu)蘊(yùn)含類型;接著介紹我們?cè)谔N(yùn)含語(yǔ)塊標(biāo)注方面的工作,從標(biāo)注結(jié)果歸納得到一套簡(jiǎn)單有效的規(guī)則系統(tǒng),并將該規(guī)則系統(tǒng)與深度學(xué)習(xí)模型應(yīng)用于語(yǔ)塊邊界自動(dòng)識(shí)別,分析比較兩者在實(shí)驗(yàn)上的有效性,并對(duì)論文工作進(jìn)行總結(jié)和展望。

      1 相關(guān)工作

      現(xiàn)有的文本蘊(yùn)含數(shù)據(jù)集都是為解決文本蘊(yùn)含問(wèn)題而開(kāi)發(fā)的,并沒(méi)有專門研究蘊(yùn)含類型成因的數(shù)據(jù)集。早期文本蘊(yùn)含評(píng)測(cè)RTE-1至RTE-3[14-16]及SciTail[17]將文本蘊(yùn)含視為二分類任務(wù),句子對(duì)之間只存在蘊(yùn)含和中立兩種關(guān)系。近年來(lái)的大規(guī)模數(shù)據(jù)集,如SNLI、MultiNLI等,把文本蘊(yùn)含關(guān)系分為“蘊(yùn)含”“矛盾”“中立”三種,以供學(xué)界研究文本蘊(yùn)含的整體類型。截止本文寫稿期間,我們尚未看到單獨(dú)討論蘊(yùn)含成因類型的研究和討論句子內(nèi)部導(dǎo)致蘊(yùn)含關(guān)系的語(yǔ)言片段的研究。

      在英文研究領(lǐng)域,Ido Dagan和Oren Glickman[18]從宏觀角度把英語(yǔ)蘊(yùn)含關(guān)系分成五類:Axion rule(公理),Reflexivity(自反性),Monotone extension(單調(diào)性擴(kuò)張),Restrictive extension(限制性擴(kuò)張),Transitive Chaining(傳遞鏈)。這些概念較為抽象,不便理解,在具體標(biāo)注過(guò)程中難以實(shí)踐。

      在中文研究領(lǐng)域,RITE-3任務(wù)針對(duì)中文語(yǔ)料提出了19類蘊(yùn)含現(xiàn)象和9類矛盾現(xiàn)象[19],包含了近義詞、反義詞、上下位詞等詞匯類別和從句、時(shí)態(tài)等句法類別。任函[20]提出了面向漢語(yǔ)文本推理的語(yǔ)言現(xiàn)象標(biāo)注類別,包含了20個(gè)類別的語(yǔ)言現(xiàn)象體系,同樣包含了同義詞(近義詞)、上下位詞、反義詞等詞匯類別,該類別體系以詞匯為主,句法特征的內(nèi)容不多,僅有一個(gè)結(jié)構(gòu)變化,較為籠統(tǒng)。

      以上研究是從語(yǔ)言學(xué)角度對(duì)蘊(yùn)含類型進(jìn)行區(qū)分,沒(méi)有考慮數(shù)據(jù)的實(shí)際情況,容易出現(xiàn)某些類別數(shù)據(jù)稀疏的情況。因此,本文將數(shù)據(jù)處理和蘊(yùn)含類型相結(jié)合,利用現(xiàn)有數(shù)據(jù)集,深入語(yǔ)料尋找導(dǎo)致蘊(yùn)含關(guān)系的語(yǔ)言片段,探究蘊(yùn)含現(xiàn)象成因。

      2 句法異構(gòu)蘊(yùn)含成因研究

      我們根據(jù)漢語(yǔ)句法特點(diǎn)把句法異構(gòu)蘊(yùn)含的成因歸納成兩類:一,結(jié)構(gòu)變化:成分抽取、小句抽取、語(yǔ)序變化;二,省略變化:省略修飾語(yǔ)、省略中心語(yǔ)。這兩個(gè)類別既可以獨(dú)立存在,也可以同時(shí)存在。句法異構(gòu)蘊(yùn)含成因類型匯總?cè)绫?所示。

      表1 句法異構(gòu)蘊(yùn)含成因類型

      2.1 結(jié)構(gòu)變化

      漢語(yǔ)以語(yǔ)序和虛詞作為主要語(yǔ)法手段[21],語(yǔ)序變化可以同時(shí)改變句子的表層結(jié)構(gòu)和深層結(jié)構(gòu),也就是既改變句子的形式,又改變句子的意義。除了語(yǔ)序變化外,成分抽取、小句抽取也屬于結(jié)構(gòu)變化。

      2.1.1 語(yǔ)序變化

      “語(yǔ)序”不僅是表示語(yǔ)法結(jié)構(gòu)、語(yǔ)法意義的形式,也是言語(yǔ)表達(dá)或修辭的手段[22]。語(yǔ)序變化類句法異構(gòu)蘊(yùn)含就是指由語(yǔ)法結(jié)構(gòu)內(nèi)部成分的線性順序發(fā)生變化導(dǎo)致的蘊(yùn)含。例如:

      T3: P:三個(gè)女人和一個(gè)小女孩在和小狗玩。

      H: 與小狗玩耍的女人們。

      P屬于“施受謂”語(yǔ)序,施事是“三個(gè)女人和一個(gè)小女孩”,受事是“一只小狗”,“謂”指謂語(yǔ)“玩”。在H中受事“小狗”謂語(yǔ)“玩?!北惶崆暗绞┦隆芭藗儭鼻懊?。同時(shí),H把一個(gè)陳述句變成了短語(yǔ)。

      T4: P: 一家人正走在一些很大的獨(dú)立的幾何雕塑下面。

      H: 人們?cè)谝恍┓浅4蟮牡袼芟滦凶摺?/p>

      P屬于“主動(dòng)——施謂”語(yǔ)序,“動(dòng)”指動(dòng)詞,“謂”指謂詞,在動(dòng)詞后面有一個(gè)表示地點(diǎn)的狀語(yǔ),H把句尾的地點(diǎn)狀語(yǔ)提前到動(dòng)詞前面,兩句話的語(yǔ)序發(fā)生了改變。

      2.1.2 成分抽取

      從P中把主謂賓結(jié)構(gòu)的某一部分抽取出來(lái),單獨(dú)成句。被抽取出來(lái)的結(jié)構(gòu)如果是一個(gè)定中結(jié)構(gòu),有可能變成一個(gè)簡(jiǎn)單的主謂句,也有可能變成一個(gè)存在句。例如:

      T5: P:一個(gè)穿著黃色毛衣的年輕人看著那張上面擺著各種花的桌子。

      H:這里有個(gè)人。

      P的主語(yǔ)“一個(gè)穿著黃色毛衣的年輕人”被抽取出來(lái),省略修飾后單獨(dú)成句,H是一個(gè)表示人物存在的句子“這里有個(gè)人”。

      T6: P:一個(gè)穿著黑色褲子沒(méi)穿襯衫的男孩兒正在玩一個(gè)白色的氣球。

      H:男孩穿著黑色褲子。

      P的主語(yǔ)“一個(gè)穿著黑色褲子沒(méi)穿襯衫的男孩兒”被抽取出來(lái),省略部分修飾語(yǔ)后變成一個(gè)簡(jiǎn)單的主謂句H,“男孩穿著黑色褲子”。

      2.1.3 小句抽取

      在有多個(gè)小句的復(fù)句中抽出某一個(gè)小句,單獨(dú)成句。一般情況下,我們會(huì)選擇保留包含完整信息的小句,而省略作為從屬地位補(bǔ)充信息的小句。例如:

      T7: P: 男人和女人在海灘上漫步,身后是絢麗的晚霞。

      H: 一個(gè)男人和一個(gè)女人在海灘上散步。(NULL)

      P是由一個(gè)主謂小句和一個(gè)表示背景信息的小句構(gòu)成的,H省略了表示背景信息的小句。

      T8: P: 小男孩在哭,因?yàn)樗谎┣驌糁辛恕?/p>

      H: 小男孩在哭。(NULL)

      同理,P由一個(gè)包含了完整信息的主謂小句和一個(gè)表示原因的小句構(gòu)成,H省略了表示原因的小句。

      2.2 省略變化

      語(yǔ)言具有遞歸性,相同或不同的語(yǔ)言結(jié)構(gòu)層層嵌套,結(jié)構(gòu)規(guī)則重復(fù)使用而不會(huì)造成結(jié)構(gòu)上的混亂[11]?;谡Z(yǔ)言遞歸性,省略部分結(jié)構(gòu)而得到蘊(yùn)含現(xiàn)象也屬于句法異構(gòu)蘊(yùn)含。省略變化主要有省略中心語(yǔ)、省略修飾語(yǔ)兩類,這容易與上一節(jié)的小句抽取混淆。兩者之間的區(qū)別主要在于他們作用于不同的語(yǔ)言單位。小句抽取是在復(fù)句中進(jìn)行,而省略則是在某一簡(jiǎn)單句內(nèi)部進(jìn)行。

      2.2.1 省略中心語(yǔ)

      在偏正結(jié)構(gòu)中,省略了核心謂詞,而保留修飾語(yǔ)。被保留的修飾語(yǔ)可以是形容詞性成分、地點(diǎn)狀語(yǔ)、時(shí)間狀語(yǔ)等。例如:

      T9: P: 年長(zhǎng)的白人女子在她的廚房做蛋糕。

      H: 一位老太太在廚房里。

      P是“主謂賓”結(jié)構(gòu),在主語(yǔ)“一位年長(zhǎng)的白人女子”和謂語(yǔ)“做”之間有地點(diǎn)狀語(yǔ)“在她的廚房”,H省略謂語(yǔ)和謂語(yǔ)的賓語(yǔ)“蛋糕”,只保留主語(yǔ)和地點(diǎn)狀語(yǔ)。

      T10: P: 一群人劃獨(dú)木舟穿過(guò)熱帶雨林。

      H: 一群人正在劃獨(dú)木舟。

      P中有2個(gè)謂詞性短語(yǔ)“劃獨(dú)木舟”和“穿過(guò)熱帶雨林”,在這里“穿過(guò)熱帶雨林”可以看作是中心謂詞,“劃獨(dú)木舟”是表示方式的方式狀語(yǔ),H省略了中心謂語(yǔ),保留主語(yǔ)和方式狀語(yǔ),并在方式狀語(yǔ)前加上表示動(dòng)作持續(xù)的“正在”,構(gòu)成一個(gè)新的主謂句。

      2.2.2 省略修飾語(yǔ)

      在偏正結(jié)構(gòu)中省略修飾性成分,保留中心語(yǔ)。與上面的省略中心語(yǔ)相對(duì),被省略的修飾語(yǔ)可以是表示地點(diǎn)、時(shí)間、工具的狀語(yǔ),也可以是表示事物性狀的形容詞性成分。

      T11: P: 一個(gè)男人在晴天晾衣服。

      H: 男人晾曬衣服。

      H省略了時(shí)間狀語(yǔ)“在晴天”。

      T12: P: 穿著黑色襯衫的吧臺(tái)服務(wù)員用一臺(tái)大機(jī)器做咖啡。

      H: 吧臺(tái)侍者在做咖啡。(省略工具)

      H省略了人物修飾語(yǔ)“穿著黑色襯衫的”和表示工具的狀語(yǔ)信息“用一臺(tái)大機(jī)器”。

      此外,句法異構(gòu)蘊(yùn)含的成因不一定獨(dú)立存在。比如T13中,P的主語(yǔ)“穿著紅色連帽衫的男孩”被提取出來(lái),單獨(dú)成句為H,這屬于成分抽取引發(fā)的蘊(yùn)含。同時(shí),P中的“紅色連帽衫”和H中的“紅色衣服”屬于上下位詞造成的蘊(yùn)含。并且,P和H中,“穿著紅色連帽衫(紅色衣服)的男孩”和“男孩穿著紅色衣服(紅色連帽衫)”屬于由語(yǔ)序調(diào)換造成的蘊(yùn)含。文本蘊(yùn)含語(yǔ)料中類似的實(shí)例說(shuō)明了蘊(yùn)含成因是混合的,不是單一的。

      T13: P:穿著紅色連帽衫的男孩走在人行道上。

      H:男孩穿著紅色衣服。

      3 句法異構(gòu)蘊(yùn)含的語(yǔ)塊邊界標(biāo)注

      我們從英文開(kāi)源數(shù)據(jù)集SNLI選取了一部分?jǐn)?shù)據(jù),將其翻譯成中文,篩選出其中結(jié)構(gòu)清晰、表達(dá)合適的4 000條蘊(yùn)含數(shù)據(jù)進(jìn)行了人工標(biāo)注。經(jīng)過(guò)校對(duì)后,獲得有效標(biāo)注3 766例。具體方法和流程在本節(jié)中詳述。

      3.1 數(shù)據(jù)選擇

      我們的數(shù)據(jù)來(lái)源于英文開(kāi)源數(shù)據(jù)集SNLI。一方面,目前尚未出現(xiàn)大規(guī)模中文文本蘊(yùn)含數(shù)據(jù)集,在2012年發(fā)布的RITE-2的幾個(gè)中文數(shù)據(jù)集規(guī)模太小,并且不太容易獲取,使用不方便,而英文領(lǐng)域有多個(gè)大規(guī)模開(kāi)源數(shù)據(jù)集,例如SNLI、MultiNLI,獲取和使用都很方便。另一方面,文本蘊(yùn)含本質(zhì)上是一種語(yǔ)義關(guān)系,不同語(yǔ)言之間的蘊(yùn)含成因會(huì)有共同之處,所以我們可以借助英文數(shù)據(jù)集來(lái)研究中文蘊(yùn)含。

      SNLI[6]是目前主流的文本蘊(yùn)含數(shù)據(jù)集,其中的數(shù)據(jù)全部是依靠眾包(Crowdsourcing)人工生成的真實(shí)文本,語(yǔ)言形式靈活多樣,數(shù)據(jù)質(zhì)量較高,不會(huì)存在明顯的語(yǔ)法錯(cuò)誤。SNLI的數(shù)據(jù)規(guī)模巨大,擁有560 152條訓(xùn)練數(shù)據(jù)和10 000條測(cè)試數(shù)據(jù),每條數(shù)據(jù)包含一句Premise和一句Hypothesis,以及一個(gè)關(guān)系標(biāo)簽,有充足的語(yǔ)料挑選余地。標(biāo)注過(guò)程中需要考慮句子長(zhǎng)度,若句子過(guò)長(zhǎng)、結(jié)構(gòu)復(fù)雜,則分析困難;若句子過(guò)短、信息太少,不具有標(biāo)注價(jià)值。SNLI的Premise平均長(zhǎng)度為14.1個(gè)單詞,Hypothesis的平均長(zhǎng)度為8.3,長(zhǎng)度適中,便于人工標(biāo)注。

      基于以上考慮,我們將SNLI的部分訓(xùn)練數(shù)據(jù)翻譯成中文,挑選出長(zhǎng)度在5~35個(gè)漢字之間、結(jié)構(gòu)清晰、表達(dá)符合漢語(yǔ)用語(yǔ)習(xí)慣的句子進(jìn)行人工標(biāo)注和分析。

      3.2 標(biāo)注方法

      本文標(biāo)注工作實(shí)質(zhì)上是在已知蘊(yùn)含關(guān)系的基礎(chǔ)上確定句法異構(gòu)語(yǔ)塊邊界。標(biāo)注員首先要看完原句P和蘊(yùn)含句H,對(duì)句子表達(dá)的內(nèi)容有一個(gè)了解。根據(jù)H的內(nèi)容回到P中尋找相關(guān)內(nèi)容,分別標(biāo)注出P和H的句法蘊(yùn)含語(yǔ)塊。

      根據(jù)句法異構(gòu)蘊(yùn)含的類型劃分標(biāo)注語(yǔ)塊的類型。省略類的蘊(yùn)含語(yǔ)塊往往是一個(gè)定中短語(yǔ)或狀中短語(yǔ);結(jié)構(gòu)變化的蘊(yùn)含語(yǔ)塊類型多樣,小句抽取的蘊(yùn)含語(yǔ)塊是復(fù)句中的小句,我們可以用逗號(hào)作為劃分依據(jù);成分抽取的蘊(yùn)含語(yǔ)塊是句中某個(gè)完整的句法成分,若句法成分前有修飾語(yǔ),那么語(yǔ)塊也要包括修飾語(yǔ);語(yǔ)序變化的蘊(yùn)含語(yǔ)塊較為特殊,需要結(jié)合具體語(yǔ)料劃分。

      本文使用基于Web的文本標(biāo)注工具BRAT進(jìn)行蘊(yùn)含語(yǔ)塊標(biāo)注,標(biāo)注過(guò)程如圖1所示。導(dǎo)入待標(biāo)注文本,選擇原句P和蘊(yùn)含句H中的蘊(yùn)含語(yǔ)塊,分別標(biāo)記為“Antedt”和“Consqt”。連接“Antedt”和“Consqt”,在彈出的對(duì)話框中為兩個(gè)語(yǔ)塊選擇相應(yīng)的句法異構(gòu)關(guān)系。如果有標(biāo)注錯(cuò)誤,雙擊“Antedt”或“Consqt”或者關(guān)系類型,移動(dòng)、添加、刪除標(biāo)注內(nèi)容。標(biāo)注結(jié)果由BRAT自動(dòng)保存,示例如圖2所示。完成整個(gè)文件中的數(shù)據(jù)標(biāo)注后,得到一個(gè)后綴名為.ann的文件。

      為了提高標(biāo)注語(yǔ)料的一致性,在第一次標(biāo)注結(jié)束兩周后,我們按照最終標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行了二次標(biāo)注。最后,分析提取得到的句法異構(gòu)蘊(yùn)含語(yǔ)塊,人工校對(duì)修改,得到最后的標(biāo)注結(jié)果。這在一定程度上解決了多人標(biāo)注引起的不一致問(wèn)題,提高了蘊(yùn)含語(yǔ)塊標(biāo)注的準(zhǔn)確性。

      圖1 BRAT標(biāo)注過(guò)程

      圖2 BRAT標(biāo)注示例

      3.3 標(biāo)注結(jié)果及數(shù)據(jù)分析

      我們總共篩選出4 000條蘊(yùn)含數(shù)據(jù),獲得有效標(biāo)注結(jié)果3 766例,如表2所示。其中句法異構(gòu)蘊(yùn)含有1 483例,占39.40%;詞匯蘊(yùn)含1 188例,占31.50%;常識(shí)和社會(huì)經(jīng)驗(yàn)蘊(yùn)含1 095例,占29.10%。

      最后我們又針對(duì)句法異構(gòu)蘊(yùn)含進(jìn)行語(yǔ)料擴(kuò)充,總共標(biāo)注句法蘊(yùn)含2 000例,結(jié)構(gòu)變化類463例,占比23.15%;省略類1 537例,占比76.85%。

      可以看到,文本蘊(yùn)含主要還是通過(guò)詞匯關(guān)系和句法異構(gòu)產(chǎn)生的,其中句法異構(gòu)略多于詞匯關(guān)系,而在句法異構(gòu)蘊(yùn)含中又是以省略類為主,結(jié)構(gòu)變化導(dǎo)致的蘊(yùn)含較少。

      表2 蘊(yùn)含分類統(tǒng)計(jì)

      4 句法異構(gòu)蘊(yùn)含邊界識(shí)別研究

      4.1 句法規(guī)則識(shí)別方法

      通過(guò)解析句法異構(gòu)蘊(yùn)含語(yǔ)塊對(duì)的詞性和句法依存分析,我們總結(jié)出了一套句法異構(gòu)蘊(yùn)含的規(guī)則系統(tǒng)。在依存句法體系中,“HED”指的是核心關(guān)系,通常是小句的謂語(yǔ),“SBV”指的是主語(yǔ),“VOB”指的是賓語(yǔ),“IOB”指的是間接賓語(yǔ),“POB”指的是后置定語(yǔ),“ATT”指的是定語(yǔ),“ADV”指的是狀語(yǔ),“COO”表示兩個(gè)重復(fù)的成分。本文的句法異構(gòu)中可以有規(guī)則匹配的類型歸納如下。

      1. “被”“把”語(yǔ)塊

      我們通過(guò)匹配句子中的標(biāo)志字“被”和“把”,并判斷“被”和“把”在語(yǔ)塊中擔(dān)任“ADV”成分,則認(rèn)為此語(yǔ)塊為“被”結(jié)構(gòu)或“把”結(jié)構(gòu)語(yǔ)塊。

      LTP中的句法依存分析結(jié)果,“被”字語(yǔ)塊一般被解析為如下結(jié)構(gòu):

      (1) [ATT]* + FOB + 被 + [[ATT]* + POB] + HED

      “把”字語(yǔ)塊句法依存分析的主體結(jié)構(gòu)為:

      (2) [SVB] + 把 + [ATT]* + POB + HED + [[ATT]* + VOB]

      “被”字語(yǔ)塊蘊(yùn)含的句法依存結(jié)構(gòu)示例如圖3所示。

      S1: 大象正被一個(gè)男人騎著。

      S2: 人在騎大象。

      “把”字語(yǔ)塊蘊(yùn)含的句法依存結(jié)構(gòu)示例如圖4所示。

      S3: 走過(guò)街道,把它打掃干凈。

      S4: 清掃街道。

      圖3 S1、S2句法結(jié)構(gòu)

      圖4 S3、S4句法結(jié)構(gòu)

      2.普通語(yǔ)塊

      與“被”字語(yǔ)塊和“把”字語(yǔ)塊對(duì)應(yīng),一般語(yǔ)塊的句法依存分析的主體結(jié)構(gòu)如下:

      (1) SBV + HED + VOB

      蘊(yùn)含語(yǔ)塊對(duì)中,HED必須一致或有蘊(yùn)含關(guān)系,并且FOB和VOB,POB和SBV一致或H句中的主體結(jié)構(gòu)中某成分被省略。

      H省略P中并列的信息: 即句法依存分析樹(shù)的結(jié)構(gòu)中,P有多個(gè)HED,H缺少P中標(biāo)記為COO部分的子樹(shù)。語(yǔ)塊對(duì)的主體結(jié)構(gòu)如下:

      (2) P: SBV + [HEDP]* + VOB

      H: SBV + [HEDH]* + VOB

      其中[HEDH]* ∈ [HEDP]*, 示例如圖5所示。

      S5: 坐在滑板上在鄉(xiāng)間滑行。

      S6: 坐在滑板上。

      圖5 S5、S6句法結(jié)構(gòu)

      H省略P中修飾的信息: 蘊(yùn)含句對(duì)的HED相同,H中缺少P中的一個(gè)或幾個(gè)ATT成分,其他成分相同,語(yǔ)塊對(duì)的句法結(jié)構(gòu)表示為:

      (3) P: [ATT1P]* + SBV + HED + [ATT2P]* + VOB

      H: [ATT1H]* + SBV + HED + [ATT2H]* + VOB

      其中,[ATTH]* ∈ [ATTP]* ,P和H可以省略某一句子成分,且P的信息包含H的信息。例句如圖6所示。

      S7: 一個(gè)亞裔小女孩兒。

      S8: 一個(gè)小女孩兒。

      圖6 S7、S8句法結(jié)構(gòu)

      H只保留了P中的HED,省略其他的句法成分。語(yǔ)塊對(duì)的句法結(jié)構(gòu)表示為:

      (4) P: [[ATT]* + HEDP]*

      H: HEDH

      其中,P的結(jié)構(gòu)為一組或多組修飾語(yǔ)加核心詞,且[HEDH]∈[HEDP],如果[HEDH]包含多個(gè)短語(yǔ),則用“和”連接。例句示例如下:

      S9: 一個(gè)穿著比基尼的女人和一個(gè)打扮正常的男人。

      S10: 男人和女人。

      圖7 S9、S10句法結(jié)構(gòu)

      按照上述6條規(guī)則自動(dòng)抽取蘊(yùn)含語(yǔ)料,每條規(guī)則抽取的數(shù)量與數(shù)據(jù)庫(kù)中語(yǔ)塊總數(shù)的比值為相應(yīng)規(guī)則的覆蓋度,每條規(guī)則抽取得到的語(yǔ)塊數(shù)量與數(shù)據(jù)庫(kù)中符合此規(guī)則的語(yǔ)塊數(shù)量的比值為相應(yīng)規(guī)則的有效性,為規(guī)則的具體評(píng)價(jià)。規(guī)則覆蓋度評(píng)價(jià)如表3所示。

      表3 句法規(guī)則覆蓋度

      句法異構(gòu)的句對(duì)結(jié)構(gòu)轉(zhuǎn)化多樣,句法成分位置靈活,以及同義詞及上下位詞的替換,使得我們難以用規(guī)則概括所有的句法異構(gòu)蘊(yùn)含。本文總結(jié)規(guī)律性強(qiáng)、較為常見(jiàn)的蘊(yùn)含語(yǔ)塊對(duì),確保了抽取數(shù)據(jù)的有效性,但由于規(guī)則限制比較嚴(yán)格,未能覆蓋全部數(shù)據(jù)。本節(jié)規(guī)則識(shí)別的結(jié)果為進(jìn)一步的深度模型實(shí)驗(yàn)提供了參考標(biāo)準(zhǔn)。

      4.2 基于深度學(xué)習(xí)方法的實(shí)驗(yàn)

      4.2.1 模型

      圖8 模型結(jié)構(gòu)圖

      本文采用深度學(xué)習(xí)模型處理整合P和H的蘊(yùn)含信息,識(shí)別蘊(yùn)含邊界下標(biāo)。基于Wang[13]的模型,如圖8所示,此模型主要分為兩個(gè)模塊: match_LSTM和Pointer Network(Ptr-Net)。Wang[13]針對(duì)文本蘊(yùn)含任務(wù)提出了match-LSTM模型,用來(lái)判斷P是否蘊(yùn)含H。與Wang[13]工作不同的是,我們沒(méi)有利用match-LSTM判斷P和H的蘊(yùn)含類型,而是計(jì)算獲得包含P和H蘊(yùn)含信息的表示向量,作為Ptr-Net的輸入。Ptr-Net由Vinyals[24]提出,它采用attention機(jī)制作為指針,選擇輸入序列的位置下標(biāo)作為輸出。在此我們采用Ptr-Net,在整合了P和H蘊(yùn)含信息的向量中尋找蘊(yùn)含邊界。

      4.2.2 實(shí)驗(yàn)設(shè)計(jì)與分析

      我們?cè)赟NLI數(shù)據(jù)庫(kù)中選取2 000條句法異構(gòu)類型的蘊(yùn)含對(duì),采用前文的規(guī)則進(jìn)行人工標(biāo)注。其中,訓(xùn)練集包含1 700條數(shù)據(jù),測(cè)試集包含300條數(shù)據(jù)。實(shí)驗(yàn)代碼基于tensorflow框架,采用邊界正確率作為評(píng)價(jià)指標(biāo)。我們分別統(tǒng)計(jì)了P和H蘊(yùn)含片段的前后正確率及總體正確率,實(shí)驗(yàn)結(jié)果如表4所示。

      表4 實(shí)驗(yàn)結(jié)果

      從表4可以看出,對(duì)于兩個(gè)模型P和H兩個(gè)蘊(yùn)含邊界識(shí)別總正確率分別為68.71%、74.42%,P的蘊(yùn)含邊界正確率分別為65.40%、72.61%,H的蘊(yùn)含邊界正確率分別為68.83%、74.75%。由實(shí)驗(yàn)結(jié)果知,模型對(duì)于H的蘊(yùn)含片段識(shí)別能力略高于P,attention機(jī)制顯著地提高了模型的正確率。

      本文首次提出句法異構(gòu)蘊(yùn)含邊界識(shí)別問(wèn)題,并且首次采用深度學(xué)習(xí)模型探索端到端識(shí)別蘊(yùn)含邊界的可能性。我們對(duì)比了LSTM+Ptr-Net和match_LSTM+Ptr-Net兩個(gè)模型,前者使用LSTM為序列建模,后者在LSTM的基礎(chǔ)上增加了attention機(jī)制。

      5 結(jié)語(yǔ)

      本文通過(guò)標(biāo)注蘊(yùn)含句對(duì),分析總結(jié)句法異構(gòu)蘊(yùn)含類型,歸納句法異構(gòu)蘊(yùn)含規(guī)則,并對(duì)該規(guī)則的有效性進(jìn)行驗(yàn)證,結(jié)果表明基于規(guī)則的方法可以為進(jìn)一步的深度模型實(shí)驗(yàn)提供參考標(biāo)準(zhǔn)。本文用深度學(xué)習(xí)模型識(shí)別蘊(yùn)含語(yǔ)塊邊界,在小規(guī)模中文語(yǔ)料上提供了可靠的基準(zhǔn)線。本文的實(shí)驗(yàn)代碼和數(shù)據(jù)已經(jīng)公布在Github網(wǎng)站,網(wǎng)址為https://github.com/blcunlp/CCHEP。

      與整句級(jí)別的蘊(yùn)含識(shí)別任務(wù)相比,本文在句法異構(gòu)蘊(yùn)含識(shí)別上的正確率還有待提高。我們計(jì)劃進(jìn)一步探討句法異構(gòu)蘊(yùn)含規(guī)則,擴(kuò)大規(guī)則覆蓋范圍,為深度學(xué)習(xí)模型提供更為可靠的外部知識(shí)。

      本文的工作為日后蘊(yùn)含成因分析與語(yǔ)塊標(biāo)注研究提供了可供改進(jìn)的方向,其中包括: ①提高語(yǔ)塊標(biāo)注的準(zhǔn)確性,解決因錯(cuò)誤標(biāo)注帶來(lái)的語(yǔ)塊邊界不清問(wèn)題; ②擴(kuò)展蘊(yùn)含成因類型,現(xiàn)有句法異構(gòu)蘊(yùn)含類型還能繼續(xù)擴(kuò)充,因常識(shí)和社會(huì)知識(shí)造成的蘊(yùn)含也值得深入分析; ③擴(kuò)展句法異構(gòu)蘊(yùn)含規(guī)則,現(xiàn)有規(guī)則較為簡(jiǎn)單,對(duì)中文特殊句式的研究不夠深入,未能覆蓋到大部分句法異構(gòu)蘊(yùn)含現(xiàn)象。

      猜你喜歡
      語(yǔ)塊語(yǔ)序省略
      偏旁省略異體字研究
      語(yǔ)序類語(yǔ)法填空題的解題技巧
      as引導(dǎo)狀語(yǔ)從句的倒裝語(yǔ)序
      漢韓“在”字句的語(yǔ)序類型及習(xí)得研究
      中間的省略
      詩(shī)選刊(2015年6期)2015-10-26 09:47:13
      英語(yǔ)語(yǔ)塊在漢英翻譯中的積極作用
      從語(yǔ)塊類型看英語(yǔ)專業(yè)大學(xué)生語(yǔ)塊獲取能力與聽(tīng)力理解能力的相關(guān)性研究
      語(yǔ)塊的性質(zhì)及漢語(yǔ)語(yǔ)塊系統(tǒng)的層級(jí)關(guān)系
      詮釋學(xué)視域中的語(yǔ)塊研究
      省略
      台北市| 汪清县| 万荣县| 麻江县| 许昌县| 江川县| 铅山县| 田东县| 望奎县| 孝义市| 多伦县| 开阳县| 瑞金市| 抚远县| 黄冈市| 岫岩| 象山县| 石屏县| 徐汇区| 安龙县| 海城市| 商河县| 渝北区| 柯坪县| 农安县| 肥城市| 揭东县| 建水县| 三明市| 昌邑市| 阳春市| 遂宁市| 林芝县| 安新县| 灌南县| 张家港市| 界首市| 辽阳县| 磐石市| 蒙阴县| 海阳市|