• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向中文抽象語義表示的復句研究綜述

      2018-12-06 03:58:32魏庭新曲維光戴茹冰
      廈門大學學報(自然科學版) 2018年6期
      關鍵詞:論元復句語料庫

      魏庭新,曲維光,宋 麗,戴茹冰

      (1.南京師范大學國際文化教育學院,2.南京師范大學文學院,3.南京師范大學計算機科學與技術學院,江蘇 南京 210097;4.福建省信息處理與智能控制重點實驗室(閩江學院),福建 福州 350121)

      語義是語言符號的意義,是說話人通過語言形式最終想傳達的信息.自然語言處理的一個重要研究目標就是通過外在的詞匯、句法等語言形式來實現對語義的理解,因此對語義的解析一直是自然語言處理的熱點之一.近年來在詞匯語義標注、語義角色標注、共指消解等方面都取得了長足的進展,然而在整句邏輯語義表示和解析方面仍不甚理想.2013年美國賓夕法尼亞大學的語言數據聯(lián)盟(LDC)連同南加州大學、科羅拉多大學等共同提出了一種新型的語義表示語言,即抽象語義表示(abstract meaning representation AMR)[1],它采用圖結構來表示一個句子的語義.這種表示方法在保留了句子樹形主干結構的同時,使用有向無環(huán)的邏輯圖結構,實現了對句子中論元共享現象的表示.同時它還允許添加原句缺省的概念節(jié)點,以更好地表示其隱含意義[2].因此一經推出,就受到國內外學者的高度關注,引發(fā)了一股研究AMR的熱潮.目前AMR的標注和解析都是以句子為基本單位進行的,而自然語言中的句子根據復雜度可以分為單句和復句,兩者在句法、語義上有著巨大的不同.隨著AMR研究的深入,迫切需要對句子本身的邏輯語義進行更深入細致的研究和挖掘.因此本文中對中文AMR(CAMR)的復句研究進行綜述和分析,對CAMR在復句處理方面的工作提出了研究展望.

      1 理論研究背景

      1.1 單句、復句與篇章

      篇章是一定語境中表示完整語義的一系列句子或語段構成的語言單位,而句子是篇章的基本單位.根據內部結構不同,句子可以分為單句和復句.如果一個句子是由兩個及以上的意義相關的句子組成的,彼此分立,互不作為句子成分,這樣的句子稱為“復句”[3].20世紀50年代語言學界曾經有一場關于單復句的廣泛討論,雖然各家爭鳴,意見不同,但最后也達成了一些共識:單句和復句結構上有著本質的不同,其中一個主要不同之處在于,復句除了分句本身的語義,還包含分句之間的邏輯語義.胡金柱等[4]形象地將之表示為:復句語義=邏輯語義+∑i分句i語義.同時他還指出,復句是連接分句與篇章的橋梁.Mann等[5]的修辭結構理論(rhetorical structure theory,RST)認為,篇章結構具有組織性、連貫性、層級性、層級同質性等特征.對于復句與篇章的關系,徐赳赳[6]將復句研究與RST比較之后認為,復句已經進入篇章研究的范圍,特別是多重復句,篇章的特征更明顯.他發(fā)現漢語的復句理論與RST在研究的基本單位、研究對象上有很多相似之處.可以說,復句關系和篇章關系是同構的,篇章語義關系幾乎都可以在復句語義關系中找到.搞清楚復句語義關系,篇章語義關系便能夠迎刃而解.因此,無論是對句子進行句法分析,還是解析篇章語義,對復句進行研究和處理都是十分必要的.

      1.2 關于復句語義關系的研究

      關于漢語復句的分類,學界并無統(tǒng)一標準,各家均有自己的主張.比較有代表性的有以下幾種:黃伯榮等[7]采取兩分法(以下簡稱黃廖二分法),將復句分為聯(lián)合復句和偏正復句兩大類,聯(lián)合復句下轄并列、順承、解說、選擇、遞進5個小類,偏正復句又分為轉折、條件、假設、因果、目的復句.邢福義[8]采取三分法,把復句分為因果、并列、轉折3大類,因果類下分因果、推斷、假設、條件、目的小類,并列類下分并列、連貫、遞進、選擇等,轉折類包括轉折、讓步和假轉等.胡明揚等[9]則根據是否有形式標志,將復句分為有關聯(lián)詞復句和無關聯(lián)詞復句,無關聯(lián)詞復句又分為意合句、流水句和排比句等.在英語中,由于語言本身的特點,鮮有專門針對復句關系的研究,多數研究從篇章層面來考慮主從句、復句、句群之間的語義關系.如賓州樹庫體系[10]主要考慮句間語義關系,將篇章關系分成了因果、比較、擴展、時序4大類.而RST[5]則從一致性、連貫性、主次關系等角度考慮篇章各層次語塊間的修辭關系,總結了包括證明、條件、解釋、對立等關系在內的24種關系.

      2 CAMR復句處理的方法及特點

      2.1 AMR對句子的語義標注及特點

      2016年LDC公布了英文《小王子》的AMR標注語料,2017年又發(fā)布了AMR2.0版本[11],內含來源于網絡論壇、博客、華爾街日報、新華日報英文版等在內的39 260個句子的AMR標注.AMR在標注句子語義時有這樣2個特點:

      1) 以句子為基本單位,對句子的整體語義做抽象表示.切分后的AMR句子基本為單句,或者是帶有定語從句、主語從句或賓語從句的復合句.對于復句,AMR的處理方法是將之進一步切分為單句,不以復句為單位進行處理,也不處理切分后的句間關系.

      2) 只允許一個句子有一個根節(jié)點,對于帶有從句等結構作修飾成分的復合句,則根據修飾成分與中心語的語義關系將其標記為一個論元附著在相應節(jié)點上.

      2.2 漢語和英語的不同

      從類型學來說,漢語和英語是兩種非常不同的語言.漢語缺乏形態(tài)變化和形態(tài)標志,重意合;而英語形態(tài)結構完備,重形合.王力[12]指出,就句子的結構而論,西洋語言是法治的,中國語言是人治的.這些特點反映在句子層面,使得英語多長句,漢語多短句;英語多從句,漢語多分句;漢語還有獨特的流水句.英語句子雖長,各種語義角色能以從句形式依附在主干結構上,這與AMR的分析方法是比較契合的.然而漢語由于缺乏形態(tài)標記,多用分句來表達復雜語義,多個分句共同完成一個完整語義的表達,且分句句法成分常常承前省略.如果還按照AMR處理復句的方法,將分句切分,勢必會使得句子語義表示不完整,因此如果想在漢語上使用AMR,必須根據漢語的特點,對AMR的標注方法做出相應調整.

      2.3 CAMR的復句處理方法

      2016年,Li等[13]基于AMR框架結構,同時考慮了漢語與英語的差異,初步建立了一套中文抽象語義的表示方法和標注規(guī)范.標注規(guī)范針對中英文的差異做了很多調整,如對漢語特有的量詞、把字句、被字句等漢語特殊句式等做了相應規(guī)定.在句子處理層面,對于復句,沒有采用英文AMR直接切割為單句的做法,而是將構成復句的句間語義關系作為該句的根節(jié)點,語義關系所涉及的分句作為該語義關系的論元arg1,arg2.同時根據漢語特點,并借鑒中文語料樹庫(Chinese discourse treebank,CDTB)標注漢語篇章關系的方法[14-15],在標注時增加了10類復句關系,包括:并列、因果、條件、轉折、時序、選擇、讓步、解釋、目的、遞進.例如,“孔子學生贖一奴,卻不報賬,人人夸學生高尚.”的CAMR可表示為:

      (n0 / causation

      :arg 1 (n1 / contrast

      :arg1 (n2 / 贖-01

      :arg0 (n3 / 學生

      :poss (n4 / person

      :name (n5 / name :op1 孔子)))

      :arg1 (n6 / 奴

      :quant (n7 / 1)))

      :arg2 (n8 / 報賬-01

      :polarity (n9 / -)

      :arg0 n3))

      :arg2 (n10 / 夸-01

      :arg0 (n11 / 人)

      :mod (n12 / every)

      :arg2 (n13 / 高尚-01

      :arg0 n3)

      :arg1 n3))

      可以看到,CAMR將句間語義關系“causation(因果)”作為復句根節(jié)點,該關系所涉及的兩個句子作為其論元,然后再分別對兩個論元進行表示,對于仍然包含一個復句語義關系的論元arg1,則繼續(xù)將語義關系“contrast(轉折)”作為根節(jié)點,所涉及兩個分句作為其論元.另外CAMR標注了分句之間的層次結構,以縮進的形式清楚地呈現出來.

      2.4 CAMR復句語義標注方法與其他體系比較

      2.4.1 CAMR復句語義關系與其他體系比較

      本文中將CAMR的復句語義關系與目前語言學界廣泛使用的黃廖二分法[7]、邢福義的三分法[8]以及清華漢語樹庫[16]的句間語義關系、蘇州大學漢語篇章結構語料庫[17]的篇章關系分類方法進行了比較,結果如表1所示.

      表1 CAMR與不同體系復句語義分類比較

      可以看到,盡管各種分類方法對語義關系的分層不同,但均包含并列、因果、條件、轉折、遞進、選擇等幾種具體語義關系,CAMR吸收了這些學術界普遍認同的關系.由于假設關系從邏輯上來說也是一種條件關系,因此CAMR將之歸并入條件關系.解釋關系是否是一種主要的復句關系語言學界意見并不一致,時序關系是傳統(tǒng)漢語復句關系不太注重分析的,但賓州篇章樹庫、修辭結構理論篇章樹庫(rhetorical structure theory discourse treebank,RST-DT)[18]等篇章關系語料庫普遍采用這兩種語義關系,說明其對于揭示復句中分句間的邏輯語義有著重要的作用,因此CAMR也吸收了這兩種語義關系.特別是對于漢語特有的流水句,時序關系可以比較精準地解釋各分句間的語義關系.如“開放以后,大陸富裕了,香港人發(fā)現,賺錢不是自己的獨門絕活.”的CAMR可表示為:

      (n0 / temporal

      :arg1 (n1 / 開放)

      :arg2 (n2 / 富裕-01

      :aspect (n3 / 了)

      :arg0 (n4 / 大陸))

      :arg3 (n5 / 發(fā)現-01

      :arg0 (n6 / 香港人)

      :arg1 (n7 / 絕活

      :mod (n8 / 獨門)

      :poss n6

      :domain (n9 / 賺-01

      :arg1 (n10 / 錢))

      :polarity (n11 / -))))

      可以看到,相比其他幾種語義關系,表示“大陸富裕了”和“香港人發(fā)現”兩個分句間語義最確切的就是時序關系.

      2.4.2 CAMR復句標注單位與其他體系的比較

      CAMR復句標注的對象是經過Stanford CoreNLP切分后結構為復句的句子,因此CAMR復句標注的基本單位是具有獨立表述功能的最小單句,不僅包括了由逗號標記的分句,還包括緊縮復句中有獨立表述功能的短語段,如果含有大于分句的語言片段則繼續(xù)切分.PDTB(Penn discourse treebank)在標注時面向篇章關系,所以標注單位是句子甚至是句群,與CAMR相比顆粒度較粗.RST-DT在短語級、句子級、篇章級都進行切分和標注,短語級的標注更多揭示的是句內謂詞論元關系,而非篇章關系.中文篇章關系分析如哈爾濱工業(yè)大學篇章關系語料庫(HIT-CDTB)也是以句群為切分單位,并沒有細化到最小分句.幾種體系的標注單位比較如表2所示.

      表2 CAMR與PDTB,RST-DT,HIT-CDTB標注單位對比表

      注:EDU(elementary discourse unit)即基本篇章單元.

      可以看到,PDTB和HIT-CDTB的標注體系中,篇章關系的論元仍可以包含多個小句,RST-DT的EDU可以是單句的一個部分;而CAMR的最小單位則是句子的最小分句.

      2.4.3 CAMR復句層次標注與其他體系比較

      目前賓州篇章樹庫、清華漢語樹庫、漢語復句語料庫等都只關注語義關系,不對層次進行標注.進行層次標注的有RST-DT和漢語篇章結構語料庫,這些研究均采用樹結構來對篇章單元之間的層次關系進行描述,而CAMR是將句中所有概念的語義抽象出來,對復句層次劃分采用樹結構的同時,允許論元共享,因此形成圖結構.如“問題不是出在中國而是出在美國.”的CAMR可表示如下:

      (n0 / contrast

      :arg1 (n1 / 出-07

      :polarity (n2 / -)

      :arg1 (n3 / 問題)

      :arg0 (n4 / country

      :name (n5 / name :op1 中國)))

      :arg2 (n6 / 出-07

      :arg1 n3

      :arg0 (n7 / country

      :name (n8 / name :op1 美國))))

      可以看到,CAMR將該復句分為轉折關系的兩個分句之外,還指出后一分句的根節(jié)點與前一分句的根節(jié)點共享arg1“問題”.這樣,CAMR的復句語義不僅含有句間邏輯語義關系,還將各分句缺省的論元補充完整,相較其他篇章關系分析體系只關注句間語義,這也是CAMR在句子語義表示方面的一大優(yōu)勢.

      2.5 CAMR復句研究任務

      要做好CAMR中復句的自動標注和解析工作,就要做好以下子任務:1) 復句語料庫的建設.2) 復句語義關系識別.根據是否含有關系詞可將復句分為有標記復句和無標記復句.對于有標記復句,要做的是關系詞的識別,然后根據關系詞語義來進行復句關系的識別;對于無標記復句,需要做的則是隱式語義關系的判定.3) 復句結構層次的生成.與一般篇章處理任務不同,CAMR在判斷語義后還要對各部分的語義進行層次判定和生成,從而生成最終的邏輯語義關系樹.

      3 研究現狀

      目前專門針對復句語義關系判定、解析的研究很少,大部分研究都是在篇章層面開展的,不過仍可以作為對復句研究的借鑒.下面從資源建設、分句切分、關系識別、結構樹生成等幾方面對目前的研究現狀進行介紹.

      3.1 資源建設

      目前關于復句語義關系的語料庫資源非常少,除了在建的CAMR語料庫(http:∥www.cs.brandeis.edu/~clp/camr/camr.html)之外,只有華中師范大學漢語復句語料庫[19],另外還有一些篇章關系語料庫,如PDTB(http:∥www.seas.upenn.edu/~pdtb/)、RST-DT(http:∥www.isi.edu/~marcu/discourse)、HIT-CDTB(http:∥ir.hit.edu.cn/hit-cdtb/index.html)、蘇州大學漢語篇章結構語料庫和清華漢語樹庫等可供借鑒.

      CAMR語料庫:由美國布蘭迪斯大學和南京師范大學共同開發(fā),目前已標注1 562句中文《小王子》[20]及10 325句中文樹庫(Chinese treebank,CTB)中的網絡語料,其中含有復句關系的有7 899句.

      漢語復句語料庫:華中師范大學開發(fā)的漢語專用語料庫,語料主要來自《人民日報》和《長江日報》,同時還有一部分現當代文學作品,共收有標復句80萬句.標注內容包括關系詞類別、關系詞連接項功能、分句層次、復句句式類別等.在復句語義關系體系上,采用了邢福義的三分法,將復句語義關系分為因果、轉折、并列3大類,每大類下又各分小類,共12小類.該語料庫目前尚未對外公布.

      賓州篇章樹庫:是LDC 2006年發(fā)布的標注篇章關系的語料資源,2008年發(fā)布了2.0版,內容來源為華爾街日報(WSJ)的2 300多篇文章,是目前最大、使用最多的篇章關系語料庫.它參照Propbank的標注方法,將篇章中的文本片段標記為(連接詞、論元)結構,其中連接詞是聯(lián)系上下文本片段的關系詞,被連接的兩個文本片段被標記為 Arg1、Arg2,它將篇章間的語義關系分為4種:顯式/隱式連接關系、基于實體的關系(EntRel)、詞匯替代關系(AltLex)、沒有關系(NoRel).其中顯式/隱式關系的語義體系又根據粒度不同分為3層,第1層4類,第2層16類,第3層23類.

      RST-DT:是由LDC2002年發(fā)布的針對篇章修辭結構標注的語料資源,該語料庫基于Mann 等1988年提出的修辭結構理論建立,將篇章文本進行切分,形成獨立且能表達一定語義的EDU,并為篇章間語義定義了多種關系.它與PDTB的不同之處在于,它區(qū)別了篇章單元前后的主次關系,并將這種結構關系分為單核和多核;將同一篇章內篇章單元間的修辭關系層次劃分出來,層層疊加,最終形成修辭結構樹.該語料庫規(guī)模較小,只標注了華爾街日報385篇英文文章.

      HIT-CTDB:由哈爾濱工業(yè)大學社會計算與信息檢索研究中心開發(fā),語料來自OntoNotes4.0上的525篇中文文本.針對每篇文本,均標注了3種關系:分句篇章關系、復句篇章關系和句群篇章關系.標注采用PDTB標注體系,但篇章關系根據漢語特點做了相應調整,共分為時序、因果、條件、比較、擴展和并列6種關系[21].

      漢語篇章結構語料庫:由蘇州大學開發(fā),采用樹的形式來表示漢語的篇章結構,每個段落構建一棵篇章結構樹,標注了篇章中語義關系、連接詞、中心、層次等信息.在語義關系分類上,該語料庫將篇章關系分成4個大類、17個小類,其中4個大類分別為因果、并列、轉折和解說關系.

      清華漢語樹庫(Tsinghua Chinese treebank):由清華大學開發(fā),語料主要來自漢語平衡語料庫,有文學、新聞、學術、應用等4種文體.這個語料庫不僅標注復句語義關系,還標注了詞類、短語結構、功能等多個信息.該語料庫沒有標注關系詞,將復句語義關系直接分為并列、連貫、遞進、選擇、因果、目的、假設、條件、轉折、注解、流水11種關系.

      3.2 分句的自動切分

      復句常常由多個分句組成,要解析分句間的語義關系,首先要解決分句的邊界識別問題,即語義關系涉及的論元邊界問題.在基于RST-DT的研究中,關于EDU識別的研究較多,如Soricut等[22]采用概率模型,利用句子的句法和詞匯特征進行句子級別的EDU識別和篇章結構樹的構建,在自動句法樹上取得了F值為83.1%的識別效果;Hernault等[23]等使用支持向量機(SVM)模型,利用句子的句法、結構、詞匯等特征,在EDU識別任務上F值達到了93.8%,效果良好.Lin等[24]在PDTB上做的論元識別F值達到82.6%.然而在漢語中,由于逗號除了做分句間隔之外還常常用作語氣停頓標志,導致很多非分句片段的產生.要判定復句語義關系,首先要排除這些非分句短語片段的干擾.一些學者對此展開了研究,如洪鹿平[25]使用SVM分類器判斷逗號前的文本片段是否為分句;胡金柱等[26]利用規(guī)則和聚類分析的方法對復句中的短語字段進行自動識別,準確率達到92.1%.這些研究僅進行是否為分句的判斷,對于非分句的歸屬等后續(xù)問題則沒有深入研究.

      3.3 復句關系的自動識別

      3.3.1 顯式關系識別

      1) 關系詞識別

      復句中的顯式關系指的是包含關系詞的復句所表示的邏輯語義關系.英語中的關系詞大部分是非歧義的[27],因此只要識別出關系詞,基本就可以推斷出其表示的語義關系.對于有歧義的關系詞,Pitler等[28]使用詞匯和句法特征來判斷其是否為篇章關系詞,準確率可以達到96.26%,F值達94.19%,Lin等[24]在此基礎上抽取了詞性、上下文等特征來構建其關系詞分類器,最終準確率達到97.25%,F值達到95.36%.與英語相比,漢語篇章中關系詞的語法性質和詞性分布更加復雜.李艷翠等[29]指出,漢語中的關系詞不限于傳統(tǒng)連詞,還有介詞、副詞等諸多語法類型.胡金柱等[30]建立了一個復句關系詞庫,將復句中的關系詞分為3類,第1類為語義單一型典型關系詞,如“因為、所以”等,這些詞能夠固定地表示分句間的某種語義關系;第2類為語義多樣型非典型關系詞,如“就、才、也”等副詞,可以兼表幾種語義關系;第3類為語義單一型非典型關系詞,如“別管、怪不得、誰知道”等形式上處于實義短語與關系詞的共存狀態(tài).因此,漢語中關系詞消歧任務比英語更加復雜和艱巨.李艷翠等[31]利用詞的詞匯、句法、位置特征使用決策樹分類器在清華樹庫上進行是否為關系詞的識別,在不帶功能標記的詞上達到了92.1%的準確率,但該研究只識別單個關系詞,而漢語中關系詞常常是成對成組出現的.針對這一問題,楊進才等[32]使用貝葉斯模型對關系詞的特征集合進行訓練和測試,將基于統(tǒng)計過程的結果轉換為規(guī)則,在漢語復句語料庫上取得了95.4%的準確率.該研究實驗數據較小,只驗證了15組關系詞在1 000句上的準確率.總的來說,目前漢語關系詞識別效果較好,但研究多是著眼于典型關系詞,對于非典型關系詞的識別較少.

      2) 顯式語義關系判定

      在連接關系識別領域,Pitler等[28]僅使用關系詞特征,在PDTB分類體系下將篇章語義分成因果、比較、時序和擴展,取得了93.9%的準確率.Lin等[24]在特征中加入了關系詞,上下文等特征,在自動句法樹上取得了86%的準確率.漢語中由于關系詞歧義情況較為復雜,目前取得的效果較英文稍差.李艷翠等[31]在PDTB分類體系下使用最大熵分類器對連接詞語義進行分類,4分類的準確率僅有78.9%,F值也僅有69.3%.張牧宇等[33]使用極大似然估計法,利用關系詞特征進行關系分類,在因果、條件、比較關系上都取得比較好的效果,準確率均超過95%,但在并列關系上效果較差,準確率只有63.6%.以上研究都是在4大類分類上實驗,沒有將語義關系進一步細分為小類.楊進才等[34]對于只有部分分句含有關系詞的非充盈態(tài)有標復句計算分句核心詞的語義相關度,作為判斷復句語義關系的依據,準確率達到了89%,但沒給出各類別的準確率.可以看到,漢語顯式語義關系識別仍有一定的提高空間.

      3.3.2 隱式關系識別

      顯式復句關系詞可以作為判定語義關系的強力標志,而不含關系詞的隱式關系判定則給復句語義關系識別帶來巨大挑戰(zhàn),也是目前篇章關系研究領域的熱點.

      1) 基于特征的方法

      Marcu等[35]抽取論元的詞對信息,利用互聯(lián)網抽取大量詞對信息實例,并將其中的關系詞移除構建一個隱式關系語料庫,然后使用貝葉斯分類器對隱性語義關系進行識別.Pitler等[36]則將詞的情感特征、動詞類別、動詞短語長度、情態(tài)、上下文和詞匯特征等用于篇章關系識別,在PDTB 4類語義關系分類任務上,各類特征的使用對于結果的F值提升都有明顯作用.Lin等[37]使用前后論元信息、詞對信息、論元內部成分和依存句法信息作為特征,利用最大熵分類器,在PDTB第2層11類語義關系上進行識別,取得了40%的準確率,比baseline提高了14.1%.Louis等[38]嘗試將文本中的指代信息以及指代詞的句法結構和特征用于隱性語義關系的識別,效果雖較baseline有提升,但比傳統(tǒng)利用詞法特征的方法仍然相差較多.Rutherford 等[39-40]針對有些顯性關系移除關系詞后意義改變不能用于構造隱性關系的問題,通過計算關系詞的省略率來選出合格的關系詞論元對,進而擴大訓練數據集,提升了識別效果,在PDTB 4分類上準確率達到40.5%.車婷婷等[41]挖掘詞級和短語級的功能連接詞,建立功能連接詞的概念模型與篇章關系的映射體系,實現隱式篇章語義關系的推理,雖然結果取得了不錯的效果,準確率達53.84%,但是只比全部標為最大類別擴展關系的baseline準確率高0.1%,這也說明目前隱式篇章關系識別的難度.

      在漢語隱式篇章關系研究方面,張牧宇等[33]基于有指導方法的關系識別模型,利用核心動詞、極性特征、依存句法特征、句首詞匯特征等,對因果、比較、擴展、并列4類關系進行分類,結果只有擴展關系的識別效果不錯,F值達到72.3%,其他3類效果不佳,比較關系的F值最低,只有16.2%.孫靜等[42]利用上下文特征、詞匯特征、依存樹特征,采用最大熵分類法對因果、并列、轉折、解說4大類關系進行識別,總準確率為62.15%,但除了并列類效果很好之外,其他3類效果都不佳,特別是轉折類完全沒有識別出來.李國臣等[43]利用漢語框架語義網識別11種篇章語義關系,結果顯示只有屬于關系識別效果較好,準確率超過70%,其他關系效果都不盡理想,均低于40%.

      可以看到,無論是在英語還是漢語中,傳統(tǒng)基于特征的方法準確率都不高,擴展或并列類準確率較高的原因是自然語言中這類語義關系本身占比就較大,若剔除這個因素,準確率可能還要更低.想要提高性能,必須表征句子更深層的語義關系.

      2) 基于神經網絡的方法

      隨著近些年神經網絡研究的興起,學者們發(fā)現相比于傳統(tǒng)方法使用淺層特征易于丟失文本序列、結構等重要信息,使用詞嵌入(word embedding)對句子進行表示更能獲取句子深層的語義信息.在機器翻譯、閱讀理解等領域取得卓越效果之后,一些學者也開始將神經網絡用于隱式篇章關系的識別.Ji等[44]最早將神經網絡技術應用于篇章隱式關系,他們用循環(huán)神經網絡(recurrent neural network,RNN)對句子的論元及實體進行編碼,在PDTB 4類語義分類任務中將準確率提升到了43.56%.Zhang等[45]則是使用了只有一個隱藏層的淺層卷積神經網絡(SCNN)在PDTB上進行隱式關系識別,并在4個關系分類任務中的3個(因果、擴展、時序)上取得了優(yōu)于基于SVM方法的結果.Liu等[46]使用雙向長短期記憶網絡(Bi-LSTM)將隱式關系中的論元編碼,同時模仿人類重復閱讀習慣,引入了多重注意力(multi-attention)機制,對隱式篇章關系進行識別,在PDTB 4類關系的分類中準確率和F值分別為57.57%和44.95%.Li等[47]對論元、句子和段落都進行分布式語義表示并將之組合,使得最終每個論元的embedding中都含有詞語、句子和段落信息,在PDTB第1層4類分類任務上F值分別為41.91%,54.72%,71.54%,34.78%,同時在第2層分類任務上取得44.75%的準確率.另外,他們還將該模型用于賓州漢語樹庫篇章隱式關系的識別,準確率達到82.56%,與全部標記為最大類別擴展關系的baseline相比,提高了11.63%.Qin等[48]提出了一個挖掘關系特征的對抗網絡來進行隱式關系識別,在4類關系分類上取得46.23%的準確率.Geng等[49]認為句子結構信息對隱式關系的判定有十分重要的作用,因此應該將句法樹信息融入論元的語義編碼,他們在將關系論元使用Bi-LSTM編碼后,將句子的句法樹轉換成一個二叉樹,然后將子節(jié)點的信息經過轉換后計入父節(jié)點信息,最后取得了62.4%的準確率和44.2%的F值.Wang等[50]在使用句法樹信息之外,也使用了句法樹每個節(jié)點標簽的embedding,分別在第1層和第2層語義關系分類中取得了59.85%和45.21%的準確率.Dai等[51]借鑒序列化標注思想,認為句間關系要放在整個篇章中來考察,因此建立了一個篇章級神經網絡模型,對顯式關系和隱式關系訓練不同的分類器,同時在模型最后一層加入了條件隨機場(CRF)層,最終取得了4分類任務中隱式關系58.2% 的準確率和顯式關系94.46%的準確率.神經網絡的應用提高了隱式篇章關系的識別性能,但仍僅有60%左右的準確率,F值也不到50%,仍然無法滿足實際應用的需求.

      3.4 結構層次樹的生成

      目前,篇章層次樹生成的研究大多基于RST-DT展開.Soricut等[22]使用概率模型構建句級篇章結構樹,并在18類篇章關系標注上取得49.0%的F值.LeThanh等[52]分別在句子層面和篇章層面進行篇章結構樹的構建,在句子層面使用句法信息和短語信息切分EDU,以生成句子的篇章結構樹,并取得了66.2%的F值.在漢語的篇章關系構建中,張益民等[53]利用主位模式等多個語言學特征,使用向量空間模型對篇章結構進行自動分析.涂眉等[54]先使用序列化標注方法對篇章語義單元進行切分,然后使用最大熵模型對篇章結構進行推導,在清華漢語樹庫上的實驗結果為,當篇章語義結構樹高度不超過6層時,篇章語義關系標注的F值為63%.可以看到,過去對結構層次樹生成的評測主要仍是針對層次生成后的語義關系標注,對結構層次本身的正確與否并無考察.對于含有多個分句的復句或篇章來說,句子之間的層次關系直接反映了它們之間的邏輯語義關系,因此對層次結構樹本身的考察是今后研究亟待解決的關鍵問題之一.

      4 研究展望

      4.1 主要問題

      從上述國內外研究現狀可以看出,目前的復句處理研究還存在以下問題:

      1) 缺乏一個統(tǒng)一的漢語復句語義分析的理論體系.語言學界對復句關系的劃分有多種方法,缺乏一個普遍認同和遵從的標準.因此目前研究使用的復句分類體系劃分不同,有的使用兩分法,有的使用三分法,有的使用小類分法,有的將英語PDTB體系借鑒到漢語中來.無法在同一個平臺進行橫向比較,不利于漢語復句的進一步研究和建設.

      2) 缺乏針對復句的大規(guī)模語料庫.目前常見的篇章關系語料庫在語料劃分粒度上不一致,有的是復句,有的是句群,有的甚至是段落.專門針對復句的語義關系和結構層次劃分的語料庫還沒有.目前仍在建設中的CAMR語料庫雖然包含了復句間的語義關系和結構層次,但若要作為復句結構語義語料庫使用,還必須對關系詞、語義關系做更深入細致的描寫和標注.

      3) 目前國內外的研究主要著眼于篇章語義關系,專門針對復句的研究仍然較少.復句是篇章的組成單位,篇章各層級語段之間存在著高頻的復現關系,因此弄清楚復句中各分句的銜接方法和結構層次,篇章關系才能夠得到更好地解決.目前的研究中不論是語義關系的判定還是結構層次的劃分,都是在篇章層面上進行的,復句相對于篇章來說,篇幅更短,在更短的文本中尋找其語義關系,劃分其結構層次,是需要進一步探索的.

      4) 國內目前關于復句的研究多是針對二分句的,少部分是針對三分句的研究,而在自然語言中,復句中的分句數目往往更多,其結構層次的復雜程度呈指數級上升,而目前這方面的研究仍然少有涉獵.

      5) 隱式語義關系的識別仍然是個難點.雖然隱式語義關系一直是篇章關系研究的熱點,近年來神經網絡也被應用于隱式語義關系的識別,但由于該任務涉及深層語義理解,難度較大,效果一直不甚理想,目前最好的整體效果也只有40%~50%,這說明要解決這一難題,仍然需要投入更多的努力.

      4.2 未來工作

      AMR在句子語義表示方面有著得天獨厚的優(yōu)勢,同時也是下一步篇章語義表示的基礎.為了更好地對AMR中的句子進行解析,有必要對復句進行更加深入的研究.接下來我們的工作將從以下方面進行:

      1) 完善CAMR標注體系,制定更符合漢語實際的標注規(guī)范,在目前標注的基礎上,完善與復句有關的標注內容.

      2) 探索多種復句標注體系間的對應關系及轉換方法,從而實現復句語義資源的整合利用.

      3) 對于有多個逗號隔開的復句,進行論元識別和邊界切分.從而為下一步語義關系識別打下基礎.

      4) 無標記復句的語義關系本身存在模糊性,不同標注者可能對同一無標記復句標注不同的語義關系,對機器來說,這更是一個具有挑戰(zhàn)性的問題.因此,應提高標注的內在一致性、尋找方法提高機器自動識別無標記復句語義關系性能.

      5) 構建復句邏輯語義結構樹,將指代消解、缺省回補等工作與復句邏輯語義結構樹結合起來,以更好地對復句語義關系進行抽象表示.

      隨著自然語言理解中語義分析的深入,AMR復句解析在信息抽取、自動文摘、機器閱讀理解等領域有著重要的研究價值和光明的應用前景,值得不斷地研究和探索.

      猜你喜歡
      論元復句語料庫
      連動結構“VP1來VP2”的復句化及新興小句連接詞“來”的形成
      漢語復句學說的源流
      韓國語復句結構的二分說
      東疆學刊(2021年4期)2021-02-12 01:51:18
      《語料庫翻譯文體學》評介
      把課文的優(yōu)美表達存進語料庫
      成分重量和粵方言雙及物結構的論元語序
      基于論元結構和題元指派對漢語處置義“把”字句的句法語義分析
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      英語中動構式中施事論元句法隱含的認知研究
      復句內部不應當用句號
      深泽县| 靖边县| 富裕县| 武鸣县| 高要市| 内丘县| 马山县| 双柏县| 浑源县| 安乡县| 乌鲁木齐县| 高阳县| 夹江县| 石家庄市| 南漳县| 华池县| 南木林县| 南宁市| 岱山县| 昭通市| 玉龙| 湾仔区| 高邑县| 桓仁| 韩城市| 西和县| 大石桥市| 廊坊市| 宝山区| 民权县| 萍乡市| 沙洋县| 车险| 容城县| 舞钢市| 大石桥市| 阿图什市| 安岳县| 靖安县| 富阳市| 汤原县|