• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于功能連接詞的隱式篇章關(guān)系推理

      2014-04-14 07:51:28車婷婷周小佩嚴為絨姚建民朱巧明
      中文信息學報 2014年2期
      關(guān)鍵詞:論元概念模型連接詞

      車婷婷,洪 宇,周小佩,嚴為絨,姚建民,朱巧明

      (蘇州大學計算機科學與技術(shù)學院自然語言處理重點實驗室,江蘇蘇州215006)

      1 引言

      目前,語義分析已從傳統(tǒng)的詞義、句法研究及句子內(nèi)的語義角色標注,逐漸深入到語義上連貫且結(jié)構(gòu)上銜接的文本片段(包括子句、句子、段落和篇章)的語義關(guān)系研究。篇章語義關(guān)系(Discourse Rela-tion)研究旨在推斷篇章內(nèi)部相鄰文本片段,或跨度在一定范圍內(nèi)的多個片段間的邏輯關(guān)系。篇章語義關(guān)系研究不僅能夠有效輔助篇章語義的機器學習和篇章組織結(jié)構(gòu)的自動劃分,而且在自然語言處理領(lǐng)域有廣泛的應(yīng)用價值:如篇章因果關(guān)系可應(yīng)用于自動問答系統(tǒng)、事件關(guān)系抽取和檢測[1-2]等;擴展關(guān)系可應(yīng)用于自動文摘生成、篇章關(guān)鍵詞識別[3]等;對比關(guān)系可應(yīng)用于情感分析研究,輔助實現(xiàn)句內(nèi)的情感極性判斷[4]等。

      根據(jù)論元(即論述特定語義的文字片段)間是否存在顯式連接詞,篇章關(guān)系分為顯式和隱式篇章關(guān)系(Explicit &Implicit Discourse Relation)。前者可借助顯式連接詞(如“因為”)及其關(guān)系映射(如“因為”映射為“因果關(guān)系”)進行直接的關(guān)系檢測;后者需根據(jù)上下文內(nèi)容或語義特征,進行間接的關(guān)系推理。如(1)中的顯式關(guān)系可借助連接詞“but”直接判定為“對比”關(guān)系;而(2)本身不具備連接詞“because”,僅能通過上下文推測為“因果關(guān)系”。(注:兩例分別抽選自賓州篇章樹庫PDTB的顯式和隱式關(guān)系樣本集)

      (1)Arg1①賓州樹庫(PTB)是對WSJ語料進行句法結(jié)構(gòu)標注的公認語料資源http://www.cis.upenn.edu/~treebank/:She can stay there with no heat

      譯文:她能夠待在不熱的地方

      Arg2:but for a parakeet that can be deadly.

      譯文:但對長尾鸚鵡來說,這可能是致命的

      ——Explicit Discourse Relation:

      Comparison(顯式篇章關(guān)系:比較關(guān)系)

      (2)Agr1:The administration's concerns are understandable

      譯文:政府的擔心是可以理解的

      Arg2:[Implicit="because"]the economy is showing signs of weakness.

      譯文:[隱式=“因為”]經(jīng)濟正呈現(xiàn)疲軟現(xiàn)象

      ——Implicit Discourse Relation:

      Contingency(隱式篇章關(guān)系:因果關(guān)系)

      PDTB(Penn Discourse TreeBank)語料已針對大量“論元對”(Arg1-Arg2),標注了由顯式連接詞表征的跨論元顯式篇章關(guān)系如(1)所示,以及包含潛在連接詞的跨論元隱式篇章關(guān)系如(2)所示,其中的“because”是由標注者結(jié)合具體語義適當添加的。目前,對于顯式篇章關(guān)系的研究,精確率已達93.09%[5]。顯式關(guān)系實例因自身包含連接詞,能避免篇章理解歧義;而隱式關(guān)系實例欠缺顯式連接詞等直接線索,須通過上下文、句法、語義信息等自然語言理解的方式進行判斷。而上下文信息的不確定性、句子結(jié)構(gòu)的復雜性、語義關(guān)系的歧義性以及數(shù)據(jù)稀疏問題,往往誤導關(guān)系推理。針對PDTB隱式關(guān)系檢測的最新研究[6],第一層關(guān)系的分類精度僅能達到40.0%。

      針對隱式篇章關(guān)系推理難點,本文經(jīng)驗性發(fā)現(xiàn):篇章中除顯式連接詞能夠直接反映語義關(guān)系外,還存在一種潛在反映篇章關(guān)系的功能性連接詞(Functional Connective,簡稱FC)。其與隱式論元對往往構(gòu)成緊密的語義關(guān)系和依存結(jié)構(gòu),有助于隱式關(guān)系推理。如(3)中的功能連接詞“provoke”非顯式連接詞,但其潛在地觸發(fā)了隱式論元對間的因果關(guān)系。

      (3)Arg1:A buildup in inventories can

      Arg2:provoke cutbacks in production that can lead to a recession.

      (譯文:庫存的增加可能引發(fā)能夠?qū)е陆?jīng)濟不景氣的生產(chǎn)的縮減。)

      (PDTB 2.0_Contingency)

      根據(jù)功能連接詞的這一優(yōu)勢,本文提出一種基于功能連接詞的隱式篇章關(guān)系推理方法。基本思想包括:針對特定篇章關(guān)系類別的功能連接詞(人工收集183項并劃分篇章關(guān)系類別),利用大規(guī)模語言學資源,挖掘包含這類功能連接詞的“論元對”集合,并對這一集合構(gòu)建概念模型A,形成“概念—關(guān)系”映射體系;篇章關(guān)系推理過程中,對給定的待測論元對構(gòu)建概念模型B,并利用統(tǒng)計策略得到與其相似度匹配最高的概念模型A,及其在上述映射體系中對應(yīng)的篇章關(guān)系,實現(xiàn)待測論元對篇章關(guān)系的推理。這一過程中,本文利用功能連接詞的特性構(gòu)建概念模型A,用以解決待測論元對概念模型B的稀疏性,完善了推理機制。

      本文構(gòu)建的概念模型,用于描述“同類論元對”或待測論元對的語義特征(注:“同類論元對”即包含一致功能連接詞的論元對)。概念模型可細分為實體/行為/狀態(tài)概念子模型,它們分別為論元對三種屬性特征的抽象描述,表征了論元對的語義特征集合及概率分布。

      本文組織結(jié)構(gòu)如下:第2節(jié)簡介隱式篇章關(guān)系識別的任務(wù)定義;第3節(jié)回顧相關(guān)工作;第4節(jié)給出基于功能連接詞推理隱式關(guān)系的主體框架;第5節(jié)詳細介紹功能連接詞的挖掘與分類、概念模型的構(gòu)建方法、面向“概念—關(guān)系”映射的模型匹配方法;第5節(jié)給出實驗結(jié)果并進行分析;第7節(jié)進行總結(jié)與展望。

      2 任務(wù)定義

      Wang和Su等[6]定義了篇章關(guān)系識別的核心任務(wù),即自動檢測同一篇章內(nèi),相鄰片段(也稱論元對)之間的語義關(guān)系。隱式篇章關(guān)系檢測是在沒有顯式連接詞作為推理線索的情況下,對篇章關(guān)系予以判定。

      PDTB建立了篇章語義關(guān)系體系[7],通用于顯式和隱式篇章關(guān)系檢測,該體系分為三個層級:第一層包含四種主要的關(guān)系類別,即比較關(guān)系(Comparison)、偶然性關(guān)系(Contingency)、擴展關(guān)系(Expansion)以及時序關(guān)系(Temporal);第二、三層分別在上一層關(guān)系的基礎(chǔ)上進一步細分。由此,篇章關(guān)系(包括顯式和隱式)檢測系統(tǒng)的標準輸出,即為反映特定論元對篇章語義關(guān)系類別的標簽(如因果關(guān)系)。本文主要針對PDTB v2關(guān)系體系中第一層的四種隱式篇章關(guān)系進行推理分類。

      3 相關(guān)工作

      自PDTB和RSTDT語料[8]發(fā)布以來,篇章語義分析和篇章結(jié)構(gòu)分析的研究獲得了更深層次的發(fā)展。目前篇章語義關(guān)系識別的研究側(cè)重采用全監(jiān)督或半監(jiān)督學習的方法,研究重點在于使用各種語言學特征,實現(xiàn)篇章關(guān)系判定和分類。

      Marcu和Echihabi[9]使用詞對共現(xiàn)特征檢測文本片段間隱式篇章關(guān)系的存在。Saito和Yamamoto等[10]在此基礎(chǔ)上聯(lián)合使用短語特征,提升了日文隱式關(guān)系檢測的性能。Wellner等在GraphBank[11]上通過實驗證明,顯式連接詞與論元間的距離特征,對顯式關(guān)系的整體分析有重要作用,然而在隱式關(guān)系檢測中無法獲得較優(yōu)性能,主要原因是顯隱式關(guān)系本身的差異性(隱式論元間不包含顯式連接詞等)。Pitler和Louis等[12]首次單獨針對PDTB中隱式關(guān)系進行分類,使用情感詞極性、動詞短語長度、句子首尾單詞對以及上下文等語言特征,最終分類結(jié)果優(yōu)于隨機分類的性能。

      Soricut和Marcu[13]基于RSTDT語料,鑒別了不同特征對篇章關(guān)系識別的作用,主要驗證了單純的句法特征并不適用于句間的隱式關(guān)系識別。Wang和Su[6]基于卷積樹核函數(shù)提取論元的句法結(jié)構(gòu)特征,第一層隱式關(guān)系分類精確率只達到40.0%。Lin和Ng等[14]基于全監(jiān)督學習的分類框架,使用句法結(jié)構(gòu)特征、論元的嵌套關(guān)系及成分依存特征(從論元對依存樹中抽取常用詞匯)等,第二層隱式關(guān)系分類精確率達到40.2%。

      Zhou等[15]借助預測顯式連接詞來判斷隱式篇章關(guān)系,主要通過統(tǒng)計語言模型推測適用于當前隱式論元間的連接詞,再將預測的連接詞作為附加特征用于分類,篇章關(guān)系的四元分類精確率達到41.35%,而關(guān)系的二元分類(即針對四種篇章關(guān)系中的某一種,判斷待測論元對是否屬于這種關(guān)系)精確率僅在偶然性和時序關(guān)系上有所提升(分別為70.79%和70.51%),但對擴展和比較關(guān)系的分類性能仍然偏低,說明通過預測顯示連接詞推理隱式關(guān)系的缺陷。這也是本文選擇使用功能連接詞,而非顯式連接詞的原因之一。

      4 隱式篇章關(guān)系推理框架

      本文探究基于功能連接詞,構(gòu)建論元對概念模型,實現(xiàn)隱式篇章關(guān)系推理。推理的主體架構(gòu)主要包括三個方面:基于功能連接詞的論元對歸類、概念模型的構(gòu)建與內(nèi)部聚類和基于“概念—關(guān)系”映射體系的隱式篇章關(guān)系推理。下面分別予以概述。

      4.1 基于功能連接詞的論元對歸類

      本文中對隱式論元對的歸類,以及后續(xù)“概念—關(guān)系”映射體系的構(gòu)建都需要借助功能連接詞。較以往使用PDTB顯式連接詞的研究不同,本文選擇功能連接詞源于如下因素:

      · 相較于功能連接詞,顯式連接詞多為語義不明確的虛詞(歧義大)且分布極不均衡,對論元歸類和映射體系的構(gòu)建往往產(chǎn)生誤導。如顯示連接詞“since”同時具有“自從”和“因為”的含義,篇章關(guān)系分類需針對性消歧;而“and”在論元間的分布概率達0.57(統(tǒng)計自PDTB v2),且很多并不映射為擴展關(guān)系,僅表征語氣停頓或一致性等。如(4)的篇章關(guān)系非“and”表征的擴展關(guān)系,而是功能連接詞“unlike”表征的比較關(guān)系。

      (4)The Cool Athlon is fully supported by AMD,and unlike an ordinary PC.

      (譯文:Cool Athlon電腦全部使用AMD的處理器,這與一般的家用電腦不同)

      (顯式連接詞:and-擴展關(guān)系;功能連接詞:unlike-比較關(guān)系)

      · 多為虛詞的顯式連接詞全局分布極為廣泛,使得借助它的論元對歸類被極大泛化,無法構(gòu)建區(qū)分不同篇章關(guān)系的論元對概念模型。如廣泛分布的“and”在構(gòu)建其關(guān)聯(lián)的論元對概念模型時,將引入大量不同類別的論元對,形成的概念描述不具有顯著的語義針對性,其“概念—關(guān)系”映射將導致推理過程的盲目性。

      因此,本文借助功能連接詞和其表征的篇章關(guān)系(如4.1節(jié)),從TDT4①http://projects.ldc.upenn.edu/TDT4/中挖掘包含它們的論元對(通過句法依存弧識別Arg1和Arg2)并歸為同類論元對(歸類原因為關(guān)聯(lián)相同功能連接詞的論元對,內(nèi)部牽涉到相似的組件知識),并形成論元對與篇章關(guān)系的一一映射。其中每個功能連接詞對應(yīng)一類論元對,不按四類篇章關(guān)系進行合并。原因是盡管篇章關(guān)系類別相同,但不同的功能連接詞在連接論元時,往往并不具有絕對一致的適用性。

      4.2 概念模型定義

      通過抽取功能連接詞論元對中與功能連接詞有直接依存關(guān)系,或待測論元對中依存關(guān)系指向較多的三類詞集合(依據(jù)詞性劃分實體、行為和狀態(tài)詞),按論元的主被動關(guān)系劃分為施事詞集和受事詞集,形成施/受事實體/行為/狀態(tài)集,以此為基礎(chǔ)分別構(gòu)建施/受事概念子模型,聯(lián)合形成概念模型。在此過程中,挖掘詞集中詞特征的相關(guān)知識并構(gòu)造特征向量,并按詞集分別聚類(使用ApCluster[16]),每個類簇構(gòu)成一種概念,且根據(jù)聚類來源可標注概念的“歸屬”(例如,施事實體集的類簇歸屬于施事實體子概念)。

      其中,概念模型(包括A和B兩種)可理解為:由施/受事概念子模型構(gòu)成的,具有不同“歸屬”標簽的概念的集合。例如,由“猴”與“猩猩”等詞特征形成的類簇,表征了一種“靈長類動物”的概念,歸屬標簽為施/受事實體子概念;由“毆打”和“射擊”等詞特征形成的類簇,表征了一種“襲擊類事件”的概念,歸屬標簽為施/受事行為子概念。

      4.3 隱式篇章關(guān)系推理

      通過獲得與待測論元對概念模型B,映射的功能連接詞論元對概念模型A,及模型A關(guān)聯(lián)的功能連接詞所對應(yīng)的篇章關(guān)系,以功能連接詞為媒介,可形成“概念—關(guān)系”映射體系,通過統(tǒng)計經(jīng)該映射體系輸出的最大可能篇章關(guān)系,達到推理目的。

      5 推理方法詳述

      本節(jié)針對基于功能連接詞進行隱式篇章關(guān)系推理的方法,分別介紹功能連接詞的挖掘與歸類、面向論元對概念模型的構(gòu)建方法和面向“概念—關(guān)系”映射的模型匹配方法。

      5.1 功能連接詞挖掘與分類

      對于論元間不包含顯式連接詞的隱式篇章關(guān)系,可通過具有篇章語義連接功能的其他特定詞語表現(xiàn),本文稱這類詞語為功能連接詞。功能連接詞是使論元形成特殊語義關(guān)系的重要連接機制,對隱式關(guān)系的判定、語義分析與推理具有重要作用??山柚δ苓B接詞的語法、語義及依存連接特性,充分挖掘論元間潛在的邏輯關(guān)系特征。本文針對PDTB第一層四類篇章關(guān)系,分別獲取了相應(yīng)的功能連接詞(主要為詞級與短語級),其對四類隱式篇章關(guān)系的表征效果明顯。

      續(xù)表

      表1列舉了四類篇章關(guān)系的功能連接詞實例,可以發(fā)現(xiàn)對于不包含顯式連接詞的論元,由于其間功能連接詞(如“result in”)的存在,可以輔助推理隱式篇章關(guān)系。本文通過獲取與表1中“result in”、“barring”、“compared with”及“a day after”類似的功能連接詞,從隱式論元本身出發(fā),根據(jù)隱式論元的內(nèi)部聯(lián)系屬性,構(gòu)建論元概念模型。

      表2 功能連接詞舉例(未全部列舉)

      本文共收集功能連接詞183項(表2)。其中,表征偶然性關(guān)系的49項,擴展關(guān)系的84項,比較關(guān)系的23項,時序關(guān)系的27項。每類功能連接詞按詞性和作用的不同又可細分成小類。四大類功能連接詞的收集存在不平衡性,符合自然語言資源中篇章關(guān)系分布本身的不平衡性(表3列舉了PDTB中篇章關(guān)系的分布情況)。

      表3 PDTB語料中顯式/隱式篇章關(guān)系類別分布

      5.2 概念模型的構(gòu)建

      本文通過對具有不同“歸屬”標簽的概念的處理,構(gòu)建概念模型。模型中的每種概念都是其對應(yīng)特征向量集的聚類類簇,每種概念的形成過程及后續(xù)的概念匹配過程,皆需構(gòu)建特征向量集。即針對表征某類概念的論元進行特征抽取和屬性描述。下面分別予以介紹。

      ·特征抽取

      特征抽取是結(jié)合語言學信息獲得論元的關(guān)鍵詞及其屬性。本文構(gòu)建概念模型需針對論元對(功能連接詞論元對和待測論元對)進行特征抽取,步驟如表4所示。

      表4 特征抽取基本步驟

      其中,對功能連接詞論元對特征抽取使用約束條件的理由為:這類詞特征往往與功能連接詞存在直接的語義依存,且作為句法主干元素,能夠刻畫論元的核心含義,有效反映論元間的語義關(guān)系。按照語義角色,這類詞特征具備“施事”和“受事”以及依據(jù)詞性劃分的“實體”、“行為”和“狀態(tài)”標簽,有助于分類表述論元概念(輔助細粒度的子概念劃分),提升概念模型的匹配準確率和基于概念實現(xiàn)關(guān)系推理的精度。

      ·屬性描述

      由于本文論元多為句子級別,篇章長度短,包含的語言學信息不夠充分,對經(jīng)上述步驟抽取的特征詞,需要構(gòu)建其屬性向量予以描述,借以擴充特征詞的相關(guān)屬性知識。本文共選取9種屬性為每個特征詞構(gòu)建屬性向量,分別為特征詞本身(Oriword)、詞性(POS)、位置(PL)、DF值(DF)、與特征詞具有單論元(SingleDep)和跨論元(CrossDep)正/反向依存的非停用詞集以及特征詞在WordNet[18]中的同義詞(Syn)、上位詞(Hype)和下位詞(Hypo)。對于第i個功能連接詞關(guān)聯(lián)的論元對(或待測隱式論元對),其特征詞Oriword的屬性向量KeyWordi表述如下:

      KeyWordi={Oriword,POS,PL,DF,SingleDep,CrossDep,Syn,Hype,Hypo}

      POS特征用來劃分該屬性向量屬于實體、行為還是狀態(tài)類;PL表示特征詞在論元中的絕對位置,Pitler[12]研究證明特殊位置的單詞(一般為首尾三個詞)具有較強的語義連接功能;DF表示特征詞出現(xiàn)在不同類論元對(關(guān)聯(lián)的功能連接詞不同)中的頻率,DF小的特征詞具有更好的論元對類別區(qū)分能力;SingleDep表示與特征詞在同一論元中且有依存關(guān)系的非停用詞集(如圖1中,特征詞“buildup”的SingleDep={inventories});CrossDep表示與特征詞在不同論元中且有依存關(guān)系的非停用詞集。

      圖1 與功能連接詞“provoke”關(guān)聯(lián)的論元對的特征抽取

      ·模型構(gòu)建

      本文構(gòu)建的概念模型分為:功能連接詞論元對概念模型A和待測隱式論元對概念模型B,兩種概念模型通過相似度匹配形成映射關(guān)系,如圖2所示。

      圖2 概念模型的構(gòu)建

      每種概念模型都由施事和受事概念子模型構(gòu)成,每種概念子模型中的詞特征都按上述“特征抽取”和“屬性描述”方法,構(gòu)造特征向量,按詞特征“歸屬”的詞集類別分別聚類形成概念。施/受事概念子模型正是以此形成的概念的集合。以這種層層細化的方式構(gòu)造的概念模型,能較系統(tǒng)而全面的描述論元對的語義特征。

      5.3 概念模型相似度匹配方法

      本文方法框架中重要的一環(huán)是將概念模型B映射至概念模型A的映射體系構(gòu)建。兩種概念模型的映射涉及到兩者的相似度匹配問題,其整體相似度度量方法如式(1)所示。

      其中,AgentSim和ObjectSim的含義如圖2所示,分別表示施事概念子模型間的相似度和受事概念子模型間的相似度,它們分別是三對概念子模型(施/受事實體概念子模型、施/受事行為概念子模型和施/受事狀態(tài)概念子模型)的相似度之和。公式中分母起歸一化作用。

      ·特征向量相似度

      針對AgentSim和ObjectSim計算過程中提到的三對概念子模型的相似度計算,現(xiàn)以施事實體概念子模型為例,每個概念子模型都由幾個類簇構(gòu)成,每個類簇中的元素都是能表征這一類簇屬性的向量(如KeyWordi)。因此一對施事實體概念子模型的相似度,是兩組類簇的相似度,即最終細化為類簇中元素的相似度,度量方法如式(2)所示。

      其中,X和Y分別表示需進行相似度計算的兩組類簇中的元素(如KeyWordi和KeyWordj),它們的相似度為9維特征的相似度權(quán)重之和。因每維特征既有數(shù)值形式也有詞集合形式,不能直接使用空間向量模型VSM計算。式(2)的第一項為詞特征本身(Oriword)和詞性特征(POS)的相似度權(quán)重之和(N1=2);當X和Y的詞本身(或詞性)特征相同時,OPXY(i)取1,否則為0。式(2)的第二項為位置(PL)和DF值(DF)特征的相似度權(quán)重之和(N2=2);計算方法如式(3)~(4)所示。

      式(3)中,當j=1時,F(xiàn)j(X)和Fj(Y)為X和Y中的位置特征值;Sj(X)和Sj(Y)為構(gòu)造X和Y的論元長度,經(jīng)歸一化后得到X和Y的位置特征的相似度權(quán)重。當j=2時,F(xiàn)j(X)和Fj(Y)為X和Y中的DF值(計算如式(4),n為包含特征詞的論元類別數(shù),N為論元的類別總數(shù));Sj(X)和Sj(Y)為各自的n值,經(jīng)歸一化后得到X和Y的DF值的相似度權(quán)重。

      式(2)的第三項為單/跨句依存(SingleDep/CrossDep)、同義詞(Syn)和上/下位詞(Hype/Hypo)特征的相似度權(quán)重之和(N3=5),其能有效衡量特征向量間的依存相似度(依存詞集交叉詞)和背景詞匯相似度(同義/上/下位詞集交叉詞)。計算方法如式(5)所示。

      式(5)中Sk(X)和Sk(Y)表示X和Y中各自特征詞的單句依存詞集、跨句依存詞集、同義詞集、上位詞集和下位詞集(根據(jù)k值),G(Sk(X),Sk(Y))表示X和Y對應(yīng)的特征詞集的詞共現(xiàn)數(shù)(詞集交叉詞的個數(shù));Max(Nk(X),Nk(Y))表示X和Y各自特征詞集的最大長度。

      ·概念子模型相似度

      同樣以兩種概念模型中的施事實體概念子模型(由多個類簇構(gòu)成)間的相似度計算為例,以特征向量的相似度計算為基礎(chǔ),子模型間的相似度計算即兩組類簇間的相似度計算,本文采用三種相似度匹配方法CentSim,AvgSim和TopNSim(表5)進行對比實驗。

      表5 三種相似度匹配方法

      其中,相似度匹配需按照概念的歸屬進行分類匹配。例如,兩種論元對對應(yīng)的施事實體子概念進行匹配,而不能與另一論元對的受事實體子概念或施事行為子概念等匹配。通過統(tǒng)計最優(yōu)匹配的概念模型A所映射的篇章關(guān)系(“概念—關(guān)系”),推理待測論元對的篇章關(guān)系。

      6 實驗結(jié)果與分析

      本節(jié)給出基于功能連接詞推理隱式篇章關(guān)系方法的實驗結(jié)果和評價標準,并通過對比前人利用樹核函數(shù)和統(tǒng)計語言模型推理的效果,進一步分析本文方法的特點及優(yōu)越性。

      6.1 實驗數(shù)據(jù)評價標準

      本文針對PDTB第一層四種隱式篇章關(guān)系進行推理識別,采用非監(jiān)督方法,選擇PDTB中21~ 22章作為測試集。本文對于包含兩種或兩種以上篇章關(guān)系的測試句對,選擇最主要的關(guān)系類別作為其正確的篇章關(guān)系。表6列出了測試集中第一層隱式篇章關(guān)系的分布。

      表6 測試集中隱式篇章關(guān)系的分布

      本文重現(xiàn)并測試了Wang等[6]基于樹核函數(shù)抽取句法結(jié)構(gòu)信息,再利用統(tǒng)計策略推理的方法。通過與該方法的對比,驗證統(tǒng)計建模的可行性。本文也實現(xiàn)了Zhou等[15]在PDTB上使用語言模型,構(gòu)造一致的論元表達模式來預測顯式連接詞的推理方法,其能與本文構(gòu)造的功能連接詞概念模型推理方法形成很好的對比。為評估推理系統(tǒng)對四種篇章關(guān)系的識別性能,本文使用的度量標準如式(6)所示,其中,PosCorrect為被正確分為正例的個數(shù),Neg-Correct為被正確分為負例的個數(shù),Sum為測試實例總數(shù)(1 042)。

      6.2 實驗結(jié)果與分析

      ·可行性驗證

      本文首次提出利用功能連接詞(FC)構(gòu)建隱式論元對概念模型,與直接表征論元語義關(guān)系的顯式連接詞不同,F(xiàn)C主要出現(xiàn)在欠缺顯式連接詞的隱式論元間,通過其語義連接和依存特征,潛在反映隱式篇章關(guān)系,這一特點有利于本文在推理隱式關(guān)系時加以利用。

      本文分析了較高頻功能連接詞在隱式和顯式篇章關(guān)系中的分布情況,以驗證使用功能連接詞作為線索詞,構(gòu)建隱式論元對概念模型的可行性。如圖3所示,功能連接詞在隱式篇章關(guān)系中的出現(xiàn)頻率較顯式更高,尤其高頻功能連接詞的這一分布差異更為顯著(圖3的小表列舉了四種篇章關(guān)系中頻率最高的功能連接詞在顯式和隱式篇章關(guān)系中的分布情況)。統(tǒng)計結(jié)果說明,功能連接詞能更好的表征論元間的隱式篇章關(guān)系。

      圖3 FC在顯式與隱式篇章關(guān)系中的分布情況(縱坐標為FC的頻率,橫坐標為表2中FC的序列號)

      然而,盡管功能連接詞更多出現(xiàn)于隱式篇章中,但只有較少的待測隱式論元對包含功能連接詞(PDTBv2中51%的論元間包含F(xiàn)C),其中真正起到論元間連接作用的功能連接詞,出現(xiàn)頻率更低(PBTBv2的22~23章中39%的論元間出現(xiàn)有連接功能的FC)。因此不能直接通過功能連接詞推理待測論元對的隱式篇章關(guān)系。本文有效的解決方法是有針對性地構(gòu)建概念模型,以功能連接詞為媒介,通過映射和統(tǒng)計的方式推理隱式篇章關(guān)系。

      ·相似度匹配方法性能對比

      本文采用三種相似度匹配方法CentSim、Avg-Sim和TopNSim(表5)構(gòu)建隱式關(guān)系推理系統(tǒng)。實驗結(jié)果對比如表7所示,使用平均相似度Avg-Sim方法,統(tǒng)計推理隱式關(guān)系的精確率最高(53.84%)。而使用聚類中心相似度CentSim方法,推理系統(tǒng)的精確率最低(50.48%)。

      表7 三種相似度匹配方法的系統(tǒng)性能對比

      造成精確率偏差的主要原因是,構(gòu)建概念模型過程中使用的特征向量,分布較為離散,經(jīng)過Ap-Cluster無指定類別聚類后,類簇的中心向量不能明顯表征該類簇中的其它特征向量。而CentSim方法不能將除中心向量外,有利于篇章推理的其他向量考慮在內(nèi)。但AvgSim方法能有效解決中心向量表征類簇效果不好的問題,提高類簇間的相似度匹配性能。

      另外,實驗發(fā)現(xiàn)TopNSim方法中,N值的變化對系統(tǒng)性能有重要影響。該方法匹配兩種概念(類簇)時,將待測類簇的中心向量與候選類簇中相似度最高的N個特征向量的相似度權(quán)重之和,作為度量兩組類簇相似性的標準。如圖4所示,當N=8時的系統(tǒng)精確率達到最大值53.35%。圖4中的柱形圖展示了達到這一精確率時,測試集(Standard)和系統(tǒng)判定(System)的四種篇章關(guān)系實例的分布情況。當N大于20時,精確率近于穩(wěn)定的原因:一是候選概念中排在較后的特征向量權(quán)重較低,累加時對結(jié)果影響較??;二是特征向量個數(shù)有限,當N值增加到足夠大時統(tǒng)計結(jié)果不再發(fā)生變化。

      圖4 TopNSim相似度匹配方法推斷隱式篇章關(guān)系性能

      ·推理系統(tǒng)性能比較

      本文將性能最高的系統(tǒng)與Wang等[6]基于樹核函數(shù)的方法(Wang_Sys),以及Zhou等[15]基于非監(jiān)督語言模型的方法(Zhou_Sys)進行對比。此外本文也使用了最大關(guān)系類(即所有實例被歸類為擴展關(guān)系)作為基準(Baseline)。表8列舉了所有系統(tǒng)的精確率,本文方法(Our_Sys)在推理隱式篇章關(guān)系任務(wù)中體現(xiàn)出明顯優(yōu)勢,識別精確率較Wang和Zhou的系統(tǒng),分別取得13.84%和12.49%的性能提升,也高于測試數(shù)據(jù)中最大類別所占比例。實驗結(jié)果證實了推理模型構(gòu)建的正確性以及整體方法的可行性。

      表8 隱式篇章關(guān)系推理各方法的性能對比

      本文系統(tǒng)的性能較Wang_Sys取得較大提高的原因是,Wang_Sys采用的是基于樹核函數(shù)抽取句法樹中結(jié)構(gòu)化信息,組合句間的時序信息及其他基本特征,進行監(jiān)督分類的方法。但由于隱式論元對的句法結(jié)構(gòu)較復雜,且僅僅依據(jù)篇章中孤立句子的結(jié)構(gòu)信息作為特征來分類顯然是不完備的。本文系統(tǒng)性能也優(yōu)于Zhou_Sys的原因是,后者通過預測顯式連接詞,將隱式論元對映射為顯式論元對來推理隱式關(guān)系,其方法僅基于小規(guī)模的顯式數(shù)據(jù)集(PDTB),且僅使用三元語法模型搜索與隱式論元一致的表達模式,嚴格限制了所構(gòu)建模式的數(shù)量與有效性,使得匹配顯式論元對的過程存在缺陷,從而導致預測出的顯式連接詞不能有效表征隱式論元對的篇章關(guān)系。相比之下,本文方法使用豐富的候選資源,從隱式論元本身出發(fā),構(gòu)建更為完善的概念模型和基于嚴格相似度度量方法的映射體系,并使用更普遍存在于隱式論元間的功能連接詞實現(xiàn)推理。盡管如此,本文工作和Zhou的方法在性能上都較優(yōu)于Wang的系統(tǒng),說明了隱式篇章關(guān)系識別中模型推理的可行性。且相對簡單的映射體系可避免機器學習方法中復雜的語言分析問題,從而減少中間步驟誤差引起的錯誤擴大化現(xiàn)象。

      然而,本文的最好性能相較于最大類別的比率仍然較低,Wang和Zhou等的工作甚至遠低于最大類別比率,這反映了隱式篇章關(guān)系識別難度依然很大,主要是因為隱式關(guān)系本身就存在主觀性和模糊性,不同的語境下相同的論元對可能形成不同的篇章關(guān)系,即使相同的語境下,論元對的語氣強度和情感差異也會導致篇章關(guān)系的不同。PDTB語料的16 051個隱式實例中,有356個實例被同時標注多種篇章關(guān)系類型;18 459個顯式實例中,也存在532個同時標注多種篇章關(guān)系類型的實例。另外,本文方法中應(yīng)用的依存分析器的精度,也會影響實驗結(jié)果。種種現(xiàn)象均表明,隱式篇章關(guān)系識別研究將是篇章分析領(lǐng)域的一項既困難同時又富有挑戰(zhàn)性的工作。

      7 總結(jié)與展望

      本文首次提出基于功能連接詞構(gòu)建論元概念模型,以無監(jiān)督的方式實現(xiàn)隱式篇章關(guān)系判別。本文利用隱式論元間具有特殊語義連接與依存關(guān)系的功能連接詞,從隱式關(guān)系論元本身出發(fā),提出了基于功能連接詞構(gòu)建論元概念模型的篇章關(guān)系推理方法。而相關(guān)工作中基于復雜語言學特征的監(jiān)督學習方法,主要是通過利用顯式篇章關(guān)系特有的屬性特征,解決隱式篇章關(guān)系的分類問題,忽視了顯式與隱式語義關(guān)系的本質(zhì)區(qū)別,且復雜的語言學分析會造成中間過程的誤差累積,影響最終的分類性能。

      另外,本文研究發(fā)現(xiàn)目前的隱式篇章關(guān)系推理仍存在幾大難點問題:1)篇章關(guān)系本身存在主觀性和模糊性,應(yīng)充分利用上下文信息輔助隱式篇章關(guān)系推理;2)修辭結(jié)構(gòu)在篇章結(jié)構(gòu)中具有重要作用,能有效輔助隱式篇章關(guān)系判別,但修辭結(jié)構(gòu)本身就是一項研究難點。

      未來工作將借助修辭和情感分析等,擴充現(xiàn)有的功能連接詞,進一步挖掘功能連接詞的語義特征,并細粒度劃分功能連接詞的關(guān)系類別,完善概念模型的構(gòu)建方法,進而輔助第一層乃至第二層隱式篇章關(guān)系的自動判定。

      [1] M Riaz,R Girju.Another look at causality:Discovering scenario-specific contingency relationships with no supervision[C]//Proceedings of the 4th ICSC,2010:361-368.

      [2] Q X Do,Y S Chan,D Roth.Minimally supervised event causality identification[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP),2011:294-303.

      [3] 王繼成,武港山.一種篇章結(jié)構(gòu)指導的中文Web文檔自動摘要方法[J].計算機研究與發(fā)展,2003,40(3):398-405.

      [4] L Zhou,B Li,W Gao,et al.Unsupervised discovery of discourse relations for eliminating intra-sentence polarity ambiguities[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP),2011:162-171.

      [5] E Pitler,M Raghupathy,H Mehta,et al.Easily identifiable discourse relations[C]//Proceedings of the 22nd International Conference on the COLING,2008:87-90.

      [6] W T Wang,J Su,C L Tan.Kernel Based Discourse Relation Recognition with Temporal Ordering Information[C]//Proceedings of the 48th Annual Meeting of the ACL,2010:710-719.

      [7] R Prasad,N Dinesh,A Lee,et al.The Penn Discourse TreeBank 2.0[C]//Proceedings of Proceedings of the 6th International Conference on LREC 2008,Morocco.

      [8] L Carlson,D Marcu,M E Okurowski.Building a discourse-tagged corpus in the framework of rhetorical structure theory[C]//Proceedings of the Second SIGDIAL2001,Denmark,2001:1-10.

      [9] D Marcu,A Echihabi.An Unsupervised Approach to Recognizing Discourse Relations[C]//Proceedings of the 40th Annual Meeting on the ACL,2002:368-375.

      [10] M Saito,K Yamamoto,S Sekine.Using Phrasal Patterns to Identify Discourse Relations[C]//Proceedings of the Human Language Technology Conference of the NAACL,2006:133-136.

      [11] F Wolf,E Gibson.Representing discourse coherence:a corpus-based analysis[C]//Proceedings of the 20th International Conference on the COLING,Morristown,NJ,USA,2005:134-140.

      [12] E Pitler,A Louis,A Nenkova.Automatic Sense Prediction for Implicit Discourse Relations in Text[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP,2009,(2):683-691.

      [13] R Soricut,D Marcu.Sentence level discourse parsing using syntactic and lexical information[C]//Proceedings of the HLT/NAACL,2003:149-156.

      [14] Z Lin,H T Ng,M Y Kan.Automatically Evaluating Text Coherence Using Discourse Relations[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies,2011,(2):997-1006.

      [15] Z M Zhou,Y Xu,Z Y Niu,et al.Predicting Discourse Connectives for Implicit Discourse Relation Recognition[C]//Proceedings of the 23rd International Conference on Computational Linguistics:Posters,2010:1507-1514.

      [16] http://www.bioinf.jku.at/software/apcluster/[DB/OL].

      [17] http://nlp.stanford.edu/software/lex-parser.shtml[DB/OL].

      [18] E Pitler,A Nenkova.Revisiting readability:A unified framework for predicting text quality[C]//Proceedings of the Conference on the EMNLP,2008:186-195.

      猜你喜歡
      論元概念模型連接詞
      連動結(jié)構(gòu)“VP1來VP2”的復句化及新興小句連接詞“來”的形成
      基于“認知提升”的體系作戰(zhàn)指揮概念模型及裝備發(fā)展需求
      成分重量和粵方言雙及物結(jié)構(gòu)的論元語序
      基于論元結(jié)構(gòu)和題元指派對漢語處置義“把”字句的句法語義分析
      英語中動構(gòu)式中施事論元句法隱含的認知研究
      數(shù)字礦山信息集成概念模型
      金屬礦山(2014年7期)2014-03-20 14:19:57
      基于PSR概念模型的土地利用系統(tǒng)健康評價
      配位方式支配模式論元結(jié)構(gòu)
      外語學刊(2011年1期)2011-01-22 03:38:32
      英語連接詞:傳統(tǒng)與反思
      外語學刊(2010年4期)2010-01-22 03:33:52
      英語連接詞的顯功能初探
      外語學刊(2010年4期)2010-01-22 03:33:50
      乌审旗| 宜都市| 海阳市| 建水县| 阿尔山市| 青龙| 满城县| 永泰县| 巴彦县| 武汉市| 浮山县| 尚志市| 秦皇岛市| 辉县市| 阿尔山市| 聂拉木县| 类乌齐县| 婺源县| 大宁县| 夏河县| 株洲市| 玉山县| 蓝田县| 东丽区| 罗江县| 康保县| 新丰县| 朔州市| 同江市| 丹寨县| 阿城市| 合阳县| 溆浦县| 桐乡市| 通州区| 报价| 北京市| 宜都市| 宁强县| 油尖旺区| 山东|