• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于框架的漢語(yǔ)篇章結(jié)構(gòu)生成和篇章關(guān)系識(shí)別

      2015-06-09 23:45:58呂國(guó)英王智強(qiáng)柴清華
      中文信息學(xué)報(bào) 2015年6期
      關(guān)鍵詞:語(yǔ)料庫(kù)短語(yǔ)語(yǔ)義

      呂國(guó)英,蘇 娜,李 茹,2,王智強(qiáng),柴清華

      (1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;3. 山西大學(xué) 外國(guó)語(yǔ)學(xué)院,山西 太原 030006)

      ?

      基于框架的漢語(yǔ)篇章結(jié)構(gòu)生成和篇章關(guān)系識(shí)別

      呂國(guó)英1,蘇 娜1,李 茹1,2,王智強(qiáng)1,柴清華3

      (1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;3. 山西大學(xué) 外國(guó)語(yǔ)學(xué)院,山西 太原 030006)

      針對(duì)漢語(yǔ)篇章分析的三個(gè)任務(wù): 篇章單元切割、篇章結(jié)構(gòu)生成和篇章關(guān)系識(shí)別,該文提出引入框架語(yǔ)義進(jìn)行分析研究。首先基于框架構(gòu)建了漢語(yǔ)篇章連貫性描述體系以及相應(yīng)語(yǔ)料庫(kù);然后抽取句首、依存句法、短語(yǔ)結(jié)構(gòu)、目標(biāo)詞、框架等特征,分別訓(xùn)練基于最大熵的篇章單元間有無(wú)關(guān)系分類器和篇章關(guān)系分類器;最后采用貪婪算法自下向上生成篇章結(jié)構(gòu)樹(shù)。實(shí)驗(yàn)證明,框架語(yǔ)義可以有效切割篇章單元,并且框架特征可以有效提升篇章結(jié)構(gòu)以及篇章關(guān)系的識(shí)別效果。

      篇章單元;篇章結(jié)構(gòu);篇章關(guān)系;貪婪算法

      1 引言

      篇章分析是自然語(yǔ)言處理領(lǐng)域的一項(xiàng)重要任務(wù),它[1]是指對(duì)篇章結(jié)構(gòu)以及結(jié)構(gòu)中篇章單元之間的語(yǔ)義關(guān)系進(jìn)行分析。篇章由一個(gè)以上的語(yǔ)段或句子構(gòu)成,例如,給定一個(gè)由一個(gè)句子“中國(guó)夢(mèng)只有被世人理解和接受,才能加快實(shí)現(xiàn)進(jìn)程?!睒?gòu)成的簡(jiǎn)單篇章,通過(guò)篇章分析后,得到如圖1所示的篇章關(guān)系結(jié)構(gòu)樹(shù)。在結(jié)構(gòu)樹(shù)中,“中國(guó)夢(mèng)只有被世人理解和接受”和“才能加快實(shí)現(xiàn)進(jìn)程”兩個(gè)篇章單元在條件關(guān)系基礎(chǔ)上構(gòu)成了一個(gè)只有一個(gè)層次的篇章結(jié)構(gòu)樹(shù)。該項(xiàng)研究對(duì)自然語(yǔ)言處理的許多領(lǐng)域起到了很大的作用,如問(wèn)答系統(tǒng)[2]、文本連貫性[3]等。

      圖1 簡(jiǎn)單篇章分析示例

      目前,針對(duì)篇章分析的研究主要面向英語(yǔ),其中一個(gè)原因就是英文的相關(guān)理論體系和語(yǔ)料庫(kù)比較完善。Mann和Thompson提出的修辭結(jié)構(gòu)理論(Rhetorical Structure Theory,RST)[1,4]認(rèn)為所有好的篇章都是在篇章關(guān)系基礎(chǔ)上形成的篇章層次化結(jié)構(gòu)。基于RST的篇章分析器自動(dòng)構(gòu)建過(guò)程主要有兩個(gè)子任務(wù): (1)切割基本篇章單元; (2)根據(jù)RST確定篇章單元之間的語(yǔ)義關(guān)系,生成有層次的篇章結(jié)構(gòu)樹(shù)。目前,已有許多研究者針對(duì)這兩個(gè)任務(wù)在修辭結(jié)構(gòu)理論篇章樹(shù)庫(kù)(Rhetorical Structure Theory - Discourse TreeBank,RST-DT)[5]上展開(kāi)了研究和實(shí)驗(yàn)。在基本篇章單元分割任務(wù)上,Hernault[6]等人將該任務(wù)看作序列化標(biāo)注問(wèn)題,使用詞匯、句法等平面特征訓(xùn)練CRF模型,已取得了94%的F值。在篇章結(jié)構(gòu)生成任務(wù)上,Wei Feng[7]等人提出使用雙線性鏈條件隨機(jī)場(chǎng)模型和貪婪策略進(jìn)行篇章分析的方法,得到了58.2%的正確率。

      賓州篇章樹(shù)庫(kù)(Penn Discourse Treebank,PDTB)[8]主要標(biāo)注與英語(yǔ)篇章連接詞相關(guān)的篇章關(guān)系。基于PDTB的篇章分析器自動(dòng)構(gòu)建過(guò)程主要有三個(gè)子任務(wù): (1)判定篇章中的連接詞是否充當(dāng)連接詞;(2)識(shí)別存在篇章關(guān)系的兩個(gè)論元(arg1,arg2);(3)篇章關(guān)系識(shí)別,在PDTB中,篇章關(guān)系細(xì)分為隱式關(guān)系(Implicit)、顯式關(guān)系(Explicit)、替代關(guān)系(AltLex)、實(shí)體關(guān)系(EntRel)、無(wú)關(guān)系(NoRel)五類。篇章關(guān)系識(shí)別方面,由于顯式篇章關(guān)系具有篇章連接詞,易于識(shí)別,Pilter[9]等人僅僅利用連接詞的統(tǒng)計(jì)特征已取得了93.09%的顯式篇章關(guān)系識(shí)別準(zhǔn)確率。Ziheng Lin[10]等針對(duì)PDTB的第二層語(yǔ)義進(jìn)行識(shí)別,提出了短語(yǔ)結(jié)構(gòu)樹(shù)、依存句法樹(shù)、上下文、詞對(duì)等有效特征,取得了40.2%的隱式篇章關(guān)系識(shí)別準(zhǔn)確率。

      在漢語(yǔ)方面,孫靜[11]等人在自建的漢語(yǔ)語(yǔ)料庫(kù)(Chinese Discourse Treebank,CNDB)上進(jìn)行了相關(guān)實(shí)驗(yàn)。張牧宇[12-13]等人在從OntoNotes4.0中隨機(jī)篩選出1 096篇文本構(gòu)成的語(yǔ)料庫(kù)上進(jìn)行了相關(guān)研究與實(shí)驗(yàn)。涂眉[14]等人在標(biāo)有復(fù)句邏輯語(yǔ)義關(guān)系的清華漢語(yǔ)樹(shù)庫(kù)上,提出了基于最大熵的漢語(yǔ)篇章結(jié)構(gòu)分析方法。但是,相對(duì)于英語(yǔ)篇章分析的快速發(fā)展,漢語(yǔ)的研究還很少,其中的主要原因是相關(guān)的理論體系與漢語(yǔ)篇章語(yǔ)料庫(kù)還不夠完善,且漢語(yǔ)在構(gòu)建篇章上與英語(yǔ)有較大差異,使得英語(yǔ)的標(biāo)注體系和分析方法不能完全應(yīng)用到漢語(yǔ)上。因此,本文嘗試將框架語(yǔ)義學(xué)與漢語(yǔ)篇章分析相結(jié)合,構(gòu)建了相應(yīng)的理論體系以及篇章框架語(yǔ)料庫(kù)。

      雖然面向篇章分析的理論以及語(yǔ)料庫(kù)不盡相同,但從他們的實(shí)驗(yàn)中,可以看出句首、短語(yǔ)結(jié)構(gòu)、依存句法等一些篇章淺層特征對(duì)篇章分析具有很大的作用。然而,篇章分析是一項(xiàng)艱巨的任務(wù),僅依靠這些淺層特征還不能有效完成篇章分析任務(wù)。Ziheng Lin[10]等人曾指出識(shí)別篇章關(guān)系的難點(diǎn)在于歧義性、推理、上下文、世界面,篇章分析只有在分析了篇章上下文知識(shí)、理解了有聯(lián)系的篇章單元的語(yǔ)義、對(duì)篇章單元間的語(yǔ)義進(jìn)行合理推理等的基礎(chǔ)上,才能分析出篇章單元之間的語(yǔ)義關(guān)系以及篇章的結(jié)構(gòu)。Fillmore[15]的框架語(yǔ)義學(xué)是對(duì)世界知識(shí)和語(yǔ)言知識(shí)之間關(guān)系的描寫(xiě),用框架對(duì)篇章進(jìn)行分析,既可以在一定程度上模擬篇章的語(yǔ)義內(nèi)容,使其具有可計(jì)算性,而且為篇章連貫提供了新的描寫(xiě)機(jī)制,從而有效改善篇章分析的性能?;诖?,本文在框架語(yǔ)義基礎(chǔ)上構(gòu)建了篇章連貫性描述體系以及相應(yīng)語(yǔ)料庫(kù),并展開(kāi)了初步的句子級(jí)實(shí)驗(yàn),驗(yàn)證了框架在漢語(yǔ)篇章單元切割、句子級(jí)篇章結(jié)構(gòu)生成以及篇章關(guān)系識(shí)別上的作用,為進(jìn)一步研究框架在篇章分析技術(shù)方面的作用奠定了基礎(chǔ)。本文的具體組織結(jié)構(gòu)如下: 第2節(jié)介紹漢語(yǔ)篇章框架語(yǔ)料庫(kù);第3節(jié)構(gòu)建篇章分析器;第4節(jié)是實(shí)驗(yàn)設(shè)置與結(jié)果分析;第5節(jié)為結(jié)語(yǔ)。

      2 漢語(yǔ)篇章框架語(yǔ)料庫(kù)介紹

      本文利用山西大學(xué)在Fillmore[15]提出的框架語(yǔ)義學(xué)理論基礎(chǔ)上構(gòu)建的漢語(yǔ)框架網(wǎng)(Chinese Framenet,簡(jiǎn)稱CFN)[16-17],建立了方便計(jì)算機(jī)實(shí)現(xiàn)的篇章框架連貫性描述體系。本體系將篇章看作是由裹挾在語(yǔ)言符號(hào)中的框架構(gòu)成的框架集合,即框架可以構(gòu)成篇章單元,并且這些框架依據(jù)篇章關(guān)系自底向上組合形成一棵意義上連續(xù)的語(yǔ)義結(jié)構(gòu)樹(shù),框架之間的篇章關(guān)系通過(guò)顯式或隱式的連接詞語(yǔ)連接起來(lái)。

      2.1 框架

      該體系認(rèn)為篇章是由裹挾在句子等表層語(yǔ)言符號(hào)中的框架構(gòu)成的框架集合。CFN中的框架提供了漢語(yǔ)詞語(yǔ)在語(yǔ)言中使用的背景和動(dòng)因,是人類在理解語(yǔ)言時(shí),儲(chǔ)存在人類認(rèn)知經(jīng)驗(yàn)中的圖式化場(chǎng)景??蚣苷Z(yǔ)義學(xué)根據(jù)各框架對(duì)應(yīng)的場(chǎng)景,將具有相同基本意義、支配相同類型語(yǔ)義角色的詞語(yǔ)歸入一個(gè)框架,例如,“包含”框架下的詞語(yǔ)有“包含”、“構(gòu)成”、“涵蓋”等,描述的是部分包含在整體中。篇章中裹挾在句子中的目標(biāo)詞(目標(biāo)詞是指在一個(gè)具體的句子中能夠激起框架的詞)激起一個(gè)與句子情境相一致的框架,句子的其他成分充當(dāng)該框架的語(yǔ)義角色,如:

      例1 “典型的兩棲動(dòng)物包括青蛙、蟾蜍、蠑螈和火蜥蜴?!边M(jìn)行框架語(yǔ)義分析后得: 。例1中的詞語(yǔ)“包括”激活了“包含”框架,“”、“”是“包括”框架所支配的語(yǔ)義角色,其中“tot”,“par”為語(yǔ)義角色類型標(biāo)記,分別指“整體”與“部分”。 此外,一個(gè)句子可能包含多個(gè)目標(biāo)詞,例如,“他希望專家學(xué)者持續(xù)關(guān)注、參與教育實(shí)踐活動(dòng)?!庇扇齻€(gè)目標(biāo)詞“希望”、“關(guān)注”、“參與”激起的框架構(gòu)成。

      2.2 切割篇章語(yǔ)義單元

      針對(duì)漢語(yǔ)篇章由一系列句子構(gòu)成,每個(gè)句子由系列小句構(gòu)成的特點(diǎn),本體系將一個(gè)篇章(Discourse,簡(jiǎn)稱D)中的句子經(jīng)“,”、“:”等分割的語(yǔ)義單元定義為初級(jí)篇章單元(Primary Discourse Unit,簡(jiǎn)稱PDU);一些PDU沒(méi)有能激起框架的目標(biāo)詞,即不能構(gòu)成篇章的基本單元,因此將不具有框架的PDU與相鄰具有框架的PDU合并在一起,構(gòu)成一級(jí)篇章單元(First Discourse Unit,簡(jiǎn)稱FDU),其他含有框架的PDU直接向上構(gòu)成FDU;句子定義為二級(jí)篇章單元(Second Discourse Unit,簡(jiǎn)稱SDU)。這種切割方式與英語(yǔ)按照詞匯或句法標(biāo)記來(lái)劃分篇章單元相比,不僅充分考慮了漢語(yǔ)篇章的特點(diǎn),而且充分考慮了篇章單元的語(yǔ)義信息。

      例2的篇章構(gòu)成如圖2所示,例句中“()”內(nèi)內(nèi)容為初級(jí)篇章單元,“[]”內(nèi)內(nèi)容為一級(jí)篇章單元,“{}”內(nèi)內(nèi)容為二級(jí)篇章單元,黑體字為目標(biāo)詞。

      例2 {[(今天上午)PDU1,(張樂(lè)認(rèn)真聽(tīng)取發(fā)言)PDU2]FDU1,[(并與參加座談的同志探討交流)PDU3]FDU2}SDU1。{[(他強(qiáng)調(diào))PDU1]FDU1,[(對(duì)各位專家學(xué)者提出的思想觀點(diǎn)、意見(jiàn)建議)PDU2]FDU2,[(要認(rèn)真歸納、研究、吸收)PDU3]FDU3}SDU2。{[(他希望專家學(xué)者持續(xù)關(guān)注、參與教育實(shí)踐活動(dòng))PDU1]FDU1}SDU3。

      如圖2所示,在PDU這一層級(jí),從每個(gè)初級(jí)篇章單元中抽取出(目標(biāo)詞-框架),其中第一個(gè)句子的PDU1沒(méi)有能激起框架的目標(biāo)詞;在FDU這一層級(jí),SDU1下的PDU1沒(méi)有框架,與PDU2合并為FDU1,包含自主感知框架,SDU1下的PDU3含有框架直接向上構(gòu)成FDU2,包含研究、信息交流框架,篇章中其他篇章單元分析與此一致。

      圖2 篇章語(yǔ)義單元構(gòu)成

      2.3 篇章框架結(jié)構(gòu)

      如2.2的例2形成的篇章框架結(jié)構(gòu)樹(shù)如圖3所示,句子“{[(今天上午)PDU1,(張樂(lè)認(rèn)真聽(tīng)取發(fā)言)PDU2]FDU1,[(并與參加座談的同志探討交流)PDU3]FDU2}SDU1?!本哂腥齻€(gè)基本篇章單元PDU1、PDU2、PDU3,兩個(gè)一級(jí)篇章單元FDU1、FDU2,其中FDU1和FDU2是一般遞進(jìn)關(guān)系,篇章中其他篇章單元分析與此一致。

      圖3 篇章框架結(jié)構(gòu)樹(shù)

      2.4 篇章關(guān)系

      本文基于黃伯榮和廖序東的《現(xiàn)代漢語(yǔ)》中關(guān)于復(fù)句以及句群之間關(guān)系分類體系[18],建立了三層級(jí)篇章框架關(guān)系結(jié)構(gòu): 第一層級(jí)根據(jù)篇章單元間意義是否平等將篇章關(guān)系劃分為聯(lián)合關(guān)系和偏正關(guān)系兩大類別;在第二層級(jí)篇章關(guān)系中,在傳統(tǒng)的偏正關(guān)系中加入屬于關(guān)系這一類別(表1給出了細(xì)化至二層級(jí)的篇章關(guān)系),屬于關(guān)系表示篇章的意圖以及意圖的所有者的所屬關(guān)系;第三層級(jí)篇章關(guān)系,根據(jù)前后篇章單元的發(fā)展順序以及邏輯關(guān)系細(xì)分為24類。在該篇章關(guān)系層級(jí)結(jié)構(gòu)中,如果無(wú)法區(qū)分篇章單元之間的關(guān)系,可以將其歸入承接關(guān)系的連貫關(guān)系中。

      表1 篇章關(guān)系類型

      2.5 篇章語(yǔ)料庫(kù)現(xiàn)狀

      鑒于目前關(guān)于漢語(yǔ)篇章語(yǔ)料庫(kù)的缺乏以及標(biāo)注體系的不同,我們?cè)谠摾碚擉w系下構(gòu)建了一個(gè)包括496篇篇章的語(yǔ)料庫(kù),每篇文章都由人工標(biāo)注了框架、篇章結(jié)構(gòu)以及篇章關(guān)系。這些篇章都來(lái)自于人民日?qǐng)?bào),最小的篇章包含一個(gè)句子,最大的篇章包含五個(gè)句子,從表2的句子級(jí)語(yǔ)料庫(kù)現(xiàn)狀中,可看出總共標(biāo)注了1 915個(gè)篇章關(guān)系,其中并列關(guān)系、承接關(guān)系、因果關(guān)系和屬于關(guān)系所占比例較大,并列關(guān)系比例最大,達(dá)到了21.98%;選擇關(guān)系、假設(shè)關(guān)系和轉(zhuǎn)折關(guān)系所占比例較小,選擇關(guān)系實(shí)例數(shù)最少,只有四條,造成語(yǔ)料庫(kù)這種分布狀況的原因與語(yǔ)料體裁選取和關(guān)系本身使用頻率具有較大關(guān)系。此外,三名標(biāo)注人員對(duì)其中160篇篇章進(jìn)行了同時(shí)標(biāo)注,在篇章結(jié)構(gòu)上取得了大于0.9的kappa值,在篇章關(guān)系上取得了大于0.8的kappa值。

      表2 句子級(jí)語(yǔ)料庫(kù)現(xiàn)狀

      3 篇章分析器

      針對(duì)篇章框架語(yǔ)料庫(kù)的篇章自動(dòng)分析任務(wù)主要包括三個(gè)子任務(wù): (1)根據(jù)篇章激起框架的情況,將篇章切割為一級(jí)篇章單元(FDUs)和二級(jí)篇章單元(SDUs);(2)篇章結(jié)構(gòu)生成,即生成有層次的篇章結(jié)構(gòu)樹(shù);(3)篇章關(guān)系識(shí)別。為完成篇章分析的任務(wù),本文設(shè)計(jì)了相應(yīng)的篇章分析器,其具體流程如圖4所示。

      1. 將進(jìn)行框架分析后的篇章切割生成FDUs和SDUs,以及生成篇章對(duì)應(yīng)的短語(yǔ)結(jié)構(gòu)樹(shù)和依存句法樹(shù),并根據(jù)篇章單元向上組合的跨度范圍與相應(yīng)的短語(yǔ)結(jié)構(gòu)樹(shù)和依存語(yǔ)法樹(shù)進(jìn)行邊界對(duì)齊后,分別生成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集;

      2. 抽取特征訓(xùn)練篇章單元之間是否具有關(guān)系的最大熵分類器,對(duì)測(cè)試數(shù)據(jù)集的篇章單元對(duì)進(jìn)行關(guān)系有無(wú)的預(yù)測(cè),并利用最大熵分類模型給出的篇章單元間具有關(guān)系的概率值,采用貪婪算法生成篇章結(jié)構(gòu)樹(shù);

      3. 抽取特征訓(xùn)練篇章關(guān)系分類器,對(duì)生成的篇章結(jié)構(gòu)樹(shù)中的篇章單元對(duì)進(jìn)行關(guān)系類別預(yù)測(cè);

      4. 輸出標(biāo)注了篇章關(guān)系的篇章框架結(jié)構(gòu)樹(shù)。

      圖4 篇章分析器流程圖

      在訓(xùn)練分類器的時(shí)候,本文選用了五類特征: 句首特征、依存句法特征、短語(yǔ)結(jié)構(gòu)特征、目標(biāo)詞特征和框架特征。

      3.1 特征

      (1) 句首特征

      在漢語(yǔ)中,每個(gè)篇章單元的句首通常起到承上啟下的作用,能夠起到指示篇章關(guān)系的作用。因此本文分別抽取篇章單元對(duì)的第一個(gè)篇章單元和第二個(gè)篇章單元的句首作為特征。

      (2) 依存句法特征

      依存句法分析使用依存句法樹(shù)來(lái)描述各個(gè)詞語(yǔ)之間的語(yǔ)義依存關(guān)系,這種依存關(guān)系描述了篇章單元的主要信息。本文使用Stanford Parser對(duì)句子進(jìn)行依存句法分析,然后從篇章單元向上組合的跨度范圍對(duì)應(yīng)的依存樹(shù)中獲得所有擁有被支配者的詞和依存類型。圖5顯示了“張樂(lè)認(rèn)真聽(tīng)取發(fā)言”對(duì)應(yīng)的依存樹(shù),從這棵樹(shù)上,收集到的依存句法特征是: 聽(tīng)取 ← nsubj advmod dobj。每一個(gè)依存特征都表示為三個(gè)二元特征,來(lái)檢測(cè)該特征是出現(xiàn)在第一個(gè)篇章單元中、第二個(gè)篇章單元中或同時(shí)出現(xiàn)在兩者中。

      圖5 依存句法樹(shù)

      (3) 短語(yǔ)結(jié)構(gòu)特征

      篇章單元的短語(yǔ)結(jié)構(gòu)往往限制了篇章的結(jié)構(gòu)以及篇章關(guān)系。本文使用Stanford Parser對(duì)每個(gè)篇章中的句子進(jìn)行分析得到短語(yǔ)結(jié)構(gòu)樹(shù),然后從這些樹(shù)上提取相應(yīng)篇章單元向上組合的跨度范圍的短語(yǔ)結(jié)構(gòu)特征。圖6顯示了“張樂(lè)認(rèn)真聽(tīng)取發(fā)言”的部分短語(yǔ)結(jié)構(gòu)樹(shù),從這棵子樹(shù)上,收集到的短語(yǔ)結(jié)構(gòu)特征是: IP→NP VP,NP→NR,VP→ADVP VP,NR→NN,ADVP→AD等。每一個(gè)短語(yǔ)結(jié)構(gòu)特征都表示為三個(gè)二元特征,來(lái)檢測(cè)該特征是出現(xiàn)在第一個(gè)篇章單元中、第二個(gè)篇章單元中或同時(shí)出現(xiàn)在二者中。

      (4) 目標(biāo)詞特征

      目標(biāo)詞作為激起整個(gè)句子語(yǔ)境的詞匯,在語(yǔ)義表達(dá)中起著很大的作用,且它們之間的關(guān)系通常反映了篇章單元間的篇章關(guān)系。在CFN框架體系中,能承擔(dān)起框架的目標(biāo)詞包括動(dòng)詞、名詞和形容詞。

      圖6 短語(yǔ)結(jié)構(gòu)樹(shù)

      如例3 [第一次被嚴(yán)重打擊,]FDU1[心情相當(dāng)難過(guò)。]FDU2。

      其中,F(xiàn)DU1的目標(biāo)詞“打擊”和FDU2的目標(biāo)詞“難過(guò)”代表了一種隱式的因果關(guān)系,同時(shí)也指示了FDU1和FDU2之間是因果關(guān)系。

      (5) 框架特征

      框架能夠表達(dá)文本的語(yǔ)義信息,選用框架作為特征不僅可以減少詞語(yǔ)的種類,而且可以有效挖掘出框架之間的語(yǔ)義關(guān)系,如圖7所示,由詞語(yǔ)“敲打”等詞語(yǔ)激起的框架“造成傷害”與“疼”等詞語(yǔ)激起的框架“身體感知”是因果關(guān)系,與“惶恐”等詞語(yǔ)激起的框架“心理刺激”同樣是因果關(guān)系,除此之外,“造成傷害”框架還會(huì)與其他框架具有其他種類關(guān)系。

      圖7 框架特征

      3.2 篇章結(jié)構(gòu)分析器

      3.2.1 篇章單元對(duì)是否有關(guān)系分類模型

      在相鄰篇章單元是否具有有關(guān)系的分類模型中,本文首先將篇章生成相應(yīng)的篇章單元對(duì)訓(xùn)練集和測(cè)試集。其具體流程如圖8所示。

      圖8 結(jié)構(gòu)分解

      1. 給定篇章集合D={D1,D2,…Dn};

      5. 生成篇章單元對(duì),并根據(jù)標(biāo)注真實(shí)情況,為每一對(duì)篇章單元對(duì)標(biāo)注是否具有關(guān)系,生成篇章結(jié)構(gòu)的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。

      采用拉格朗日乘數(shù)法求解最大熵,計(jì)算公式為式(2)~(3)。

      其中,fi表示每個(gè)特征,n代表特征總數(shù),λi為特征的權(quán)重。

      3.2.2 貪婪算法

      圖9 無(wú)重合

      圖10 新節(jié)點(diǎn)的第一棵子樹(shù)與已有節(jié)點(diǎn)的最后一棵子樹(shù)相同

      圖11 新節(jié)點(diǎn)的最后一棵子樹(shù)與已有節(jié)點(diǎn)的第一棵子樹(shù)相同

      圖12 新節(jié)點(diǎn)的第一棵和最后一棵子樹(shù)與已有節(jié)點(diǎn)的最后一棵子樹(shù)和第一棵子樹(shù)相同

      圖13 自下向上生成篇章結(jié)構(gòu)樹(shù)

      ① 將四個(gè)一級(jí)篇章單元形成葉子節(jié)點(diǎn)T(1,1)、T(2,2)、T(3,3)、T(4,4);

      ⑥ 因?yàn)棰葜械腡(1,4)已包含所有篇章單元,因此停止比較,并刪除節(jié)點(diǎn)T(2,2)和T(2,4)。從T(1,4)開(kāi)始從上向下輸出這四個(gè)一級(jí)篇章單元生成的篇章結(jié)構(gòu)樹(shù),如圖14所示。

      圖14 輸出篇章結(jié)構(gòu)樹(shù)

      3.3 篇章關(guān)系分類模型

      4 實(shí)驗(yàn)設(shè)置與結(jié)果分析

      (1) 篇章框架標(biāo)注情況

      由于CFN框架本身覆蓋率的問(wèn)題,導(dǎo)致篇章中的目標(biāo)詞不能完全標(biāo)注出所屬的框架,表3統(tǒng)計(jì)了篇章的框架標(biāo)注情況。

      從表3可以看出,總共標(biāo)注了4 472次,其中3 679次標(biāo)注了框架,所占比例為82.27%;涉及不同詞語(yǔ)909個(gè),其中679個(gè)詞語(yǔ)具有框架,所占比例為74.70%,共涉及框架193個(gè)。

      表3 框架標(biāo)注情況

      (2) 篇章單元間有無(wú)關(guān)系識(shí)別效果

      本實(shí)驗(yàn)采用框架特征、目標(biāo)詞特征、短語(yǔ)結(jié)構(gòu)特征和依存句法特征生成篇章結(jié)構(gòu)對(duì)應(yīng)的特征實(shí)例集5 585個(gè)篇章單元對(duì),采用五折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn),表4給出了每個(gè)類別特征的正確率。

      表4 基于單個(gè)特征篇章單元之間有無(wú)關(guān)系實(shí)驗(yàn)效果

      表5 基于多個(gè)特征篇章單元之間有無(wú)關(guān)系實(shí)驗(yàn)效果

      通過(guò)表4可以看出每類特征對(duì)篇章結(jié)構(gòu)分類效果的影響相繼是框架特征、目標(biāo)詞特征、短語(yǔ)結(jié)構(gòu)特征、依存句法特征,框架特征取得了最好的實(shí)驗(yàn)效果,這表明框架特征包含了更多的語(yǔ)義信息,更有助于識(shí)別篇章單元之間是否存在關(guān)系。

      為了驗(yàn)證組合特征對(duì)篇章結(jié)構(gòu)識(shí)別的影響,表5給出了特征組合對(duì)實(shí)驗(yàn)結(jié)果的影響。在該實(shí)驗(yàn)中,使用MI特征選擇方法,選擇400個(gè)短語(yǔ)結(jié)構(gòu)特征、150個(gè)依存句法特征、全部框架特征、100個(gè)目標(biāo)詞特征生成篇章結(jié)構(gòu)對(duì)應(yīng)的特征實(shí)例集,通過(guò)表5可以看出組合特征的實(shí)驗(yàn)結(jié)果要優(yōu)于單個(gè)特征,其中,框架、短語(yǔ)結(jié)構(gòu)、依存句法和目標(biāo)詞特征的組合識(shí)別效果最好,這表明特征組合時(shí),篇章結(jié)構(gòu)識(shí)別效果最好。

      表6 篇章單元之間有無(wú)關(guān)系實(shí)驗(yàn)總效果

      表6給出了在所有特征組合下的篇章單元有無(wú)關(guān)系的P,R和F值。從表6中可以看出有關(guān)系的篇章單元對(duì)的識(shí)別效果較差,F(xiàn)值只有31.70%。

      (3) 篇章關(guān)系實(shí)驗(yàn)效果

      本實(shí)驗(yàn)采用頻數(shù)大于3的框架特征、目標(biāo)詞特征、短語(yǔ)結(jié)構(gòu)特征、句首特征和依存句法特征生成篇章關(guān)系對(duì)應(yīng)的特征實(shí)例集2 110個(gè),采用五折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn)。為了驗(yàn)證各類特征在篇章關(guān)系識(shí)別上的作用,我們首先在正確標(biāo)注篇章關(guān)系的數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn),表7給出了各類特征的實(shí)驗(yàn)結(jié)果。將篇章關(guān)系中占據(jù)比例最大的并列類設(shè)置為基準(zhǔn)系統(tǒng),正確率為22.46%。

      表7 基于單個(gè)特征篇章關(guān)系實(shí)驗(yàn)效果

      表8 基于多個(gè)特征篇章關(guān)系實(shí)驗(yàn)效果

      通過(guò)表7可以看出,本文選擇的幾組特征都是有效的,總正確率都超過(guò)了基準(zhǔn)系統(tǒng),每個(gè)特征對(duì)篇章關(guān)系分類效果的影響相繼是框架特征、目標(biāo)詞特征、句首特征、短語(yǔ)結(jié)構(gòu)特征和依存句法特征;框架特征的識(shí)別效果要優(yōu)于目標(biāo)詞特征、句首特征、短語(yǔ)結(jié)構(gòu)特征和依存樹(shù)特征,達(dá)到了40.69%,這表明標(biāo)注框架對(duì)于識(shí)別篇章關(guān)系是有效的。

      為了驗(yàn)證組合特征對(duì)實(shí)驗(yàn)結(jié)果的影響,表8給出了特征組合對(duì)實(shí)驗(yàn)結(jié)果的影響。通過(guò)表8可以看出,當(dāng)所有特征組合時(shí),實(shí)驗(yàn)效果最好,達(dá)到了49.25%,比單個(gè)特征效果最好的框架提高了8.56%,這表明組合特征時(shí),篇章關(guān)系識(shí)別效果要明顯優(yōu)于單個(gè)特征。

      表9 篇章關(guān)系總效果

      表9分別給出了基于所有特征組合的每種篇章關(guān)系類別的P,R和F值。通過(guò)表9可以看出,選擇類與轉(zhuǎn)折類沒(méi)有識(shí)別出來(lái),假設(shè)類識(shí)別準(zhǔn)確率較低,這是由于數(shù)據(jù)稀疏引起的,在整個(gè)語(yǔ)料中,選擇類的實(shí)例僅有四個(gè),假設(shè)類所占比重為2.61%,轉(zhuǎn)折類所占比重為2.66%。遞進(jìn)類的識(shí)別效果較差,是由于遞進(jìn)類與并列類的特征具有較大的相似性,如若沒(méi)有明顯的連接詞作指示,很難區(qū)分這兩個(gè)類別。屬于類的識(shí)別效果最好,是由于屬于類別的篇章關(guān)系,多是由“說(shuō)”、“宣布”等一些表達(dá)篇章意圖的句首表達(dá),這些詞語(yǔ)激起了“陳述”框架,特征明顯且屬于類的實(shí)例數(shù)較多,對(duì)于屬于類識(shí)別具有較強(qiáng)的針對(duì)性,因此屬于類識(shí)別效果最好。并列類、承接類、解說(shuō)類、條件類、因果類、目的類的識(shí)別效果相當(dāng)。

      (4) 整體性能實(shí)驗(yàn)效果

      為檢驗(yàn)篇章分析器的整體性能,即完全由篇章分析器完成篇章結(jié)構(gòu)生成以及在結(jié)構(gòu)樹(shù)上識(shí)別篇章關(guān)系,本實(shí)驗(yàn)首先使用貪婪策略自下向上生成篇章結(jié)構(gòu)樹(shù),然后使用篇章關(guān)系分類模型對(duì)篇章結(jié)構(gòu)分類模型輸出的有關(guān)系篇章單元對(duì)進(jìn)行關(guān)系類型預(yù)測(cè)。本實(shí)驗(yàn)使用397篇篇章作為訓(xùn)練集,99篇篇章作為測(cè)試集,使用標(biāo)準(zhǔn)Parseval[19]中的指標(biāo)P,R和F值作為測(cè)試標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表10。

      表10 整體實(shí)驗(yàn)效果

      通過(guò)表10可以看出,使用貪婪策略生成的篇章結(jié)構(gòu)樹(shù),F(xiàn)值可達(dá)到64.55%。在關(guān)系實(shí)驗(yàn)中,使用自動(dòng)生成篇章結(jié)構(gòu)的F值29.99%比使用標(biāo)準(zhǔn)結(jié)構(gòu)的F值49.39%有所下降,這是由于自動(dòng)生成的篇章結(jié)構(gòu)準(zhǔn)確率較低且篇章關(guān)系分類器的準(zhǔn)確率也較低,以至于在下一步的自動(dòng)篇章關(guān)系識(shí)別上準(zhǔn)確率有所下降。

      5 結(jié)語(yǔ)

      本文研究了如何運(yùn)用框架語(yǔ)義切割漢語(yǔ)的篇章單元以及自動(dòng)分析漢語(yǔ)篇章結(jié)構(gòu)和篇章關(guān)系。在篇章自動(dòng)分析過(guò)程中,我們提出了基于最大熵的分析方法,對(duì)篇章結(jié)構(gòu)和篇章關(guān)系分別建模。在建模過(guò)程中使用到句首特征、依存句法特征、短語(yǔ)結(jié)構(gòu)特征、目標(biāo)詞特征、框架特征,實(shí)驗(yàn)結(jié)果驗(yàn)證了框架特征可以有效提高這兩個(gè)任務(wù)的準(zhǔn)確率,為以后進(jìn)一步的工作奠定了基礎(chǔ)。但是由于本文的框架覆蓋不全,造成實(shí)驗(yàn)效果并未達(dá)到最優(yōu),因此在以后的工作中,我們將進(jìn)一步進(jìn)行框架的構(gòu)建工作,同時(shí)有效地使用框架語(yǔ)義資源在漢語(yǔ)篇章分析方面的研究,如框架的語(yǔ)義角色、框架關(guān)系等,并擴(kuò)大篇章單元的研究范圍。

      [1]MannWC,ThompsonSA.Rhetoricalstructuretheory:Aframeworkfortheanalysisoftexts[J].IprapapersinPragmatics, 1987,1: 79-105.

      [2]PrasadR,JoshiA.Adiscourse-basedapproachtogeneratingwhy-questionsfromtexts[C]//ProceedingsoftheWorkshopontheQuestionGenerationSharedTaskandEvaluationChallenge,Arlington,VA. 2008.

      [3]LinZ,NgHT,KanMY.Automaticallyevaluatingtextcoherenceusingdiscourserelations[C]//Proceedingsofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies-Volume1.AssociationforComputationalLinguistics, 2011: 997-1006.

      [4]MannWC,ThompsonSA.Rhetoricalstructuretheory:Towardafunctionaltheoryoftextorganization[J].Text, 1988,8(3): 243-281.

      [5]CarlsonL,MarcuD,OkurowskiME.Buildingadiscourse-taggedcorpusintheframeworkofrhetoricalstructuretheory[J].CurrentandNewDirectionsDiscourseandDialogue, 2003: 85-112.

      [6]HernaultH,BollegalaD,IshizukaM.Asequentialmodelfordiscoursesegmentation[C]//ProceedingsoftheComputationalLinguisticsandIntelligentTextProcessing.SpringerBerlinHeidelberg, 2010: 315-326.

      [7]VanessaWeiFeng,GraemeHirst.Alinear-timebottom-updiscourseparserwithconstraintsandpost-editing[C]//Proceedingsofthe52ndAnnualMeetingoftheAssociationforComputationalLinguistics,Baltimore,Maryland,USA, 2014:511-521.

      [8]PDTBResearchGroup.Thepenndiscoursetreebank2.0annotationmanual[R].Philadelphia:UniversityofPennsylvania, 2008.

      [9]PitlerE,RaghupathyM,MehtaH,etal.Easilyidentifiablediscourserelations[C]//ProceedingsoftheInternationalConferenceonComputationalLinguistics. 2008:87-90.

      [10]ZihengLin,Min-YenKan,HweeTouNg.Recognizingimplicitdiscourserelationsinthepenndiscoursetreebank[C]//Proceedingsofthe2009ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Morristown:AssociationforComputationalLinguistics, 2009: 343-351.

      [11] 孫靜,李艷翠,周圍棟,等.漢語(yǔ)隱式篇章關(guān)系識(shí)別[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,(1):111-117.

      [12] 張牧宇,宋原,秦兵,等.中文篇章級(jí)句間語(yǔ)義關(guān)系識(shí)別[J].中文信息學(xué)報(bào),2014,27(6):51-57.

      [13] 姬建輝,張牧宇,秦兵,等.中文篇章級(jí)句間關(guān)系自動(dòng)分析[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)報(bào)),2015,2(2):124-131.

      [14] 涂眉,周玉,宗成慶.基于最大熵的漢語(yǔ)篇章結(jié)構(gòu)自動(dòng)分析方法[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,1(1):125-132.

      [15]Fillmore,CharlesJ.Framesemantics[A].InLinguisticsintheMorningCalm,theLinguisticSocietyofKorea,Seoul:Hanshin,1982:111-137.

      [16] 李茹.漢語(yǔ)句子框架語(yǔ)義結(jié)構(gòu)分析技術(shù)研究[D].山西大學(xué)博士學(xué)位論文. 2012.

      [17] 郝曉燕,劉偉,李茹等.漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)及軟件描述體系[J].中文信息學(xué)報(bào), 2007, 21(5): 96-100.

      [18] 黃伯榮,廖序東.現(xiàn)代漢語(yǔ)[M].北京: 高等教育出版社.2011.

      [19]AbneyS,FlickingerD,GdaniecC,etal.ProcedureforquantitativelycomparingthesyntacticcoverageofEnglishgrammars[C]//ProceedingsoftheWorkshoponSpeech&NaturalLanguage, 1991:306-311.

      Frame-Based Discourse Structure Modeling and Relation Recognition for Chinese Sentence

      LV Guoying1,SU Na1,LI Ru1,2,WANG Zhiqiang1,CHAI Qinghua3

      (1. School of Computer & Information Technology, Shanxi University, Taiyuan, Shanxi 030006, China;2. Key laboratory of Computation Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan, Shanxi 030006, China;3. School of Foreign Languages, Shanxi University, Taiyuan, Shanxi 030006, China)

      Frame semantics is introduced to the research of Chinese discourse analysis which includes three subtasks: discourse segmentation, discourse structure modeling and discourse relation recognition. First, the Chinese discourse coherence framework and a corresponding corpus is built based on frame semantics. Then two kinds of maximum entropy classifiers are applied to recognize the relation between discourse units and the class of discourse relation based on lexical features, dependency parser features, syntactic parser features, target features and frame sematic features. Finally, we use probability of the relation existence between discourse units to generate the discourse structure by greedy bottom-up method. Experimental results show that frame sematic can segment discourse units effectively and frame sematic feature can improve the performance of discourse structure construction and discourse relation recognition.

      Discourse units; Discourse Structure; Discourse Relation; Greedy Bottom-up Method

      呂國(guó)英(1964—),通信作者,碩士,副教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:english@sxu.edu.cn蘇娜(1989—),碩士研究生,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?。E-mail:cindysunas@163.com李茹(1965—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:liru@sxu.edu.cn

      1003-0077(2015)06-0098-12

      2015-07-10 定稿日期: 2015-10-10

      國(guó)家自然科學(xué)基金(61373082);山西省科技基礎(chǔ)條件平臺(tái)建設(shè)項(xiàng)目(2014091004-0103);山西省回國(guó)留學(xué)人員科研資助項(xiàng)目(2013-015);國(guó)家863計(jì)劃項(xiàng)目(2015AA015407);中國(guó)民航大學(xué)信息安全測(cè)評(píng)中心開(kāi)放課題基金項(xiàng)目(CACC-ISECCA-201402)

      TP391

      A

      猜你喜歡
      語(yǔ)料庫(kù)短語(yǔ)語(yǔ)義
      語(yǔ)言與語(yǔ)義
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
      認(rèn)知范疇模糊與語(yǔ)義模糊
      語(yǔ)義分析與漢俄副名組合
      語(yǔ)料庫(kù)語(yǔ)言學(xué)未來(lái)發(fā)展趨勢(shì)
      鲜城| 溧阳市| 大渡口区| 长沙市| 宿松县| 盐山县| 微山县| 资兴市| 拉孜县| 青神县| 厦门市| 腾冲县| 当雄县| 湟中县| 海口市| 黑河市| 旬阳县| 无棣县| 正宁县| 讷河市| 山丹县| 东港市| 秭归县| 普洱| 类乌齐县| 辛集市| 连城县| 中山市| 洛川县| 图木舒克市| 新邵县| 盐源县| 读书| 城市| 清丰县| 红安县| 浏阳市| 开远市| 雅安市| 玉门市| 堆龙德庆县|