張牧宇,宋 原,秦 兵,劉 挺
(哈爾濱工業(yè)大學(xué),黑龍江 哈爾濱150001)
隨著詞匯語(yǔ)義、句子語(yǔ)義研究的逐漸成熟,篇章級(jí)語(yǔ)義分析逐漸成為研究熱點(diǎn)。作為篇章語(yǔ)義分析的重要內(nèi)容,篇章句間關(guān)系識(shí)別(Discourse Relation Recognition)也受到了越來(lái)越多的關(guān)注。該研究檢測(cè)同一篇章內(nèi),兩個(gè)文本單元(片段、分句、復(fù)句、句群、段落等)之間的邏輯語(yǔ)義關(guān)聯(lián)(例如,因果關(guān)系)。通過(guò)定義層次化的語(yǔ)義關(guān)系類(lèi)型體系將句內(nèi)的語(yǔ)義分析結(jié)果擴(kuò)展為篇章級(jí)的語(yǔ)義信息,從而成為語(yǔ)義分析的重要解決途徑之一,對(duì)自動(dòng)文摘[1]、自動(dòng)問(wèn)答[2]、傾向性分析[3-4]以及文本質(zhì)量評(píng)價(jià)[5]、文本連貫性評(píng)價(jià)[6]等許多NLP任務(wù)起到了很大的幫助。
根據(jù)文本單元間是否存在篇章連接詞(也稱(chēng)作篇章關(guān)聯(lián)詞),可將篇章句間關(guān)系分為顯式篇章句間關(guān)系(Explicit Discourse Relation,簡(jiǎn)稱(chēng)顯式關(guān)系)與隱式篇章句間關(guān)系(Implicit Discourse Relation,簡(jiǎn)稱(chēng)隱式關(guān)系)兩類(lèi)。其中顯式關(guān)系包含篇章關(guān)聯(lián)詞,如例1所示,篇章關(guān)聯(lián)詞“因?yàn)椤敝甘疽蚬?lèi)型的關(guān)系實(shí)例;隱式關(guān)系缺少顯式關(guān)聯(lián)詞,需要根據(jù)上下文推測(cè)語(yǔ)義類(lèi)型,如例2所示。
例1:因?yàn)槲沂悄惆职?,我愿意為你做所有一切。(顯式因果關(guān)系)
例2:他生病了,今天沒(méi)有來(lái)上課。(隱式因果關(guān)系)
已有篇章句間關(guān)系識(shí)別研究主要針對(duì)英文[7],印度語(yǔ)[8]、土耳其語(yǔ)[9]和阿拉伯語(yǔ)[10]。雖然已有一些面向中文的研究[11-13],但主要集中在分析和語(yǔ)料標(biāo)注,對(duì)關(guān)系識(shí)別研究不足;另外,已有研究大都直接使用了英文關(guān)系類(lèi)型體系,忽略了中文本身的特點(diǎn)。
本文對(duì)中文篇章句間關(guān)系識(shí)別進(jìn)行了探索,包括顯式關(guān)系識(shí)別和隱式關(guān)系識(shí)別兩方面。
針對(duì)顯式關(guān)系識(shí)別,我們提出一種基于關(guān)聯(lián)詞的識(shí)別方案,通過(guò)分析中文篇章句間關(guān)系語(yǔ)料獲得關(guān)聯(lián)詞對(duì)關(guān)系類(lèi)型的指示能力,并根據(jù)關(guān)聯(lián)詞指示規(guī)則決定顯式關(guān)系的語(yǔ)義關(guān)系類(lèi)型。針對(duì)隱式關(guān)系識(shí)別,由于缺少篇章關(guān)聯(lián)詞,我們主要采用機(jī)器學(xué)習(xí)方法,抽取詞匯、句法和語(yǔ)義等特征訓(xùn)練分類(lèi)模型,根據(jù)模型輸出判定最終的關(guān)系類(lèi)型。以上識(shí)別研究均采用面向中文的篇章句間關(guān)系體系,更好的適應(yīng)中文特點(diǎn)。
實(shí)驗(yàn)結(jié)果顯示,基于關(guān)聯(lián)詞的顯式關(guān)系識(shí)別方法取得了非常好的效果,取得了90%左右的識(shí)別準(zhǔn)確率,F(xiàn)值達(dá)到80%;此外,我們的隱式關(guān)系識(shí)別方法也取得了較好的效果。文章內(nèi)容組織如下:第2節(jié)介紹相關(guān)工作;第3節(jié)介紹顯式關(guān)系識(shí)別方法,給出實(shí)驗(yàn)結(jié)果與分析;第4節(jié)介紹隱式關(guān)系特征、識(shí)別方法及實(shí)驗(yàn)結(jié)果;第5節(jié)分給出結(jié)論。
篇章句間關(guān)系體系及語(yǔ)料:作為有指導(dǎo)方法的基礎(chǔ),英文中已經(jīng)出現(xiàn)一些篇章句間關(guān)系語(yǔ)料[14-16]。這些語(yǔ)料采用不同的關(guān)系類(lèi)型體系[14-17]描述文本單元之間的語(yǔ)義關(guān)系。典型的篇章句間關(guān)系語(yǔ)料包括以下兩種:基于RST理論[17]的修辭結(jié)構(gòu)理論樹(shù)庫(kù)(Rhetorical Structure Theory Discourse Treebank)[15]和基于PDTB體系的賓州篇章樹(shù)庫(kù)(Penn Discourse Tree Bank)[16],它們采用不同的關(guān)系類(lèi)型體系和標(biāo)注標(biāo)準(zhǔn)[18]。目前已有的語(yǔ)料和標(biāo)注理論關(guān)注英語(yǔ)、印度語(yǔ)[8]、土耳其語(yǔ)[9]和阿拉伯語(yǔ)[10]。Xue[11]、Zhou和 Xue[12]、Huang 和 Chen[13]在中文上做了部分分析工作,不過(guò)這些研究直接將英文關(guān)系類(lèi)型體系平移到中文,忽略了中文本身的特點(diǎn)。本文采用了Zhang在2012年提出的面向中文的篇章句間關(guān)系類(lèi)型體系[19],更好的適應(yīng)中文問(wèn)題。
顯式篇章句間關(guān)系識(shí)別:顯式篇章句間關(guān)系通常由篇章關(guān)聯(lián)詞作為指示,Pitler et al.[7]使用無(wú)指導(dǎo)方法,僅僅利用關(guān)聯(lián)詞的統(tǒng)計(jì)特征識(shí)別顯式篇章句間關(guān)系類(lèi)型,取得了較好的效果,證明關(guān)聯(lián)詞對(duì)顯式關(guān)系識(shí)別的重要性。除無(wú)指導(dǎo)方法之外,有指導(dǎo)模型也被用于顯式關(guān)系識(shí)別,Pitler et al.[20]使用關(guān)聯(lián)詞相關(guān)的標(biāo)準(zhǔn)句法特征幫助提高顯式關(guān)系識(shí)別性能;Wellner和Pustejovsky[21]采用有指導(dǎo)方法識(shí)別篇章句間關(guān)系元素范圍;Elwell和 Baldridge[22]使用關(guān)聯(lián)詞排序器識(shí)別關(guān)系元素范圍。本文提出基于中文關(guān)聯(lián)詞統(tǒng)計(jì)信息的識(shí)別方案探索顯式關(guān)系識(shí)別,并且取得比較好的效果。
隱式篇章句間關(guān)系識(shí)別:隱式篇章句間關(guān)系通常存在于相鄰句子之間,同時(shí)缺少關(guān)聯(lián)詞。類(lèi)似于顯式關(guān)系識(shí)別,隱式關(guān)系識(shí)別的相關(guān)研究最早出現(xiàn)在英文中,主要關(guān)注詞匯特征,例如,詞匯之間的依存關(guān)系[23-24]、詞匯的語(yǔ)義類(lèi)別[20]和關(guān)聯(lián)詞預(yù)測(cè)[25]。
由于隱式關(guān)系識(shí)別不同于顯式關(guān)系[26],除了詞匯特征之外,一些額外信息被逐漸引入,例如,句法限制[20,27]、核函數(shù)[28]、實(shí)體特征[29]以及事件配對(duì)特征[30]。這些研究提高了隱式關(guān)系識(shí)別效果,但到目前為止,隱式關(guān)系識(shí)別效果依然不佳,而且缺少面向中文的隱式關(guān)系識(shí)別研究。本文提出基于中文篇章句間關(guān)系體系的隱式關(guān)系識(shí)別模型,通過(guò)引入詞匯、句法和語(yǔ)義特征識(shí)別隱式篇章句間關(guān)系。
顯式關(guān)系的具體類(lèi)型通常由關(guān)聯(lián)詞標(biāo)識(shí),如例3、例4所示。
例3:如果大家都同意這個(gè)方案,咱們就按照它來(lái)執(zhí)行;(條件關(guān)系)
例4:因?yàn)榇蠹叶纪膺@個(gè)方案,咱們就按照它來(lái)執(zhí)行;(因果關(guān)系)
例3、例4中,除關(guān)聯(lián)詞外的句子成分完全一
在顯式關(guān)系識(shí)別中,關(guān)聯(lián)詞往往作為關(guān)系類(lèi)型的指示標(biāo)志出現(xiàn)。本文提出基于關(guān)聯(lián)詞的中文顯式關(guān)系識(shí)別模型,利用關(guān)聯(lián)詞規(guī)則識(shí)別顯式關(guān)系。
致,但不同的關(guān)聯(lián)詞使得兩個(gè)句子具有不同的語(yǔ)義和關(guān)系類(lèi)型??梢酝茰y(cè):關(guān)聯(lián)詞標(biāo)識(shí)了具體關(guān)系類(lèi)型?;谶@種想法,我們提出了基于關(guān)聯(lián)詞的顯式篇章句間關(guān)系識(shí)別方案。據(jù)我們了解,這是首個(gè)利用中文篇章關(guān)聯(lián)詞識(shí)別顯式關(guān)系類(lèi)型的研究工作。
3.1.1 識(shí)別方案
我們將中文篇章句間關(guān)系語(yǔ)料分為兩部分:Set 1包含996篇文本,用于抽取篇章關(guān)聯(lián)詞和對(duì)應(yīng)的關(guān)系類(lèi)型;Set 2包含100篇文本,用于測(cè)試識(shí)別方案。首先,我們從Set 1中抽取所有的篇章關(guān)聯(lián)詞和相應(yīng)的關(guān)系類(lèi)型;之后采用極大似然估計(jì)計(jì)算關(guān)聯(lián)詞對(duì)各關(guān)系類(lèi)型的指示能力,獲得“關(guān)聯(lián)詞—關(guān)系類(lèi)型”矩陣:其中橫軸對(duì)應(yīng)某一篇章關(guān)聯(lián)詞,縱軸對(duì)應(yīng)某一具體關(guān)系類(lèi)型。具體的計(jì)算方法如式(1)所示。
其中ci對(duì)應(yīng)某一關(guān)聯(lián)詞;sj表示待計(jì)算的關(guān)系類(lèi)型;S是所有關(guān)系類(lèi)型的集合。
對(duì)Set 2中的每一個(gè)測(cè)試實(shí)例,我們首先抽取篇章關(guān)聯(lián)詞;隨后查找“關(guān)聯(lián)詞—關(guān)系類(lèi)型”矩陣,獲得該關(guān)聯(lián)詞對(duì)各關(guān)系類(lèi)型的指示能力,從中選取最大值;并將該類(lèi)型作為測(cè)試實(shí)例的最終標(biāo)簽。
3.2.1 類(lèi)型體系及語(yǔ)料獲取
為了支持關(guān)聯(lián)詞分析和后續(xù)的有指導(dǎo)識(shí)別方法,我們采用Zhang[19]提出的中文篇章句間關(guān)系體系,我們從 OntoNotes 4.0[31]中隨機(jī)篩選出1 096篇文本并進(jìn)行了人工標(biāo)注。在這份語(yǔ)料中,三名標(biāo)注人員獨(dú)立標(biāo)注了顯式關(guān)系和隱式關(guān)系。為了驗(yàn)證標(biāo)注質(zhì)量,檢驗(yàn)標(biāo)注一致性,我們計(jì)算了用于統(tǒng)計(jì)多類(lèi)、多標(biāo)注人員標(biāo)注一致性的Fleiss Kappa指標(biāo)[32]。
在最終的計(jì)算結(jié)果中,我們獲得了66.52%的Fleiss’Kappa值,根據(jù)Fleiss’Kappa指標(biāo)的性能分布區(qū)間,該數(shù)值反映了較好的標(biāo)注一致性;此外,該結(jié)果包括顯式關(guān)系和隱式關(guān)系在所有類(lèi)別上的標(biāo)注一致性,如果單獨(dú)計(jì)算顯式關(guān)系的標(biāo)注一致性,我們會(huì)獲得更好的結(jié)果。據(jù)我們所知,這是第一份中文篇章句間關(guān)系語(yǔ)料。
3.2.2 實(shí)驗(yàn)結(jié)果
訓(xùn)練語(yǔ)料中共標(biāo)記出1 273個(gè)不同的篇章關(guān)聯(lián)詞,利用這1 273個(gè)關(guān)聯(lián)詞構(gòu)成“關(guān)聯(lián)詞-關(guān)系類(lèi)型”矩陣,并根據(jù)該矩陣對(duì)測(cè)試實(shí)例進(jìn)行分類(lèi)。對(duì)每一個(gè)測(cè)試實(shí)例,我們抽取相應(yīng)的篇章關(guān)聯(lián)詞,之后檢索矩陣,找到概率最大的關(guān)系類(lèi)別作為最終結(jié)果。
我們?cè)谥形钠戮溟g關(guān)系體系[19]的六個(gè)頂層類(lèi)別進(jìn)行實(shí)驗(yàn),包括“時(shí)序關(guān)系”、“因果關(guān)系”、“條件關(guān)系”、“比較關(guān)系”、“擴(kuò)展關(guān)系”、“并列關(guān)系”,采用標(biāo)準(zhǔn)P、R、F進(jìn)行評(píng)價(jià),結(jié)果如表1所示。
表1 基于關(guān)聯(lián)詞的顯式關(guān)系識(shí)別方法實(shí)驗(yàn)結(jié)果
分析表1,我們?cè)凇耙蚬P(guān)系”、“條件關(guān)系”、“比較關(guān)系”三類(lèi)獲得了非常好的效果:準(zhǔn)確率均高于0.96,F(xiàn)值均高于0.91。效果最好的“條件關(guān)系”精確率達(dá)到0.989 0,召回率為0.904 5,F(xiàn)值則是0.944 9。這意味著絕大多數(shù)情況下,“條件關(guān)系”對(duì)應(yīng)的篇章關(guān)聯(lián)詞(例如,如果)都是無(wú)歧義的;一旦這些關(guān)聯(lián)詞出現(xiàn),我們可以以非常高的概率將該關(guān)系實(shí)例判定為條件關(guān)系。類(lèi)似的情況同樣存在于 “因果關(guān)系”和“比較關(guān)系”中。
“時(shí)序關(guān)系”的實(shí)驗(yàn)結(jié)果略有不同,我們獲得了較高的準(zhǔn)確率(0.951 2),但召回率較低(0.715 6)。高準(zhǔn)確率說(shuō)明“時(shí)序關(guān)系”對(duì)應(yīng)的篇章關(guān)聯(lián)詞歧義性較小,低召回率說(shuō)明統(tǒng)計(jì)信息的覆蓋率較差。對(duì)于“擴(kuò)展關(guān)系”和“并列關(guān)系”情況則比較復(fù)雜。在這兩類(lèi)中,準(zhǔn)確率和召回率都相對(duì)較低,這意味著除了覆蓋率問(wèn)題外,兩類(lèi)關(guān)系對(duì)應(yīng)的篇章關(guān)聯(lián)詞歧義性也比較高。對(duì)于歧義問(wèn)題,很難單純通過(guò)語(yǔ)料擴(kuò)充或分析解決,需要后續(xù)工作的更多關(guān)注。
總的來(lái)說(shuō),基于關(guān)聯(lián)詞的識(shí)別方案在各個(gè)類(lèi)別上的平均表現(xiàn)較好。但是,最高的F值(0.944 9)和最低的F值(0.563 8)之間差距較大,說(shuō)明不同的關(guān)系類(lèi)型之間差異非常明顯,這提示我們:不同的關(guān)系類(lèi)型適合不同的處理方法。
3.2.3 錯(cuò)誤分析與討論
進(jìn)一步分析實(shí)驗(yàn)結(jié)果,我們發(fā)現(xiàn),大部分篇章關(guān)聯(lián)詞歧義較小;識(shí)別錯(cuò)誤主要由少部分高歧義導(dǎo)致。這些關(guān)聯(lián)詞種類(lèi)較少,但常用關(guān)聯(lián)詞較多(例如,而)。圖1描述出現(xiàn)次數(shù)Top 10的篇章關(guān)聯(lián)詞在各關(guān)系類(lèi)型上的分布情況:柱狀圖的不同顏色代表關(guān)聯(lián)詞對(duì)應(yīng)的關(guān)系類(lèi)型;不同的高度代表對(duì)應(yīng)關(guān)系類(lèi)型所占的比例;同一關(guān)聯(lián)詞對(duì)應(yīng)的關(guān)系類(lèi)型越少、類(lèi)型越集中,該詞的歧義性越小。從圖中可知,大部分關(guān)聯(lián)詞(例如,因?yàn)椋┑钠缌x性較小,90%以上指示同一關(guān)系類(lèi)型,但同時(shí)存在部分高歧義關(guān)聯(lián)詞。
圖1 Top 10關(guān)聯(lián)詞的關(guān)系類(lèi)型分布情況
以關(guān)聯(lián)詞“而”為例,它對(duì)應(yīng)的關(guān)系類(lèi)型分布情況包括以下幾類(lèi):
(1)48.6% 對(duì)應(yīng)“擴(kuò)展關(guān)系”;
(2)41.8% 對(duì)應(yīng)“比較關(guān)系”;
(3)7.6% 對(duì)應(yīng)“并列關(guān)系”;
(4)2% 對(duì)應(yīng)“因果關(guān)系”。
根據(jù)3.1.1的計(jì)算公式,“擴(kuò)展關(guān)系”對(duì)應(yīng)的得分最高。在分類(lèi)過(guò)程中,所有由“而”標(biāo)識(shí)的篇章句間關(guān)系實(shí)例都被分為“擴(kuò)展關(guān)系”類(lèi)別。對(duì)于48.6%的實(shí)例而言,我們獲得了正確結(jié)果;然而對(duì)于剩余的51.4%,則發(fā)生了分類(lèi)錯(cuò)誤。實(shí)驗(yàn)分析發(fā)現(xiàn),大部分分類(lèi)錯(cuò)誤都和該類(lèi)關(guān)聯(lián)詞有關(guān)。這提示我們對(duì)于歧義性大,出現(xiàn)次數(shù)較多的關(guān)聯(lián)詞,需要特殊的處理方案。
隱式篇章句間關(guān)系缺少篇章關(guān)聯(lián)詞,沒(méi)有明顯的語(yǔ)義類(lèi)型標(biāo)志,需要人類(lèi)推理才能判斷關(guān)系的存在和具體類(lèi)型。這使得隱式篇章句間關(guān)系具有不同于顯式關(guān)系的分布特點(diǎn)。
在很多情況下,關(guān)聯(lián)詞不僅僅起銜接作用,還會(huì)影響關(guān)系類(lèi)型的分布,如例5、例6所示。
例5:如果你身體還沒(méi)恢復(fù),就先不用來(lái)上班了。(條件關(guān)系)
例6:你身體還沒(méi)恢復(fù),先不用來(lái)上班了。(因果關(guān)系)
例5首先描述某一假設(shè)條件,隨后說(shuō)明假設(shè)成立時(shí)的結(jié)果,屬于“條件關(guān)系”;例6首先描述某一事實(shí),隨后指出事實(shí)引發(fā)的結(jié)果,屬于“因果關(guān)系”。除關(guān)聯(lián)詞“如果……就……”之外兩個(gè)例句內(nèi)容完全相同,但卻具有完全不同的語(yǔ)義類(lèi)型。換言之,對(duì)某些關(guān)系類(lèi)型來(lái)說(shuō)(例如,條件關(guān)系),如果刪除篇章句間關(guān)系關(guān)聯(lián)詞,句子語(yǔ)義會(huì)發(fā)生翻轉(zhuǎn)。這種現(xiàn)象使得對(duì)應(yīng)類(lèi)型的隱式關(guān)系實(shí)例大大減少,形成和顯式關(guān)系完全不同的分布特征。圖2描述了隱式關(guān)系和顯式關(guān)系在中文篇章句間關(guān)系體系[19]中六個(gè)頂層類(lèi)別上的分布情況,其中圖2(a)為顯式關(guān)系分布圖,圖2(b)為隱式關(guān)系分布圖。
分析圖2可知,相較于顯式關(guān)系,隱式關(guān)系的分布非常不均衡,其中“擴(kuò)展關(guān)系”的比例大大增加,占到了總數(shù)的60.37%;而“條件關(guān)系”、“時(shí)序關(guān)系”、“比較關(guān)系”的數(shù)量則大大壓縮,其中“條件關(guān)系”和“時(shí)序關(guān)系”分別只占0.72%和2.57%;只有“并列關(guān)系”和“因果關(guān)系”比例相對(duì)穩(wěn)定。
分析原因,對(duì)“條件關(guān)系”和“時(shí)序關(guān)系”而言,由于關(guān)聯(lián)詞的省略導(dǎo)致了語(yǔ)義翻轉(zhuǎn),使得對(duì)應(yīng)類(lèi)型很少出現(xiàn)在隱式關(guān)系中,而“擴(kuò)展關(guān)系”則非常適合用隱式關(guān)系來(lái)表達(dá),這導(dǎo)致了圖2中分布現(xiàn)象的出現(xiàn)。該特點(diǎn)提示我們,在隱式關(guān)系識(shí)別中,不同關(guān)系類(lèi)型具有不同的分布特性,適合不同的識(shí)別方法。考慮到隱式關(guān)系中“條件關(guān)系”和“時(shí)序關(guān)系”數(shù)量極少,我們主要識(shí)別“擴(kuò)展關(guān)系”、“因果關(guān)系”、“比較關(guān)系”、“并列關(guān)系”四類(lèi)。
圖2 顯式/隱式關(guān)系類(lèi)型分布圖
根據(jù)以上的分析,對(duì)隱式關(guān)系識(shí)別主要集中在“擴(kuò)展關(guān)系”、“因果關(guān)系”、“比較關(guān)系”、“并列關(guān)系”四類(lèi)。我們抽取了詞匯、句法、語(yǔ)義等多層次的特征,采用最大熵和SVM兩類(lèi)學(xué)習(xí)方法訓(xùn)練四元分類(lèi)模型,根據(jù)模型輸出判定隱式篇章句間關(guān)系類(lèi)型。
4.2.1 特征集合
核心動(dòng)詞:作為句子的主要成分,動(dòng)詞往往在語(yǔ)義表達(dá)中起很重要的作用,動(dòng)詞之間的關(guān)系常常反映了句子間的語(yǔ)義關(guān)系。如例7所示。
例7:塔利班10日晚襲擊了阿富汗北部一個(gè)村落,導(dǎo)致18人喪生。(因果關(guān)系)
上例中,“襲擊—喪生”之間存在因果聯(lián)系,同時(shí)也指示了兩個(gè)分句之間的因果關(guān)系。通過(guò)挖掘動(dòng)詞之間的搭配特性,有助于識(shí)別篇章句間關(guān)系類(lèi)型。這兩詞在依存句法分析結(jié)果中均作為“SBV(主謂關(guān)系)”的謂語(yǔ)動(dòng)詞出現(xiàn),因此我們利用依存句法分析找到前后分句中的“SBV”關(guān)系,抽取其中的謂語(yǔ)動(dòng)詞;同時(shí)為了避免稀疏,我們將兩個(gè)謂語(yǔ)動(dòng)詞在同義詞詞林中泛化至第三層,并將泛化結(jié)果配對(duì)構(gòu)成核心動(dòng)詞特征。
極性特征:不同的極性信息常常指示特定的篇章句間關(guān)系類(lèi)型,如例8所示。
例8:他很喜歡 蘋(píng)果公司的產(chǎn)品,遺憾的是價(jià)格太高了。(轉(zhuǎn)折關(guān)系)
例8中“喜歡”指示“Positive”的極性信息;“價(jià)格太高”指示“Negative”的極性信息,前后分句的極性信息相反,指示該實(shí)例屬于“轉(zhuǎn)折關(guān)系”?;谶@種現(xiàn)象,我們引入了篇章單元的極性特征,采用極性詞匹配的方法判定篇章單元極性,并作為特征使用。
依存句法特征:篇章單元的句法結(jié)構(gòu)中,最核心的關(guān)系包括“SBV(主謂)”和“VOB(動(dòng)賓)”兩類(lèi),它們描述了文本單元的主要信息。本文將兩個(gè)篇章單元中的“SBV”和“VOB”關(guān)系抽取出來(lái),并將對(duì)應(yīng)詞匯在同義詞詞林中泛化至第三層,作為特征使用。
Unigram(句首):在中文里,句首詞語(yǔ)通常起承上啟下的作用,對(duì)篇章句間關(guān)系類(lèi)型具有一定的指示作用。本文分別抽取兩個(gè)篇章單元中的第一個(gè)詞,作為識(shí)別特征使用。
Bigram(句首):中文里承上啟下的可以是單個(gè)詞,也可以是雙詞或短語(yǔ)。因此除Unigram特征之外,本文還抽取兩個(gè)篇章單元中的前兩個(gè)詞,作為識(shí)別特征使用。
我們?nèi)匀徊捎?.2.1中提到的中文篇章句間關(guān)系語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn),該語(yǔ)料庫(kù)包含1 096篇文本,手工標(biāo)注了顯式篇章句間關(guān)系和隱式篇章句間關(guān)系兩類(lèi)信息。我們將其中996篇作為訓(xùn)練語(yǔ)料,另外100篇作為測(cè)試語(yǔ)料,抽取前文提出的詞匯、句法、語(yǔ)義等特征,分別訓(xùn)練最大熵和SVM兩種模型進(jìn)行分類(lèi)。我們?cè)谥形钠戮溟g關(guān)系體系的四個(gè)頂層類(lèi)別進(jìn)行分類(lèi),包括:“擴(kuò)展關(guān)系”、“因果關(guān)系”、“比較關(guān)系”、“并列關(guān)系”,結(jié)果如表2所示。
分析表2,除“擴(kuò)展關(guān)系”外,其他類(lèi)型存在高準(zhǔn)確率、低召回率的特性。以最大熵模型下的“因果關(guān)系”為例,識(shí)別準(zhǔn)確率達(dá)到0.687 5,召回率卻只有0.080 3。而“擴(kuò)展關(guān)系”情況恰恰相反。這說(shuō)明數(shù)據(jù)不均衡性使得模型傾向于將測(cè)試實(shí)例分為“擴(kuò)展關(guān)系”,導(dǎo)致“擴(kuò)展關(guān)系”類(lèi)型召回率增加,準(zhǔn)確率下降;同時(shí)使得其他類(lèi)型召回率降低。系統(tǒng)的整體性能不佳,很大一個(gè)原因是由于低召回率導(dǎo)致的。這提示我們?cè)陬?lèi)別分布嚴(yán)重不均衡的情況下,傳統(tǒng)的統(tǒng)一識(shí)別思路存在很大的困難。
表2 隱式篇章句間關(guān)系識(shí)別結(jié)果
注意到SVM實(shí)驗(yàn)結(jié)果普遍高于最大熵,這主要是由于隱式關(guān)系在各類(lèi)型上分布不均衡,而SVM模型對(duì)邊界實(shí)例敏感,但對(duì)數(shù)據(jù)不平衡有較強(qiáng)的容忍度,因此取得了相對(duì)較好的效果。此外,對(duì)比前文的顯式關(guān)系識(shí)別結(jié)果,我們發(fā)現(xiàn)“并列關(guān)系”識(shí)別效果始終不佳,這在一定程度上反映該類(lèi)型的特征不明顯,區(qū)分度較弱;同時(shí)考慮圖1,主要的關(guān)聯(lián)詞歧義集中在“擴(kuò)展關(guān)系”和“并列關(guān)系”,說(shuō)明這兩個(gè)類(lèi)別特征接近。從語(yǔ)義體系定義上來(lái)說(shuō),是否有必要將“擴(kuò)展關(guān)系”和“并列關(guān)系”區(qū)分開(kāi)來(lái),是值得考慮的一個(gè)問(wèn)題。
本文首次探索面向中文的篇章句間關(guān)系識(shí)別任務(wù),嘗試了顯式篇章句間關(guān)系識(shí)別和隱式篇章句間關(guān)系識(shí)別兩方面研究。對(duì)于顯式篇章句間關(guān)系識(shí)別,我們首次提出基于篇章關(guān)聯(lián)詞的顯式關(guān)系識(shí)別方法,在關(guān)聯(lián)詞統(tǒng)計(jì)的基礎(chǔ)上識(shí)別關(guān)系類(lèi)型,取得了非常好的效果。對(duì)于隱式篇章句間關(guān)系識(shí)別,我們首先分析了隱式關(guān)系和顯式關(guān)系在類(lèi)型分布上的差別,指出隱式關(guān)系的特點(diǎn),并在識(shí)別過(guò)程中進(jìn)行了針對(duì)性處理;隨后我們提出詞匯、句法、語(yǔ)法等一系列特征,采用最大熵和SVM兩種方案嘗試了隱式篇章句間關(guān)系識(shí)別。本文的分析和實(shí)驗(yàn)結(jié)果為后續(xù)的工作提供了參考,推動(dòng)了中文篇章分析研究,尤其是篇章句間關(guān)系分析的進(jìn)一步發(fā)展。
[1]D Marcu.The rhetorical parsing of unrestricted texts:A surface-based approach[J].Computational Linguistics,2000,26(3):395-448.
[2]R Girju.Automatic detection of causal relations for question answering[C]//Proceedings of the ACL 2003 workshop on multilingual summarization and question answering.2003,12:76-83.
[3]S Somasundaran,J Wiebe,J Ruppenhofer.Discourselevel opinion interpretation[C]//Proceedings of Coling 2008.
[4]Zhou L,Li B,Gao W,et al.Unsupervised Discovery of Discourse Relations for Eliminating Intra-sentence Polarity Ambiguities[C]//Proceedings of the EMNLP 2011(Oral presentation),Edinburgh,Scotland,July:27-31.
[5]E Pitler,A Nenkova.Revisiting readability:A unified framework for predicting text quality[C]//Proceedings of EMNLP 2008:186-195.
[6]Ziheng Lin,Hwee Tou NG,Min-Yen Kan.Automatically Evaluating Text Coherence Using Discourse Relations.[C]//Proceedings of ACL-HLT,2011:997-1006.
[7]E Pitler,M Raghupathy,H Mehta,et al.Easily identifiable discourse relations[C]//Proceedings of COLING 08.
[8]Rashmi Prasad,Samar Husain,Dipti Sharma,et al.Towards an annotated corpus of discourse relations in Hindi[C]//Proceedings of the IJCNLP 2008,Hyderabad,India,2008.
[9]Deniz Zeyrek,Bonnie Webber.A Discourse Resource for Turkish:Annotating Discourse Connectives in theMETU Corpus[C]//Proceedings of IJCNLP-2008.Hyderabad,India,2008.
[10]A AlSaif,K Markert.The leeds arabic discourse treebank:Annotating discourse connectives for arabic[C]//Proceedings of LREC 2010.
[11]Xue Nianwen.Annotating discourse connectives in the Chinese Treebank[C]//Proceedings of the ACL Workshop in Frontiers in Annotation II.2005.
[12]Hen-Hsen Huang, Hsin-Hsi Chen.Chinese Discourse Relation Recognition[C]//Proceedings of IJCNLP 2011:1442-1446.
[13]Yuping Zhou,Nianwen Xue.PDTB-style Discourse Annotation of Chinese Text[C]//Proceedings of ACL 2012.
[14]J.R.Hobbs.On the coherence and structure of dis-course[M].CSLI,1985:37-85.
[15]Carlson L,Marcu D,Okurowski ME.Building a discourse-tagged corpus in the framework of rhetorical structure theory[M].Springer Netherlands,2003:85-112.
[16]R Prasad,N Dinesh,A Lee,et al.The Penn discourse treebank 2.0[C]//Proceedings of LREC 2008.
[17]William Mann,Sandra Thompson.Rhetorical structure theory:Toward a functional theory of text organization[J].Text,1988,8(3):243-281.
[18]A AlSaif,K Markert.The leeds arabic dis-course treebank:Annotating discourse connectives for arabic[C]//Proceedings of LREC 2010.
[19]張牧宇,秦兵,劉挺.中文篇章級(jí)句間語(yǔ)義關(guān)系體系及標(biāo)注[C]//Proceedings of CCIR 2012.
[20]Pitler E,Louis A,Nenkova A.Automatic Sense Predication for Implicit Discourse Relations in Text[C]//Proceedings of ACL-IJCNLP 2009.
[21]Ben Wellner,James Pustejovsky.Automati-cally identifying the arguments of discourse connec tives[C]//Proceedings of EMNLP-CoNLL 2007,Prague,Czech Republic.
[22]R Elwell,J Baldridge.Discourse connective argument identification with connective specific rankers[C]//Proceedings of the International Conference on Semantic Computing.2008.
[23]D Marcu,A Echihabi.An unsupervised approach to recognizing discourse relations[C]//Proceedings of ACL 2001:368-375.
[24]S Blair-Goldensohn,K R McKeown,O C Rambow.Building and Refining Rhetorical-Semantic Relation Models[C]//Proceedings of NAACL HLT,2007:428-435.
[25]Z Zhou,Y Xu,Z Niu,et al.Predicting discourse connectives for implicit discourse relation recognition[C]//Proceedings of Coling 2010:1507-1514.
[26]C Sporleder,A Lascarides.Using automatically labelled examples to classify rhetorical relations:an assessment[J].NLE 2008:14(3).
[27]Lin Z,Kan M,Ng H.Recognizing Implicit Discourse Relations in the Penn Discourse Tree-bank[C]//Proceedings of EMNLP 2009,Singapore,August.
[28]W Wang,J Su,C Tan.Kernel-based discourse relation recognition with temporal ordering information[C]//Proceedings of ACL 2010:710-719.
[29]A Louis,A Nenkova.Creating local coherence:An empirical assessment[C]//Proceedings of NAACL 2010.
[30]C Chiarcos.Towards the Unsupervised Acquisition of Discourse Relations[C]//Proceedings of ACL 2012.
[31]Eduard Hovy,Mitchell Marcus,Martha Palmer,et al.Ontonotes:The 90%solution[C]//Proceedings of the Human Language Technology Conference of the NAACL,Companion Volume:Short Papers,2012:57-60.
[32]Fleiss,J.L.Measuring nominal scale agreement among many raters[J].Psychological Bulletin,1971,76(5):378-382.