馮文賀 ,李艷翠,任 函,周國棟
(1. 廣東外語外貿(mào)大學(xué) 語言工程與計(jì)算實(shí)驗(yàn)室,廣東 廣州 510006;2. 河南科技學(xué)院 中文系,河南 新鄉(xiāng) 453003;3. 河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003;4. 蘇州大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 蘇州 215006)
漢英篇章結(jié)構(gòu)平行語料庫的對齊標(biāo)注評估
馮文賀1,2,李艷翠3,任 函1,周國棟4
(1. 廣東外語外貿(mào)大學(xué) 語言工程與計(jì)算實(shí)驗(yàn)室,廣東 廣州 510006;2. 河南科技學(xué)院 中文系,河南 新鄉(xiāng) 453003;3. 河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003;4. 蘇州大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 蘇州 215006)
漢英篇章結(jié)構(gòu)平行語料庫是為漢英翻譯文本標(biāo)注對齊篇章結(jié)構(gòu)信息的語料庫,對齊標(biāo)注是其核心工作,基本原則是“結(jié)構(gòu)對齊、關(guān)系對齊”。該文基于所開發(fā)的對齊標(biāo)注平臺,進(jìn)行人工對齊標(biāo)注實(shí)驗(yàn),提出切分對齊、結(jié)構(gòu)對齊、關(guān)系對齊、連接詞對齊、關(guān)系角色與中心對齊等對齊標(biāo)注任務(wù)的評估方法,并給出評估分析。實(shí)驗(yàn)表明,對齊標(biāo)注是構(gòu)建漢英篇章結(jié)構(gòu)平行語料庫的合理、有效工作方式。
篇章結(jié)構(gòu);平行語料庫;對齊標(biāo)注;結(jié)構(gòu)對齊;對齊評估
漢英篇章結(jié)構(gòu)平行語料庫(Chinese-English discourse treebank,CEDT)是為漢英翻譯文本標(biāo)注了對齊篇章結(jié)構(gòu)信息的語料庫[1]。例1給出了一個(gè)漢英篇章結(jié)構(gòu)對齊標(biāo)注文本。
例1現(xiàn)在,我代表國務(wù)院,A//@[條件] 向大會做政府工作報(bào)告,B@/// [目的]請予審議,C@/@[并列] 并請全國政協(xié)各位委員提出意見。D(《中國政府工作報(bào)告》,2014年)
On behalf of the State Council,1//@[條件] I now present to you the report on the work of the government2@/// [目的]for your deliberation,3@/@[并列] and I welcome comments on my report from the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC).4
(說明: 例1中上標(biāo)的字母和數(shù)字分別表明漢英小句,“/”多少表明篇章結(jié)構(gòu)層次高低,篇章關(guān)系用[ ]標(biāo)記,連接詞用下劃線標(biāo)記,@標(biāo)明每一個(gè)關(guān)系中心項(xiàng)所在位置)
可以看出,這種對齊既要求語言單位對齊,也要求語言層次結(jié)構(gòu)對齊。結(jié)構(gòu)對齊是CEDT的核心理念,標(biāo)注了結(jié)構(gòu)對齊信息的雙語篇章結(jié)構(gòu)語料庫可以為機(jī)器翻譯等提供較為直接的雙語篇章結(jié)構(gòu)轉(zhuǎn)換知識。
現(xiàn)有漢英平行語料庫[2-4],一般僅進(jìn)行段落、句子等語言單位對齊,并不提供雙語篇章結(jié)構(gòu)等結(jié)構(gòu)對齊信息。而現(xiàn)有篇章結(jié)構(gòu)語料庫主要面向單語(如英語[5-6]、漢語[7-9])。這些工作篇章結(jié)構(gòu)體系不盡一致,也沒有基于雙語文本,由此,難以提供直接的漢英篇章結(jié)構(gòu)轉(zhuǎn)換知識。至今雙語篇章結(jié)構(gòu)知識資源還相當(dāng)匱乏,這直接制約著篇章機(jī)器翻譯等研究的進(jìn)展。
結(jié)構(gòu)對齊是漢英篇章結(jié)構(gòu)平行語料庫的關(guān)鍵所在,然而由于雙語差異等,實(shí)踐漢英篇章結(jié)構(gòu)對齊標(biāo)注相當(dāng)有挑戰(zhàn)性。漢英篇章結(jié)構(gòu)對齊標(biāo)注的可行性如何,還有待驗(yàn)證評估。本文對漢英篇章結(jié)構(gòu)對齊標(biāo)注進(jìn)行實(shí)驗(yàn)評估研究。
在篇章結(jié)構(gòu)模式上,CEDT采用連接依存樹模式[10],這種模式融合修辭結(jié)構(gòu)[11]的層次化結(jié)構(gòu)和賓州篇章模式的連接詞論元結(jié)構(gòu)。連接依存樹的主要特征: 篇章結(jié)構(gòu)為層次化結(jié)構(gòu),其中葉子節(jié)點(diǎn)為子句,內(nèi)部節(jié)點(diǎn)為連接詞,連接詞通過其層級地位表示篇章層次結(jié)構(gòu),通過其語義表示篇章關(guān)系,連接詞所連接的篇章單位根據(jù)篇章整體意圖區(qū)分主次,又根據(jù)語義關(guān)系區(qū)分不同關(guān)系角色。該模式已成功應(yīng)用于漢語篇章結(jié)構(gòu)語料庫構(gòu)建與分析技術(shù)研究[10-12]。
不過,CEDT并非各自獨(dú)立對漢英平行語料標(biāo)注篇章結(jié)構(gòu)。結(jié)構(gòu)對齊是CEDT的核心思想,基本原則是“結(jié)構(gòu)對齊,關(guān)系對齊”,基礎(chǔ)假設(shè)在于具有對譯關(guān)系的篇章,其內(nèi)部的層次結(jié)構(gòu)和關(guān)系也一一對應(yīng)。本質(zhì)上篇章結(jié)構(gòu)是一種邏輯語義結(jié)構(gòu),對于一個(gè)優(yōu)質(zhì)翻譯文本,源語的因果、轉(zhuǎn)折等邏輯語義關(guān)系必然在目的語中反映,而且關(guān)系的結(jié)構(gòu)層級也會得到反映?!敖Y(jié)構(gòu)對齊、關(guān)系對齊”本質(zhì)上是邏輯語義結(jié)構(gòu)對齊。圖1是 例1的結(jié)構(gòu)對齊圖。
圖1 例1的漢英篇章結(jié)構(gòu)對齊標(biāo)注實(shí)例注: 箭頭指向關(guān)系中心項(xiàng),“*”表示無顯式連接詞
基于以上思想,形成漢英篇章結(jié)構(gòu)的對齊標(biāo)注任務(wù)及對齊標(biāo)注策略,主要包括:
(1) 切分對齊標(biāo)注: 雙語基本篇章單位(elementary discourse unit,簡稱EDU或子句)的對齊。如圖1所示,例1的漢英EDU對齊為: A-1、B-2、C-3、D-4。切分對齊標(biāo)注的基本策略以漢語子句分析[13]為指導(dǎo)標(biāo)準(zhǔn),對齊切分英語。
(2) 結(jié)構(gòu)對齊標(biāo)注: 雙語相應(yīng)切分的層次結(jié)構(gòu)對齊。如圖1所示,漢語層次結(jié)構(gòu)與相應(yīng)英語結(jié)構(gòu)一一對應(yīng),即((A (B C))D) —— ((1 (2 3))4)。層次結(jié)構(gòu)對齊標(biāo)注的基本策略以英語為指導(dǎo)標(biāo)準(zhǔn),對齊分析漢語。
(3) 關(guān)系對齊標(biāo)注: 對于雙語對齊的層次結(jié)構(gòu),其相應(yīng)篇章關(guān)系對齊。如圖1所示,漢語的層次結(jié)構(gòu)關(guān)系與英語層次結(jié)構(gòu)關(guān)系一一對應(yīng),即(并列(條件A (目的B C))D) —— (并列(條件1 (目的2 3))4)。篇章關(guān)系對齊標(biāo)注的基本策略以英語為指導(dǎo)標(biāo)準(zhǔn),對齊標(biāo)注漢語。
(4) 連接詞對齊標(biāo)注: 對于雙語對齊的層次結(jié)構(gòu),其相應(yīng)的篇章連接詞對齊。如圖1所示,漢語的連接詞及其管轄與英語的層次結(jié)構(gòu)及其管轄一一對應(yīng),即(并(*A (*B C))D) —— (and(*1 (for2 3))4)。連接詞對齊標(biāo)注的基本策略以雙語對齊的結(jié)構(gòu)層次為基礎(chǔ),標(biāo)注雙語實(shí)際相應(yīng)的連接詞。
(5) 關(guān)系角色對齊標(biāo)注: 對于雙語對齊的層次結(jié)構(gòu)及關(guān)系,其相應(yīng)的篇章關(guān)系角色項(xiàng)對齊。例1各關(guān)系的角色項(xiàng)對應(yīng)的線性順序位置正好一致,而在另外情況下可能不一致,如因果關(guān)系,漢語可能為前因后果,相應(yīng)英語卻前果后因。關(guān)系角色對齊標(biāo)注的基本策略以漢語的關(guān)系角色位置分布常規(guī)為指導(dǎo)標(biāo)準(zhǔn),標(biāo)注雙語具體關(guān)系角色是否符合這一常規(guī)。
(6) 中心對齊標(biāo)注: 對于雙語對齊的層次結(jié)構(gòu)及關(guān)系,其中心項(xiàng)對齊。如圖1所示,目的關(guān)系中,雙語的“行為”均為中心項(xiàng),而“目的”均為非中心項(xiàng)。中心對齊標(biāo)注的基本策略以英語主從句等結(jié)構(gòu)形式區(qū)分為指導(dǎo),對齊標(biāo)注具體關(guān)系的中心。
以上對齊標(biāo)注策略中,子句對齊分析的漢語(源語)優(yōu)先策略保證對齊分析始終在篇章范疇內(nèi),又反映篇章單位對應(yīng)句法結(jié)構(gòu)等情況;結(jié)構(gòu)與關(guān)系對齊分析的英語(目的語)優(yōu)先策略保證對齊結(jié)構(gòu)是翻譯者構(gòu)造的翻譯結(jié)構(gòu);連接詞、關(guān)系角色及中心的對齊標(biāo)注策略,保證基于結(jié)構(gòu)對齊準(zhǔn)確,反映雙語的篇章語法形式差異。
CEDT的價(jià)值在于: 第一,不同于單語篇章結(jié)構(gòu)分析,這種雙語篇章結(jié)構(gòu)對齊分析,是一種反映了翻譯關(guān)系的篇章結(jié)構(gòu)分析。對比例2的A、B及例1,其對于相同漢語語段,不同翻譯者有不同的結(jié)構(gòu)理解,由此有不同的翻譯結(jié)構(gòu)。本質(zhì)上CEDT構(gòu)造的對齊結(jié)構(gòu)反映的是翻譯者的理解結(jié)構(gòu)(源語)與翻譯結(jié)構(gòu)(雙語)。由此,CEDT對于翻譯研究有更直接的價(jià)值。第二,不同于一般平行語料庫,CEDT既有單位對齊又有結(jié)構(gòu)對齊,并且基于結(jié)構(gòu)對齊,標(biāo)注了雙語的連接詞、中心等重要語篇屬性。由此,CEDT可以提供更豐富的雙語篇章結(jié)構(gòu)翻譯信息。具體而言,CEDT在篇章單位(含其主從地位)、篇章結(jié)構(gòu)與關(guān)系(含關(guān)系角色順序)、連接詞等方面的漢英篇章結(jié)構(gòu)翻譯等研究中起基礎(chǔ)性資源作用。
例2(A) 現(xiàn)在,我代表國務(wù)院,//@[條件] 向大會作政府工作報(bào)告,@///[目的]請各位代表審議,@/@ [并列]并請全國政協(xié)委員提出意見。(中國政府工作報(bào)告,2011)
On behalf of the State Council,1//@[條件] I now present to you my report on the work of the government2@///[目的]for your deliberation and approval.3@/@ [并列]I also invite the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC) to submit comments and suggestions.4(2011譯)
(B) 現(xiàn)在,我代表國務(wù)院,/@ [條件]向大會報(bào)告政府工作,//@[目的] 請各位代表審議,@///@[并列] 并請全國政協(xié)委員提出意見。(中國政府工作報(bào)告,2012)
On behalf of the State Council,1/@ [條件]I now present to you my report on the work of the government2//@[目的] for your deliberation and approval3@///@[并列] and for comments and suggestions from the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC).4(2012譯)
基于對齊標(biāo)注任務(wù)和策略,開發(fā)了對齊標(biāo)注平臺[1],以方便大規(guī)模語料庫的創(chuàng)建與應(yīng)用。本文在標(biāo)注平臺上進(jìn)行人工對齊標(biāo)注實(shí)驗(yàn),以考察這種對齊標(biāo)注策略的可行性。
3.1 語料選擇
標(biāo)注實(shí)驗(yàn)語料為2014年《中國政府工作報(bào)告》(漢英雙語)的前半部分,共16 000多個(gè)字/詞。對于該語料,標(biāo)注者A標(biāo)注有效標(biāo)注段落156個(gè),共1 136個(gè)子句,816個(gè)關(guān)系;標(biāo)注者B標(biāo)注有效標(biāo)注段落156個(gè),共1 163個(gè)子句,819個(gè)關(guān)系。
語料選擇的主要考慮: 第一,政府公文及其英譯嚴(yán)謹(jǐn)規(guī)范,可以較好實(shí)現(xiàn)篇章結(jié)構(gòu)的對齊標(biāo)注;第二,語段的長度和深度具有代表性,包含7個(gè)左右子句,結(jié)構(gòu)深度在3~4層,比較符合一般的段落長度和深度。
3.2 標(biāo)注訓(xùn)練
兩名中文系大四學(xué)生在項(xiàng)目導(dǎo)師指導(dǎo)下進(jìn)行標(biāo)注訓(xùn)練,隨機(jī)從《中國政府工作報(bào)告》選擇十個(gè)平行段落標(biāo)注訓(xùn)練語料。標(biāo)注訓(xùn)練主要由三個(gè)階段構(gòu)成: (1)導(dǎo)師示范標(biāo)注兩個(gè)段落,講解主要標(biāo)注策略及標(biāo)注規(guī)范與標(biāo)注平臺操作;(2)學(xué)生各自完成剩余八個(gè)段落的標(biāo)注;(3)兩名學(xué)生各自與導(dǎo)師校對自行標(biāo)注的八個(gè)段落,校對分三次完成,主要討論存在問題及校正與標(biāo)注策略方法等。在此基礎(chǔ)上,兩名學(xué)生各自進(jìn)行實(shí)驗(yàn)語料標(biāo)注。
3.3 對齊標(biāo)注實(shí)現(xiàn)
對齊標(biāo)注工作在對齊標(biāo)注平臺上實(shí)現(xiàn),功能包括切分對齊標(biāo)注、層次結(jié)構(gòu)對齊標(biāo)注、連接詞對齊標(biāo)注、關(guān)系對齊標(biāo)注、角色分布對齊標(biāo)注、中心對齊標(biāo)注。對齊標(biāo)注主要操作規(guī)范: (1)從上到下,從左至右,雙語步步對齊分析;(2)雙語都是句群結(jié)構(gòu),以漢語分析對齊到英語分析,主要方便母語為漢語的標(biāo)注者的理解分析,而雙語句群結(jié)構(gòu)一般完全對應(yīng);(3)復(fù)句結(jié)構(gòu)的對齊標(biāo)注以英語分析為指導(dǎo)。主要考慮英語有較好形式標(biāo)志,也從根本上反映翻譯結(jié)構(gòu)。
3.4 標(biāo)注結(jié)果
標(biāo)注結(jié)果保存為XML格式,雙語標(biāo)注結(jié)果各自獨(dú)立保存。漢英雙語的對齊關(guān)系可通過段落號(P ID)和段內(nèi)關(guān)系號(R ID)體現(xiàn)。例1的部分對齊標(biāo)注保存結(jié)果見圖2。
中文標(biāo)注結(jié)果(限于篇幅僅給出第一層的關(guān)系,英文同):
標(biāo)注一致性(consistency)是衡量語料庫標(biāo)注質(zhì)量的重要標(biāo)準(zhǔn),也是衡量標(biāo)注模式可行性的關(guān)鍵標(biāo)準(zhǔn)。不同理論下的篇章結(jié)構(gòu)語料庫一致性評估內(nèi)容有所差異,如針對修辭結(jié)構(gòu)和賓州篇章模式的評估[5,9,13]。這些語料庫均為單語,還不涉及雙語結(jié)構(gòu)對齊標(biāo)注的評估。對CEDT的對齊標(biāo)注評估,既要考慮篇章結(jié)構(gòu)的獨(dú)特性,又要考慮雙語結(jié)構(gòu)對齊的獨(dú)特性。
對兩名標(biāo)注者A和B的共同標(biāo)注語料進(jìn)行標(biāo)注一致性分析。根據(jù)CEDT的對齊標(biāo)注任務(wù),對雙語的切分、結(jié)構(gòu)、關(guān)系、連接詞、關(guān)系角色、中心等對齊標(biāo)注項(xiàng)目進(jìn)行評估。其中結(jié)構(gòu)對齊是基礎(chǔ)評估,關(guān)系、連接詞、關(guān)系角色、中心等的對齊評估在結(jié)構(gòu)對齊基礎(chǔ)上進(jìn)行評估。在每一個(gè)評估項(xiàng)目上,均考慮兩名標(biāo)注者的漢語標(biāo)注一致性、英語標(biāo)注一致性、漢英混合標(biāo)注一致性、漢英對齊標(biāo)注一致性四個(gè)方面:
(1) 漢語標(biāo)注一致性: 計(jì)算兩名標(biāo)注者對相同漢語文本標(biāo)注的一致性。
(2) 英語標(biāo)注一致性: 計(jì)算兩名標(biāo)注者對相同英語文本標(biāo)注的一致性。
(3) 漢英混合標(biāo)注一致性: 計(jì)算兩名標(biāo)注者對所有漢語、英語文本標(biāo)注的一致性。
(4) 漢英對齊標(biāo)注一致性: 計(jì)算兩名標(biāo)注者對相同文本的漢語標(biāo)注一致且相應(yīng)英語對齊文本標(biāo)注也一致的一致性。
一致性評估主要計(jì)算標(biāo)注一致率,即考察兩名標(biāo)注者標(biāo)注的一致內(nèi)容與所有標(biāo)注內(nèi)容之比,一致率=A∩B/ AUB。對于不同的對齊標(biāo)注任務(wù),其計(jì)算內(nèi)容根據(jù)具體情況有所不同。
另外,也對標(biāo)注效率進(jìn)行了評估。
4.1 切分對齊標(biāo)注
4.1.1 評估方法
切分對齊即基本篇章單位(子句)對齊。評估方法有二。
切分對齊I: 計(jì)算所有可能切分的標(biāo)注一致性。漢語子句的切分位置均有標(biāo)點(diǎn)標(biāo)記,對可能作為切分標(biāo)記的標(biāo)點(diǎn)進(jìn)行切分與否的一致性計(jì)算。英語的子句切分并不一定以標(biāo)點(diǎn)作為標(biāo)記切分,形式上空格(實(shí)質(zhì)是任意單詞或標(biāo)點(diǎn))均可做切分標(biāo)記,對任一空格可否作為切分標(biāo)記進(jìn)行一致性計(jì)算。
切分對齊II: 計(jì)算不同標(biāo)注者所有切分(AUB)中共同切分(A∩B)的一致性。對于句子位置SentencePosition="X1…X2|Y1…Y2",計(jì)算A、B標(biāo)注切分位置相同的情況。
這里方法I考慮了所有可能的切分結(jié)果,可以反映切分的分析難度,并且該方法和自動切分過程一致,便于和自動切分結(jié)果對比。而方法II根據(jù)標(biāo)注者的具體標(biāo)注結(jié)果進(jìn)行計(jì)算,可以準(zhǔn)確反映標(biāo)注者間的一致程度,并可統(tǒng)一漢英語的切分評估標(biāo)準(zhǔn),便于跨語言比較。
4.1.2 結(jié)果與分析
表1顯示,切分對齊表現(xiàn)出較好的一致性,“漢語一致”可達(dá)0.971(共有需要判斷的標(biāo)點(diǎn)位置700個(gè),A、B均判斷切分395個(gè),均不切分285個(gè),A切分B不切分7個(gè),A不切分B切分13個(gè))/0.968(A、B共切分408個(gè)標(biāo)點(diǎn),A、B均切分395個(gè)),“英語一致”可達(dá)0.992(英文共有需要判斷的位置6 974個(gè),A、B均切分514個(gè),A、B均不切分6 403個(gè),A切分B不切分 22個(gè),A不切分B切分35個(gè))/0.936(A、B共切分位置549個(gè),A、B均切分514個(gè)),最嚴(yán)格情況下(“漢英對齊一致”)“切分對齊II”也可達(dá)到0.909的一致率。然而,“漢英對齊一致”還有待進(jìn)一步提高,相比“漢語一致”(0.968)還有一定提高空間。漢英對齊一致切分制約著各項(xiàng)對齊工作的性能,其進(jìn)一步提高具有重要性和必要性。
表1 漢英篇章結(jié)構(gòu)的切分對齊標(biāo)注一致率
值得注意,在“切分對齊I”下,“英語一致”好于“漢語一致”(0.992/0.943>0.971/0.941),而在“切分對齊II”下,“漢語一致”好于“英語一致”(0.968>0.936),這是因?yàn)樵贗中漢英一致性計(jì)算的基數(shù)不一致,漢語僅對有限標(biāo)點(diǎn)符號計(jì)算,而英語卻對任一空格計(jì)算,由于空格不切分的情況較多且容易判斷,這就使得英語的切分一致性表現(xiàn)得好于漢語。
然而實(shí)際是漢語切分好于英語。這一結(jié)果可以在“切分對齊II”下得到顯示(0.968>0.936),此時(shí)雙語均采用同樣的對齊評估標(biāo)準(zhǔn)。漢語切分對齊好于英語,是因?yàn)闈h語切分有標(biāo)點(diǎn)做標(biāo)記,相對容易;而英語切分并不以標(biāo)點(diǎn)為標(biāo)記,具體切分位置容易判斷錯(cuò)誤。所以,相比“切分對齊I”,“切分對齊II”可以更準(zhǔn)確地反映雙語對齊效果差異。
可從兩方面改善切分對齊標(biāo)注: 第一,注意英語切分對齊標(biāo)注的位置精準(zhǔn)性。第二,進(jìn)一步在漢語指導(dǎo)下,實(shí)現(xiàn)英語切分對齊,并從根本上提高漢英切分對齊一致的性能。
4.2 結(jié)構(gòu)對齊標(biāo)注
4.2.1 評估方法
對于結(jié)構(gòu)對齊,采用三種方法進(jìn)行評估。
篇章單位對齊: 計(jì)算不同標(biāo)注者所標(biāo)注語料中所有篇章單位的一致性。即對于一個(gè)標(biāo)注切分SentencePosition=“X1…X2|Y1…Y2”,計(jì)算不同標(biāo)注者所有標(biāo)注切分中,任意一個(gè)切分塊“X1…X2”或“Y1…Y2”之間的一致性。這種算法的依據(jù)在于,不同層級上的篇章單位首尾跨度不同,所以篇章單位的跨度一致性一定程度上可以反映篇章結(jié)構(gòu)對齊。
論元部分對齊: 對于一個(gè)相同的切分位置,計(jì)算不同標(biāo)注者對于該切分的左論元或右論元的一致性。即對于一個(gè)標(biāo)注切分SentencePosition=“X1…X2|Y1…Y2”,計(jì)算A=“X1…X2”=B,或A=“Y1…Y2”=B。與篇章單位對齊不同之處在于,這種對齊基于一個(gè)共同切分位置(X2|Y1),比對對象要求同時(shí)是該切分的左論元(“X1…X2”)或右論元(“Y1…Y2”)。相對于篇章單位對齊,論元部分對齊要求嚴(yán)格一些。
論元完全對齊: 對于一個(gè)相同的切分位置,計(jì)算不同標(biāo)注者對于該切分的左論元和右論元的一致性。相比論元部分對齊,這種對齊要求同一個(gè)切分位置(X2|Y1)的左論元(X1…X2)和右論元(Y1…Y2)完全一致。對于一個(gè)切分或一個(gè)關(guān)系來說,這種對齊是完全對齊。
4.2.2 結(jié)果與分析
表2顯示,(1)“篇章單位對齊”一致率整體基本達(dá)到0.80以上,由于篇章單位有大有小,處于不同層級,這一效果顯示漢英篇章結(jié)構(gòu)對齊呈現(xiàn)良好一致性。
表2 漢英篇章結(jié)構(gòu)的層次結(jié)構(gòu)對齊標(biāo)注一致率
(2) 在切分位置對齊的情況下,論元部分對齊達(dá)到更好效果,整體平均約0.90(漢語共標(biāo)注關(guān)系594個(gè),論元部分對齊551個(gè);英語標(biāo)注關(guān)系605個(gè),論元部分對齊533個(gè)),說明切分位置的準(zhǔn)確把握,對于結(jié)構(gòu)對齊是非常有幫助的。
(3) 論元完全對齊的效果基本可以,一致率整體為0.630~0.709(漢語標(biāo)注關(guān)系594個(gè),論元完全對齊421個(gè);英語標(biāo)注關(guān)系605個(gè),論元完全對齊381個(gè)),但還不盡如人意。說明對每個(gè)關(guān)系的管轄范圍還不夠精準(zhǔn)。其原因與結(jié)構(gòu)理解歧義等有關(guān)。如例3的A、B,切分雖然完全一致,但由于英語的狀語管轄(On behalf of the State Council)歧義,A、B的論元完全對齊毫無一致。關(guān)于結(jié)構(gòu)對齊困難見文獻(xiàn)[14]。
(4) 各種對齊的“英語一致”整體低于“漢語一致”,原因在于漢語切分有標(biāo)點(diǎn)符號做標(biāo)記,較易統(tǒng)一,而英語不以標(biāo)點(diǎn)符號作標(biāo)記,準(zhǔn)確切分位置難于確定,導(dǎo)致錯(cuò)誤和不一致。
結(jié)構(gòu)對齊制約進(jìn)一步的關(guān)系、連接詞、中心等對齊標(biāo)注,還需提高結(jié)構(gòu)對齊,特別是論元完全對齊的水平。可從兩方面改進(jìn)結(jié)構(gòu)對齊標(biāo)注: 第一,針對英文,提高精確結(jié)構(gòu)切分水平;第二,進(jìn)一步提高切分點(diǎn)的對齊水平,從而以對齊切分點(diǎn)為基礎(chǔ)明確論元管轄。
以上評估沒有考慮句群結(jié)構(gòu)和復(fù)句結(jié)構(gòu)的不同,一般來說復(fù)句結(jié)構(gòu)對齊標(biāo)注難度大,但對于翻譯的指導(dǎo)意義更大。進(jìn)一步的評估研究中,將考慮對句群和復(fù)句結(jié)構(gòu)賦予不同權(quán)重。
例3(A) 現(xiàn)在,我代表國務(wù)院,///向大會做政府工作報(bào)告,//請予審議,/并請全國政協(xié)各位委員提出意見。(《中國政府工作報(bào)告》,2014年)
On behalf of the State Council,/// I now present to you the report on the work of the government//for your deliberation,/and I welcome comments on my report from the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC).(2014譯)
(B)現(xiàn)在,我代表國務(wù)院,/向大會作政府工作報(bào)告,///請予審議,//并請全國政協(xié)各位委員提出意見。
On behalf of the State Council,/I now present to you the report on the work of the government///for your deliberation,//and I welcome comments on my report from the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC).
4.3 關(guān)系對齊標(biāo)注
4.3.1 評估方法
在結(jié)構(gòu)對齊(論元完全對齊)基礎(chǔ)上,計(jì)算不同標(biāo)注者關(guān)系類型*共設(shè)置并列、順承、選擇、遞進(jìn)、對比、因果、假設(shè)、條件、目的、推斷、背景、轉(zhuǎn)折、讓步、解說、總分、例證、評價(jià)等共17個(gè)類,本語料涉及較多的類別主要有: 并列、解說、目的、因果、條件、評價(jià)等。的標(biāo)注一致性。
4.3.2 結(jié)果與分析
表3顯示,關(guān)系對齊標(biāo)注整體達(dá)到較高的一致率,其中最嚴(yán)格的“漢英對齊一致”可達(dá)0.835(A、B標(biāo)注漢英結(jié)構(gòu)位置都相同的有802個(gè),其中關(guān)系相同的有670個(gè))。同時(shí)顯示,“漢語一致”和“英語一致”的對齊情況接近(0.872|0.860)。英語關(guān)系形式(連接詞)標(biāo)記多,易于判斷,對齊策略采用以英語為指導(dǎo)標(biāo)準(zhǔn)的關(guān)系對齊,評估顯示這種策略非常有效。
表3 漢英篇章結(jié)構(gòu)的關(guān)系對齊標(biāo)注一致率
關(guān)系對齊還有一定提高空間,對齊結(jié)果顯示,“英語一致”還略遜于“漢語一致”(0.860<0.872),說明英語的關(guān)系判定還有一些難點(diǎn)。根據(jù)分析[14],其難點(diǎn)在無關(guān)系詞、關(guān)系詞一詞多義、主從復(fù)句和句內(nèi)關(guān)系等情況。
4.4 連接詞對齊標(biāo)注
4.4.1 評估方法
連接詞對齊標(biāo)注評估在結(jié)構(gòu)對齊(論元完全對齊)的基礎(chǔ)上進(jìn)行。從以下三個(gè)方面評估。
(1) 顯隱對齊: 同一結(jié)構(gòu)下,對連接詞顯式、隱式的標(biāo)注一致性計(jì)算。
(2) 顯式連接詞對齊: 同一結(jié)構(gòu)下,對顯式連接詞的具體取值一致性進(jìn)行計(jì)算。
(3) 全部連接詞對齊: 對于同一結(jié)構(gòu)關(guān)系,對連接詞的具體取值進(jìn)行比對計(jì)算。
4.4.2 結(jié)果與分析
表4顯示,顯隱對齊標(biāo)注一致率非常高。其中,漢英混合一致率達(dá)0.974(A、B標(biāo)注結(jié)構(gòu)位置相同的有802個(gè),顯隱關(guān)系相同的有781個(gè))。
表4 漢英篇章結(jié)構(gòu)的連接詞對齊標(biāo)注一致率
表4又顯示,對于連接詞對齊標(biāo)注,“英語一致”明顯高于“漢語一致”,特別表現(xiàn)在“連接詞對齊(顯式)”0.950 > 0.400(英語結(jié)構(gòu)位置相同的顯式連接詞位置201個(gè),其中連接詞相同的有191個(gè);漢語結(jié)構(gòu)位置相同的顯式連接詞位置有32個(gè),其中連接詞相同的有13個(gè))和“連接詞對齊(全部)”上0.690>0.278(英語結(jié)構(gòu)位置相同的連接詞位置381個(gè),其中連接詞相同的有263個(gè);漢語結(jié)構(gòu)位置相同的連接詞位置421個(gè),其中連接詞相同的有117個(gè))。這一結(jié)果不難理解,英語顯式連接詞多,且對于連接詞有比較共性的認(rèn)識;漢語顯式連接詞少,且對于連接詞的認(rèn)識分歧較大。這也證明在關(guān)系對齊標(biāo)注時(shí)以英語為指導(dǎo)性標(biāo)準(zhǔn)的可靠性。
結(jié)果又顯示,“連接詞對齊(全部)”低于“連接詞對齊(顯式)”,這是因?yàn)槲覀優(yōu)殡[式連接詞添加了可以表達(dá)該結(jié)構(gòu)關(guān)系的連接詞,由于表達(dá)同一結(jié)構(gòu)關(guān)系的連接詞可能有多個(gè),比如表達(dá)“并列關(guān)系”的有“并且、同時(shí)”等,這就使得對齊較難統(tǒng)一。
可從兩方面改進(jìn)連接詞對齊標(biāo)注: 第一,進(jìn)一步明確漢語連接詞的定義,從而增強(qiáng)漢語顯式連接詞的對齊標(biāo)注效果;第二,規(guī)范隱式連接詞的添加,減少隱式連接詞添加的分歧。
4.5 關(guān)系角色與中心的對齊標(biāo)注
4.5.1 評估方法
相對于一定的結(jié)構(gòu)關(guān)系,對關(guān)系角色和中心的對齊標(biāo)注的評估在結(jié)構(gòu)對齊(論元完全對齊)的基礎(chǔ)上進(jìn)行。
關(guān)系角色對齊: 對于相同的結(jié)構(gòu),計(jì)算不同標(biāo)注者對于其關(guān)系角色的分布取值(“符合常規(guī)”和“不合常規(guī)”)的標(biāo)注一致性。
關(guān)系中心對齊: 對于相同的結(jié)構(gòu),計(jì)算不同標(biāo)注者對于其關(guān)系中心分布位置取值[(1)中心在前;(2)中心在后;(3)前后均為中心]的標(biāo)注一致性。
4.5.2 結(jié)果與分析
表5中,關(guān)系角色對齊“漢英混合一致”、“漢語一致”和“英語一致”的一致率分別為0.961、0.957和0.966,其中,A、B標(biāo)注漢英結(jié)構(gòu)位置相同的有802個(gè),角色相同的有771個(gè);漢語結(jié)構(gòu)位置相同的有421個(gè),角色相同的有403個(gè);英語結(jié)構(gòu)位置相同的有381個(gè),角色相同的有368個(gè)。
表5 漢英篇章結(jié)構(gòu)的關(guān)系角色與中心對齊標(biāo)注一致率
關(guān)系中心對齊“漢英混合一致”“漢語一致”“英語一致”均接近85%。其中,漢英結(jié)構(gòu)位置相同的有802個(gè),中心相同的有676個(gè);漢語結(jié)構(gòu)位置相同的有421個(gè),中心相同的有355個(gè);英語結(jié)構(gòu)位置相同的有381個(gè),中心相同的有321個(gè)。
表5顯示,漢語和英語的“關(guān)系角色對齊”“關(guān)系中心對齊”標(biāo)注一致率整體較高。同時(shí)呈現(xiàn)兩個(gè)特點(diǎn): 第一,兩種對齊水平基本相同,表現(xiàn)出語言平衡性;第二,兩種對齊一致率有差異,“關(guān)系角色對齊”高于“關(guān)系中心對齊”。前者的原因在于,這兩項(xiàng)對齊工作均采用同步對齊標(biāo)注的策略,即對于同一個(gè)關(guān)系項(xiàng)一般總是同時(shí)應(yīng)用于漢英雙語標(biāo)注,所以表現(xiàn)出雙語對齊標(biāo)注一致的平衡性。后者的原因在于,兩項(xiàng)對齊工作采用不同的對齊標(biāo)注指導(dǎo)標(biāo)準(zhǔn),“關(guān)系角色對齊”以漢語角色分布常規(guī)為標(biāo)準(zhǔn),標(biāo)準(zhǔn)易于把握;而“關(guān)系中心對齊”主要以英語的主從句等形式為指導(dǎo)標(biāo)準(zhǔn),對于沒有顯性形式的情況則難以把握。
改善中心對齊的關(guān)鍵是,對于英語沒有形式標(biāo)記的情況,提出明確的中心判定標(biāo)準(zhǔn)。
4.6 標(biāo)注效率
對標(biāo)注效率進(jìn)行評估。根據(jù)標(biāo)注語料的時(shí)間屬性取值,計(jì)算每一個(gè)關(guān)系標(biāo)注的耗費(fèi)時(shí)間(秒/關(guān)系)。每一個(gè)關(guān)系標(biāo)注,包含切分、結(jié)構(gòu)、關(guān)系、連接詞、角色、中心等全部標(biāo)注。表6中,“漢語關(guān)系”計(jì)算只考慮漢語 關(guān)系標(biāo)注所用時(shí)間; “英語關(guān)系”計(jì)算只考慮英語關(guān)系標(biāo)注所用時(shí)間; “漢英混合關(guān)系”對全部漢英關(guān)系標(biāo)注所用時(shí)間計(jì)算; “漢英對齊關(guān)系”
表6 漢英篇章結(jié)構(gòu)標(biāo)注耗時(shí)分析(秒/關(guān)系)
計(jì)算對同一個(gè)關(guān)系,標(biāo)注完漢語和所對齊的英語所用的時(shí)間。
表6顯示,篇章結(jié)構(gòu)關(guān)系標(biāo)注的效率較高,一個(gè)“漢英混合關(guān)系”的標(biāo)注平均時(shí)間為30秒,一對“漢英對齊關(guān)系”標(biāo)注平均耗時(shí)60秒。相比漢語,英語的標(biāo)注效率更高(23<37;137<361;4<8)。這一方面與英語有較多形式標(biāo)記容易判斷有關(guān);另一方面可能也與理解和標(biāo)注策略有關(guān),標(biāo)注者的母語是漢語,總是傾向于從漢語理解入手,初步理解后才進(jìn)行英語分析及對齊標(biāo)注。
漢英篇章結(jié)構(gòu)平行語料庫對基于篇章結(jié)構(gòu)的機(jī)器翻譯研究等起基礎(chǔ)性作用,其研制具有重要理論和實(shí)踐意義。結(jié)構(gòu)對齊是漢英篇章結(jié)構(gòu)平行語料庫的核心工作機(jī)制,本文在“結(jié)構(gòu)對齊、關(guān)系對齊”的標(biāo)注策略指導(dǎo)下,進(jìn)行了漢英篇章結(jié)構(gòu)的對齊標(biāo)注實(shí)驗(yàn),提出了對齊標(biāo)注的評估方法,并進(jìn)行了實(shí)驗(yàn)結(jié)果分析。實(shí)驗(yàn)結(jié)果表明,漢英篇章結(jié)構(gòu)的對齊標(biāo)注在各個(gè)標(biāo)注任務(wù)層面均取得較高一致率,具有可行性和可信性,也取得較高的標(biāo)注效率。
下一步將對本研究所發(fā)現(xiàn)的一些對齊標(biāo)注問題進(jìn)行針對性研究,以改善對齊標(biāo)注效果,還將改良評估方法,從而為最終提供良好質(zhì)量的漢英篇章結(jié)構(gòu)平行語料庫打下基礎(chǔ)。
[1] 馮文賀.漢英篇章結(jié)構(gòu)平行語料庫的對齊標(biāo)注研究[J].中文信息學(xué)報(bào),2013(6): 158-165.
[2] 柏曉靜, 常寶寶, 詹衛(wèi)東, 等. 構(gòu)建大規(guī)模的漢英雙語平行語料庫[C]. 黃河燕. 機(jī)器翻譯研究進(jìn)展:2002年全國機(jī)器翻譯研討會論文集.北京:電子工業(yè)出版社,2002.
[3] 王克非. 雙語對應(yīng)語料庫: 研制與應(yīng)用[M].北京: 外語教學(xué)與研究出版社,2004.
[4] 劉澤權(quán),田璐,劉超朋.《紅樓夢》中英文平行語料庫的創(chuàng)建[J]. 當(dāng)代語言學(xué), 2008, 10(4): 329-339.
[5] Carlson L, Marcu D, Okurowski M E. Building a discourse-tagged corpus in the framework of rhetorical structure theory [M]. Jan van Kuppevelt, Ronnie W.Smith (eds.),Current and New Directions in Discourse and Dialogue, Kluwer Academic Publishers,2003: 85-112.
[6] Prasad R, Dinesh N, Lee A,et al. The Penn Discourse Treebank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and Evaluation,2008.
[7] 樂明. 漢語篇章修辭結(jié)構(gòu)的標(biāo)注研究[J]. 中文信息學(xué)報(bào), 2008, 22(4): 19-23.
[8] ZhouY, Xue N. PDTB-style Discourse Annotation of Chinese Text[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, 2012: 69-77.
[9] 張牧宇,宋原,秦兵,等.中文篇章級句間語義關(guān)系體系及標(biāo)注[J].中文信息學(xué)報(bào),2014,(2): 28-36.
[10] Li Y, Feng W, Sun J, et al. Building Chinese discourse corpus with connective-driven dependency tree structure[C]//Proceedings of EMNLP 2014, 2014: 2105-2114.
[11] Mann W C, Thompson S A. Rhetorical structure theory: toward a functional theory of text organization[J]. Text, 1988, 8(3): 243-281.
[12] 李艷翠,馮文賀,周固棟,等. 基于逗號的漢語子句識別研究[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013,49(1): 7-14.
[13] Marcu D,Amorrortu E,Romera M.Experiments in constructing a corpus of discourse trees[C]//Proceedings of the ACL Workshop on Standards and Tools for Discourse Tagging,1999: 48-57.
[14] 馮文賀,李艷翠,周國棟.漢英篇章結(jié)構(gòu)平行語料庫對齊標(biāo)注的難點(diǎn)與對策[C]. 第十屆全國機(jī)器翻譯研討會,2014: 25-35.
EvaluationforAlignmentAnnotationofChinese-EnglishDiscourseTreebank
FENG Wenhe1,2,LI Yancui3,REN Han1, ZHOU Guodong4
(1. Laboratory of Language engineering and computing, Guangdong University of Foreign Studies, Guangzhou, Guangdong 510006,China; 2. Department of Chinese Language and Literature,Henan Institute of Science and Technology, Xinxiang ,Henan 453003, China; 3. School of Information Engineering, Henan Institute of Science and Technology, Xinxiang,Henan 453003,China; 4. Department of Computer Science and Technology, Soochow University, Suzhou,Jiangsu 215006,China)
Chinese-English discourse treebank (CEDT) is a parallel corpus annotated with alignment discourse structure information for Chinese and English. Its core task is alignment annotation supervised by the principle of structure and relation alignment. With the corresponding annotation platform, we manually annotate the corpus, propose the evaluation methods for the alignment annotation and give the evaluation analysis, including segmentation, structure, relation, connective, relation role and center alignment. Experimental results show that the alignment annotation strategy is a feasible and efficient method of building CEDT.
discourse structure;parallel corpus; alignment annotation; structural alignment;alignment evaluation
馮文賀(1976—),博士,博士后,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)槔碚撜Z言學(xué)、計(jì)算語言學(xué)。
李艷翠(1982—),博士,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)。
任函(1980—),通信作者,博士,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)。
1003-0077(2017)03-0086-08
2014-12-05定稿日期: 2015-07-22
教育部人文社科項(xiàng)目(13YJC740022、15YJC740021);河南高校哲社基礎(chǔ)研究重大項(xiàng)目(2015-JCZD-022);中國博士后基金(2013M540594);國家自然科學(xué)基金(61402341,61502149,61273320);廣東外語外貿(mào)大學(xué)語言工程與計(jì)算實(shí)驗(yàn)室2016年招標(biāo)課題(LEC2016ZBKT001,LEC2016ZBKT002)
TP391
: A