邱立坤,史林林,王厚峰
(1.魯東大學(xué) 文學(xué)院,山東 煙臺(tái) 264025;2. 北京大學(xué) 計(jì)算語(yǔ)言學(xué)研究所,北京 100871)
?
多領(lǐng)域中文依存樹(shù)庫(kù)構(gòu)建與影響統(tǒng)計(jì)句法分析因素之分析
邱立坤1,史林林1,王厚峰2
(1.魯東大學(xué) 文學(xué)院,山東 煙臺(tái) 264025;2. 北京大學(xué) 計(jì)算語(yǔ)言學(xué)研究所,北京 100871)
為提升依存分析并分析影響其精度的相關(guān)因素,該文構(gòu)建了大規(guī)模中文通用依存樹(shù)庫(kù)和中等規(guī)模領(lǐng)域依存樹(shù)庫(kù)?;谶@一系列樹(shù)庫(kù),通過(guò)句法分析實(shí)驗(yàn)考察質(zhì)量、規(guī)模、領(lǐng)域差異等因素對(duì)中文依存分析的影響,實(shí)驗(yàn)結(jié)果表明: (1)樹(shù)庫(kù)規(guī)模和質(zhì)量均與句法分析精度成正相關(guān)關(guān)系,質(zhì)量應(yīng)先于規(guī)模因素被優(yōu)先考慮;(2)通用樹(shù)庫(kù)和領(lǐng)域樹(shù)庫(kù)之間的差異程度與前者對(duì)后者的替代性成相關(guān)關(guān)系;(3)兩種樹(shù)庫(kù)混合使用的效果同樣與領(lǐng)域差異有關(guān)。
依存樹(shù)庫(kù);領(lǐng)域遷移;依存句法分析
依存句法分析的目標(biāo)是為給定句子中的每個(gè)詞找出一個(gè)合適的父節(jié)點(diǎn),并標(biāo)記子節(jié)點(diǎn)與父節(jié)點(diǎn)之間的句法關(guān)系,它是目前最常用的句法分析理論之一。作為主流依存分析方法的統(tǒng)計(jì)句法分析,通常用包含大量依存句法樹(shù)的樹(shù)庫(kù)作為訓(xùn)練數(shù)據(jù),采用基于圖的方法[1]或基于轉(zhuǎn)移的方法[2]訓(xùn)練,可得到面向新聞文本的高質(zhì)量自動(dòng)句法分析器。依存句法分析已在機(jī)器翻譯、自動(dòng)問(wèn)答、情感分析等領(lǐng)域得到廣泛應(yīng)用,可在一定程度上提升相關(guān)系統(tǒng)的性能。但是,統(tǒng)計(jì)句法分析性能依賴于樹(shù)庫(kù)的規(guī)模、質(zhì)量,并且表現(xiàn)出領(lǐng)域相關(guān)性,在遷移到新領(lǐng)域時(shí)精度急劇下降[3]。
目前已經(jīng)有一些文獻(xiàn)研究樹(shù)庫(kù)轉(zhuǎn)換和融合[4-5]、自學(xué)習(xí)方法[3]等提高句法分析精度并改善領(lǐng)域遷移效果,但是受語(yǔ)料類型和規(guī)模的限制,中文方面很多問(wèn)題沒(méi)有得到深入分析。首先是樹(shù)庫(kù)規(guī)模問(wèn)題。目前已有一些研究考察樹(shù)庫(kù)規(guī)模對(duì)句法的影響[6],但使用的樹(shù)庫(kù)量級(jí)僅在1萬(wàn)句左右,本文將考察樹(shù)庫(kù)規(guī)模增加到5萬(wàn)甚至10萬(wàn)句時(shí)的句法分析效果;其次是樹(shù)庫(kù)質(zhì)量問(wèn)題,目前尚未見(jiàn)到這方面的研究;最后是通用樹(shù)庫(kù)與特定領(lǐng)域樹(shù)庫(kù)融合的問(wèn)題。在中文分詞和詞性標(biāo)注上有少量類似研究[7],句法分析層面暫無(wú)。
為考察上述問(wèn)題,我們基于統(tǒng)一的依存句法標(biāo)注體系,構(gòu)建了大規(guī)模(12.8萬(wàn)句)的中文通用新聞樹(shù)庫(kù)和中等規(guī)模(從1.7萬(wàn)到4萬(wàn)句不等)的特定領(lǐng)域樹(shù)庫(kù)。對(duì)于這些樹(shù)庫(kù),本文設(shè)計(jì)了系列實(shí)驗(yàn),以分析樹(shù)庫(kù)規(guī)模、質(zhì)量和領(lǐng)域差異對(duì)句法分析尤其是特定領(lǐng)域句法分析精度的影響。
本文組織如下: 第2節(jié)介紹依存樹(shù)庫(kù)的標(biāo)注體系、構(gòu)建流程、所構(gòu)建樹(shù)庫(kù)的基本信息,并簡(jiǎn)單分析各樹(shù)庫(kù)之間的差異;第3節(jié)通過(guò)系列實(shí)驗(yàn)分析質(zhì)量、規(guī)模和領(lǐng)域差異等因素對(duì)句法分析精度的影響;第4節(jié)介紹相關(guān)工作;最后一節(jié)是結(jié)論。
2.1 依存句法標(biāo)注體系
表1 PMT依存體系
依存樹(shù)庫(kù)的構(gòu)建必須遵循一定的標(biāo)注體系,標(biāo)注體系的差異首先表現(xiàn)在依存關(guān)系標(biāo)簽的設(shè)置上。各種依存標(biāo)注體系采用的依存關(guān)系標(biāo)簽數(shù)量差別較大,標(biāo)簽的內(nèi)涵更是大不相同。就中文而言,目前有四種體系: (1)由賓州短語(yǔ)結(jié)構(gòu)中文樹(shù)庫(kù)轉(zhuǎn)換而來(lái)的依存樹(shù)庫(kù)(簡(jiǎn)稱CTB),標(biāo)簽數(shù)量為12個(gè)*http://w3.msi.vxu.se/~nivre/research/Penn2Malt.html;(2)哈工大依存體系(簡(jiǎn)稱HTB),初始版本為24個(gè)標(biāo)簽,目前版本為14個(gè)標(biāo)簽[8];(3)北京大學(xué)多視圖樹(shù)庫(kù)依存體系(簡(jiǎn)稱PMT)[9],含30個(gè)句法標(biāo)簽,該體系參考了CTB和HTB,其中一些標(biāo)簽專門為由依存樹(shù)轉(zhuǎn)換為短語(yǔ)結(jié)構(gòu)樹(shù)而設(shè)置;(4)斯坦福依存體系,該體系標(biāo)簽數(shù)量最為龐大[10]。第(1)和(4)體系均依據(jù)手工制定的規(guī)則生成,不存在直接依據(jù)該體系構(gòu)建的原生樹(shù)庫(kù)。
標(biāo)注體系的差異還表現(xiàn)在對(duì)同一句法現(xiàn)象的不同處理策略上。例如,CTB將兼語(yǔ)句等同于小句賓語(yǔ)句,HTB和PMT則將之以類似于雙賓句的方式處理,并設(shè)置了專門標(biāo)簽將之與雙賓句區(qū)別開(kāi)來(lái)。又如,CTB區(qū)分了主語(yǔ)和話題,PMT也繼承了這一做法,用以處理漢語(yǔ)的主謂謂語(yǔ)句;HTB則允許一個(gè)動(dòng)詞帶多個(gè)主語(yǔ),不對(duì)主語(yǔ)和話題進(jìn)行區(qū)分。再如,CTB沒(méi)有顯式標(biāo)注并列結(jié)構(gòu),因此其依存體系并沒(méi)有表示并列的標(biāo)簽;HTB設(shè)置了并列標(biāo)簽,且以左節(jié)點(diǎn)為核心節(jié)點(diǎn);PMT設(shè)置了并列標(biāo)簽,且以右節(jié)點(diǎn)為核心節(jié)點(diǎn)。其中,并列結(jié)構(gòu)的處理方式對(duì)依存弧方向影響最大,因而也是導(dǎo)致各家樹(shù)庫(kù)依存弧差異的主要原因。
本文工作所使用的樹(shù)庫(kù)均基于PMT體系構(gòu)建,該體系所使用的依存關(guān)系標(biāo)簽如表 1所示。PMT體系的特點(diǎn)在于,以依存語(yǔ)法體系為基礎(chǔ),預(yù)先考慮了從依存語(yǔ)法到短語(yǔ)結(jié)構(gòu)語(yǔ)法轉(zhuǎn)換過(guò)程中的歧義消解問(wèn)題,因此標(biāo)注一套依存語(yǔ)法樹(shù)庫(kù)(標(biāo)注依存弧和依存關(guān)系標(biāo)簽)可同時(shí)得到一套短語(yǔ)結(jié)構(gòu)樹(shù)庫(kù)(推導(dǎo)出層次和短語(yǔ)范疇)[9]。
2.2 語(yǔ)料選擇與構(gòu)建流程
本文構(gòu)建的樹(shù)庫(kù)包括新聞、醫(yī)藥、口語(yǔ)、專利、微博五個(gè)領(lǐng)域,各領(lǐng)域句子數(shù)和平均句長(zhǎng)如表 2所示。
表2 多領(lǐng)域樹(shù)庫(kù)基本信息一覽
續(xù)表
新聞?wù)Z料含有政治、科技、社會(huì)、教育、體育等多個(gè)子領(lǐng)域和敘述文、散文、報(bào)告文學(xué)、說(shuō)明文等多種文體,可稱之為通用樹(shù)庫(kù);相應(yīng)地,可稱其他樹(shù)庫(kù)為領(lǐng)域樹(shù)庫(kù)。
新聞樹(shù)庫(kù)的文本來(lái)自1998年1月份1到10日共10天語(yǔ)料、2000年1月全部語(yǔ)料、2000年2月全部語(yǔ)料、2000年3月前20 000句語(yǔ)料,總計(jì)128 738句。其中,1998年1月(14 463句)和2000年1月(50 275句)經(jīng)過(guò)兩遍校對(duì),剩余語(yǔ)料僅經(jīng)過(guò)一遍校對(duì)。為表述方便,我們將1998年1月樹(shù)庫(kù)稱為V1(12 000句,不含用于開(kāi)發(fā)和測(cè)試的2 463句),V1加上2000年1月樹(shù)庫(kù)后稱為V2(62 275句),V2加上2000年2月和2000年3月前20 000句樹(shù)庫(kù)后稱為V3(126 275句)。
醫(yī)藥領(lǐng)域語(yǔ)料來(lái)自皮膚病領(lǐng)域教材和論文摘要,口語(yǔ)領(lǐng)域語(yǔ)料來(lái)自對(duì)外漢語(yǔ)口語(yǔ)教材,專利領(lǐng)域語(yǔ)料來(lái)自中文專利文獻(xiàn),微博領(lǐng)域語(yǔ)料為隨機(jī)抽選的微博,這四個(gè)領(lǐng)域樹(shù)庫(kù)僅經(jīng)過(guò)一遍校對(duì)。
進(jìn)行一遍校對(duì)時(shí),參與人員通常在10到20人之間。進(jìn)行二遍校對(duì)時(shí),參與人員比一校人員經(jīng)驗(yàn)更為豐富,人數(shù)通常在4到6人之間。所有樹(shù)庫(kù)均按照PMT體系的標(biāo)注規(guī)范、采用相同的流程、使用相同的輔助工具構(gòu)建。
2.3 多領(lǐng)域樹(shù)庫(kù)差異分析
不同領(lǐng)域的樹(shù)庫(kù)在詞匯和語(yǔ)法等層面存在明顯差異,我們可以用平均句長(zhǎng)、未登錄詞比例、平均依存距離等指標(biāo)來(lái)度量領(lǐng)域差異。句長(zhǎng)指的是每個(gè)句子所含詞語(yǔ)的數(shù)量。依存距離指的是依存樹(shù)中子節(jié)點(diǎn)與父節(jié)點(diǎn)之間所間隔的詞的數(shù)量,其最小值即子節(jié)點(diǎn)與父節(jié)點(diǎn)相鄰時(shí)的值為1[11]。未登錄詞指的是出現(xiàn)在測(cè)試文本中但未出現(xiàn)在參照文本中的詞語(yǔ),未登錄詞比例指的是測(cè)試文本中未登錄詞數(shù)量占其總詞數(shù)的比例;顯然,當(dāng)參照文本不同時(shí),未登錄詞比例也會(huì)有所不同。
表 2中列出了通用樹(shù)庫(kù)和四個(gè)領(lǐng)域樹(shù)庫(kù)的規(guī)模等信息,計(jì)算平均句長(zhǎng)和平均依存距離時(shí)以整個(gè)樹(shù)庫(kù)為計(jì)算范圍;計(jì)算未登錄詞比例時(shí)分別選擇2 463句、1 000句、1 000句、1 000句、1 000句、1 000句為各領(lǐng)域的測(cè)試文本(分別來(lái)自1998年1月人民日?qǐng)?bào)樹(shù)庫(kù)的最后位置和四個(gè)領(lǐng)域樹(shù)庫(kù)的最后位置),分別選擇V1、V2、V3三個(gè)版本的通用樹(shù)庫(kù)作為參照文本,從而計(jì)算出三種未登錄詞比例。
如表 2所示,平均句長(zhǎng)與平均依存距離具有明顯的相關(guān)性,句長(zhǎng)值越大,依存距離也越大。CTB上的實(shí)驗(yàn)[12]表明同一領(lǐng)域的句子,句長(zhǎng)值越大,則句法分析的精度越低。但是句法分析受到多種因素的影響,不同領(lǐng)域之間的句長(zhǎng)與句法分析精度之間并沒(méi)有必然聯(lián)系。
從V1、V2到V3,隨著參照文本規(guī)模的增大,各樹(shù)庫(kù)未登錄詞比例相應(yīng)減少。比較之下,口語(yǔ)和微博兩個(gè)領(lǐng)域未登錄詞比例要遠(yuǎn)遠(yuǎn)低于醫(yī)藥和專利兩個(gè)領(lǐng)域。如果以未登錄詞比例為衡量領(lǐng)域差異的標(biāo)準(zhǔn),則可以認(rèn)為口語(yǔ)和微博兩個(gè)領(lǐng)域與通用新聞?lì)I(lǐng)域差異較小,醫(yī)藥和專利兩個(gè)領(lǐng)域與通用新聞?lì)I(lǐng)域差異較大。
基于所構(gòu)建的大規(guī)模通用樹(shù)庫(kù)和中等規(guī)模的領(lǐng)域樹(shù)庫(kù),可以分析質(zhì)量、規(guī)模和領(lǐng)域差異等因素對(duì)句法分析精度的影響。
3.1 實(shí)驗(yàn)設(shè)置
數(shù)據(jù) 對(duì)于通用樹(shù)庫(kù),參照Qiu等[9]選擇1998年1月份樹(shù)庫(kù)的12 001—13 000句作為開(kāi)發(fā)集合,13 001-14 463句作為測(cè)試集合(由于二校版本質(zhì)量更高,因此在所有相關(guān)實(shí)驗(yàn)中,通用新聞樹(shù)庫(kù)均選擇二校版本作為測(cè)試數(shù)據(jù))。對(duì)于四個(gè)領(lǐng)域樹(shù)庫(kù),各選擇最后的1 000句作為測(cè)試集合。
依存句法分析器 本文在訓(xùn)練和測(cè)試時(shí)使用MATE-tools依存句法分析器3.61版*https://code.google.com/p/mate-tools/[13]。該句法分析器支持多線程訓(xùn)練,在多核計(jì)算機(jī)上可以獲得較高的訓(xùn)練速度;在精度上與ZPar[14]等句法分析器相當(dāng)[9],處于領(lǐng)先水平,明顯優(yōu)于MaltParser和MSTParser[15]。
評(píng)測(cè)標(biāo)準(zhǔn) 在評(píng)價(jià)依存句法分析精度時(shí),我們使用UAS(Unlabeled Accuracy Score)和LAS(Labeled Accuracy Score)兩個(gè)指標(biāo)。UAS指不考慮依存關(guān)系標(biāo)簽時(shí)依存弧標(biāo)注正確的結(jié)點(diǎn)數(shù)占總結(jié)點(diǎn)數(shù)的比例,LAS指同時(shí)考慮依存關(guān)系標(biāo)簽和依存弧時(shí)標(biāo)注正確的結(jié)點(diǎn)數(shù)占總結(jié)點(diǎn)數(shù)的比例。后續(xù)實(shí)驗(yàn)中在沒(méi)有特別說(shuō)明的情況下均使用UAS值進(jìn)行比較,LAS值僅作參考。
3.2 樹(shù)庫(kù)質(zhì)量
在人工校對(duì)樹(shù)庫(kù)時(shí),二校人員由一校人員中選拔而來(lái),其熟練程度、對(duì)規(guī)范的把握程度均明顯優(yōu)于一校人員;二校在一?;A(chǔ)上進(jìn)行,其主要工作為修改一校人員校對(duì)結(jié)果中的錯(cuò)誤。因此一般情況下二校結(jié)果在質(zhì)量上優(yōu)于一校結(jié)果。表 3列出了V1、V2和V3三個(gè)樹(shù)庫(kù)的一校、二校版本用做訓(xùn)練數(shù)據(jù)時(shí)的句法分析精度。
表3 基于一校、二校樹(shù)庫(kù)的句法分析精度比較
在同等規(guī)模的情況下,二校樹(shù)庫(kù)均明顯優(yōu)于一校樹(shù)庫(kù)。在使用V1、V2和V3時(shí),二校比一校分別提升0.87%、1.36%和1.02%。值得特別說(shuō)明的是,二校V2規(guī)模僅為一校V3的一半,精度卻高出0.47%。這一結(jié)果充分說(shuō)明樹(shù)庫(kù)質(zhì)量對(duì)句法分析精度有較大影響,對(duì)一批樹(shù)庫(kù)進(jìn)行兩遍校對(duì)所得到的句法分析器精度上可能優(yōu)于對(duì)兩倍規(guī)模的樹(shù)庫(kù)進(jìn)行單遍校對(duì)所得到的句法分析器。較小的樹(shù)庫(kù)規(guī)模意味著占用內(nèi)存較小和運(yùn)行速度更快,因此在規(guī)模和質(zhì)量間平衡時(shí),應(yīng)優(yōu)先考慮質(zhì)量。
3.3 樹(shù)庫(kù)規(guī)模
句法分析精度與用做訓(xùn)練數(shù)據(jù)的樹(shù)庫(kù)規(guī)模關(guān)系也非常密切。表 3反映了三種不同規(guī)模的新聞樹(shù)庫(kù)句法分析精度的差異,V2規(guī)模是V1的五倍,V3規(guī)模是V2的兩倍。從表 3可以看出,無(wú)論一校樹(shù)庫(kù)還是二校樹(shù)庫(kù),在樹(shù)庫(kù)規(guī)模增大時(shí),句法分析精度均有明顯上升,從V1到V2,兩種版本的UAS分別提升了2.3%和2.8%,此時(shí)樹(shù)庫(kù)規(guī)模擴(kuò)大了四倍;從V2到V3,UAS分別提升了0.89%和0.55%,此時(shí)樹(shù)庫(kù)規(guī)模擴(kuò)大了一倍。二校版本中從V2到V3的提升低于一校版本,主要原因是二校版本中V3相比于V2增加的樹(shù)庫(kù)并沒(méi)有經(jīng)過(guò)二校。下文在沒(méi)有特別說(shuō)明時(shí),V1、V2、V3均指其二校版本。
表 4 基于不同規(guī)模特定領(lǐng)域樹(shù)庫(kù)的句法分析精度比較
表 4反映了不同規(guī)模的特定領(lǐng)域樹(shù)庫(kù)句法分析精度上的差異,規(guī)模從1 000、2 000、5 000、10 000到全部樹(shù)庫(kù)。從該表可以看出,在所有領(lǐng)域中,當(dāng)樹(shù)庫(kù)規(guī)模增加時(shí),句法分析精度逐漸提高。比較之下,醫(yī)藥、口語(yǔ)和微博三個(gè)領(lǐng)域規(guī)模與精度增加的趨勢(shì)較為一致;專利領(lǐng)域樹(shù)庫(kù)從5 000增加到10 000時(shí),句法分析精度提升幅度明顯比其他三個(gè)領(lǐng)域大,規(guī)模進(jìn)一步增加時(shí)句法分析精度基本上沒(méi)有新的提升。導(dǎo)致這一差異的主要原因是專利文獻(xiàn)包含化工、電子、機(jī)械、醫(yī)藥等多個(gè)子領(lǐng)域,子領(lǐng)域之間差異較大,從5 000增加到10 000時(shí)所增加的語(yǔ)料與測(cè)試語(yǔ)料比較接近,因此帶來(lái)較大幅度的提升。具體而言,在5 000句時(shí),醫(yī)藥、口語(yǔ)、專利、微博四個(gè)領(lǐng)域測(cè)試數(shù)據(jù)的未登錄詞比例分別為8.1%、12.1%、9.9%和8.4%;增大到10 000句時(shí),未登錄詞比例分別降為6.7%、8.5%、3.7%、6.3%。其中專利領(lǐng)域未登錄詞比例降幅最大,這應(yīng)該是導(dǎo)致專利領(lǐng)域精度顯著上升的主要原因。這一結(jié)果說(shuō)明,對(duì)于專利這樣的復(fù)雜領(lǐng)域,應(yīng)考慮對(duì)子領(lǐng)域進(jìn)行細(xì)分,對(duì)各子領(lǐng)域分別建立語(yǔ)料庫(kù)。
3.4 領(lǐng)域差異
為考察領(lǐng)域差異對(duì)句法分析的影響,我們進(jìn)行了兩種實(shí)驗(yàn): 其一是測(cè)試基于通用樹(shù)庫(kù)訓(xùn)練的句法分析器在特定領(lǐng)域樹(shù)庫(kù)上的句法分析精度;其二是測(cè)試基于通用樹(shù)庫(kù)加一定數(shù)量領(lǐng)域樹(shù)庫(kù)訓(xùn)練的句法分析器在領(lǐng)域樹(shù)庫(kù)上的句法分析精度。前一種實(shí)驗(yàn)的結(jié)果如表 5所示,用作訓(xùn)練數(shù)據(jù)的通用樹(shù)庫(kù)包括V1、V2和V3三個(gè)版本,相應(yīng)地在每個(gè)領(lǐng)域樹(shù)庫(kù)上可以得到三個(gè)句法分析結(jié)果。從該表可以看出,從V1到V2各領(lǐng)域的句法分析精度均有穩(wěn)定提升,幅度從1.4%到3.6%;從V2到V3時(shí),醫(yī)藥領(lǐng)域有1%左右的提升,但口語(yǔ)、專利、微博三個(gè)領(lǐng)域僅有微小提升甚至有所下降。
表 5 基于通用樹(shù)庫(kù)的句法分析器 在四個(gè)領(lǐng)域上的句法分析結(jié)果
基于通用樹(shù)庫(kù)的最優(yōu)句法分析效果在醫(yī)藥(81.27%)和專利(74.61%)這兩個(gè)領(lǐng)域中基本與使用1 000句領(lǐng)域樹(shù)庫(kù)訓(xùn)練的結(jié)果(分別為81.17%和75.31)相當(dāng)(參見(jiàn)表 4);在口語(yǔ)和微博這兩個(gè)領(lǐng)域中則可與使用10 000句領(lǐng)域樹(shù)庫(kù)訓(xùn)練的結(jié)果相當(dāng)。如表 2所示,醫(yī)藥和專利這兩個(gè)領(lǐng)域與通用新聞的差異較大,未登錄詞比例在17%以上;口語(yǔ)和微博這兩個(gè)領(lǐng)域則與通用新聞差異較小,未登錄詞比例在8%以下。由此說(shuō)明,在與通用新聞差異較小的領(lǐng)域中,通用樹(shù)庫(kù)對(duì)領(lǐng)域樹(shù)庫(kù)的替代性*如果使用前者訓(xùn)練的句法分析器精度上好于基于后者訓(xùn)練的句法分析器,或者與后者相當(dāng),則我們認(rèn)為前者對(duì)后者的替代性較好,否則可認(rèn)為替代性較差。較好,當(dāng)領(lǐng)域樹(shù)庫(kù)規(guī)模較小時(shí), 其性能通常會(huì)弱于通用句法分析器,因此沒(méi)有必要構(gòu)建小規(guī)模的此類樹(shù)庫(kù);在與通用新聞差異較大的領(lǐng)域中,通用樹(shù)庫(kù)對(duì)領(lǐng)域樹(shù)庫(kù)的替代性較差,有必要為特定領(lǐng)域構(gòu)建新的樹(shù)庫(kù)。
如2.3節(jié)所述,領(lǐng)域差異體現(xiàn)在多個(gè)角度(平均句長(zhǎng)、平均依存距離、未登錄詞比例等),上述實(shí)驗(yàn)表明以未登錄詞比例為標(biāo)準(zhǔn)的領(lǐng)域差異與領(lǐng)域遷移時(shí)句法分析精度變化的趨勢(shì)呈現(xiàn)明顯的相關(guān)性,因此在后續(xù)的分析中主要使用未登錄詞比例作為度量領(lǐng)域差異的標(biāo)準(zhǔn),未登錄詞比例越高,則領(lǐng)域差異越大。
后一種實(shí)驗(yàn)的結(jié)果如表 6和表 7所示。表 6中通用樹(shù)庫(kù)為V1(12 000句),領(lǐng)域樹(shù)庫(kù)的規(guī)模包括(參見(jiàn)表 4)的結(jié)果,說(shuō)明此時(shí)通用樹(shù)庫(kù)和領(lǐng)域樹(shù)庫(kù)的互補(bǔ)性較強(qiáng);當(dāng)領(lǐng)域樹(shù)庫(kù)規(guī)模為5 000、10 000和全部時(shí),這一趨勢(shì)基本未變,但醫(yī)藥和專利兩個(gè)領(lǐng)域中效果有所減弱, 通用樹(shù)庫(kù)加領(lǐng)域樹(shù)庫(kù)的效果基本與單獨(dú)使用領(lǐng)域樹(shù)庫(kù)相當(dāng)甚至比之稍差。這一結(jié)果說(shuō)明,當(dāng)領(lǐng)域樹(shù)庫(kù)達(dá)到一定規(guī)模(例如,5 000句以上)且與通用領(lǐng)域樹(shù)庫(kù)差異較大時(shí),可單獨(dú)使用領(lǐng)域樹(shù)庫(kù)訓(xùn)練句法分析器,其精度與領(lǐng)域樹(shù)庫(kù)加上通用樹(shù)庫(kù)相當(dāng);當(dāng)與通用領(lǐng)域樹(shù)庫(kù)差異較小時(shí),混合使用通用和領(lǐng)域樹(shù)庫(kù)訓(xùn)練的句法分析器通常能比單獨(dú)使用領(lǐng)域樹(shù)庫(kù)有一定程度的提升。
表 6 基于通用樹(shù)庫(kù)V1加領(lǐng)域樹(shù)庫(kù)的句法分析器在四個(gè)領(lǐng)域上的句法分析結(jié)果
表 7 基于通用樹(shù)庫(kù)V2加領(lǐng)域樹(shù)庫(kù)的句法分析器在四個(gè)領(lǐng)域上的句法分析結(jié)果
1 000、2 000、5 000、10 000和全部五種。當(dāng)領(lǐng)域樹(shù)庫(kù)規(guī)模為1 000時(shí),通用樹(shù)庫(kù)加領(lǐng)域樹(shù)庫(kù)的效果明顯好于單獨(dú)使用通用樹(shù)庫(kù)(參見(jiàn)表 5)或者領(lǐng)域樹(shù)庫(kù)
表 7中通用樹(shù)庫(kù)為V2(62 275句),領(lǐng)域樹(shù)庫(kù)的規(guī)模包括1 000、2 000、5 000、10 000和全部五種。當(dāng)領(lǐng)域樹(shù)庫(kù)規(guī)模為1 000時(shí),通用樹(shù)庫(kù)加領(lǐng)域樹(shù)庫(kù)的效果明顯好于單獨(dú)使用通用樹(shù)庫(kù)(參見(jiàn)表 5)或者領(lǐng)域樹(shù)庫(kù)(參見(jiàn)表 4)的結(jié)果,并且好于表 6中的相應(yīng)精度;規(guī)模為2 000時(shí),口語(yǔ)和微博兩個(gè)領(lǐng)域比規(guī)模為1 000時(shí)有所下降,醫(yī)藥和專利兩個(gè)領(lǐng)域則繼續(xù)上升;規(guī)模為5 000、10 000和全部時(shí),精度均繼續(xù)上升,但是醫(yī)藥和專利兩個(gè)領(lǐng)域均比表 6中的相應(yīng)精度要低。該結(jié)果表明,當(dāng)領(lǐng)域樹(shù)庫(kù)規(guī)模較小(2 000以下)時(shí),通用樹(shù)庫(kù)規(guī)模越大,與領(lǐng)域樹(shù)庫(kù)混合使用時(shí)所取得的提升也越明顯;當(dāng)領(lǐng)域樹(shù)庫(kù)規(guī)模較大(5 000以上)時(shí),通用樹(shù)庫(kù)規(guī)模的持續(xù)增大,并不一定能帶來(lái)精度提升,當(dāng)通用樹(shù)庫(kù)和領(lǐng)域樹(shù)庫(kù)領(lǐng)域差異較大時(shí)甚至?xí)?lái)少量下降。
中文樹(shù)庫(kù)方面,目前達(dá)到一定規(guī)模的中文樹(shù)庫(kù)有賓州短語(yǔ)結(jié)構(gòu)樹(shù)庫(kù)(CTB)[16]、Sinica依存樹(shù)庫(kù)[17]、清華短語(yǔ)結(jié)構(gòu)樹(shù)庫(kù)[18]、國(guó)家語(yǔ)委短語(yǔ)結(jié)構(gòu)樹(shù)庫(kù)[19]、北大短語(yǔ)結(jié)構(gòu)樹(shù)樹(shù)庫(kù)[20]和哈工大中文依存樹(shù)庫(kù)(HTB)[8],其規(guī)模分別為160萬(wàn)詞(2013版[21])、36萬(wàn)詞、100萬(wàn)詞、100萬(wàn)字、130萬(wàn)詞、111萬(wàn)詞。就文本類型來(lái)說(shuō),CTB包括新華社新聞、新聞雜志、博客、廣播訪談、廣播新聞等多種類型,HTB主要來(lái)自1992年到1996年人民日?qǐng)?bào),清華樹(shù)庫(kù)分新聞、文學(xué)、說(shuō)明文、科技四種語(yǔ)體。
樹(shù)庫(kù)轉(zhuǎn)換和融合方面,李正華等[4]將CTB轉(zhuǎn)換成HTB,并混合起來(lái)進(jìn)行句法分析實(shí)驗(yàn),在加入小規(guī)模CTB時(shí),句法分析精度有所提升,進(jìn)一步增加時(shí)則有所下降。Li等[5]提出新的轉(zhuǎn)換方法,將HTB轉(zhuǎn)換為CTB,并混合起來(lái)進(jìn)行實(shí)驗(yàn),在CTB5和CTB6上分別提升了1.37%和1.10%。兩個(gè)研究的結(jié)論有所不同,可能的原因是后者采用了新的轉(zhuǎn)換方法提升了轉(zhuǎn)換質(zhì)量。從CTB5到CTB6提升的幅度有所下降,主要是因?yàn)镃TB6的規(guī)模(78萬(wàn)詞)大于CTB5(51萬(wàn)詞),從而使得新加入樹(shù)庫(kù)(HTB)的影響變小。
此外,Sagae等[6]分析了樹(shù)庫(kù)規(guī)模對(duì)句法分析的影響,實(shí)驗(yàn)中使用的樹(shù)庫(kù)(英文樹(shù)庫(kù)GENIA,內(nèi)容為生物學(xué)科技文獻(xiàn)摘要)規(guī)模從100、200一直到1 000(以100為間隔),之后從2 000、3 000一直到8 000(以1 000為間隔),實(shí)驗(yàn)結(jié)果表明在1 000句之間,每增加100句都會(huì)有顯著提升,1 000之后每增加1 000句也只會(huì)有緩慢提升。這一結(jié)果與本文規(guī)模因素部分(3.3節(jié))的實(shí)驗(yàn)基本一致。與之相比,本文這一方面的實(shí)驗(yàn)涉及領(lǐng)域更多、樹(shù)庫(kù)規(guī)模更大,同時(shí)觀察到少量異常情況,并用領(lǐng)域差異對(duì)之進(jìn)行了解釋。
本文基于所構(gòu)建的大規(guī)模通用依存樹(shù)庫(kù)和中等規(guī)模的領(lǐng)域依存樹(shù)庫(kù),通過(guò)一系列實(shí)驗(yàn)分析了樹(shù)庫(kù)質(zhì)量、規(guī)模和領(lǐng)域差異等因素對(duì)中文句法分析精度的影響。實(shí)驗(yàn)結(jié)果表明: (1)樹(shù)庫(kù)質(zhì)量對(duì)句法分析精度有較大影響,對(duì)一定規(guī)模樹(shù)庫(kù)進(jìn)行兩遍校對(duì)所得句法分析器性能優(yōu)于對(duì)兩倍規(guī)模樹(shù)庫(kù)進(jìn)行單遍校對(duì),因此在質(zhì)量和規(guī)模間進(jìn)行平衡時(shí)應(yīng)優(yōu)先考慮質(zhì)量;(2)無(wú)論是通用樹(shù)庫(kù)還是領(lǐng)域樹(shù)庫(kù),在規(guī)模增加(從1 000句到12萬(wàn)句)時(shí)均能帶來(lái)精度的提升,但提升幅度逐漸減少;(3)在已有大規(guī)模通用樹(shù)庫(kù)的情況下,如果一個(gè)特定領(lǐng)域與通用領(lǐng)域差異較小,則沒(méi)有必要為之構(gòu)建中等規(guī)模(5000以下)的樹(shù)庫(kù);當(dāng)特定領(lǐng)域與通用領(lǐng)域差異較大時(shí),即使構(gòu)建1 000句規(guī)模的樹(shù)庫(kù),性能也可能超過(guò)單獨(dú)使用通用樹(shù)庫(kù);(4)特定領(lǐng)域樹(shù)庫(kù)規(guī)模較小(2 000句以下)時(shí),混合使用通用樹(shù)庫(kù)和領(lǐng)域樹(shù)庫(kù)通常能帶來(lái)明顯的提升,此時(shí)通用樹(shù)庫(kù)規(guī)模的增大也能帶來(lái)進(jìn)一步的提升;(5)特定領(lǐng)域樹(shù)庫(kù)規(guī)模較大(5 000句以上)時(shí),如通用樹(shù)庫(kù)和領(lǐng)域樹(shù)庫(kù)差異較小,則混合使用二者能帶來(lái)精度提升;如差異較大,則單獨(dú)使用特定領(lǐng)域樹(shù)庫(kù)即可獲得與混合使用相當(dāng)乃至更好的效果。
[1] Ryan McDonald, Fernando Pereira, Kiril Ribarov, et al. Non-projective dependency parsing using spanning tree algorithms[C]//Proceedings of HLT-EMNLP, 2005: 523-530.
[2] Joakim Nivre. Inductive dependency parsing[M]. Springer.2006.
[3] Slav Petrov, Ryan McDonald. Overview of the 2012 Shared Task on Parsing the Web[C]//Notes of the First Workshop on Syntactic Analysis of Non-Canonical Language, 2012.
[4] 李正華,車萬(wàn)翔,劉挺.短語(yǔ)結(jié)構(gòu)樹(shù)庫(kù)向依存樹(shù)庫(kù)轉(zhuǎn)化研究[J].中文信息學(xué)報(bào), 2008,22(6): 14-19.
[5] Zhenhua Li, Ting Liu, Wanxiang Che. Exploiting multiple treebanks for parsing with quasisynchronous grammars[C]//Proceedings of ACL, 2012: 675-684.
[6] Kenji Sagae, Yusuke Miyao, Rune Stre, et al. Evaluating the Effects of Treebank Size in a Practical Application for Parsing[C]//Proceedings of ACL 2008 Workshop on Software Engineering, Testing, and Quality Assurance for Natural Language Processing, 2008: 14-20.
[7] Meishan Zhang, Yue Zhang, Wanxiang Che, et al. Type-Supervised Domain Adaptation for Joint Segmentation and POS-Tagging[C]//Proceedings of EACL, 2014: 588-597.
[8] Wanxiang Che, Zhenghua Li, Ting Liu. Chinese Dependency Treebank 1.0 LDC2012T05[DB]. Web Download. Philadelphia: Linguistic Data Consortium, 2012.
[9] Likun Qiu, Yue Zhang, Peng Jin, et al. Multi-view Chinese treebanking[C]//Proceedings of COLING, 2014: 257-268.
[10] Pi-Chuan Chang, Huihsin Tseng, Dan Jurafsky, et al. Discriminative reordering with Chinese grammatical relations features[C]//Proceedings of the Third Workshop on Syntax and Structure in Statistical Translation, 2009: 51-59.
[11] 劉海濤. 基于依存樹(shù)庫(kù)的漢語(yǔ)句法計(jì)量研究[J]. 長(zhǎng)江學(xué)術(shù), 2008, 3:120-128.
[12] Wenliang Chen, Jun'ichi Kazama, Kiyotaka Uchimoto, et al. Improving Dependency Parsing with Subtrees from Auto-Parsed Data[C]//Proceedings of EMNLP, 2009, 2: 570-579.
[13] Bernd Bohnet. Top accuracy and fast dependency parsing is not a contradiction[C]//Proceedings of Coling, 2010: 89-97.
[14] Yue Zhang, Stephen Clark. Syntactic Processing Using the Generalized Perceptron and Beam Search[J]. Computational Linguistics, 2011, 37(1): 105-151.
[15] Wanxiang Che, Valentin Spitkovsky, Ting Liu. A comparison of Chinese parsers for Stanford dependencies[C]//Proceedings of EACL, 2012: 11-16.
[16] Nianwen Xue, Fei Xia, Fu-Dong Chiou, et al. The Penn Chinese Treebank: Phrase Structure Annotation of a Large Corpus[J]. Natural Language Engineering, 2005, 11(2): 207-238.
[17] 陳鳳儀,蔡碧芳,陳克健,等. 中文句結(jié)構(gòu)樹(shù)資料庫(kù) (Sinica Treebank)的構(gòu)建[J]. Computational Linguistics and Chinese Language Processing, 1999, 4(2): 87-104.
[18] 周強(qiáng).2004.漢語(yǔ)句法樹(shù)庫(kù)標(biāo)注體系[J].中文信息學(xué)報(bào), 2004, 18(4): 1-8.
[19] 靳光瑾,肖航,富麗,等.現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)建設(shè)及深加工[J].語(yǔ)言文字應(yīng)用, 2005, 2: 111-120.
[20] 詹衛(wèi)東.樹(shù)庫(kù)在漢語(yǔ)語(yǔ)法輔助教學(xué)中的應(yīng)用初探[J]. Journal of Technology and Chinese Language Teaching, 2012, 3(2): 16-29.
[21] Nianwen Xue, Xiuhong Zhang, Zixin Jiang, et al. Chinese Treebank 8.0 LDC2013T21[DB]. Web Download. Philadelphia: Linguistic Data Consortium. 2013.
Construction of Multi-Domain Chinese Dependency Treebanks and A Study on Factors Influencing the Statistical Parsing
QIU Likun1, SHI Linlin1, WANG Houfeng2
(1. School of Chinese Language and Literature, Ludong University, Yantai, Shandong 264025, China;2. Institute of Computational Linguistics, Peking University, Beijing 100871, China)
To boost Chinese dependency parsing and analyze factors influencing Chinese dependency parsing, we constructe a large-scale general treebank and several middle-scale treebanks for specific domains. Then, we performe experiments to evaluate the parsing accuracy influenced by the quality, the scale and the domain difference of the dependency treenbank. The results show that both the treebank quality and its scale are positively related to parsing accuracy, and the quality is more influential. The experiments also demonstrate that general treebanks and domain treebanks are complementary, and, whether a general treebank and domain treebank should be used together is dependent on the difference between them.
dependency treebank; domain adaptation; dependency parsing
邱立坤(1979—),博士、副教授,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)。E-mail:qiulikun@gmail.com史林林(1990—),碩士研究生,主要研究領(lǐng)域?yàn)檎Z(yǔ)料庫(kù)語(yǔ)言學(xué)。E-mail:shilinalive@163.com王厚峰(1965—),博士、教授,主要研究領(lǐng)域?yàn)檎Z(yǔ)篇分析、語(yǔ)言知識(shí)庫(kù)與領(lǐng)域知識(shí)庫(kù)、情感分析等。E-mail:wanghf@pku.edu.cn
1003-0077(2015)05-0069-07
2015-07-10 定稿日期: 2015-09-10
國(guó)家社科基金重大項(xiàng)目(12&ZD227);國(guó)家自然科學(xué)基金(61572245,61370117,61103089);教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃(NECT-11-0839);山東省優(yōu)秀中青年科學(xué)家科研獎(jiǎng)勵(lì)基金(BS2013DX020);魯東大學(xué)人文社會(huì)科學(xué)研究項(xiàng)目(WY2013003)
TP391
A