昝紅英,周麗娟,張坤麗
(鄭州大學(xué) 信息工程學(xué)院,河南 鄭州450001)
連詞是一種具有連接作用的虛詞,能夠連接詞語、短語、小句、句子乃至句群,可以表示并列、選擇、轉(zhuǎn)折、遞進、目的、因果等多種關(guān)系。能夠連接詞語、短語的連詞,例如,“和、與、并、及、或、而、甚至、以、以至”等;連接小句、句子的連詞,例如,“不但、雖然、如果、與其、然而”等;連接句群的連詞,例如,“再次、總之、由此可見”等。連詞結(jié)構(gòu)短語指的是連接詞語、短語的連詞所連接的包含連詞在內(nèi)的短語,即含有連詞的有標(biāo)記聯(lián)合短語。根據(jù)表示關(guān)系的不同可以細(xì)分成不同的連詞結(jié)構(gòu)短語,例如,由“和、與、并、及”構(gòu)成并列的連詞結(jié)構(gòu)短語,由“或”構(gòu)成選擇的連詞結(jié)構(gòu)短語,由“而”構(gòu)成轉(zhuǎn)折或補充的連詞結(jié)構(gòu)短語等。本文用一對“<CP_xx>”和“</CP_xx>”來標(biāo)記連詞結(jié)構(gòu)短語,其中“xx”表示連詞結(jié)構(gòu)的關(guān)系類別,如下面例句所示,其中“bl、xz、bc”分別是并列、選擇、補充等關(guān)系的漢語拼音縮寫。
(1)<CP_bl>改革、發(fā)展和穩(wěn)定</CP_bl>的任務(wù)十分繁重。
(2)消費者愿意為<CP_xz>新型產(chǎn)品或現(xiàn)有產(chǎn)品的改進型</CP_xz>支付更高的價錢。
(3)大家的心情<CP_bc>激動而又新奇</CP_bc>。
連詞結(jié)構(gòu)短語的識別有助于提高機器翻譯的質(zhì)量。如下面是美國斯坦福國際咨詢研究所(SRI)中提供的句子漢英翻譯結(jié)果。
(4)當(dāng)天,<CP_bl>長崎市民團體和原子彈爆炸受害者</CP_bl>等約70人在長崎和平公園靜坐。
譯文:On the same day,victims of the atomic bombings of nagasaki civic groups and about 70 people,including the peace park in nagasaki meditation.
(5)如果<CP_xz>狗換了主人或主人地址變更</CP_xz>,要及時更新登記信息 。
譯文:If a dog in the address of the owner or master of change,and to update information in a timely manner.
如果能正確識別漢語句子中的連詞結(jié)構(gòu)短語,那么在翻譯時首先可以確保這個短語不會翻譯錯,也不會把短語的成分和句子的其他成分混淆。因此,連詞結(jié)構(gòu)短語的識別具有重要意義。
周強[1]通過計算詞語的相似度來尋找聯(lián)合結(jié)構(gòu)形成的最優(yōu)路徑,主要是利用從樹庫中得到的數(shù)據(jù),構(gòu)造統(tǒng)計模型,進行短語自動界定處理,并根據(jù)錯誤事例和語言學(xué)知識形成調(diào)整規(guī)則來降低自動界定的錯誤率。孫宏林[2]根據(jù)聯(lián)合成分之間的對稱性對連詞左右兩邊的詞串進行概率評分,選擇一個概率最大的組合從而進行識別。吳云芳[3]從語言學(xué)角度研究并列結(jié)構(gòu)的特點,根據(jù)中心語相似和結(jié)構(gòu)平行識別有標(biāo)記并列結(jié)構(gòu),通過辨別同類詞連用形成的歧義格式識別無標(biāo)記并列結(jié)構(gòu)。王東波等[4-5]采用條件隨機場模型,并結(jié)合語言學(xué)特征識別有標(biāo)記的聯(lián)合結(jié)構(gòu)。
本文在王東波的基礎(chǔ)上,結(jié)合虛詞用法知識庫中連詞的用法來識別連詞結(jié)構(gòu)短語。首先根據(jù)連詞的用法對每個可以連接詞語、短語的連詞編寫若干條規(guī)則,實現(xiàn)基于規(guī)則的連詞結(jié)構(gòu)短語識別。然后將連詞用法作為特征,采用條件隨機場模型實現(xiàn)基于統(tǒng)計的連詞結(jié)構(gòu)短語識別,進而分析了不同長度的連詞結(jié)構(gòu)短語識別情況,并與未加入連詞用法特征的方法進行了比較。
在連詞用法詞典和連詞用法規(guī)則的基礎(chǔ)上,對各個連詞的用法進行了考察,找到每個用法所對應(yīng)的連詞結(jié)構(gòu)短語的形式化表示或邊界,然后抽取其中具有可操作性的判斷條件特征,以有序的BNF范式描述連詞結(jié)構(gòu)短語的識別規(guī)則。因為連詞結(jié)構(gòu)短語涉及到左右兩個邊界,所以目前抽取的主要識別特征有:左搭配M、左緊鄰L、右緊鄰R、右搭配N。另外在規(guī)則庫中引入了其他一些符號,如A表示同詞性同詞,B表示同詞性不同詞。識別規(guī)則的一般描述形式為:
<ID>→[M][L][R][N]
M→<詞語1>|<詞語2>|…|n|v|a|…
L →<詞語1>|<詞語2>|…|n|v|a|…
R →<詞語1>|<詞語2>|…|n|v|a|…
N →<詞語1>|<詞語2>|…|n|v|a|…
其中,規(guī)則元語言中的符號“→”表示定義為,符號“|”表示多選一,規(guī)則右部順序出現(xiàn)的字符表示其所代表的特征屬性為有序合取關(guān)系。規(guī)則中的符號<ID>為連詞用法編碼,“<詞語>”表示該屬性位置上出現(xiàn)的詞語,“n、v、a”等表示該屬性位置上出現(xiàn)的詞性。連詞結(jié)構(gòu)短語識別規(guī)則的描述形式類似于連詞用法規(guī)則的描述形式,不同的是連詞結(jié)構(gòu)短語識別規(guī)則中沒有用到句首F和句末E這兩個特征,并且<ID>后的定義不是這個用法的定義,而是這個用法所對應(yīng)的連詞結(jié)構(gòu)短語的定義。連詞用法詞典和連詞用法規(guī)則的詳細(xì)說明可以參考文獻[6]。下面是連詞“和”的結(jié)構(gòu)短語識別規(guī)則:
$和
@<c_h(yuǎn)e2_1>→B~B^B→n|a|v
@<c_h(yuǎn)e2_1a>→B、{B、}~B^B→a|v|n
@<c_h(yuǎn)e2_1a>→MN^M→X、^N→</CP>(等|的)
@<c_h(yuǎn)e2_1c>→B~B^B→a|v
@<c_h(yuǎn)e2_1c>→MN^M→v^N→n
@<c_h(yuǎn)e2_2>→MN^M→(無論|不論|不管)<CP> ^N→</CP>(,|。)
@<c_h(yuǎn)e2_1b>→MN^M→X(、|與|同|及|以及)^N→(、|與|同|及|以及)X
用法“c_h(yuǎn)e2_1a”表示連接三項以上成分,它對應(yīng)的連詞結(jié)構(gòu)短語的左邊界是第一個成分,右邊界是最后一個成分,因此這個連詞結(jié)構(gòu)短語就用“B、{B、}~B”表示。“c_h(yuǎn)e2_2”用法用于“無論、不論、不管”后,它對應(yīng)的連詞結(jié)構(gòu)短語的左邊界是“無論、不論、不管”后的第一個詞語,右邊界沒有明顯的特點,就規(guī)定到小句末尾。規(guī)則中的“<CP>”和“</CP>”是連詞結(jié)構(gòu)短語的開始和結(jié)束標(biāo)記。默認(rèn)情況下,M、L對應(yīng)左邊界,R、N對應(yīng)右邊界,這時不用加標(biāo)記。然而“c_h(yuǎn)e2_2”對應(yīng)的短語左邊界在M所定義的那些詞之后,所以在“無論、不論、不管”后加上“<CP>”,表示左邊界在這些詞之后。同理,加上“</CP>”表示右邊界在對應(yīng)這些詞語的前面。
基于規(guī)則的連詞結(jié)構(gòu)短語識別程序是以行為單位進行文本處理的,處理一行文本的具體流程如下。
(1)讀取一行文本,按逗號、分號、冒號、句號、問號、嘆號分割成小句。
(2)判斷小句是否為空及是否含有連詞。若不為空且含有連詞,記錄連詞所在的位置pos及用法編碼ID;否則,將該小句寫入結(jié)果文件,處理下一個小句直到全部處理完。
(3)根據(jù)ID從規(guī)則文件中解析規(guī)則,得到ID對應(yīng)的連詞結(jié)構(gòu)短語的規(guī)則表示,記為S。若找不到ID,將這個小句中的ID左邊的字符串(包括ID)寫入結(jié)果文件,ID右邊的字符串設(shè)為新的小句,轉(zhuǎn)至(2)。
(4)從S中獲得連詞結(jié)構(gòu)短語左右邊界的特征及定義,并根據(jù)是否含有“<CP>”和“</CP>”確定邊界的位置。
(5)根據(jù)連詞結(jié)構(gòu)短語左右邊界的特征在pos前后匹配。若匹配成功,根據(jù)連詞用法詞典,得到ID對應(yīng)的關(guān)系標(biāo)記xx,左邊界前插入“<CP_xx>”,右邊界后插入“</CP_xx>”,并將這個小句中的ID左邊的字符串(包括ID)寫入結(jié)果文件,右邊的字符串設(shè)為新的小句,轉(zhuǎn)至(2);否則,解析ID對應(yīng)的下一個連詞結(jié)構(gòu)短語的規(guī)則表示,轉(zhuǎn)至(3)。
本文的實驗語料是“北京大學(xué)計算語言學(xué)研究所”提供的2000年1月《人民日報》分詞與詞性標(biāo)注語料,并由“鄭州大學(xué)自然語言處理實驗室”預(yù)先完成其中連詞用法的標(biāo)注[6],實驗的輸入和輸出語料如下所示。
輸入:改革/vn、/w發(fā)展/vn和/c<c_h(yuǎn)e2_1a>穩(wěn)定/vn的/ud任務(wù)/n十分/d繁重/a。/wj
輸出:<CP_bl> 改革/vn、/w 發(fā)展/vn和/c<c_h(yuǎn)e2_1a> 穩(wěn)定/vn</CP_bl> 的/ud任務(wù)/n十分/d繁重/a。/wj
通過規(guī)則識別與多人交叉人工標(biāo)注校對的連詞結(jié)構(gòu)短語的正確答案進行比較,正確答案中所有連詞結(jié)構(gòu)短語總共有14 169個,準(zhǔn)確率為48.67%,召回率為30.98%,F(xiàn)值為39.19%。規(guī)則識別結(jié)果比較低,主要原因是,規(guī)則是根據(jù)有限的語料人工總結(jié)的,具有局限性和片面性。如下面句子是“和”的部分規(guī)則識別結(jié)果。第一個句子(6)用法為“c_h(yuǎn)e2_1”,但它的結(jié)構(gòu)并不是左右兩邊都是名詞、形容詞或動詞,這樣規(guī)則就無法表示。第二個例句(7)跟“c_h(yuǎn)e2_1a”的第二個規(guī)則很接近,右邊界標(biāo)注正確,因左邊界未找到正確的位置“節(jié)水/vi”,仍然無法完全標(biāo)注正確。第三個例句(8)是動詞短語的并列,符合“c_h(yuǎn)e2_1c”的第二個規(guī)則,在確定右邊界時采用最小匹配,找到第一個名詞就結(jié)束,導(dǎo)致標(biāo)注錯誤。因此,本文下面嘗試基于統(tǒng)計的連詞結(jié)構(gòu)短語識別。
(6)20000101-01-001-002/m — —/wp 在/p首都/n各界/rz迎接/v新/a世紀(jì)/n和/c<c_h(yuǎn)e2_1> 新/a千年/t慶祝/vn 活動/vn 上{shang5}/f的/ud講話/n
(7)各地/rz開展/v的/ud節(jié)水/vi<CP_bl>灌溉/v、/wu 打井/vi、/wu 集/Vg 雨/n 節(jié)灌/vn和/c<c_h(yuǎn)e2_1a> 灌區(qū)/n節(jié)水/vn</CP_bl>等/u工作/vn,/wd
(8)<CP_bl> 發(fā)展/v地方{di4fang1}/n經(jīng)濟/n和/c<c_h(yuǎn)e2_1c> 保持/v社會/n</CP_bl>穩(wěn)定/vn ,/wd 兩者/rz是/vl相輔相成/iv 的/ud。/wj
基于統(tǒng)計的經(jīng)驗主義方法是從訓(xùn)練數(shù)據(jù)中自動地或半自動地獲取語言知識,建立有效的統(tǒng)計語言模型,并根據(jù)訓(xùn)練數(shù)據(jù)的實際情況不斷地優(yōu)化,而基于規(guī)則的理性主義方法正如前面一部分所述,事先總結(jié)好的,很難根據(jù)實際的數(shù)據(jù)進行調(diào)整,因此規(guī)則方法在某些方面不如基于統(tǒng)計的經(jīng)驗主義方法好。本文采用條件隨機場(Conditional Random Field,CRF)模型進行連詞結(jié)構(gòu)短語識別。
CRF模型[7]是由Lafferty在2001年提出的一種典型的判別式模型,給定輸入節(jié)點值,通過訓(xùn)練學(xué)習(xí),計算給定輸出節(jié)點的條件概率,并使得條件概率獲得最大值。近年來,該模型在中文分詞[8]、中文命名實體識別[9]、歧義消解[10]等漢語自然語言處理任務(wù)中有廣泛的應(yīng)用。連詞結(jié)構(gòu)短語識別可以看成是文本中詞語與詞性序列選擇標(biāo)記、確定邊界的過程。因此本文選擇CRF模型來確定邊界,識別連詞結(jié)構(gòu)短語。
CRF模型是序列標(biāo)注問題,能充分考慮上下文中的特征,綜合利用詞和詞性等特征。優(yōu)點是可以任意加入與處理對象有關(guān)的語言學(xué)特征,作為一個獨立的語言學(xué)結(jié)構(gòu)。在連詞結(jié)構(gòu)短語的識別中,很顯然,有連接功能的連詞以及頓號對短語的識別有一定的幫助作用。因此,本文選擇詞語、詞性以及連接功能標(biāo)記作為特征。為了判別連詞用法對連詞結(jié)構(gòu)短語的識別是否有影響,本文采用兩組特征集,這兩組特征集的區(qū)別在于連接功能標(biāo)記。特征集Ⅰ
特征模板采用25個特征,其中詞語為7個窗口,范圍是{-3,-2,-1,0,1,2,3},詞性為5個窗口,范圍是{-2,-1,0,1,2},連接結(jié)構(gòu)標(biāo)記為5個中,連接功能標(biāo)記為Y和N,即如果是連詞或頓號,標(biāo)記為Y,其他情況標(biāo)記為N。特征集Ⅱ中,如果是連詞,標(biāo)記用連詞用法的ID表示;如果是頓號,標(biāo)記為Y;其他的情況標(biāo)記為N。
連詞結(jié)構(gòu)短語的識別標(biāo)記參考王東波[4-5]使用的方法,根據(jù)公式得出語料中連詞結(jié)構(gòu)短語的平均長度,從而確定使用7詞位標(biāo)注集。其中,Ni表示長度為i的連詞結(jié)構(gòu)短語的個數(shù),K表示連詞結(jié)構(gòu)短語的最大長度,N表示連詞結(jié)構(gòu)短語的總個數(shù)。連詞結(jié)構(gòu)短語的長度指的是連詞結(jié)構(gòu)短語中詞語的總個數(shù),并且包括連詞在內(nèi),所以長度的最小值為3。具體的標(biāo)注集為T= {B,S,T,F(xiàn),M,E,O},其中B是連詞結(jié)構(gòu)短語的開始詞,S是短語中第二個詞,T是短語中第三個詞,F(xiàn)是短語中第四個詞,M是短語中第五個以上(包括第五個)的詞,E是短語結(jié)尾的詞,O是連詞結(jié)構(gòu)短語外部的詞。兩組特征集如表1所示,其中表1a是特征集Ⅰ,表1b是特征集Ⅱ。窗口,范圍是{-2,-1,0,1,2}。其中0代表當(dāng)前位置,-1代表左邊第一個位置,1代表右邊第一個位置。
表1b 特征Ⅱ表示
基于統(tǒng)計方法的實驗語料和規(guī)則的實驗語料一樣,采用10折交叉進行驗證實驗。具體流程如圖1所示。
圖1 基于統(tǒng)計的連詞結(jié)構(gòu)短語識別過程
對語料中的所有連詞結(jié)構(gòu)短語進行實驗,結(jié)果如表2所示。結(jié)果顯示,基于統(tǒng)計的方法比規(guī)則方法提高很多,并且使用連詞用詞特征的識別結(jié)果比沒有使用連詞用法特征的識別結(jié)果好,這初步說明了連詞的用法對連詞結(jié)構(gòu)短語的識別有一定的幫助。因為從某些連詞的用法上能夠確定某些連詞結(jié)構(gòu)短語的邊界,所以可以將連詞用法應(yīng)用在連詞結(jié)構(gòu)短語的識別中。
表2 基于統(tǒng)計的連詞結(jié)構(gòu)短語識別結(jié)果
連詞結(jié)構(gòu)短語的長度不同,表現(xiàn)的特點也不一樣。這里,連詞結(jié)構(gòu)短語的長度指的是連詞結(jié)構(gòu)短語中詞語的總個數(shù)。為了訓(xùn)練得到更好的模型,本文對不同長度的連詞結(jié)構(gòu)短語分別進行訓(xùn)練和測試,這里只考慮簡單結(jié)構(gòu)(不含嵌套結(jié)構(gòu)),結(jié)果如表3所示。明顯地,不同的長度識別結(jié)果不同,長度越短識別效果越好。另外,連詞用法特征對各種長度的識別效果不同。其中,長度為3、5、8、10及10以上時,準(zhǔn)確率、召回率和F值都有所提高,最高提高了4.29%;長度為4、6、9時,準(zhǔn)確率提高,而召回率和F值降低;只有長度為7時,準(zhǔn)確率、召回率和F值都降低,下降0.5%左右。原因可能是,連詞用法詞典及規(guī)則還不完善,連詞用法標(biāo)注可能存在錯誤的現(xiàn)象,這時就會引入噪聲數(shù)據(jù),從而影響連詞結(jié)構(gòu)短語的識別結(jié)果。不過,從總體上來看,用法特征對識別結(jié)果起到促進作用。
表3 不同長度的連詞結(jié)構(gòu)短語識別結(jié)果
不同連詞所連接的連詞結(jié)構(gòu)短語識別情況也有所差異,本文對連詞所連接的連詞結(jié)構(gòu)短語總數(shù)中位于前6位的連詞分別進行了考察,涉及到4種關(guān)系的連詞結(jié)構(gòu)短語,包括并列關(guān)系(由“和、與、及、并”連接)、轉(zhuǎn)折關(guān)系(由“而”連接)、補充關(guān)系(由“而”連接)、選擇關(guān)系(由“或”連接)。其中連詞“和”出現(xiàn)的次數(shù)將近一半,它所連接的短語占76,14%,說明所有短語中并列結(jié)構(gòu)短語居多。表4、5、6分別顯示的是不同連詞所連接的長度為3、5、8的短語識別結(jié)果。分布率Ⅰ表示某個連詞連接的某個長度的短語個數(shù)與這個長度的短語總個數(shù)的比例,分布率Ⅱ表示某個連詞連接的某個長度的短語個數(shù)與這個連詞所連接的短語總個數(shù)的比例。雖然從每個長度的總體識別結(jié)果來看,連詞的用法促進了連詞結(jié)構(gòu)短語的識別,但是也存在一些詞,連詞的用法起到相反作用,如長度為5時的“和、與、及、而”。
表4 長度為3的常用連詞的短語識別結(jié)果
表5 長度為5的常用連詞的短語識別結(jié)果
表6 長度為8的常用連詞的短語識別結(jié)果
本文利用連詞的用法分別實現(xiàn)了基于規(guī)則和統(tǒng)計的連詞結(jié)構(gòu)短語識別,基于條件隨機場統(tǒng)計模型的識別結(jié)果明顯高于規(guī)則的識別結(jié)果,雖然連詞用法沒有提高很多的識別效果,但是實驗結(jié)果表明連詞用法對連詞結(jié)構(gòu)短語的識別是有幫助的。下一步,將根據(jù)連詞用法知識庫嘗試把更多的語言學(xué)特征加入到連詞結(jié)構(gòu)短語識別中,并將不同長度短語的識別也擴展到復(fù)雜結(jié)構(gòu)中,期望能為機器翻譯提供更好的預(yù)處理知識。
附錄A 連詞“和”的部分屬性說明
ID 釋義 用法例句c_h(yuǎn)e2_1 表示平等的聯(lián)合關(guān)系。<b>連接類別或結(jié)構(gòu)相近的并列成分。<b><CP_bl>老師~同學(xué)</CP_bl>都贊成這么做<b>|<CP_bl>稻場上~小溪邊</CP_bl>頓時少了那些女人們的蹤跡<x>c_h(yuǎn)e2_1a 表示平等的聯(lián)合關(guān)系。<b>連接三項以上時“和”放在最后兩項之間,前面的成分用頓號連接。<b>一切事物都有<CP_bl>發(fā)生、發(fā)展~消亡</CP_bl>的過程<b>|<CP_bl>北京、上海、天津~重慶</CP_bl>都是直轄市<x>c_h(yuǎn)e2_1b 表示平等的聯(lián)合關(guān)系。<b>多項并列成分如果有幾個層次,可用“和”表示一種層次,用頓號或“與、同、以及、及”表示另一種層次。<b><CP_bl>爸爸、媽媽~哥哥、姐姐</CP_bl>都不在家<b>c_h(yuǎn)e2_1c 表示平等的聯(lián)合關(guān)系。<b>連接做謂語的動詞短語、形容詞短語時,動、形限于雙音節(jié)。謂語前或后必有共同的附加成分或連帶成分。<b>事情還要進一步<CP_bl>調(diào)查~了解</CP_bl><b><x>|泰山的景色十分<CP_bl>雄偉~壯麗</CP_bl><b>c_h(yuǎn)e2_2 表示選擇,相當(dāng)于“或”。<x> 常用于“無論、不論、不管”后。<b> 這意味著,只要在滬注冊的企業(yè)不論<CP_xz>所有制~歸屬</CP_xz>,都可以享受這一政策。<r>
[1]周強.漢語語料庫的短語自動劃分和標(biāo)注研究[D].北京:北京大學(xué),1996.
[2]孫宏林.現(xiàn)代漢語非受限文本的實語塊分析[D].北京:北京大學(xué),2001.
[3]吳云芳.面向中文信息處理的現(xiàn)代漢語并列結(jié)構(gòu)研究[D].北京:北京大學(xué),2003.
[4]王東波,陳小荷,年洪東.基于條件隨機場的有標(biāo)記聯(lián)合結(jié)構(gòu)自動識別[J].中文信息學(xué)報,2008,22 (6):3-8.
[5]Dongbo Wang,Danhao Zhu,Xinning Su,et al.Automatic Identification of Parallel Structure Based on Conditional Random Field[C]//Proceedings of the 3rd International Symposium on Computer Science and Computational Technology(ISCSCT'10),Jiaozuo,2010:400-404.
[6]Hongying Zan,Lijuan Zhou,Kunli Zhang.Studies on the Automatic Recognition of Modern Chinese Conjunction Usages[J].Lecture Notes in Computer Science,2011,6838:472-479.
[7]Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 18th ICML-01,Montreal,2001:282-289.
[8]Hai Zhao,Changning Huang,Mu Li.An Improved Chinese Word Segmentation System with Conditional Random Field[C]//Proceedings of the 5th SIGHAN Workshop on Chinese Language Processing(SIGHAN-5).Sydeny,2006:162-165.
[9]周俊生,戴新宇,尹存燕,等.基于層疊條件隨機場模型的中文機構(gòu)名自動識別[J].電子學(xué)報,2006,5:804-809.
[10]丁德鑫,曲維光,徐濤,等.基于CRF模型的組合型歧義消解研究[J].南京師范大學(xué)學(xué)報,2008,8(4):73-76.