基于用法的現(xiàn)代漢語連詞結(jié)構(gòu)短語識別研究

2012-10-15 01:51:46昝紅英周麗娟張坤麗

中文信息學(xué)報 2012年6期

昝紅英，周麗娟，張坤麗

（鄭州大學(xué) 信息工程學(xué)院，河南鄭州450001）

1 引言

連詞是一種具有連接作用的虛詞，能夠連接詞語、短語、小句、句子乃至句群，可以表示并列、選擇、轉(zhuǎn)折、遞進、目的、因果等多種關(guān)系。能夠連接詞語、短語的連詞，例如，“和、與、并、及、或、而、甚至、以、以至”等；連接小句、句子的連詞，例如，“不但、雖然、如果、與其、然而”等；連接句群的連詞，例如，“再次、總之、由此可見”等。連詞結(jié)構(gòu)短語指的是連接詞語、短語的連詞所連接的包含連詞在內(nèi)的短語，即含有連詞的有標(biāo)記聯(lián)合短語。根據(jù)表示關(guān)系的不同可以細(xì)分成不同的連詞結(jié)構(gòu)短語，例如，由“和、與、并、及”構(gòu)成并列的連詞結(jié)構(gòu)短語，由“或”構(gòu)成選擇的連詞結(jié)構(gòu)短語，由“而”構(gòu)成轉(zhuǎn)折或補充的連詞結(jié)構(gòu)短語等。本文用一對“＜CP＿xx＞”和“＜／CP＿xx＞”來標(biāo)記連詞結(jié)構(gòu)短語，其中“xx”表示連詞結(jié)構(gòu)的關(guān)系類別，如下面例句所示，其中“bl、xz、bc”分別是并列、選擇、補充等關(guān)系的漢語拼音縮寫。

（1）＜CP＿bl＞改革、發(fā)展和穩(wěn)定＜／CP＿bl＞的任務(wù)十分繁重。

（2）消費者愿意為＜CP＿xz＞新型產(chǎn)品或現(xiàn)有產(chǎn)品的改進型＜／CP＿xz＞支付更高的價錢。

（3）大家的心情＜CP＿bc＞激動而又新奇＜／CP＿bc＞。

連詞結(jié)構(gòu)短語的識別有助于提高機器翻譯的質(zhì)量。如下面是美國斯坦福國際咨詢研究所（SRI）中提供的句子漢英翻譯結(jié)果。

（4）當(dāng)天，＜CP＿bl＞長崎市民團體和原子彈爆炸受害者＜／CP＿bl＞等約70人在長崎和平公園靜坐。

譯文：On the same day，victims of the atomic bombings of nagasaki civic groups and about 70 people，including the peace park in nagasaki meditation.

（5）如果＜CP＿xz＞狗換了主人或主人地址變更＜／CP＿xz＞，要及時更新登記信息。

譯文：If a dog in the address of the owner or master of change，and to update information in a timely manner.

如果能正確識別漢語句子中的連詞結(jié)構(gòu)短語，那么在翻譯時首先可以確保這個短語不會翻譯錯，也不會把短語的成分和句子的其他成分混淆。因此，連詞結(jié)構(gòu)短語的識別具有重要意義。

2 相關(guān)研究

周強［1］通過計算詞語的相似度來尋找聯(lián)合結(jié)構(gòu)形成的最優(yōu)路徑，主要是利用從樹庫中得到的數(shù)據(jù)，構(gòu)造統(tǒng)計模型，進行短語自動界定處理，并根據(jù)錯誤事例和語言學(xué)知識形成調(diào)整規(guī)則來降低自動界定的錯誤率。孫宏林［2］根據(jù)聯(lián)合成分之間的對稱性對連詞左右兩邊的詞串進行概率評分，選擇一個概率最大的組合從而進行識別。吳云芳［3］從語言學(xué)角度研究并列結(jié)構(gòu)的特點，根據(jù)中心語相似和結(jié)構(gòu)平行識別有標(biāo)記并列結(jié)構(gòu)，通過辨別同類詞連用形成的歧義格式識別無標(biāo)記并列結(jié)構(gòu)。王東波等［4－5］采用條件隨機場模型，并結(jié)合語言學(xué)特征識別有標(biāo)記的聯(lián)合結(jié)構(gòu)。

本文在王東波的基礎(chǔ)上，結(jié)合虛詞用法知識庫中連詞的用法來識別連詞結(jié)構(gòu)短語。首先根據(jù)連詞的用法對每個可以連接詞語、短語的連詞編寫若干條規(guī)則，實現(xiàn)基于規(guī)則的連詞結(jié)構(gòu)短語識別。然后將連詞用法作為特征，采用條件隨機場模型實現(xiàn)基于統(tǒng)計的連詞結(jié)構(gòu)短語識別，進而分析了不同長度的連詞結(jié)構(gòu)短語識別情況，并與未加入連詞用法特征的方法進行了比較。

3 基于規(guī)則的連詞結(jié)構(gòu)短語識別

3.1 構(gòu)建連詞結(jié)構(gòu)短語識別規(guī)則庫

在連詞用法詞典和連詞用法規(guī)則的基礎(chǔ)上，對各個連詞的用法進行了考察，找到每個用法所對應(yīng)的連詞結(jié)構(gòu)短語的形式化表示或邊界，然后抽取其中具有可操作性的判斷條件特征，以有序的BNF范式描述連詞結(jié)構(gòu)短語的識別規(guī)則。因為連詞結(jié)構(gòu)短語涉及到左右兩個邊界，所以目前抽取的主要識別特征有：左搭配M、左緊鄰L、右緊鄰R、右搭配N。另外在規(guī)則庫中引入了其他一些符號，如A表示同詞性同詞，B表示同詞性不同詞。識別規(guī)則的一般描述形式為：

＜ID＞→［M］［L］［R］［N］

M→＜詞語1＞｜＜詞語2＞｜…｜n｜v｜a｜…

L →＜詞語1＞｜＜詞語2＞｜…｜n｜v｜a｜…

R →＜詞語1＞｜＜詞語2＞｜…｜n｜v｜a｜…

N →＜詞語1＞｜＜詞語2＞｜…｜n｜v｜a｜…

其中，規(guī)則元語言中的符號“→”表示定義為，符號“｜”表示多選一，規(guī)則右部順序出現(xiàn)的字符表示其所代表的特征屬性為有序合取關(guān)系。規(guī)則中的符號＜ID＞為連詞用法編碼，“＜詞語＞”表示該屬性位置上出現(xiàn)的詞語，“n、v、a”等表示該屬性位置上出現(xiàn)的詞性。連詞結(jié)構(gòu)短語識別規(guī)則的描述形式類似于連詞用法規(guī)則的描述形式，不同的是連詞結(jié)構(gòu)短語識別規(guī)則中沒有用到句首F和句末E這兩個特征，并且＜ID＞后的定義不是這個用法的定義，而是這個用法所對應(yīng)的連詞結(jié)構(gòu)短語的定義。連詞用法詞典和連詞用法規(guī)則的詳細(xì)說明可以參考文獻［6］。下面是連詞“和”的結(jié)構(gòu)短語識別規(guī)則：

＄和

＠＜c＿h(yuǎn)e2＿1＞→B～B^B→n｜a｜v

＠＜c＿h(yuǎn)e2＿1a＞→B、｛B、｝～B^B→a｜v｜n

＠＜c＿h(yuǎn)e2＿1a＞→MN^M→X、^N→＜／CP＞（等｜的）

＠＜c＿h(yuǎn)e2＿1c＞→B～B^B→a｜v

＠＜c＿h(yuǎn)e2＿1c＞→MN^M→v^N→n

＠＜c＿h(yuǎn)e2＿2＞→MN^M→（無論｜不論｜不管）＜CP＞ ^N→＜／CP＞（，｜。）

＠＜c＿h(yuǎn)e2＿1b＞→MN^M→X（、｜與｜同｜及｜以及）^N→（、｜與｜同｜及｜以及）X

用法“c＿h(yuǎn)e2＿1a”表示連接三項以上成分，它對應(yīng)的連詞結(jié)構(gòu)短語的左邊界是第一個成分，右邊界是最后一個成分，因此這個連詞結(jié)構(gòu)短語就用“B、｛B、｝～B”表示。“c＿h(yuǎn)e2＿2”用法用于“無論、不論、不管”后，它對應(yīng)的連詞結(jié)構(gòu)短語的左邊界是“無論、不論、不管”后的第一個詞語，右邊界沒有明顯的特點，就規(guī)定到小句末尾。規(guī)則中的“＜CP＞”和“＜／CP＞”是連詞結(jié)構(gòu)短語的開始和結(jié)束標(biāo)記。默認(rèn)情況下，M、L對應(yīng)左邊界，R、N對應(yīng)右邊界，這時不用加標(biāo)記。然而“c＿h(yuǎn)e2＿2”對應(yīng)的短語左邊界在M所定義的那些詞之后，所以在“無論、不論、不管”后加上“＜CP＞”，表示左邊界在這些詞之后。同理，加上“＜／CP＞”表示右邊界在對應(yīng)這些詞語的前面。

3.2 基于規(guī)則的連詞結(jié)構(gòu)短語識別

基于規(guī)則的連詞結(jié)構(gòu)短語識別程序是以行為單位進行文本處理的，處理一行文本的具體流程如下。

（1）讀取一行文本，按逗號、分號、冒號、句號、問號、嘆號分割成小句。

（2）判斷小句是否為空及是否含有連詞。若不為空且含有連詞，記錄連詞所在的位置pos及用法編碼ID；否則，將該小句寫入結(jié)果文件，處理下一個小句直到全部處理完。

（3）根據(jù)ID從規(guī)則文件中解析規(guī)則，得到ID對應(yīng)的連詞結(jié)構(gòu)短語的規(guī)則表示，記為S。若找不到ID，將這個小句中的ID左邊的字符串（包括ID）寫入結(jié)果文件，ID右邊的字符串設(shè)為新的小句，轉(zhuǎn)至（2）。

（4）從S中獲得連詞結(jié)構(gòu)短語左右邊界的特征及定義，并根據(jù)是否含有“＜CP＞”和“＜／CP＞”確定邊界的位置。

（5）根據(jù)連詞結(jié)構(gòu)短語左右邊界的特征在pos前后匹配。若匹配成功，根據(jù)連詞用法詞典，得到ID對應(yīng)的關(guān)系標(biāo)記xx，左邊界前插入“＜CP＿xx＞”，右邊界后插入“＜／CP＿xx＞”，并將這個小句中的ID左邊的字符串（包括ID）寫入結(jié)果文件，右邊的字符串設(shè)為新的小句，轉(zhuǎn)至（2）；否則，解析ID對應(yīng)的下一個連詞結(jié)構(gòu)短語的規(guī)則表示，轉(zhuǎn)至（3）。

本文的實驗語料是“北京大學(xué)計算語言學(xué)研究所”提供的2000年1月《人民日報》分詞與詞性標(biāo)注語料，并由“鄭州大學(xué)自然語言處理實驗室”預(yù)先完成其中連詞用法的標(biāo)注［6］，實驗的輸入和輸出語料如下所示。

輸入：改革／vn、／w發(fā)展／vn和／c＜c＿h(yuǎn)e2＿1a＞穩(wěn)定／vn的／ud任務(wù)／n十分／d繁重／a。／wj

輸出：＜CP＿bl＞改革／vn、／w 發(fā)展／vn和／c＜c＿h(yuǎn)e2＿1a＞穩(wěn)定／vn＜／CP＿bl＞的／ud任務(wù)／n十分／d繁重／a。／wj

通過規(guī)則識別與多人交叉人工標(biāo)注校對的連詞結(jié)構(gòu)短語的正確答案進行比較，正確答案中所有連詞結(jié)構(gòu)短語總共有14 169個，準(zhǔn)確率為48.67%，召回率為30.98%，F(xiàn)值為39.19%。規(guī)則識別結(jié)果比較低，主要原因是，規(guī)則是根據(jù)有限的語料人工總結(jié)的，具有局限性和片面性。如下面句子是“和”的部分規(guī)則識別結(jié)果。第一個句子（6）用法為“c＿h(yuǎn)e2＿1”，但它的結(jié)構(gòu)并不是左右兩邊都是名詞、形容詞或動詞，這樣規(guī)則就無法表示。第二個例句（7）跟“c＿h(yuǎn)e2＿1a”的第二個規(guī)則很接近，右邊界標(biāo)注正確，因左邊界未找到正確的位置“節(jié)水／vi”，仍然無法完全標(biāo)注正確。第三個例句（8）是動詞短語的并列，符合“c＿h(yuǎn)e2＿1c”的第二個規(guī)則，在確定右邊界時采用最小匹配，找到第一個名詞就結(jié)束，導(dǎo)致標(biāo)注錯誤。因此，本文下面嘗試基于統(tǒng)計的連詞結(jié)構(gòu)短語識別。

（6）20000101－01－001－002／m — —／wp 在／p首都／n各界／rz迎接／v新／a世紀(jì)／n和／c＜c＿h(yuǎn)e2＿1＞新／a千年／t慶祝／vn 活動／vn 上｛shang5｝／f的／ud講話／n

（7）各地／rz開展／v的／ud節(jié)水／vi＜CP＿bl＞灌溉／v、／wu 打井／vi、／wu 集／Vg 雨／n 節(jié)灌／vn和／c＜c＿h(yuǎn)e2＿1a＞灌區(qū)／n節(jié)水／vn＜／CP＿bl＞等／u工作／vn，／wd

（8）＜CP＿bl＞發(fā)展／v地方｛di4fang1｝／n經(jīng)濟／n和／c＜c＿h(yuǎn)e2＿1c＞保持／v社會／n＜／CP＿bl＞穩(wěn)定／vn ，／wd 兩者／rz是／vl相輔相成／iv 的／ud。／wj

4 基于統(tǒng)計的連詞結(jié)構(gòu)短語識別

4.1 條件隨機場統(tǒng)計模型

基于統(tǒng)計的經(jīng)驗主義方法是從訓(xùn)練數(shù)據(jù)中自動地或半自動地獲取語言知識，建立有效的統(tǒng)計語言模型，并根據(jù)訓(xùn)練數(shù)據(jù)的實際情況不斷地優(yōu)化，而基于規(guī)則的理性主義方法正如前面一部分所述，事先總結(jié)好的，很難根據(jù)實際的數(shù)據(jù)進行調(diào)整，因此規(guī)則方法在某些方面不如基于統(tǒng)計的經(jīng)驗主義方法好。本文采用條件隨機場（Conditional Random Field，CRF）模型進行連詞結(jié)構(gòu)短語識別。

CRF模型［7］是由Lafferty在2001年提出的一種典型的判別式模型，給定輸入節(jié)點值，通過訓(xùn)練學(xué)習(xí)，計算給定輸出節(jié)點的條件概率，并使得條件概率獲得最大值。近年來，該模型在中文分詞［8］、中文命名實體識別［9］、歧義消解［10］等漢語自然語言處理任務(wù)中有廣泛的應(yīng)用。連詞結(jié)構(gòu)短語識別可以看成是文本中詞語與詞性序列選擇標(biāo)記、確定邊界的過程。因此本文選擇CRF模型來確定邊界，識別連詞結(jié)構(gòu)短語。

4.2 特征及特征模板的選取

CRF模型是序列標(biāo)注問題，能充分考慮上下文中的特征，綜合利用詞和詞性等特征。優(yōu)點是可以任意加入與處理對象有關(guān)的語言學(xué)特征，作為一個獨立的語言學(xué)結(jié)構(gòu)。在連詞結(jié)構(gòu)短語的識別中，很顯然，有連接功能的連詞以及頓號對短語的識別有一定的幫助作用。因此，本文選擇詞語、詞性以及連接功能標(biāo)記作為特征。為了判別連詞用法對連詞結(jié)構(gòu)短語的識別是否有影響，本文采用兩組特征集，這兩組特征集的區(qū)別在于連接功能標(biāo)記。特征集Ⅰ

特征模板采用25個特征，其中詞語為7個窗口，范圍是｛－3，－2，－1，0，1，2，3｝，詞性為5個窗口，范圍是｛－2，－1，0，1，2｝，連接結(jié)構(gòu)標(biāo)記為5個中，連接功能標(biāo)記為Y和N，即如果是連詞或頓號，標(biāo)記為Y，其他情況標(biāo)記為N。特征集Ⅱ中，如果是連詞，標(biāo)記用連詞用法的ID表示；如果是頓號，標(biāo)記為Y；其他的情況標(biāo)記為N。

連詞結(jié)構(gòu)短語的識別標(biāo)記參考王東波［4－5］使用的方法，根據(jù)公式得出語料中連詞結(jié)構(gòu)短語的平均長度，從而確定使用7詞位標(biāo)注集。其中，Ni表示長度為i的連詞結(jié)構(gòu)短語的個數(shù)，K表示連詞結(jié)構(gòu)短語的最大長度，N表示連詞結(jié)構(gòu)短語的總個數(shù)。連詞結(jié)構(gòu)短語的長度指的是連詞結(jié)構(gòu)短語中詞語的總個數(shù)，并且包括連詞在內(nèi)，所以長度的最小值為3。具體的標(biāo)注集為T＝｛B，S，T，F(xiàn)，M，E，O｝，其中B是連詞結(jié)構(gòu)短語的開始詞，S是短語中第二個詞，T是短語中第三個詞，F(xiàn)是短語中第四個詞，M是短語中第五個以上（包括第五個）的詞，E是短語結(jié)尾的詞，O是連詞結(jié)構(gòu)短語外部的詞。兩組特征集如表1所示，其中表1a是特征集Ⅰ，表1b是特征集Ⅱ。窗口，范圍是｛－2，－1，0，1，2｝。其中0代表當(dāng)前位置，－1代表左邊第一個位置，1代表右邊第一個位置。

表1b 特征Ⅱ表示

4.3 基于統(tǒng)計的連詞結(jié)構(gòu)短語識別結(jié)果及分析

基于統(tǒng)計方法的實驗語料和規(guī)則的實驗語料一樣，采用10折交叉進行驗證實驗。具體流程如圖1所示。

圖1 基于統(tǒng)計的連詞結(jié)構(gòu)短語識別過程

對語料中的所有連詞結(jié)構(gòu)短語進行實驗，結(jié)果如表2所示。結(jié)果顯示，基于統(tǒng)計的方法比規(guī)則方法提高很多，并且使用連詞用詞特征的識別結(jié)果比沒有使用連詞用法特征的識別結(jié)果好，這初步說明了連詞的用法對連詞結(jié)構(gòu)短語的識別有一定的幫助。因為從某些連詞的用法上能夠確定某些連詞結(jié)構(gòu)短語的邊界，所以可以將連詞用法應(yīng)用在連詞結(jié)構(gòu)短語的識別中。

表2 基于統(tǒng)計的連詞結(jié)構(gòu)短語識別結(jié)果

連詞結(jié)構(gòu)短語的長度不同，表現(xiàn)的特點也不一樣。這里，連詞結(jié)構(gòu)短語的長度指的是連詞結(jié)構(gòu)短語中詞語的總個數(shù)。為了訓(xùn)練得到更好的模型，本文對不同長度的連詞結(jié)構(gòu)短語分別進行訓(xùn)練和測試，這里只考慮簡單結(jié)構(gòu)（不含嵌套結(jié)構(gòu)），結(jié)果如表3所示。明顯地，不同的長度識別結(jié)果不同，長度越短識別效果越好。另外，連詞用法特征對各種長度的識別效果不同。其中，長度為3、5、8、10及10以上時，準(zhǔn)確率、召回率和F值都有所提高，最高提高了4.29%；長度為4、6、9時，準(zhǔn)確率提高，而召回率和F值降低；只有長度為7時，準(zhǔn)確率、召回率和F值都降低，下降0.5%左右。原因可能是，連詞用法詞典及規(guī)則還不完善，連詞用法標(biāo)注可能存在錯誤的現(xiàn)象，這時就會引入噪聲數(shù)據(jù)，從而影響連詞結(jié)構(gòu)短語的識別結(jié)果。不過，從總體上來看，用法特征對識別結(jié)果起到促進作用。

表3 不同長度的連詞結(jié)構(gòu)短語識別結(jié)果

不同連詞所連接的連詞結(jié)構(gòu)短語識別情況也有所差異，本文對連詞所連接的連詞結(jié)構(gòu)短語總數(shù)中位于前6位的連詞分別進行了考察，涉及到4種關(guān)系的連詞結(jié)構(gòu)短語，包括并列關(guān)系（由“和、與、及、并”連接）、轉(zhuǎn)折關(guān)系（由“而”連接）、補充關(guān)系（由“而”連接）、選擇關(guān)系（由“或”連接）。其中連詞“和”出現(xiàn)的次數(shù)將近一半，它所連接的短語占76，14%，說明所有短語中并列結(jié)構(gòu)短語居多。表4、5、6分別顯示的是不同連詞所連接的長度為3、5、8的短語識別結(jié)果。分布率Ⅰ表示某個連詞連接的某個長度的短語個數(shù)與這個長度的短語總個數(shù)的比例，分布率Ⅱ表示某個連詞連接的某個長度的短語個數(shù)與這個連詞所連接的短語總個數(shù)的比例。雖然從每個長度的總體識別結(jié)果來看，連詞的用法促進了連詞結(jié)構(gòu)短語的識別，但是也存在一些詞，連詞的用法起到相反作用，如長度為5時的“和、與、及、而”。

表4 長度為3的常用連詞的短語識別結(jié)果

表5 長度為5的常用連詞的短語識別結(jié)果

表6 長度為8的常用連詞的短語識別結(jié)果

5 結(jié)論

本文利用連詞的用法分別實現(xiàn)了基于規(guī)則和統(tǒng)計的連詞結(jié)構(gòu)短語識別，基于條件隨機場統(tǒng)計模型的識別結(jié)果明顯高于規(guī)則的識別結(jié)果，雖然連詞用法沒有提高很多的識別效果，但是實驗結(jié)果表明連詞用法對連詞結(jié)構(gòu)短語的識別是有幫助的。下一步，將根據(jù)連詞用法知識庫嘗試把更多的語言學(xué)特征加入到連詞結(jié)構(gòu)短語識別中，并將不同長度短語的識別也擴展到復(fù)雜結(jié)構(gòu)中，期望能為機器翻譯提供更好的預(yù)處理知識。

附錄A 連詞“和”的部分屬性說明

ID 釋義用法例句c＿h(yuǎn)e2＿1 表示平等的聯(lián)合關(guān)系。＜b＞連接類別或結(jié)構(gòu)相近的并列成分。＜b＞＜CP＿bl＞老師～同學(xué)＜／CP＿bl＞都贊成這么做＜b＞｜＜CP＿bl＞稻場上～小溪邊＜／CP＿bl＞頓時少了那些女人們的蹤跡＜x＞c＿h(yuǎn)e2＿1a 表示平等的聯(lián)合關(guān)系。＜b＞連接三項以上時“和”放在最后兩項之間，前面的成分用頓號連接。＜b＞一切事物都有＜CP＿bl＞發(fā)生、發(fā)展～消亡＜／CP＿bl＞的過程＜b＞｜＜CP＿bl＞北京、上海、天津～重慶＜／CP＿bl＞都是直轄市＜x＞c＿h(yuǎn)e2＿1b 表示平等的聯(lián)合關(guān)系。＜b＞多項并列成分如果有幾個層次，可用“和”表示一種層次，用頓號或“與、同、以及、及”表示另一種層次。＜b＞＜CP＿bl＞爸爸、媽媽～哥哥、姐姐＜／CP＿bl＞都不在家＜b＞c＿h(yuǎn)e2＿1c 表示平等的聯(lián)合關(guān)系。＜b＞連接做謂語的動詞短語、形容詞短語時，動、形限于雙音節(jié)。謂語前或后必有共同的附加成分或連帶成分。＜b＞事情還要進一步＜CP＿bl＞調(diào)查～了解＜／CP＿bl＞＜b＞＜x＞｜泰山的景色十分＜CP＿bl＞雄偉～壯麗＜／CP＿bl＞＜b＞c＿h(yuǎn)e2＿2 表示選擇，相當(dāng)于“或”。＜x＞常用于“無論、不論、不管”后。＜b＞這意味著，只要在滬注冊的企業(yè)不論＜CP＿xz＞所有制～歸屬＜／CP＿xz＞，都可以享受這一政策。＜r＞

［1］周強.漢語語料庫的短語自動劃分和標(biāo)注研究［D］.北京：北京大學(xué)，1996.

［2］孫宏林.現(xiàn)代漢語非受限文本的實語塊分析［D］.北京：北京大學(xué)，2001.

［3］吳云芳.面向中文信息處理的現(xiàn)代漢語并列結(jié)構(gòu)研究［D］.北京：北京大學(xué)，2003.

［4］王東波，陳小荷，年洪東.基于條件隨機場的有標(biāo)記聯(lián)合結(jié)構(gòu)自動識別［J］.中文信息學(xué)報，2008，22 （6）：3－8.

［5］Dongbo Wang，Danhao Zhu，Xinning Su，et al.Automatic Identification of Parallel Structure Based on Conditional Random Field［C］／／Proceedings of the 3rd International Symposium on Computer Science and Computational Technology（ISCSCT'10），Jiaozuo，2010：400－404.

［6］Hongying Zan，Lijuan Zhou，Kunli Zhang.Studies on the Automatic Recognition of Modern Chinese Conjunction Usages［J］.Lecture Notes in Computer Science，2011，6838：472－479.

［7］Lafferty J，McCallum A，Pereira F.Conditional Random Fields：Probabilistic Models for Segmenting and Labeling Sequence Data［C］／／Proceedings of the 18th ICML－01，Montreal，2001：282－289.

［8］Hai Zhao，Changning Huang，Mu Li.An Improved Chinese Word Segmentation System with Conditional Random Field［C］／／Proceedings of the 5th SIGHAN Workshop on Chinese Language Processing（SIGHAN－5）.Sydeny，2006：162－165.

［9］周俊生，戴新宇，尹存燕，等.基于層疊條件隨機場模型的中文機構(gòu)名自動識別［J］.電子學(xué)報，2006，5：804－809.

［10］丁德鑫，曲維光，徐濤，等.基于CRF模型的組合型歧義消解研究［J］.南京師范大學(xué)學(xué)報，2008，8（4）：73－76.