• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于統(tǒng)計(jì)和規(guī)則的常用詞的兼類識(shí)別研究

      2013-07-25 02:28:46柴玉梅昝紅英
      關(guān)鍵詞:兼類語(yǔ)料正確率

      夏 靜,柴玉梅,昝紅英

      (鄭州大學(xué)信息工程學(xué)院,河南鄭州450001)

      0 引言

      在中文信息處理領(lǐng)域的研究中,漢語(yǔ)語(yǔ)料庫(kù)的質(zhì)量具有舉足輕重的作用,高質(zhì)量的語(yǔ)料庫(kù)越來(lái)越受到學(xué)者們的關(guān)注。目前有許多研究領(lǐng)域都使用到了漢語(yǔ)語(yǔ)料庫(kù),比如:機(jī)器翻譯、語(yǔ)音識(shí)別、文字識(shí)別、信息檢索等。要得到高質(zhì)量的語(yǔ)料庫(kù),詞性標(biāo)注是基礎(chǔ),目前漢語(yǔ)的詞性標(biāo)注已經(jīng)成為一個(gè)很重要的研究課題。由于詞的兼類現(xiàn)象的普遍存在,給詞性標(biāo)注帶來(lái)了很大困難,因此,正確識(shí)別兼類詞的詞性是詞性標(biāo)注問(wèn)題的關(guān)鍵之一。

      “兼類詞“指的是在一定的詞類體系中兼屬兩個(gè)或兩個(gè)以上不同詞類的詞。那么,兼類詞的數(shù)量與給定的詞性標(biāo)記集有關(guān),一般情況下,詞性標(biāo)記集越詳細(xì),詞的兼類情況就越復(fù)雜。兼類詞的數(shù)量雖然不多,但使用頻率很高,因此解決好兼類詞的詞性標(biāo)注問(wèn)題對(duì)于提高詞性標(biāo)注的正確率具有重要意義。目前對(duì)于兼類詞的詞性標(biāo)注的研究,有許多相關(guān)的技術(shù)和文獻(xiàn):基于分類器集成的兼類詞消歧研究[1]、基于條件隨機(jī)場(chǎng) (CRFs)的中文詞性標(biāo)注方法[2]、基于分類的漢語(yǔ)語(yǔ)料庫(kù)詞性標(biāo)注一致性檢查[3]等。這些研究中有些僅僅是選取詞作為特征,在數(shù)據(jù)稀疏時(shí)會(huì)影響分類的結(jié)果;有些僅僅是采用了一種方法對(duì)兼類詞進(jìn)行了研究沒有充分的對(duì)比說(shuō)明,并且沒有考慮到上下文窗口對(duì)標(biāo)注的影響,針對(duì)目前的研究現(xiàn)狀兼類詞的識(shí)別問(wèn)題還有待進(jìn)一步的研究。

      本文基于兼類詞的詞性與它所在的上下文環(huán)境之間的依賴關(guān)系,綜合考慮了影響兼類詞識(shí)別的詞語(yǔ)信息、詞性信息以及詞語(yǔ)和詞性的復(fù)合信息作為特征,通過(guò)對(duì)上下文窗口的設(shè)置來(lái)改變特征語(yǔ)料的提取,不斷進(jìn)行測(cè)試以找到合適的窗口。采用統(tǒng)計(jì)的不同方法和規(guī)則的方法分別對(duì)兼類詞的識(shí)別進(jìn)行了進(jìn)一步的研究,并取得了較好的結(jié)果。

      1 常用詞的兼類識(shí)別

      近年來(lái),在自然語(yǔ)言處理 (NLP)研究中,已經(jīng)有許多機(jī)器學(xué)習(xí)的統(tǒng)計(jì)模型,其中有隱馬爾科夫模型 (HMM)、支持向量機(jī) (SVM)、最大熵 (ME)以及條件隨機(jī)場(chǎng)(CRF)等,本文采用了在詞性標(biāo)注方面應(yīng)用較多且效果比較好的條件隨機(jī)場(chǎng)模型、最大熵模型和k最近鄰算法對(duì)兼類詞進(jìn)行標(biāo)注,針對(duì)統(tǒng)計(jì)方法效果不夠理想的詞,又嘗試了規(guī)則的方法進(jìn)行標(biāo)注,最后給出了相應(yīng)的實(shí)驗(yàn)結(jié)果,并進(jìn)行對(duì)比分析。

      1.1 基于條件隨機(jī)場(chǎng)模型的識(shí)別

      條件隨機(jī)場(chǎng) (conditional RandomFields,CRF)的概念自2001年被J.Lafferty等人[4]提出以來(lái),被廣泛應(yīng)用在信息抽取、命名實(shí)體識(shí)別、語(yǔ)義角色標(biāo)注[5]、漢語(yǔ)詞義消歧[6]等領(lǐng)域。CRF的突出優(yōu)點(diǎn)就是可以相對(duì)任意地加入任何與處理對(duì)象相關(guān)的語(yǔ)言學(xué)特征,并且能夠充分考慮上下文中的特征,綜合利用詞和詞性等資源,所以,對(duì)于基于CRF模型的兼類詞識(shí)別,主要考慮選取哪些特征對(duì)詞性識(shí)別有利,而不必顧及其他的因素。

      兼類詞的詞性識(shí)別看做是一個(gè)序列標(biāo)注任務(wù),通過(guò)判斷該兼類詞所在的不同的上下文環(huán)境,即考慮詞語(yǔ)、詞性以及詞語(yǔ)和詞性的復(fù)合信息進(jìn)行特征的選取,并根據(jù)這些特征判斷其所屬的詞性。

      在基于CRF的兼類詞詞性標(biāo)注中,需要將訓(xùn)練文件和測(cè)試文件轉(zhuǎn)換成一定的文件格式。訓(xùn)練和測(cè)試文件必須包含多個(gè)塊,一個(gè)中文句子對(duì)應(yīng)一個(gè)塊,塊與塊之間用空格間隔,每個(gè)塊包含多個(gè)tokens,每個(gè)token必須寫在一行上,且包含多個(gè)列,各列之間用空格間隔。Token的定義可以根據(jù)具體的要求來(lái)選擇,如詞語(yǔ)信息、詞性信息等。我們需要對(duì)語(yǔ)料進(jìn)行預(yù)處理,把含有該兼類詞的所有句子都提取出來(lái)。表1為上下文窗口為4的數(shù)據(jù)格式。

      在表1中,W代表的是該兼類詞,W-i(i=1、2、3……),P-i(i=1、2、3……)分別代表在上下文環(huán)境中該兼類詞左邊 (上文)緊鄰的詞語(yǔ)和詞性信息。W+i(i=1、2、3……),P+i(i=1、2、3……)分別表示在上下文環(huán)境中該兼類詞右邊 (下文)緊鄰的詞語(yǔ)和詞性。P表示該兼類詞的詞性編碼。

      表1 上下文窗口為4的數(shù)據(jù)格式

      例如,兼類詞“以”的上下文窗口為4的數(shù)據(jù)格式如下

      以根本 a利益 n,wd并 c此 rz作為 vl改革 v發(fā)展 v p

      模板文件可以定義一元特征、二元特征及n元特征,同時(shí)也可以定義復(fù)合特征。模板的格式樣例如下所示:

      #Unigram

      U01:%x[0,1]/%x [0,2]

      U02:%x[0,3]/%x [0,4]

      U03:%x[0,5]/%x [0,6]

      U04:%x[0,7]/%x [0,8]

      U05:%x[0,9]/%x [0,10]

      U06:%x[0,11]/%x [0,12]

      U07:%x[0,13]/%x [0,14]

      U08:%x[0,15]/%x [0,16]

      #Bigram

      B

      通過(guò)選擇不同的模板進(jìn)行標(biāo)注,我們需要得到以下結(jié)果,用兼類詞“以”為例,如下是標(biāo)注后的結(jié)果:

      以根本a利益n,wd并c此rz作為vl改革v發(fā)展v p p

      對(duì)比標(biāo)注后的結(jié)果,第17列代表兼類詞“以”在未標(biāo)注語(yǔ)料句子中的原始詞性,即標(biāo)注前的詞性;第18列表示實(shí)驗(yàn)標(biāo)注后的詞性,即CRF標(biāo)注的結(jié)果。

      1.2 基于最大熵模型的識(shí)別

      最大熵模型的概念最早是由E.T.Jaynes在1957年提出[7],其基本原理就是當(dāng)把不完整的信息當(dāng)做依據(jù)去做預(yù)測(cè)時(shí),應(yīng)當(dāng)由滿足分布限制條件且熵最大的概率分布得到,也就是對(duì)未知的知識(shí)進(jìn)行預(yù)測(cè)時(shí)根據(jù)已有的知識(shí)建模,而對(duì)未知的知識(shí)不做任何的假設(shè)。在自然語(yǔ)言處理中,最大熵模型已經(jīng)有許多重要的應(yīng)用,在詞義消歧[8]、詞性標(biāo)注[9]、文本情感傾向性分類[10]、組塊分析等方面取得了較好的效果,因?yàn)槠鋵?duì)特征之間不要求其獨(dú)立性,所以不用考慮它們之間是否會(huì)相互影響。

      針對(duì)最大熵模型在兼類詞識(shí)別的問(wèn)題上,可以把兼類詞的目標(biāo)類看成是在其上下文的環(huán)境中所發(fā)生的概率,這個(gè)語(yǔ)境條件可以包括上下文的詞語(yǔ)、詞性以及句子結(jié)構(gòu)等信息特征。在本文中主要考慮選取哪些特征對(duì)兼類詞的識(shí)別有用而不用顧及其它的因素,通過(guò)對(duì)語(yǔ)料的大量分析,主要選擇兼類詞所在上下文中的“詞語(yǔ)”信息、 “詞性”信息、“詞語(yǔ)+詞性”復(fù)合信息作為ME模型的特征,對(duì)于不同的兼類詞來(lái)說(shuō),特征選擇不同識(shí)別結(jié)果也會(huì)不同。本文把最大熵模型應(yīng)用在兼類詞的識(shí)別方面,并取得了較好的實(shí)驗(yàn)結(jié)果。

      在基于ME的兼類詞詞性標(biāo)注中,需要將訓(xùn)練文件和測(cè)試文件轉(zhuǎn)換成如下的文件格式

      其中,lable是兼類詞標(biāo)注的類別,f1,f2,…,fn是提取特征的相應(yīng)標(biāo)號(hào),v1,v2,…,vn是所提取的不同特征。

      例如,上下文窗口為4的兼類詞“以”所使用的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)格式:

      “p w0=以 w-4=根本 p-4=a wp-4=根本a w-3=利益 p-3=n wp-3=利益n w-2=,p-2=wd wp-2=,wd w-1=并 p-1=c wp-1=并 c w+1=此p+1=rz wp+1=此rz w+2=作為 p+2=vl wp+2=作為vl w+3=改革 p+3=v wp+3=改革v w+4=發(fā)展 p+4=v wp+4=發(fā)展v”

      其中,w表示詞語(yǔ),p表示詞性,wp表示詞語(yǔ)與詞性的組合特征,,w0表示待標(biāo)注的兼類詞,p為待標(biāo)注兼類詞的詞性編碼。對(duì)于測(cè)試數(shù)據(jù)來(lái)說(shuō)第一列可以去掉,但為了便于實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì),保留測(cè)試數(shù)據(jù)中的第一列。當(dāng)標(biāo)準(zhǔn)語(yǔ)料經(jīng)過(guò)預(yù)處理得到上述格式后,就可以根據(jù)需要的不同特征對(duì)數(shù)據(jù)進(jìn)行不同的預(yù)處理。

      1.3 基于K最近鄰算法的識(shí)別

      K近鄰方法 (k-nearest neighbor,KNN)是基于統(tǒng)計(jì)的分類算法,是數(shù)據(jù)挖掘分類算法中比較常用的一種方法,它是由Cover和Hart在1968年首次提出的,屬于懶惰學(xué)習(xí)方法,思想十分簡(jiǎn)單直觀,原理上依賴于極限定理。分類思想是:給定一個(gè)待分類的樣本x,首先找出與x最接近的或最相似的K個(gè)已知類別標(biāo)簽的訓(xùn)練集樣本,然后根據(jù)這K個(gè)訓(xùn)練樣本的類別標(biāo)簽確定樣本x的類別。

      在KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對(duì)象,該方法在定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來(lái)決定待分樣本所屬的類別,主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來(lái)確定所屬類別的,因此對(duì)于類域的交叉或重疊較多的待分樣本集來(lái)說(shuō),KNN方法較其他方法更為適合。同時(shí),在類別分類的時(shí)候,影響分類的結(jié)果只與少量的最相似樣本相關(guān),所以,KNN算法可以有效的避免樣本分布不平衡所帶來(lái)的影響。在這里k的選擇比較關(guān)鍵,如果k值太小,可能對(duì)數(shù)據(jù)的局部特征比較敏感導(dǎo)致分類結(jié)果不穩(wěn)定,k值太大,也會(huì)平滑掉單個(gè)數(shù)據(jù)點(diǎn)產(chǎn)生的影響,造成結(jié)果偏差。

      在基于k最近鄰算法的識(shí)別中,我們選擇數(shù)據(jù)挖掘中最常用的工具weka進(jìn)行實(shí)驗(yàn),針對(duì)需要得到的不同特征結(jié)果,編寫預(yù)處理程序,不需要寫特征模板。在這里,我們分別選取了 (詞、詞性、詞+詞性)3種不同特征對(duì)實(shí)驗(yàn)語(yǔ)料進(jìn)行了處理,并且通過(guò)選擇合適的窗口得到不同的特征信息,綜合考慮了在KNN方法中,這3種特征對(duì)兼類詞識(shí)別的影響。

      1.4 基于規(guī)則的方法

      基于規(guī)則的兼類詞識(shí)別,就是針對(duì)兼類詞在不同上下文中的使用構(gòu)建識(shí)別規(guī)則,然后通過(guò)編制識(shí)別程序,對(duì)語(yǔ)料庫(kù)中的兼類詞進(jìn)行詞性識(shí)別和標(biāo)注。目前,鄭州大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室根據(jù)現(xiàn)代漢語(yǔ)虛詞用法特征的不同表現(xiàn),構(gòu)建了三位一體的虛詞知識(shí)庫(kù)[11-12]。

      本文主要是針對(duì)一些用統(tǒng)計(jì)方法識(shí)別效果不夠好的兼類詞考慮基于規(guī)則的方法,即根據(jù)它們不同詞性的不同特征,抽取其中具有可操作性的判斷條件,利用BNF范式對(duì)兼類詞的詞性進(jìn)行了描述。具體做法是:首先根據(jù)這些兼類詞在上下文中的詞語(yǔ)、詞性信息以及在句子中的結(jié)構(gòu)關(guān)系構(gòu)建一組規(guī)則,未來(lái)得到正確性和完備性更好的規(guī)則,需要在大量的語(yǔ)料上對(duì)規(guī)則進(jìn)行反復(fù)測(cè)試、改進(jìn),最終得到識(shí)別效果比較好的規(guī)則庫(kù)。

      兼類詞詞性的規(guī)則可以形式化描述為:

      <ID > → [F][M][L][R][N][E]

      F→<詞1>|<詞2>|…|a|v|n|…

      M→<詞1>|<詞2>|…|a|v|n|…

      L→<詞1>|<詞2>|…|a|v|n|…

      R→<詞1>|<詞2>|…|a|v|n|…

      N→<詞1>|<詞2>|…|a|v|n|…

      E→<詞1>|<詞2>|…|a|v|n|…

      其中,ID為所識(shí)別的兼類詞的詞性編碼,F(xiàn)表示句首信息,M表示其左邊搭配的詞語(yǔ)或詞性信息,L表示其左邊緊鄰的信息,R表示其右邊緊鄰的信息,N表示其右邊搭配的信息,E表示句末信息。

      如下是兼類詞“首先”的規(guī)則描述樣例:

      MYM首先

      @ <c>→N^N→其次|第二|然后|隨后|之后|再

      @ <d>→R^R→v

      @ <c>→F^F→ ~

      @ <d>→N^N→ [w]*v

      兼類詞的每一個(gè)詞性規(guī)則都可以看做是一個(gè)模式表達(dá)式,因?yàn)榉?hào)的特殊性,這個(gè)模式語(yǔ)言的定義并不能認(rèn)為是正則表達(dá)式。在本文中我們考慮把兼類詞的識(shí)別問(wèn)題看成是字符串的匹配問(wèn)題,而正則表達(dá)式在文本字符的處理方面具有高效、易用的優(yōu)點(diǎn),所以考慮將BNF范式的規(guī)則轉(zhuǎn)換成正則表達(dá)式,即將BNF形式的規(guī)則中各種特征所定義的詞性進(jìn)行實(shí)例化,然后用實(shí)例化后所得到的詞集去替換對(duì)應(yīng)的詞性字符,在對(duì)其它的匹配字符也做相應(yīng)的轉(zhuǎn)化,就得到了規(guī)則的正則表達(dá)式,最后對(duì)語(yǔ)料在特征屬性匹配器上進(jìn)行字符串的匹配,根據(jù)匹配結(jié)果確定兼類詞的詞性編碼。

      具體的算法思想如下:

      (1)初始化語(yǔ)料庫(kù)和兼類詞的規(guī)則庫(kù),讀取的語(yǔ)料按行存放,即將文本語(yǔ)料切分成一個(gè)個(gè)的句子,并以動(dòng)態(tài)數(shù)組的形式讀入內(nèi)存中,兼類詞的規(guī)則是以哈希表的形式寫入內(nèi)存。

      (2)讀取待識(shí)別的一個(gè)整句,并找出句子中所要識(shí)別的兼類詞以及對(duì)應(yīng)的規(guī)則,然后對(duì)整句進(jìn)行預(yù)處理,得出兼類詞在原始語(yǔ)句中的位置。

      (3)第三步是一個(gè)規(guī)則解析、識(shí)別匹配的過(guò)程,在找到待標(biāo)兼類詞的規(guī)則后,按照規(guī)則順序讀取規(guī)則,按照規(guī)則的描述由匹配器調(diào)度程序確定出發(fā)的匹配器類型,然后由相應(yīng)的匹配器解析規(guī)則并進(jìn)行對(duì)應(yīng)的匹配。

      (4)最后根據(jù)匹配的結(jié)果確定兼類詞的詞性標(biāo)注結(jié)果,如果這個(gè)句子中的所有兼類詞都已經(jīng)標(biāo)注完畢,就轉(zhuǎn)到上一步中繼續(xù)讀取下一個(gè)句子,循環(huán)進(jìn)行,直到所有句子都標(biāo)注完畢。

      以2000年1月份分詞和詞性標(biāo)注的《人民日?qǐng)?bào)》語(yǔ)料作為兼類詞識(shí)別研究的語(yǔ)料庫(kù)之一,下面是包含兼類詞“首先”的語(yǔ)料樣例:

      機(jī)器在對(duì)其進(jìn)行識(shí)別的時(shí)候,首先要讀取語(yǔ)料文件和規(guī)則文件,也就是對(duì)語(yǔ)料和規(guī)則進(jìn)行初始化,語(yǔ)料以行為單位讀入數(shù)組中,規(guī)則是以哈希表的形式存放在內(nèi)存中,讀取一條規(guī)則判斷是否與數(shù)組中的語(yǔ)料匹配,如果匹配不成功,則繼續(xù)讀取第二條規(guī)則,判斷是否與語(yǔ)料進(jìn)行匹配,如果匹配成功,則把該規(guī)則所表示的詞性代碼標(biāo)注在語(yǔ)料上。如下是兼類詞“首先“標(biāo)注后的結(jié)果樣例:

      2 實(shí)驗(yàn)設(shè)計(jì)與分析

      實(shí)驗(yàn)語(yǔ)料采用的是2000年1月的已完成切詞和詞性標(biāo)注的《人民日?qǐng)?bào)》語(yǔ)料,并進(jìn)行人工校對(duì)后作為實(shí)驗(yàn)用的標(biāo)準(zhǔn)語(yǔ)料。標(biāo)注系統(tǒng)的性能很大程度上取決于訓(xùn)練和測(cè)試模型所使用的特征,根據(jù)不同模型訓(xùn)練數(shù)據(jù)的格式和兼類詞語(yǔ)境的特點(diǎn),我們把上下文窗口的有效范圍控制在 (-5,5),即考慮該兼類詞在句子中上下文窗口5以內(nèi)的詞語(yǔ)、詞性及 (詞語(yǔ)+詞性)復(fù)合信息,這樣可以獲得較好的識(shí)別結(jié)果,如果窗口再增大,有效信息也不會(huì)明顯的增加,反而會(huì)帶來(lái)更多的噪音。

      2.1 基于條件隨機(jī)場(chǎng)方法

      本文采用CRF++工具包 (CRF++:Yet Another Toolkit[CP/OL].http://www.chasen.org/ ~ taku/software/CRF++)作為自動(dòng)標(biāo)注工具。為了更好地驗(yàn)證模型的性能,對(duì)每個(gè)詞都采用了4折交叉驗(yàn)證,最后得到各個(gè)詞的平均交叉結(jié)果。

      表2是3種不同特征的CRF模型實(shí)驗(yàn)結(jié)果對(duì)比,對(duì)常用的兼類詞進(jìn)行了實(shí)驗(yàn),下表中選取了幾個(gè)具有代表性的兼類詞。其中,a代表使用詞語(yǔ)為特征的信息,b代表使用詞性為特征的信息,c代表使用 (詞語(yǔ)+詞性)復(fù)合特征的信息。

      表2 CRF準(zhǔn)確率

      從表2的實(shí)驗(yàn)結(jié)果可以看出,用基于統(tǒng)計(jì)CRF模型的方法進(jìn)行兼類詞的識(shí)別,正確率基本上可以達(dá)到90%以上,當(dāng)選取兼類詞上下文的詞性信息做為特征進(jìn)行兼類詞的識(shí)別時(shí),正確率比其他兩種特征 (詞語(yǔ)或者詞語(yǔ)+詞性)都要高,由此可見,特征模板b能夠有效的提高兼類詞標(biāo)注的正確率。當(dāng)然也不排除出現(xiàn)的個(gè)別現(xiàn)象,比如上面的兼類詞“首先”就是在選取詞語(yǔ)為特征時(shí)正確率比較高。

      2.2 基于最大熵方法

      本文在基于最大熵的兼類詞識(shí)別實(shí)驗(yàn)中,模型的訓(xùn)練和測(cè)試使用了Zhang Le的最大熵工具包maxent maxent(http://homepages.inf.ed.ac.uk/s0450736/maxent_too lkit.html)。

      在本文實(shí)驗(yàn)中,我們對(duì)實(shí)驗(yàn)所用的標(biāo)準(zhǔn)語(yǔ)料按照maxent工具包可識(shí)別的格式進(jìn)行預(yù)處理。我們選取了不同的特征(a詞語(yǔ)特征、b詞性特征、c詞語(yǔ)+詞性復(fù)合特征)進(jìn)行實(shí)驗(yàn),對(duì)每個(gè)詞的ME模型都采用了4折交叉驗(yàn)證,得到各個(gè)詞的平均交叉結(jié)果,并把3種不同特征的結(jié)果進(jìn)行比較分析。表3是三種不同特征的ME模型的實(shí)驗(yàn)結(jié)果對(duì)比。

      表3 ME準(zhǔn)確率

      由表3的實(shí)驗(yàn)結(jié)果可以得出,用基于最大熵模型的方法對(duì)兼類詞進(jìn)行識(shí)別時(shí),大部分兼類詞在選取特征模板b(上下文的詞性信息)進(jìn)行實(shí)驗(yàn)時(shí)正確率比較高,但整體分類效果不如CRF模型的好。也有一些個(gè)別現(xiàn)象,如兼類詞“首先”的ME正確率略高于CRF模型的結(jié)果。

      2.3 基于k最近鄰的方法

      我們用的是數(shù)據(jù)挖掘最常用的工具weka進(jìn)行分類實(shí)驗(yàn),首先通過(guò)預(yù)處理程序?qū)?shí)驗(yàn)語(yǔ)料進(jìn)行不同特征的處理,通過(guò)實(shí)驗(yàn)選取合適的k值,并且經(jīng)過(guò)大量的交叉驗(yàn)證實(shí)驗(yàn)得出,大部分的詞都是在交叉系數(shù)為10或者11時(shí)正確率比較高。表4是3種不同特征的KNN方法的實(shí)驗(yàn)結(jié)果對(duì)比。

      表4 KNN準(zhǔn)確率

      由表4的實(shí)驗(yàn)結(jié)果可以得出,用基于k最近鄰的方法對(duì)兼類詞進(jìn)行識(shí)別時(shí)可以有效的提高識(shí)別的正確率,并且標(biāo)注正確率可以達(dá)到90%左右。當(dāng)我們選取上下文的 (詞+詞性)為特征時(shí),也就是用特征模板c可以更好地提高識(shí)別正確率,但整體效果不如前兩種方法。有些兼類詞的個(gè)別現(xiàn)象主要是由于它的詞性在語(yǔ)料中分布不均勻所造成的。

      圖1 三種統(tǒng)計(jì)方法的實(shí)驗(yàn)結(jié)果

      從圖1的結(jié)果可以看出,在用基于條件隨機(jī)場(chǎng)方法對(duì)兼類詞進(jìn)行識(shí)別,并且選取詞性信息作為特征模板時(shí),正確率比較高,總體上優(yōu)于ME方法和KNN方法,并且在用不同的統(tǒng)計(jì)方法進(jìn)行兼類詞的識(shí)別時(shí),針對(duì)不同的方法選取對(duì)其有效的特征信息也是很重要的。但觀察圖1中兼類詞的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),這些詞并不是都存在一致的現(xiàn)象,如:“首先”就是ME模型識(shí)別效果比較好,針對(duì)這些個(gè)別現(xiàn)象,我們考慮了規(guī)則的方法。

      2.4 基于規(guī)則的方法

      針對(duì)以上統(tǒng)計(jì)方法識(shí)別效果不夠好的兼類詞,如:“首先”、“只有”等,這些兼類詞在用統(tǒng)計(jì)方法以及特征選取時(shí)跟大部分兼類詞的情況不一致,對(duì)于這些個(gè)別現(xiàn)象的詞,又嘗試了利用規(guī)則的識(shí)別方法,以下是規(guī)則的實(shí)驗(yàn)結(jié)果。

      表5 規(guī)則結(jié)果對(duì)比

      對(duì)于統(tǒng)計(jì)方法識(shí)別結(jié)果不好的詞,可能是由于這些詞在不同上下文的語(yǔ)境中很難找到一個(gè)整體一致的特征,其特征呈現(xiàn)多樣化,以此影響了識(shí)別的準(zhǔn)確率。由表5結(jié)果可以看出,這幾個(gè)兼類詞的規(guī)則識(shí)別效果高于統(tǒng)計(jì)方法的結(jié)果,所以針對(duì)基于統(tǒng)計(jì)方法識(shí)別準(zhǔn)確率不高的兼類詞,可以嘗試?yán)靡?guī)則的方法來(lái)進(jìn)一步的提高其正確率,當(dāng)然這里邊獲得一個(gè)綜合性很高的規(guī)則是很重要的,需要經(jīng)過(guò)在大量的語(yǔ)料上進(jìn)行測(cè)試,不斷發(fā)現(xiàn)規(guī)則的問(wèn)題,并且反復(fù)的修改規(guī)則庫(kù)來(lái)提高識(shí)別的正確率。

      3 結(jié)束語(yǔ)

      本文主要使用了基于條件隨機(jī)場(chǎng)、最大熵、K最近鄰三種統(tǒng)計(jì)方法對(duì)常用的兼類詞進(jìn)行識(shí)別研究,并針對(duì)不同的方法分別考慮了兼類詞本身的特點(diǎn)以及在上下文中的詞語(yǔ)、詞性以及詞語(yǔ)+詞性的綜合信息對(duì)其產(chǎn)生的影響,通過(guò)對(duì)上下文窗口的設(shè)置進(jìn)一步改變對(duì)特征的提取以達(dá)到較高的識(shí)別準(zhǔn)確率。針對(duì)統(tǒng)計(jì)方法中的個(gè)別現(xiàn)象又考慮了用規(guī)則的方法進(jìn)行研究,并介紹了規(guī)則的形式化描述及基于規(guī)則的兼類詞識(shí)別算法思想。進(jìn)一步的工作是針對(duì)更多的兼類詞嘗試用規(guī)則的方法進(jìn)行識(shí)別,完善規(guī)則庫(kù),并且嘗試用聚類的方法對(duì)兼類詞的識(shí)別進(jìn)行研究。

      [1]ZHANG Yizhe,QU Weiguang,LIU Jinke.Research on disambiguation of multiple syntactic category words based on ensemble of classifiers[J].Journal of Nanjing Normal University,2010,33(4):144-147(in Chinese).[張一哲,曲維光,劉金克.基于分類器集成的兼類詞消歧研究[J].南京師大學(xué)報(bào),2010,33(4):144-147.]

      [2]HONG Mingcai,ZHANG Kuo,TANG Jie.A Chinese part of speech tagging approach using conditional random fields [J].Computer Science,2006,33(10):148-151(in Chinese).[洪銘材,張闊,唐杰.基于條件隨機(jī)場(chǎng) (CRFs)的中文詞性標(biāo)注方法 [J].計(jì)算機(jī)科學(xué),2006,33(10):148-151.]

      [3]ZHANGHu,ZHENG Jiaheng.Consistency check on POStagging of Chinese corpus based on classification [J].Computer Engineering,2008,34(8):90-92(in Chinese).[張虎,鄭家恒.基于分類的漢語(yǔ)語(yǔ)料庫(kù)詞性標(biāo)注一致性檢查 [J].計(jì)算機(jī)工程,2008,34(8):90-92.]

      [4]Lafferty J,McCallum A,Pereira F.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th ICML-01,2001:282-289.

      [5]Cohn T,Blunsom P.Semantic role labeling with tree conditio-nal random fields[C]//Proceedings of the Ninth Conference on Computational Natural Language Learning.Ann Arbor,Michigan:Association for Computational Linguistics,2005:169-172.

      [6]MIAO Xuelei.Chinese word sense disambiguation method based on conditional random fields[D].Shenyang:Shenyang Aerospace U-niversity,2007(in Chinese).[苗雪雷.基于條件隨機(jī)場(chǎng)的漢語(yǔ)詞義消歧方法研究[D].沈陽(yáng):沈陽(yáng)航空工業(yè)學(xué)院,2007.]

      [7]Jaynes E T.Information theory and statistical mechanics [J].Physics Reviews,1957.

      [8]CHEN Xiaorong,QIN Jin.Maximum entropy-based chinese word sense disambiguation [J].Computer Science,2005,32(5):174-176(in Chinese).[陳笑蓉,秦進(jìn).基于最大熵原理的漢語(yǔ)詞義消歧[J].計(jì)算機(jī)科學(xué),2005,32(5):174-176.]

      [9]ZHANG Lei.Chinese POStagging study based on maximum entropy[D].Dalian:Dalian University of Technology,2008(in Chinese).[張磊.基于最大熵模型的漢語(yǔ)詞性標(biāo)注研究 [D].大連:大連理工大學(xué),2008.]

      [10]PENG Qiwei.Classification of emotional tendency of the Chinese text based on statistical methods[D].Taiyuan:Shanxi University,2007(in Chinese).[彭其偉.基于統(tǒng)計(jì)方法的中文文本情感傾向分類研究[D].太原:山西大學(xué),2007.]

      [11]ZAN Hongying,ZHANG Kunli,CHAI Yumei.The formal description of the modern Chinese adverb usage[C]//The8th Chinese Lexical Semantics Workshop Proceedings,The Hong Kong Polytechnic University,2007(in Chinese).[昝紅英,張坤麗,柴玉梅.現(xiàn)代漢語(yǔ)副詞用法的形式化描述 [C]//第八屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集,香港理工大學(xué),2007.]

      [12]ZAN Hongying,ZHANG Kunli,CHAI Yumei.Studies on the functional word knowledge base of modern Chinese[J].Journal of Chinese Information Processing,2007,21(5):107-111(in Chinese).[昝紅英,張坤麗,柴玉梅.現(xiàn)代漢語(yǔ)虛詞知識(shí)庫(kù)的研究 [J].中文信息學(xué)報(bào),2007,21(5):107-111.]

      猜你喜歡
      兼類語(yǔ)料正確率
      現(xiàn)代韓國(guó)語(yǔ)兼類詞表征研究
      ——以《新國(guó)語(yǔ)詞典》(第5版)為例
      門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
      基于統(tǒng)計(jì)的《HSK詞匯等級(jí)大綱》動(dòng)名兼類詞標(biāo)注研究*
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      生意
      品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
      生意
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      禄丰县| 塔城市| 邵武市| 贡觉县| 营山县| 尚志市| 隆回县| 南京市| 拉孜县| 敦化市| 新民市| 博爱县| 崇礼县| 宁阳县| 兰州市| 黄骅市| 阳曲县| 承德县| 聂拉木县| 华阴市| 抚顺市| 宕昌县| 仙居县| 水城县| 宜都市| 阜宁县| 临夏市| 宣恩县| 平果县| 南溪县| 七台河市| 婺源县| 双流县| 芜湖市| 丹凤县| 专栏| 偃师市| 泰安市| 梅河口市| 商南县| 怀安县|