• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      副詞“就”的用法及其自動(dòng)識(shí)別研究

      2010-06-19 06:25:40昝紅英張軍琿朱學(xué)鋒俞士汶
      中文信息學(xué)報(bào) 2010年5期
      關(guān)鍵詞:自動(dòng)識(shí)別虛詞現(xiàn)代漢語

      昝紅英,張軍琿,朱學(xué)鋒,俞士汶

      (1.鄭州大學(xué)信息工程學(xué)院,河南 鄭州 450001;2.北京大學(xué)計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)

      1 引言

      “就”在現(xiàn)代漢語中是一個(gè)復(fù)雜的詞語。根據(jù)不同的上下文語境,“就”可以用作副詞、介詞、連詞以及動(dòng)詞。下面例句選自文獻(xiàn)[1]和[2]:

      (1)足球聯(lián)賽明天就開始。

      (2)大家就創(chuàng)作方法進(jìn)行了熱烈的討論。

      (3)這東西他就拿了去也沒用。

      (4)花生仁兒就酒。

      其中,(1)中的“就”為副詞,即“就/d”,(2)中的“就”為介詞,即“就/p”,(3)中的“就”為連詞,即“就/c”,(4)中的“就”為動(dòng)詞,即“就/v”。一般來講,詞性的確定可以在一定程度上確認(rèn)詞義。但對(duì)“就”來講,特別是對(duì)副詞“就”,其語義的確定具有很高的復(fù)雜度,其用法靈活多變,并且在真實(shí)文本語料中具有很高的出現(xiàn)頻率。

      一般來講,越是常用的詞匯,用法越是多樣,表現(xiàn)越是復(fù)雜。根據(jù)我們對(duì)1998年1月《人民日?qǐng)?bào)》分詞與詞性標(biāo)注語料庫的統(tǒng)計(jì),“就”一共出現(xiàn)了2586 次 ,其中“就/d”為2255 次,“就/p”為 324次,“就/v”為7次??梢?副詞“就”在分布上占有絕對(duì)的優(yōu)勢,可見副詞“就”對(duì)于與“就”相關(guān)的漢語句子語義研究的重要性。在我們目前構(gòu)建的包括副詞、介詞、連詞、助詞以及語氣詞的現(xiàn)代漢語虛詞知識(shí)庫[4]中,共收錄 1181 個(gè)副詞的 2040 個(gè)用法,其中具有單個(gè)用法的副詞有776個(gè),而副詞“就”則具有7個(gè)語義和21個(gè)用法,是用法數(shù)最多的副詞,也是用法最復(fù)雜的副詞之一。因此,副詞“就”的用法研究對(duì)于整個(gè)副詞的用法及漢語句子語法、語義的研究具有重要的推動(dòng)作用。

      本文旨在通過對(duì)副詞“就”的用法分析及其在真實(shí)文本語料中用法的考察與計(jì)算,總結(jié)副詞“就”的用法規(guī)律,進(jìn)行有關(guān)用法規(guī)則的形式化描述以及用法規(guī)律的特征統(tǒng)計(jì),從而在一定程度實(shí)現(xiàn)副詞“就”用法的機(jī)器自動(dòng)識(shí)別。

      2 副詞“就”的用法描述

      從副詞自身的特點(diǎn)來看,由于虛化程度不一,副詞在整體上是一個(gè)比較混雜而模糊的集合。副詞“就”則是用法最復(fù)雜的副詞,也是現(xiàn)代漢語副詞中用法最多變最靈活的副詞。

      2.1 面向人用的副詞“就”用法描述

      副詞“就”是現(xiàn)代漢語中重要的虛詞之一。根據(jù)文獻(xiàn)[1](標(biāo)記為<b>),并參考文獻(xiàn)[2](標(biāo)記為<h>)和文獻(xiàn)[3](標(biāo)記為<x>),以及1998年1月《人民日?qǐng)?bào)》分詞與詞性標(biāo)注語料庫(標(biāo)記為<r>)中副詞“就”的統(tǒng)計(jì)分布以及其他語法學(xué)家有關(guān)論著中對(duì)副詞“就”的用法描述,我們整理了副詞“就”的7個(gè)義項(xiàng),共21個(gè)用法,詳見附表 A。

      2.2 面向機(jī)器的副詞“就”用法描述

      面向人用的副詞“就”的用法描述,不便于自然語言處理系統(tǒng)的直接應(yīng)用,而且有時(shí)難以避免主觀性和模糊性。為了進(jìn)一步形式化嚴(yán)格地描述副詞“就”的用法規(guī)律,我們對(duì)面向人用的研究結(jié)果進(jìn)行了BNF規(guī)則的形式描述[5],但是對(duì)讀音的區(qū)別(如用法<d_jiu4_4b>、<d_jiu4_4c>等)、“短語”(如用法<d_jiu4_5a>等)以及“小句”(如用法<d_jiu4_5c>等)目前仍不能進(jìn)行準(zhǔn)確的規(guī)則描述。近年來文獻(xiàn)[7-9]對(duì)虛詞用法知識(shí)庫及虛詞用法的自動(dòng)識(shí)別進(jìn)行了初步的研究。下面是副詞“就”的用法規(guī)則樣例,其中大寫字母為指定用法的上下文特征,如F表示句首,M表示左合用,L表示左連用,R表示右連用,N表示右合用,E表示句尾;小寫字母表示詞性,漢字表示詞形。符號(hào)標(biāo)記含義詳見文獻(xiàn)[6]。

      3 副詞“就”的用法自動(dòng)識(shí)別研究

      為了適應(yīng)自然語言處理的需求,根據(jù)對(duì)副詞“就”用法的形式化描述以及對(duì)真實(shí)文本語料中副詞“就”不同用法的語境考察,我們對(duì)副詞“就”進(jìn)行用法自動(dòng)識(shí)別的研究。

      3.1 基于規(guī)則的副詞“就”用法自動(dòng)識(shí)別研究

      基于規(guī)則的方法具有簡單、直觀、針對(duì)性強(qiáng)等優(yōu)點(diǎn),但一般也有覆蓋程度低、難于進(jìn)一步優(yōu)化等缺點(diǎn)。在面向機(jī)器的副詞“就”的用法規(guī)則描述中,除了目前無法準(zhǔn)確描述的讀音、短語、小句等特征外,某些規(guī)則描述還有形式上或語法上的交叉現(xiàn)象。為保證規(guī)則識(shí)別具有較高的準(zhǔn)確率,必須按照規(guī)則之間的互相包含或覆蓋關(guān)系,將比較獨(dú)立的規(guī)則或易于準(zhǔn)確識(shí)別的用法規(guī)則賦予較高的優(yōu)先級(jí),即排在比較靠前的位置,以使得這些規(guī)則能以較高的優(yōu)先級(jí)應(yīng)用于句子中副詞“就”的用法辨識(shí)。根據(jù)對(duì)現(xiàn)有虛詞知識(shí)庫中副詞“就”各用法例句以及1998年1月《人民日?qǐng)?bào)》分詞與詞性標(biāo)注語料中副詞“就”不同用法的上下文語境考察,我們將副詞“就”的規(guī)則順序進(jìn)行了調(diào)整。利用調(diào)整后的副詞“就”的用法規(guī)則描述,對(duì)現(xiàn)有虛詞知識(shí)庫中副詞“就”的例句進(jìn)行基于規(guī)則的自動(dòng)識(shí)別研究[10]。實(shí)驗(yàn)結(jié)果表明,在副詞“就”的7個(gè)義項(xiàng)、21個(gè)用法的75個(gè)例句(其中每個(gè)用法大致有3至5個(gè)例句)中正確識(shí)別的有54個(gè)例句,準(zhǔn)確率是72%。

      進(jìn)一步,我們利用調(diào)整順序后的副詞“就”的用法規(guī)則對(duì)1998年1月《人民日?qǐng)?bào)》分詞與詞性標(biāo)注語料庫中的副詞“就”進(jìn)行自動(dòng)標(biāo)注,實(shí)驗(yàn)結(jié)果表明,在語料中所有副詞“就”的2255 個(gè)出現(xiàn)中正確識(shí)別的只有492個(gè),準(zhǔn)確率僅為21.82%,大大低于對(duì)例句的標(biāo)注結(jié)果。這說明根據(jù)語言學(xué)家給出的有關(guān)用法的參考例句,我們?nèi)斯た偨Y(jié)得到的副詞“就”的規(guī)則描述與在真實(shí)文本語料中的副詞“就”用法語境相比,還有較大的差距,如何根據(jù)語料中用法的實(shí)際情況,不斷調(diào)整和修正副詞“就”的用法規(guī)則,是基于規(guī)則方法進(jìn)行副詞“就”用法自動(dòng)識(shí)別需要解決的首要問題,也是我們目前正在建設(shè)的現(xiàn)代漢語虛詞知識(shí)庫中有關(guān)規(guī)則庫建設(shè)的重要內(nèi)容。

      3.2 基于統(tǒng)計(jì)的副詞“就”用法自動(dòng)識(shí)別研究

      基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法是從訓(xùn)練數(shù)據(jù)中自動(dòng)地或半自動(dòng)地獲取語言知識(shí),建立有效的統(tǒng)計(jì)語言模型?;谝?guī)則的理性主義方法在實(shí)際應(yīng)用中的表現(xiàn)往往不如基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法好,這是因?yàn)榛诮y(tǒng)計(jì)的經(jīng)驗(yàn)主義方法可以根據(jù)實(shí)際訓(xùn)練數(shù)據(jù)的情況不斷優(yōu)化[11],3.1節(jié)的實(shí)驗(yàn)結(jié)果也充分說明了規(guī)則方法對(duì)大規(guī)模語料的局限性。近年來,隱馬爾科夫模型(Hidden Markov Model,HMM)、支持向量機(jī)(Support Vector Machine,SVM)、最大熵(Maximum Entropy,ME)以及條件隨機(jī)場(Conditional Random Fields,CRF)等許多機(jī)器學(xué)習(xí)的統(tǒng)計(jì)模型在自然語言處理領(lǐng)域中得到了廣泛的應(yīng)用。

      SVM是基于統(tǒng)計(jì)學(xué)習(xí)理論的學(xué)習(xí)方法,其準(zhǔn)則是結(jié)構(gòu)風(fēng)險(xiǎn)最小化。該方法通過使用一些策略來最大化具有不同特征的數(shù)據(jù)中間的界限,并針對(duì)數(shù)據(jù)的特征來判斷該數(shù)據(jù)屬于相應(yīng)的類別。與通常的統(tǒng)計(jì)方法相比,SVM通過核函數(shù)變換的方式,將無法線性分類的低維空間中的樣本映射到高維空間進(jìn)行分類,這樣很好地解決了有限數(shù)量樣本的高維模型構(gòu)造問題。SVM 尤其適用于小樣本數(shù)據(jù)的學(xué)習(xí),具有很好的推廣能力,近年來廣泛應(yīng)用于文本分類、短語識(shí)別、詞匯消歧、文本自動(dòng)分類和信息過濾等自然語言處理領(lǐng)域。

      ME模型是一個(gè)比較成熟的統(tǒng)計(jì)模型,廣泛用于分類問題。其基本思想是,給定已知事件集,并在已知事件集上挖掘出潛在的約束條件,然后選擇一種模型,這個(gè)模型必須滿足已知的約束條件,同時(shí)對(duì)未知事件盡可能使其分布均勻。在自然語言處理應(yīng)用方面,基于ME建立的語言模型不依賴于領(lǐng)域知識(shí),獨(dú)立于特定的任務(wù),已經(jīng)有許多重要的應(yīng)用。在命名實(shí)體識(shí)別[12]、詞性標(biāo)注[13]、組塊分析[14]、詞義消歧、文本情感傾向分類等自然語言處理研究領(lǐng)域取得了較好的效果。

      CRF是一個(gè)在給定輸入節(jié)點(diǎn)條件下計(jì)算輸出節(jié)點(diǎn)條件概率的無向圖模型,它考察給定輸入序列對(duì)應(yīng)的標(biāo)注序列的條件概率,訓(xùn)練目標(biāo)是使得條件概率最大化。該模型沒有隱馬爾科夫模型的強(qiáng)獨(dú)立性假設(shè),同時(shí)還克服了最大熵馬爾可夫模型標(biāo)記偏置的缺點(diǎn),在序列標(biāo)注和分割方面有著出色的表現(xiàn)。CRF自從2001年由 Lafferty[15]提出以來,在分詞與詞性標(biāo)注[16]、實(shí)體名識(shí)別[17]、句法分析[18-19]以及情感計(jì)算[20]等多個(gè)自然語言處理研究領(lǐng)域得到了有效的應(yīng)用,并取得了不錯(cuò)的效果。

      我們分別采用ME和CRF模型來研究副詞“就”的用法自動(dòng)識(shí)別問題。本文分別利用LibSVM工具包(http://www.csie.ntu.edu.tw/~cjlin/libsvm)、Zhang Le的最大熵工具包 maxent(http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html)以及CRF++工具包(CRF++:Yet Another Toolkit[CP/OL].http://www.chasen.org/~ taku/software/CRF++)作為自動(dòng)標(biāo)注工具。實(shí)驗(yàn)數(shù)據(jù)是1998年1月《人民日?qǐng)?bào)》虛詞用法標(biāo)注語料庫中人工校對(duì)后的副詞“就”相關(guān)用法語句。為了研究基于統(tǒng)計(jì)方法的副詞“就”用法的自動(dòng)識(shí)別,我們對(duì)基于規(guī)則的自動(dòng)標(biāo)注的結(jié)果進(jìn)行了多人交叉人工校對(duì),形成副詞“就”用法標(biāo)注的標(biāo)準(zhǔn)語料。其中,副詞“就”在 1998年1月《人民日?qǐng)?bào)》虛詞用法語料中的用法分布如表1所示。

      由表1可以看出,副詞“就”的用法在1998年1月《人民日?qǐng)?bào)》真實(shí)文本語料中分布極為不均,為了統(tǒng)計(jì)方便,我們舍去了其中不足5次出現(xiàn)的用法,將其他含有副詞“就”的句子按用法類別基本均勻地散列為5份數(shù)據(jù)集,采用5折交叉進(jìn)行驗(yàn)證實(shí)驗(yàn)。標(biāo)注系統(tǒng)的性能很大程度上取決于訓(xùn)練和測試模型所使用的特征,根據(jù)LibSVM、maxent和 CRF++的訓(xùn)練數(shù)據(jù)格式以及副詞“就”用法的語境特點(diǎn),實(shí)驗(yàn)中特征模板選取副詞“就”前后n個(gè)詞語的詞形與詞性,圖1是副詞“就”的用法自動(dòng)識(shí)別分別在三種統(tǒng)計(jì)模型下的實(shí)驗(yàn)結(jié)果,其中橫坐標(biāo)1~6分別表示n取 2、3、4、5、6、7 時(shí)的結(jié)果 ,即上下文窗口的變換范圍。從對(duì)比實(shí)驗(yàn)結(jié)果看,隨著上下文有效范圍的逐漸增大,識(shí)別效果并沒有明顯的遞增。因此,在當(dāng)前語料庫的規(guī)模下,副詞“就”的用法識(shí)別并不是上下文窗口越大越好,隨著窗口的增大可能會(huì)給識(shí)別帶來更大的噪音。

      表1 語料庫中副詞“就”的用法分布

      可見,統(tǒng)計(jì)模型在副詞“就”的用法自動(dòng)識(shí)別方面具有較好的適應(yīng)性,相對(duì)于基于規(guī)則的自動(dòng)標(biāo)注的21.82%準(zhǔn)確率,基于統(tǒng)計(jì)的自動(dòng)標(biāo)注在總體上取得較高的準(zhǔn)確率,尤其是CRF模型得到了良好的結(jié)果。

      圖1 副詞“就”的用法自動(dòng)識(shí)別分別在三種統(tǒng)計(jì)模型下的實(shí)驗(yàn)結(jié)果

      3.3 基于規(guī)則與基于統(tǒng)計(jì)的副詞“就”用法自動(dòng)識(shí)別結(jié)果分析

      從上述實(shí)驗(yàn)結(jié)果我們看出,在目前所構(gòu)建的副詞“就”的用法規(guī)則庫和用法語料庫的基礎(chǔ)上,基于統(tǒng)計(jì)的副詞“就”的用法自動(dòng)識(shí)別明顯優(yōu)于基于規(guī)則的副詞“就”的用法自動(dòng)識(shí)別。但是,我們就此還不能斷言,關(guān)于副詞“就”的用法識(shí)別,統(tǒng)計(jì)的方法一定優(yōu)于規(guī)則的方法。經(jīng)過對(duì)上述各種方法的結(jié)果進(jìn)行細(xì)致的對(duì)比分析,我們發(fā)現(xiàn)基于統(tǒng)計(jì)和基于規(guī)則對(duì)于副詞“就”用法的識(shí)別在某些具體用法的識(shí)別上一致率很低,它們針對(duì)具體的用法在識(shí)別結(jié)果上表現(xiàn)差異顯著,具有各自明顯的優(yōu)勢和不足。表2為基于CRF統(tǒng)計(jì)與基于規(guī)則對(duì)于1998年1月《人民日?qǐng)?bào)》部分語料中部分用法多于5次出現(xiàn)的副詞“就”用法識(shí)別結(jié)果對(duì)比。

      從實(shí)驗(yàn)數(shù)據(jù)可以看出,盡管基于統(tǒng)計(jì)的方法總體上比基于規(guī)則的方法標(biāo)注效果要好,但是規(guī)則與統(tǒng)計(jì)方法對(duì)于副詞“就”用法的自動(dòng)標(biāo)注結(jié)果呈現(xiàn)各自明顯不同的規(guī)律,一致率較低。例如,對(duì)于用法<d_jiu4_4a>,規(guī)則方法自動(dòng)標(biāo)注的準(zhǔn)確率為26.04%(150/576),而基于CRF的統(tǒng)計(jì)方法自動(dòng)標(biāo)注的準(zhǔn)確率為98.96%(570/576);對(duì)于用法<d_jiu4_4b>,規(guī)則方法自動(dòng)標(biāo)注的準(zhǔn)確率為69.57%(48/69),而基于CRF的統(tǒng)計(jì)方法自動(dòng)標(biāo)注的準(zhǔn)確率為8.70%(6/69)。因此,對(duì)于副詞“就”用法的自動(dòng)識(shí)別,雖然基于統(tǒng)計(jì)方法的結(jié)果明顯優(yōu)于基于規(guī)則方法的結(jié)果,但是二者的表現(xiàn)差異顯著,且均有較大的改進(jìn)空間。在現(xiàn)有工作的基礎(chǔ)上,進(jìn)而繼續(xù)研究規(guī)則與統(tǒng)計(jì)相結(jié)合的副詞“就”的用法自動(dòng)識(shí)別,將會(huì)進(jìn)一步推動(dòng)副詞“就”以及現(xiàn)代漢語虛詞用法的自動(dòng)識(shí)別研究。

      表2 基于CRF統(tǒng)計(jì)和基于規(guī)則的副詞“就”識(shí)別結(jié)果對(duì)比

      4 結(jié)語及進(jìn)一步工作

      本文對(duì)副詞“就”的用法分別進(jìn)行了基于規(guī)則和基于統(tǒng)計(jì)的自動(dòng)識(shí)別研究,從實(shí)驗(yàn)結(jié)果可以看出,它們具有各自的優(yōu)點(diǎn)和不足。將規(guī)則與統(tǒng)計(jì)相結(jié)合,把現(xiàn)有的現(xiàn)代漢語虛詞知識(shí)庫中副詞“就”的用法規(guī)則有機(jī)地融入機(jī)器學(xué)習(xí)模型中,不斷提高副詞“就”的自動(dòng)識(shí)別準(zhǔn)確率,將推動(dòng)現(xiàn)代漢語其他虛詞用法的自動(dòng)識(shí)別研究,并有助于現(xiàn)代漢語文本內(nèi)容的自動(dòng)理解以及中文信息處理相關(guān)的自然語言處理領(lǐng)域的研究進(jìn)展。

      下一步我們計(jì)劃嘗試在規(guī)則方法中引用統(tǒng)計(jì)信息。即在虛詞用法語料的基礎(chǔ)上,統(tǒng)計(jì)各個(gè)用法的具體分布,用相對(duì)頻率作為概率的估計(jì)值,并將概率信息附加在相應(yīng)的規(guī)則上,對(duì)規(guī)則進(jìn)行加權(quán)處理,以調(diào)整規(guī)則匹配的優(yōu)先級(jí),提高基于規(guī)則的副詞“就”用法自動(dòng)識(shí)別的準(zhǔn)確率。同時(shí),利用規(guī)則信息對(duì)基于統(tǒng)計(jì)的副詞“就”用法自動(dòng)識(shí)別結(jié)果的進(jìn)行校正。在目前漢語虛詞用法標(biāo)注語料有限的情況下,有些稀有的用法會(huì)嚴(yán)重偏置或根本得不到訓(xùn)練數(shù)據(jù)。對(duì)于這種情況,一方面考慮在統(tǒng)計(jì)方法識(shí)別之前用準(zhǔn)確率高的強(qiáng)勢規(guī)則對(duì)某些用法進(jìn)行預(yù)先標(biāo)注,避免它們受統(tǒng)計(jì)分布的偏置影響;另一方面則考慮用適當(dāng)?shù)囊?guī)則進(jìn)行統(tǒng)計(jì)方法識(shí)別結(jié)果的后處理,以修正某些特殊用法的標(biāo)注結(jié)果。另外,我們還計(jì)劃在標(biāo)準(zhǔn)虛詞用法標(biāo)注語料的基礎(chǔ)上,與自動(dòng)標(biāo)注的結(jié)果進(jìn)行對(duì)比,采用錯(cuò)誤驅(qū)動(dòng)法對(duì)現(xiàn)有的規(guī)則進(jìn)行自動(dòng)校正,以及對(duì)某些目前難于形式化描述的用法進(jìn)行有關(guān)規(guī)則的自動(dòng)發(fā)現(xiàn)。

      [1]呂叔湘.現(xiàn)代漢語八百詞[M].北京:商務(wù)印書館,1980.

      [2]中國社會(huì)科學(xué)院語言研究所詞典編輯室.現(xiàn)代漢語詞典(第五版)[M].北京:商務(wù)印書館,2007.

      [3]張斌.現(xiàn)代漢語虛詞詞典[M].北京:商務(wù)印書館,2005.

      [4]昝紅英,朱學(xué)鋒.面向自然語言處理的漢語虛詞研究與廣義虛詞知識(shí)庫構(gòu)建[J].當(dāng)代語言學(xué),2009,2:124-135.

      [5]陳火旺.程序設(shè)計(jì)語言編譯原理(第三版)[M].國防工業(yè)出版社,2001.

      [6]昝紅英,張坤麗,柴玉梅,等.現(xiàn)代漢語副詞用法的形式化描述[C]//第八屆漢語詞匯語義學(xué)研討會(huì)論文集.香港理工大學(xué),2007.

      [7]Hongying Zan,Junhui Zhang,Studies on Automatic Recognition of Chinese Adverb CAI's usages Based on Statistic[C]//Proceeding of the3th international conference on Natrual Language Processing and Knowledge Engineering.393-397.

      [8]昝紅英,張坤麗,柴玉梅,等.現(xiàn)代漢語虛詞知識(shí)庫的研究[J].中文信息學(xué)報(bào),2007,21(5):107-111.

      [9]Liping Hao,Hongying Zan,Kunli Zhang,Ming Fan.Research on Chinese Adverb Usage for Machine Recognition[C]//Proceedings of the 7thInternational Conference on Chinese Computing(ICCC2007),122-125.

      [10]劉銳,昝紅英,張坤麗.現(xiàn)代漢語副詞用法的自動(dòng)識(shí)別研究[J].計(jì)算機(jī)科學(xué),2008(8A):172-174.

      [11]宗成慶,統(tǒng)計(jì)自然語言處理[M].北京:清華大學(xué)出版社,2008.

      [12]王江偉.基于最大熵模型的中文命名實(shí)體識(shí)別[D].南京理工大學(xué),2005.

      [13]黃德根.基于最大熵模型的漢語詞性標(biāo)注研究[D].大連理工大學(xué),2008.

      [14]李素建,劉群,楊志峰.基于最大熵模型的組塊分析[J].計(jì)算機(jī)學(xué)報(bào),2003(12):1722-1727.

      [15]LaffertyJ,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 18thICM L-01.2001:282-289.

      [16]Zhao H,Huang C,Li M.An Improved Chinese Word Segmentation System with Conditional Random Field[C]//Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing(SIGHAN-5).2006:162-165.

      [17]周俊生,戴新宇,尹存燕,陳家俊.基于條件隨機(jī)場模型的中文機(jī)構(gòu)名自動(dòng)識(shí)別[J].電子學(xué)報(bào),2006,(5):804-809.

      [18]Sha F,Pereira F.Shallow Parsing with Conditional Random Fields[C]//Proceedings of Human Language Technology Conference and North American Chapter of the Association for Computational Linguistics(HLT—NAACI),2003.

      [19]程月,陳小荷.基于條件隨機(jī)場的漢語動(dòng)賓搭配自動(dòng)識(shí)別[J],中文信息學(xué)報(bào),2009,23(1):9-15.

      [20]劉康,趙軍.基于層疊CRF模型的句子褒貶度分析研究[J].中文信息學(xué)報(bào),2008,22(1):123-128.

      附表A 副詞“就”的義項(xiàng)及用法

      續(xù)表

      猜你喜歡
      自動(dòng)識(shí)別虛詞現(xiàn)代漢語
      “楞”“愣”關(guān)系及“楞”在現(xiàn)代漢語中的地位
      基于混合策略的藏文虛詞識(shí)別方法
      自動(dòng)識(shí)別系統(tǒng)
      特別健康(2018年3期)2018-07-04 00:40:18
      評(píng)《現(xiàn)代漢語詞典》(第6版)
      Note from the Editor-in-Chief
      金屬垃圾自動(dòng)識(shí)別回收箱
      現(xiàn)代漢語中詞匯性的性范疇
      基于IEC61850的配網(wǎng)終端自動(dòng)識(shí)別技術(shù)
      電測與儀表(2016年6期)2016-04-11 12:06:38
      蘭姆凹陷穩(wěn)頻工作點(diǎn)自動(dòng)識(shí)別技術(shù)
      北大版《現(xiàn)代漢語》增訂本)出版
      根河市| 靖远县| 昆山市| 万安县| 马龙县| 岳西县| 鲁山县| 英德市| 乌审旗| 岫岩| 琼中| 玛纳斯县| 台前县| 邯郸市| 怀化市| 玛沁县| 潼南县| 秭归县| 康马县| 通海县| 罗田县| 车致| 滦南县| 项城市| 津南区| 南投市| 伊宁县| 中超| 宝清县| 进贤县| 若尔盖县| 张家口市| 乌鲁木齐县| 阿巴嘎旗| 萍乡市| 繁昌县| 即墨市| 金门县| 咸宁市| 哈巴河县| 双流县|