• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于中文分詞的應(yīng)用研究

      2017-11-12 13:29侯垚
      神州·中旬刊 2017年11期

      侯垚

      摘要:詞語是句子組成的基本單元,與英文中根據(jù)空格進(jìn)行分詞不同,漢語本身的特點是以單字為基本單位,連續(xù)的字串組成句子,句子和段落間才有標(biāo)點符號和換行進(jìn)行界限的劃分。在句子中詞語是緊密相接的,這給中文的分詞工作造成一定的困難。

      關(guān)鍵詞:命名實體;詞性標(biāo)注;語義傾向性分析

      1詞語的正確切分

      中文分詞的基本處理過程為:針對輸入的字串進(jìn)行分詞、過濾無關(guān)信息,輸出含有單詞與數(shù)字串等一系列分隔號的字符串。目前漢語分詞中存在的主要難點包含識別詞典中的未登錄詞語和切分時產(chǎn)生的分歧,既降低了漢語分詞的準(zhǔn)確度,又提高了關(guān)鍵詞的判別難度,在切分歧義和未登錄詞識別問題疊加在一起時會進(jìn)一步增加中文信息處理的難度。

      所以根據(jù)中文詞語之間的這種特征,在進(jìn)行分詞的處理時要注意的問題在于:①詞語的正確切分,以保證避免歧義;②未定義詞語或新的命名實體的識別與提取工作;③詞性的注釋。常見的分詞方法主要有:①基于字符串匹配的分詞方法;②基于理解的分詞方法;③基于統(tǒng)計以及機(jī)器學(xué)習(xí)的分詞方法。

      基于字符串匹配的分詞方法:這種方法又被稱為機(jī)械分詞法,其是根據(jù)一定的策略將準(zhǔn)備分析的漢字字符串與一個較大的機(jī)器詞典中的所有詞條進(jìn)行匹配,若其字符串與詞典中的某個字符串相符,則表示成功進(jìn)行一次字符串的匹配。幾種常見的機(jī)械分詞方法為:①正向最大匹配法(沿字符串方向從左至右,以字符串長度最高詞的優(yōu)先);②逆向最大匹配法(從右至左的方向);③最少切分法(從每一句中切分出的詞語數(shù)最少)。其優(yōu)點在于速度較快、算法簡單;然而其也暴露出難以處理歧義詞語的問題并且很難對詞典之外的詞進(jìn)行處理。

      基于理解的分詞方法:這種分詞方法是使計算機(jī)模擬人大腦對句子的理解方式,從而達(dá)到切分并識別詞語的目的。其基本思想是在分時的過程中同時進(jìn)行句法、語義分析,利用句法和語義信息來處理歧義現(xiàn)象。其主要包含3個部分:總控部分、句法語義子系統(tǒng)、分詞子系統(tǒng)。因為漢語語言文本知識的復(fù)雜性,很難將各種語言用信息組織成機(jī)器可以直接讀取的方式,所以目前基于理解的分詞系統(tǒng)的研究還處在起步階段。

      基于統(tǒng)計以及機(jī)器學(xué)習(xí)的分詞方法:從表現(xiàn)形式來看,詞是字的穩(wěn)定組合,所以一組相鄰的字共現(xiàn)的次數(shù)越多,其被確定為一個詞的可能性就越大,字和字之間共現(xiàn)的頻率就能夠比較好的反應(yīng)構(gòu)成詞語的可信度。這種方法是基于詞性標(biāo)注和統(tǒng)計特征,對中文詞語進(jìn)行建模,即利用觀測得到的數(shù)據(jù)(已經(jīng)標(biāo)注好的語料)對模型參數(shù)進(jìn)行估計,即參數(shù)訓(xùn)練。隨后在分詞階段再使用模型計算多種分詞結(jié)果出現(xiàn)的概率,將出現(xiàn)概率最大的分詞結(jié)果視作最后結(jié)果。其優(yōu)點在于不受被處理領(lǐng)域的文本約束,能較好地處理歧義詞語和詞典外詞語的問題,其效果比基于字符串匹配效果更出色。然而其需要大量的人工標(biāo)注數(shù)據(jù),其分詞速度也比較慢,計算量大。基于統(tǒng)計的分詞方法只需對語料中字符串的共現(xiàn)概率進(jìn)行統(tǒng)計,不需要設(shè)置切分詞典,較為方便。這種方法會使用例如條件隨機(jī)場模型、支持向量機(jī)、最大熵模型和隱馬爾科夫模型等統(tǒng)計模型。一般是利用大量的語料資源,依靠統(tǒng)計學(xué)習(xí)和機(jī)器學(xué)習(xí)的方法來建立語言的統(tǒng)計模型,對語言進(jìn)行一定的處理。隱馬爾科夫模型在其中有較為廣泛的應(yīng)用,其方便于將模型的參數(shù)與具體的實際意義相對應(yīng)。

      計算語言學(xué)家在近些年以來更加對基于語料庫分析的自然語言處理方法越來越重視。隨著語料庫語言學(xué)的發(fā)展,數(shù)理統(tǒng)計知識的應(yīng)用計算語言學(xué)家來說也顯得越來越重要,更何況規(guī)則方法的適用性越來越窄的情況。即使過去的語言學(xué)為我們帶來了大量的語言范本與實例,但是人類還是難以掌握語言計算的具體規(guī)律。數(shù)理統(tǒng)計的方法呼之欲出,其發(fā)展也逐漸成熟,其利用采取處理的大量文本的語料庫,對其中的文本進(jìn)行統(tǒng)計分析,便可把握該類文本的共性與規(guī)律。進(jìn)一步來講,為了充分利用這些規(guī)律,便可以建立出一定的統(tǒng)計學(xué)的算法。統(tǒng)計學(xué)算法近年來在隨機(jī)過程領(lǐng)域集中較多。

      2命名實體的識別

      命名實體的識別是位于自然語言處理中的一項基礎(chǔ)性工作,其在文本分類、信息抽取、信息檢索等方面具有較為重要的作用。其識別的效果會對分詞精度和詞性標(biāo)注有較大影響,解決好命名實體的識別是提高分詞精度的一個較為主要的原因。命名實體主要被分成人名、機(jī)構(gòu)名、地名、時間、日期、百分?jǐn)?shù)和貨幣等七類?;陔[馬爾科夫模型的命名實體識別過程本質(zhì)為將命名實體識別任務(wù)視作為序列標(biāo)注問題,即解碼問題,利用訓(xùn)練參數(shù)為輸入的字符串標(biāo)注最佳的狀態(tài)序列。

      相比于英文命名實體的研究,中文在這方面研究開始較晚,且存在有一定難度的分詞問題,所以對中文命名實體的識別率和召回率要低于英文。其難點集中體現(xiàn)在:

      (1)命名實體在不同語境下具有歧義。例如“聯(lián)想”既可以表達(dá)其本來的詞義,有時又可以表達(dá)出一個企業(yè)的名稱。

      (2)命名實體數(shù)量眾多,很難全部收錄字典中。

      (3)某些命名實體的表達(dá)方式種類較多,一個意思可以同時用多個詞語代替,或者出現(xiàn)命名實體的改寫與縮寫。

      常見的命名實體識別方法主要有:①基于規(guī)則的方法;②基于統(tǒng)計的方法;③基于規(guī)則與基于統(tǒng)計相結(jié)合。

      基于規(guī)則的方法:是在命名實體上應(yīng)用主要是指通過對命名實體的特征進(jìn)行分析,人工設(shè)定規(guī)則的具體方面然后使用規(guī)則匹配來識別不同的命名實體。這種方法的特點在于規(guī)則測試準(zhǔn)確率高,速度快,但是規(guī)則對實體的覆蓋程度有限,所以可移植性較差;另一方面,由于規(guī)則的制定需要只能在深入理解語言學(xué)基礎(chǔ)的水平上才能制定和構(gòu)造,因此規(guī)則制定的門檻較高。

      基于統(tǒng)計的方法:是在命名實體上的應(yīng)用主要是使用標(biāo)注語料庫來對某個字進(jìn)行訓(xùn)練,得到該命名實體組成的概率,并用他們計算某候選字段作為該命名實體的概率,若大于設(shè)定的閾值,則被識別為該命名實體。與基于規(guī)則的方法相比,基于統(tǒng)計的方法更具有靈活性和魯棒性,而且所需的代價較小,比較方便。許多如隱馬爾科夫模型、支持向量機(jī)、最大熵模型等統(tǒng)計模型已被用于命名實體的識別。

      基于規(guī)則與基于統(tǒng)計相結(jié)合的方法:既可以通過規(guī)則的設(shè)定來降低統(tǒng)計方法對大量語料庫的需求,又可以使用概率計算來降低規(guī)則的復(fù)雜性,所以該方法在實際應(yīng)用中較為常用。

      3詞性標(biāo)注

      在中文自然語言處理的領(lǐng)域,詞性標(biāo)注屬于較為基礎(chǔ)的問題。詞性標(biāo)注的含義是指結(jié)合上下文信息給句子中的詞都標(biāo)注上它在這個句子中的詞性。其目的是給每一個詞給予滿足語法的詞性,也就是確定每個詞是動詞、名詞還是其他詞性的過程。正確的詞性標(biāo)注能為名詞短語識別、句法分析、機(jī)器翻譯等工作打下良好的基礎(chǔ)。

      某些詞在不同的環(huán)境下屬于不同的詞性,但是結(jié)合具體的上下文,其所屬詞性應(yīng)該是確定的,詞性標(biāo)注的難點之一在于因為詞語兼類產(chǎn)生的詞性歧義,詞語兼類是指一個詞語有多重詞性的現(xiàn)象,其存在也較為普遍,詞性的選擇往往取決于上下文的含義,這些也需要由機(jī)器進(jìn)行判讀。在HMM模型中,詞義標(biāo)注問題就是在已知模型參數(shù)和觀察值序列O=o1o2...ot的情況下,計算出與觀察值序列對應(yīng)的最可能的狀態(tài)序列Q=q1q2...qt,即是一個利用觀察值求狀態(tài)值的過程。

      詞性標(biāo)注的方法也分為基于規(guī)則與基于統(tǒng)計的方法。基于統(tǒng)計的方法較為普遍,常用的詞性標(biāo)注模型主要有最大熵模型、N元模型、隱馬爾科夫模型、基于緩存的模型和條件隨機(jī)域等。若根據(jù)訓(xùn)練語料庫的選擇,詞性標(biāo)注又可以分成有監(jiān)督的、半監(jiān)督的和無監(jiān)督的訓(xùn)練方式。有監(jiān)督的訓(xùn)練方式需要大量的標(biāo)記語料,耗費的時間和人力比較大,但是又具有簡單和易于操作的特點,能夠確保較高的準(zhǔn)確率;無監(jiān)督的訓(xùn)練方式不需要訓(xùn)練的語料,靈活程度高,但是精確率較低;半監(jiān)督的訓(xùn)練則部分利用訓(xùn)練語料,得到的準(zhǔn)確率處于前兩者之間。

      4語義傾向性分析

      語義傾向性分析可以分為兩個步驟:第一步為識別詞語的語義傾向性,第二步是利用一定的方法根據(jù)一定數(shù)量的詞語傾向性來對整個文本進(jìn)行語義傾向性分析。具體研究方法有:①對所有詞語的傾向性評分進(jìn)行統(tǒng)計求和,根據(jù)結(jié)果來判斷傾向性;②可以使用機(jī)器學(xué)習(xí)的方法詞語的傾向性訓(xùn)練出語義傾向的分類器,目前比較流行,但是國內(nèi)還沒有公開的文本傾向語料庫;③基于“格語法”的分析方法,不過難以全面反映樣本的傾向性。endprint

      孝昌县| 隆化县| 赤峰市| 新河县| 承德市| 乌鲁木齐市| 高淳县| 武汉市| 鞍山市| 临朐县| 囊谦县| 沾益县| 四会市| 万全县| 仙游县| 钟山县| 兴隆县| 芦溪县| 崇信县| 土默特右旗| 辽宁省| 纳雍县| 蓬安县| 化德县| 淳安县| 米易县| 修文县| 巩留县| 沛县| 临高县| 宜城市| 通江县| 内丘县| 阿巴嘎旗| 红安县| 区。| 谷城县| 南京市| 石狮市| 邓州市| 视频|