吳宏洲
摘 要:一種無(wú)需語(yǔ)料庫(kù)和復(fù)雜數(shù)學(xué)模型支持的抽取新詞最簡(jiǎn)方法。通過(guò)掃描文獻(xiàn)文字流,消除停用字詞,切分單元子句,對(duì)子句枚舉可能的候選詞條,統(tǒng)計(jì)候選詞條頻度,計(jì)算長(zhǎng)短包含關(guān)系候選詞之間的置信度值,只須依據(jù)大于90%的值來(lái)消除短詞,得到候選關(guān)鍵詞,再經(jīng)過(guò)已有詞庫(kù)過(guò)濾,留下新詞。該方法可作為信息加工的輔助工具。
關(guān)鍵詞:停用詞;候選分詞;置信度;抽取新詞
中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A
A Quick Word Segmentation Technology Research and Application
——the Method of Extracting New Word
WU Hongzhou
(The China Patent Information Center,Beijing 100088,China)
Abstract:A complicated mathematical model without corpus and support the minimalist approach the extraction of words.By scanning the literature text flow,eliminate stop using words,segmentation unit clause,for other enumeration possible candidates for entry,the statistical frequency of candidate items,calculate length of confidence value contains the relationship between the candidate words,simply on the basis of more than 90% of the value to eliminate the short term,to get the candidate keywords,repass existing thesaurus filtering,new words.This method can be used as an auxiliary tool to information processing.
Keywords:stop words;the candidate segmentation;confidence;extraction of new words
1 引言(Introduction)
在專(zhuān)利信息技術(shù)中,專(zhuān)利文獻(xiàn)信息檢索、機(jī)器翻譯、專(zhuān)利輔助自動(dòng)文摘和CPC/IPC自動(dòng)分類(lèi),都會(huì)用到一個(gè)基本的技術(shù)——分詞技術(shù)。所謂分詞,就是利用已有詞庫(kù)的詞,來(lái)切分文章中的詞的過(guò)程[1,4]。隨著大量文獻(xiàn)的不斷引入,已有詞庫(kù)永遠(yuǎn)不能滿(mǎn)足實(shí)際所需。更新分詞庫(kù),是一項(xiàng)必要工作。如果完全由人工來(lái)處理新詞,經(jīng)過(guò)一系列抽取、標(biāo)引、審校和入庫(kù)流程,當(dāng)實(shí)際需要處理的量遠(yuǎn)遠(yuǎn)超過(guò)人的能力時(shí),那么準(zhǔn)確性和效率就會(huì)成為一個(gè)問(wèn)題。那么這就涉及另外一項(xiàng)自動(dòng)化技術(shù),抽取新詞的技術(shù)。抽詞技術(shù)目前已經(jīng)非常成熟,方法也比較多。比較成熟的產(chǎn)品技術(shù),通過(guò)語(yǔ)料庫(kù)、訓(xùn)練集和復(fù)雜的數(shù)學(xué)模型及其昂貴的資源代價(jià),來(lái)獲得高質(zhì)量的效果。其效果與語(yǔ)料庫(kù)或知識(shí)庫(kù)收集的量有很大的關(guān)系。量越大越容易精確。在專(zhuān)利信息領(lǐng)域中,完全依賴(lài)知識(shí)庫(kù)的方法,對(duì)于那些改進(jìn)性的發(fā)明,還能起作用。但是對(duì)于那些強(qiáng)調(diào)首創(chuàng)性的發(fā)明,彼此之間相似性就很少,算法再高明,也可能收效甚微。本文因受N-gram啟發(fā)[2],借鑒置信度消除歧義詞[3],一個(gè)幾乎被淡忘的陳舊方法,經(jīng)過(guò)簡(jiǎn)單優(yōu)化,以最小代價(jià)來(lái)解決文獻(xiàn)領(lǐng)域面向新詞的抽取繁重工作帶來(lái)的問(wèn)題,效果非常顯著。
2 抽詞技術(shù)的現(xiàn)狀(The extracting words
technology)
目前抽詞技術(shù)主要有四類(lèi),基于詞庫(kù)的、規(guī)則的、統(tǒng)計(jì)的和格式化文檔的抽詞法。
2.1 基于詞庫(kù)的關(guān)鍵詞抽取法
這種方法主要利用已有詞庫(kù)來(lái)抽取關(guān)鍵詞,和詞典分詞法大致類(lèi)同。和最大分詞不同,需要枚舉所有長(zhǎng)短可能的詞,這些詞都是詞庫(kù)已有的詞。不能識(shí)別未登錄詞。通常檢索短語(yǔ)用的就是這類(lèi)方法。
2.2 基于規(guī)則的關(guān)鍵詞抽取法
利用句法或語(yǔ)義分析,借助句法知識(shí)庫(kù)、語(yǔ)義知識(shí)庫(kù)等資源,抽取出文件中的名詞詞素,以名詞素為中心,向前向后擴(kuò)展新詞。利用句法或語(yǔ)義分析,借助句法知識(shí)庫(kù)、語(yǔ)義知識(shí)庫(kù)等資源,抽取出文件中的名詞詞素,運(yùn)用一些方法與準(zhǔn)則,過(guò)濾掉不符合規(guī)則的詞素。經(jīng)過(guò)這樣的處理之后,得到的結(jié)果幾乎都是有意義的名詞或名詞短語(yǔ)。對(duì)于面向英文的處理,這種做法已經(jīng)取得了非常好的效果。通常機(jī)器翻譯用的就是這類(lèi)方法。
2.3 基于統(tǒng)計(jì)的關(guān)鍵詞抽取法
通過(guò)對(duì)文獻(xiàn)中詞頻統(tǒng)計(jì)和對(duì)派生出來(lái)的新詞的互信息來(lái)獲取新詞。統(tǒng)計(jì)方法細(xì)分還有幾種方法:N-gram方法、詞頻、TFIDF、詞的同現(xiàn)信息、PAT-Tree,或是上述某些統(tǒng)計(jì)方法的結(jié)合等。通常自動(dòng)文摘、自動(dòng)分類(lèi)、自動(dòng)標(biāo)引等會(huì)用到這類(lèi)中的一些方法。自動(dòng)文摘、自動(dòng)分類(lèi)常用TFIDF方法來(lái)計(jì)算。抽取新詞常用N-gram與詞的同現(xiàn)信息計(jì)算。PAT-Tree和N-gram是抽詞常用的兩種方法。TFIDF、PAT-Tree需要語(yǔ)料信息和資源支持,計(jì)算概率和詞頻權(quán)重。N-gram不需要語(yǔ)料信息和資源,但計(jì)算量會(huì)較大。
2.4 基于格式化文檔的關(guān)鍵詞抽取法
利用一些排版規(guī)則、文檔結(jié)構(gòu)化和格式化規(guī)律,將重要的字符串抽取出來(lái)。例如:專(zhuān)利文獻(xiàn)中的標(biāo)題、文摘、權(quán)利要求書(shū)及其著錄項(xiàng)目、關(guān)鍵詞、同義詞等結(jié)構(gòu)文檔;權(quán)利要求書(shū)中的語(yǔ)義樹(shù)形態(tài)的陳述形式??梢园凑瘴墨I(xiàn)結(jié)構(gòu)格式化的規(guī)律,找到相應(yīng)關(guān)鍵詞,按照出現(xiàn)的位置重要性賦予不同的權(quán)重,以期達(dá)到抽取關(guān)鍵詞的目的。即便是低頻詞,由于出現(xiàn)在非常重要位置上,因而也能將其從文獻(xiàn)中輕易地得到。例如:出現(xiàn)在發(fā)明專(zhuān)利標(biāo)題中的每一個(gè)詞都非常重要,即便文摘中并未反復(fù)多次出現(xiàn),但是其不同位置詞頻度與權(quán)重積之總和卻很高,那么也能構(gòu)成關(guān)鍵詞要素。通常自動(dòng)文摘、自動(dòng)分類(lèi)、自動(dòng)標(biāo)引等也會(huì)用到這類(lèi)方法。
3 本文抽詞技術(shù)的實(shí)現(xiàn)(The realization of the
technology of the paper)
抽詞技術(shù)方法很多,考慮到經(jīng)濟(jì)和實(shí)用因素,復(fù)雜的數(shù)學(xué)計(jì)算方法、需要大量歷史信息、語(yǔ)料庫(kù)、訓(xùn)練集的支持,與主旨相悖,避開(kāi)此類(lèi)方法,尋求更簡(jiǎn)單有效的方法。采用基于統(tǒng)計(jì)的方法,且僅限于對(duì)于一篇文獻(xiàn)進(jìn)行處理。以常見(jiàn)的N-gram方法來(lái)枚舉候選詞。通過(guò)尋找候選詞間的包含關(guān)系,計(jì)算置信度的取值,來(lái)濾除掉不需要的候選詞。從而留下頻度較高的、可能性大的候選詞。關(guān)鍵詞就出自其中。借助已有分詞庫(kù),再濾掉那些已有詞,最終得到的候選詞就是候選新詞。抽詞算法流程圖,如圖1所示。
3.1 停用詞處理
停用詞對(duì)于抽詞結(jié)果的影響比較大。選擇不同的停用詞集合,產(chǎn)生的候選詞也會(huì)不同。例如:“有”字被停用后,“有機(jī)...”等詞也被抑制。“和”字被停用后,“飽和...”等詞也被抑制。
通常建議提供停用詞庫(kù)客戶(hù)端個(gè)性化可調(diào)整方案,根據(jù)情況適度變換停用詞策略,會(huì)產(chǎn)生不同的新詞條和關(guān)鍵詞。變換停用詞應(yīng)以能夠適應(yīng)用戶(hù)需求和方便操作為前提,優(yōu)先考慮解決方案。
停用詞庫(kù)的使用順序,也會(huì)對(duì)抽詞產(chǎn)生很大影響。例如:“有”對(duì)“具有”或“所有”的影響,如果最先使用短詞“有”,那么就會(huì)留下“具”或“所”與其他字詞組成“…具”或“…所”的候選新詞條,形成歧義詞條。
通常建議構(gòu)造停用字詞庫(kù),應(yīng)按照{(diào)詞長(zhǎng)[逆序],詞條[正序]}有序存放。亦即停用詞過(guò)濾按照長(zhǎng)詞優(yōu)先原則。避免停用詞因使用順序不當(dāng)而帶來(lái)新的問(wèn)題。
3.2 候選詞條枚舉
該方法借鑒N-gram算法[2],并受其啟發(fā)。首先要確定一個(gè)分詞可能的最大長(zhǎng)度,即N取多少個(gè)漢字合適??紤]到化學(xué)、藥物、微生物等領(lǐng)域的技術(shù)術(shù)語(yǔ)可能會(huì)有大量長(zhǎng)詞出現(xiàn)。因此,適當(dāng)降低訪問(wèn)效率,滿(mǎn)足分詞長(zhǎng)度要求,也是可容忍的。通常認(rèn)為一個(gè)長(zhǎng)詞最長(zhǎng)不超過(guò)15個(gè)漢字,就可以符合專(zhuān)利信息領(lǐng)域?qū)﹃P(guān)鍵詞的需求。N取15,這是分詞庫(kù)的一項(xiàng)重要參數(shù)定義。分詞至少由2個(gè)漢字組成,分詞庫(kù)不接收單字詞。為了闡述方便,以分詞最大長(zhǎng)度取5為例。枚舉候選分詞,詳見(jiàn)表1。
算法:
//參數(shù)S句子;SL句子長(zhǎng)度漢字?jǐn)?shù)
CS=“ ”;
For(wl=2;wl<=min(SL,15);wl++){//最大分詞長(zhǎng)度15,計(jì)算詞長(zhǎng)從2到15或SL遞增
For(pos=0;pos CS←CS+substr(S,pos,wl)+“”;//抽取候選分詞 } } Output (CS);//結(jié)果 3.3 候選詞條統(tǒng)計(jì) 處理一篇文獻(xiàn)須對(duì)已生成候選詞條進(jìn)行排序和頻度統(tǒng)計(jì),形成候選詞條有序集。 3.4 歧義詞消除 定義:在候選詞條集ψ中,如果漢字結(jié)合模式ω1添加前綴pref或后綴suff后,構(gòu)成漢字結(jié)合模式ω2,即ω2=ω1+suff或ω2=pref+ω1或ω2=pref+ω1+suff,那么模式ω2在文檔中的出現(xiàn)頻度Γ(ω2,s)與模式ω1在文檔中出現(xiàn)頻度Γ(ω1,s)之比稱(chēng)為模式ω2相對(duì)于模式ω1的置信度Confidence(ω2|ω1)。Confidence(ω2|ω1)≈Γ(ω2,s)/Γ(ω1,s)。置信度反映模式ω1與前綴和或后綴結(jié)合的穩(wěn)定性。即模式ω2構(gòu)成詞條的可能性。如果置信度低于下限,則說(shuō)明模式ω2構(gòu)成詞條的可能性小,可以除去。如果置信度位于上限和下限之間,那么,模式ω1、ω2可以共存于候選分詞集中。在后綴情況下,如果置信度高于上限,則說(shuō)明模式ω1基本被包含于模式ω2之中。按照最大匹配原則,ω1可以除去。實(shí)際使用中,某些專(zhuān)家將置信度區(qū)間定義為[0.30,0.90]作為上下區(qū)間,稱(chēng)為置信度空間[3]。 抽取關(guān)鍵詞和或新詞條,消除其中歧義詞條的算法主要來(lái)源于三條規(guī)則: 規(guī)則1:Confidence(ω2|ω1)≤30%,ω2為詞條的可能性很小,ω2可以除去。 規(guī)則2:Confidence(ω2|ω1)∈(30%,90%),ω1和ω2都有可能。 規(guī)則3:Confidence(ω2|ω1)≥90%,ω1被ω2所包含,ω1則可以除去。 通常算法只考慮規(guī)則1和規(guī)則3的情況,作消歧處理。 規(guī)則1算法: … For(i=0;i w1←S[i]; Sel←true;//默認(rèn)選中w1 If(w1.wf==0) continue;//由于第一條規(guī)則本身可能使w2.wf←0的情況發(fā)生,跳過(guò) For(j=0;j If(j==i)continue;//是自己,跳過(guò) w2←S[j]; If(w2.wf==0)continue;//由于第一條規(guī)則本身可能使w2.wf←0的情況發(fā)生,跳過(guò) If(substr_at(w1.kw,w2.kw)>=0){//如果w2=前綴+w1+后綴;前后綴不同時(shí)為空 Confidence←w2.wf/w1.wf;//置信度≈f(w2)/f(w1),頻度比 If(Confidence)<0.10){//置信度低于下限,也可以取下限0.30 w2.wf←0;//w2視為不存在 S[j]←w2; continue;//看下一個(gè)w2 } } }
}
For(i=0;i If(w1.wf>1) { Output(S[i]);//輸出留下的詞條。 } } … 規(guī)則3算法: … For(i=0;i w1←S[i]; Sel←true;//默認(rèn)選中w1 If(w1.wf==0) continue;//由于第一條規(guī)則可能使w1.wf←0的情況發(fā)生,跳過(guò) For(j=0;j If(j==i) continue;//是自己,跳過(guò) W2←S[j]; If(substr_at(w1.kw,w2.kw)>=0){//如果w2=前綴+w1+后綴;前后綴不同時(shí)為空 Confidence←w2.wf/w1.wf;//置信度≈f(w2)/f(w1),頻度比 If(Confidence)>=0.90){//只要有一個(gè)W2,使得置信度超過(guò)上限, Select←false;//w1就被包含在w2中,w1可以視為不存在 Break; } } } If(select) { If(w1.wf > 1) { Output(w1);//輸出留下的詞條。 } } } … 3.5 普通詞濾除 對(duì)于候選詞條集,借助已有分詞庫(kù),依次查看庫(kù)中該詞是否已存在?從候選詞條集中除去存在的詞條。留下來(lái)的可作為候選新詞條。 4 實(shí)驗(yàn)效果(The experiment effect) 筆者經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),僅規(guī)則3情況,當(dāng)取Confidence (ω2|ω1)≥90%,濾掉ω1,就已經(jīng)可以獲得非常不錯(cuò)的效果。相反,按照規(guī)則1+3,當(dāng)取Confidence(ω2|ω1)≤30%,消除ω2,再取Confidence(ω2|ω1)≥90%,濾掉ω1,效果反而更糟。甚至調(diào)整下限為10%,改變也不大。試驗(yàn)樣本六個(gè)發(fā)明公開(kāi)專(zhuān)利的“標(biāo)題+文摘”, 詳見(jiàn)表2;不同規(guī)則下抽取的候選新詞條,詳見(jiàn)表3。 表2 試驗(yàn)樣本6個(gè)發(fā)明公開(kāi)專(zhuān)利的“標(biāo)題+文摘” Tab.2 "Title+digest"of the 6 inventions of the test sample 專(zhuān)利 標(biāo)題+文摘 1 2 3
4
5
6
限于篇幅,本文沒(méi)有列出候選關(guān)鍵詞和被去除的普通詞。通過(guò)比對(duì)兩種算法結(jié)果,采用規(guī)則1+3的抽取新詞結(jié)果,并不比僅采用規(guī)則3的效果好。從六組數(shù)據(jù)不難看出。采用規(guī)則3的算法來(lái)消除歧義詞,是一個(gè)最簡(jiǎn)方法。與N-gram方法相結(jié)合,可以完成最簡(jiǎn)單的抽詞工作。
5 結(jié)論(Conclusion)
抽詞技術(shù)作為計(jì)算機(jī)輔助工具來(lái)使用,為人們提供一種具有參考價(jià)值的信息,供人們選擇使用。本文所述抽詞方法是一種不依賴(lài)于歷史信息、語(yǔ)料庫(kù),不需要訓(xùn)練數(shù)據(jù)的方法。其優(yōu)點(diǎn)是:能識(shí)別高頻度未登錄詞;無(wú)需人工標(biāo)引詞典,不需要花費(fèi)大量資源收集語(yǔ)料庫(kù)。其缺點(diǎn)是計(jì)算量大;會(huì)抽取出意義不完整的字串,導(dǎo)致準(zhǔn)確性差;不能識(shí)別低頻度關(guān)鍵詞。計(jì)算量受兩方面因素影響:(1)隨著N-gram的長(zhǎng)度N增大,計(jì)算效率會(huì)下降。(2)連續(xù)漢字串長(zhǎng)句式增多,計(jì)算效率也會(huì)下降。如果句子經(jīng)過(guò)停用詞處理已經(jīng)足夠細(xì)碎,或者N-gram的長(zhǎng)度N不很大,計(jì)算效率還是可控的。
本文通過(guò)抽詞實(shí)驗(yàn),實(shí)現(xiàn)并驗(yàn)證了一種對(duì)文獻(xiàn)進(jìn)行快速抽取關(guān)鍵詞和新詞的最簡(jiǎn)單有效的方法。
參考文獻(xiàn)(References)
[1] 莊新妍.計(jì)算機(jī)中文分詞技術(shù)的應(yīng)用[J].呼倫貝爾學(xué)院學(xué)報(bào),2010(03):70-74.
[2] 金翔宇,孫正興,張福炎.一種中文文檔的非受限無(wú)詞典抽詞方法[J].中文信息學(xué)報(bào),2001(06):33-39.
[3] 黃云峰.計(jì)算機(jī)中文分詞技術(shù)及其在數(shù)字化偵查中的應(yīng)用研究[J].福建警察學(xué)院學(xué)報(bào),2008(04):28-31.
[4] 李淑英.中文分詞技術(shù)[J].科技信息(科學(xué)教研),2007(36):95.