李 麗 雙, 黨 延 忠, 張 婧, 李 丹
(1.大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2.大連理工大學(xué) 管理科學(xué)與工程學(xué)院,遼寧 大連 116024)
術(shù)語是代表特定學(xué)科領(lǐng)域基本概念的語言單元,可以是詞也可以是詞組,在我國(guó)又稱為名詞或科技名詞.術(shù)語抽取是信息處理領(lǐng)域中一項(xiàng)重要的研究任務(wù),在詞典編撰、領(lǐng)域本體構(gòu)建[1]、機(jī)器翻譯等領(lǐng)域都有重要的應(yīng)用.
目前比較常用的術(shù)語抽取方法主要有三大類:一是基于規(guī)則的方法,主要是根據(jù)語言學(xué)及領(lǐng)域知識(shí)制定相應(yīng)的規(guī)則模板,與規(guī)則模板匹配的視為術(shù)語,此方法受限于規(guī)則模板的質(zhì)量,不夠靈活.二是基于統(tǒng)計(jì)的方法,又分為基于統(tǒng)計(jì)量度和統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法.目前常用的統(tǒng)計(jì)量參數(shù)有頻率、假設(shè)檢驗(yàn)(t檢驗(yàn)、卡方檢驗(yàn)等)、似然比、信息熵和互信息.文獻(xiàn)[2]通過計(jì)算字串的互信息得到候選術(shù)語,最終取得75%的F-值.文獻(xiàn)[3]提出一種基于質(zhì)子串分解的算法,利用C-value和F-MI參數(shù)來進(jìn)行術(shù)語的抽取.由于沒有大規(guī)模的標(biāo)注語料,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的中文領(lǐng)域術(shù)語抽取的研究不多,文獻(xiàn)[4]和[5]基于條件隨機(jī)場(chǎng)(CRFs)對(duì)科技術(shù)語和軍事領(lǐng)域術(shù)語進(jìn)行抽取,F(xiàn)-值分別達(dá)到84.4%和76.46%.文獻(xiàn)[6]利用隱馬爾可夫模型對(duì)計(jì)算機(jī)術(shù)語進(jìn)行識(shí)別.文獻(xiàn)[7]將語言學(xué)方法和統(tǒng)計(jì)方法進(jìn)行一體化處理,同時(shí)考慮了詞所在句子的術(shù)語度,利用CRFs進(jìn)行計(jì)算機(jī)領(lǐng)域術(shù)語抽取,F(xiàn)-值為79.64%.三是統(tǒng)計(jì)與規(guī)則相結(jié)合的方法,文獻(xiàn)[8]首先利用語言學(xué)規(guī)則獲取候選術(shù)語,再利用統(tǒng)計(jì)的方法進(jìn)行過濾.文獻(xiàn)[9]首先利用C-value和互信息獲取候選術(shù)語,然后根據(jù)術(shù)語的詞性規(guī)則和詞典特征進(jìn)行過濾,最終F-值達(dá)到42%.本文主要就汽車領(lǐng)域的術(shù)語抽取任務(wù)展開討論,分析該領(lǐng)域術(shù)語的特點(diǎn)及抽取難點(diǎn),利用目前較為流行的條件隨機(jī)場(chǎng)(CRFs)模型,選取詞、詞性、詞典及頻率等特征進(jìn)行汽車領(lǐng)域術(shù)語的抽取.
本文利用有監(jiān)督的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法進(jìn)行領(lǐng)域術(shù)語抽取,需要一定規(guī)模的帶標(biāo)簽的訓(xùn)練語料.由于沒有標(biāo)注好的汽車領(lǐng)域標(biāo)準(zhǔn)語料,需要人工標(biāo)注.目前缺少一個(gè)關(guān)于汽車領(lǐng)域術(shù)語的統(tǒng)一標(biāo)準(zhǔn),本文對(duì)《汽車行業(yè)名詞術(shù)語匯編》中和汽車零部件相關(guān)的7 525個(gè)術(shù)語進(jìn)行了學(xué)習(xí)和分析,統(tǒng)計(jì)得到單詞型術(shù)語占9%,由兩個(gè)單詞組成的復(fù)雜術(shù)語占35%,三詞術(shù)語占31%,四、五、六詞術(shù)語分別占15%、6%、2%,七詞及以上術(shù)語占2%,即復(fù)雜術(shù)語一般由2~4個(gè)單詞組成,占全部術(shù)語的81%,符合中文術(shù)語的一般性特點(diǎn).為了方便人工標(biāo)注,本文分析了汽車領(lǐng)域術(shù)語的特點(diǎn)并借助前人對(duì)領(lǐng)域術(shù)語特點(diǎn)的研究成果,制定了一定的標(biāo)注標(biāo)準(zhǔn),凡是符合標(biāo)注標(biāo)準(zhǔn)的詞都被視為汽車領(lǐng)域的術(shù)語.標(biāo)注標(biāo)準(zhǔn)如下:
(1)描述或表示汽車的詞,一般是隨著汽車領(lǐng)域的產(chǎn)生和發(fā)展而出現(xiàn)的,比如“轎車”“兩廂車”等,由于汽車領(lǐng)域外來詞匯比較多,通常情況下人們會(huì)用外文直接描述,像類似于 “SUV”(運(yùn)動(dòng)型多用途汽車)“RV”(休閑車)等英文單詞或縮略詞也歸于汽車領(lǐng)域術(shù)語.
(2)表示汽車零部件或組成成分的詞,如“底盤”“后視鏡”,另外像“氣門”“活塞”等機(jī)械領(lǐng)域的詞,雖然不是專屬于汽車領(lǐng)域的,但也是描述汽車結(jié)構(gòu)或功能所必需的,視為領(lǐng)域術(shù)語.
(3)與汽車相關(guān)的系統(tǒng)或結(jié)構(gòu),如“防抱死制動(dòng)系統(tǒng)”“高壓共軌系統(tǒng)”等,相應(yīng)的英文縮略詞同樣作為術(shù)語.
(4)一些詞在通用領(lǐng)域也有應(yīng)用,但是在汽車領(lǐng)域表示特定的含義,如“抬頭”“塌屁股”描述的是汽車的某種狀態(tài),可作為汽車術(shù)語.
(5)要遵循術(shù)語應(yīng)盡可能詳細(xì)和完整的原則,如類似“1.6升5缸發(fā)動(dòng)機(jī)”“四行程發(fā)動(dòng)機(jī)缸內(nèi)燃油直噴技術(shù)”,要將其作為一個(gè)整體.
(6)描述汽車品牌及其型號(hào)的詞語在本文中不作為領(lǐng)域術(shù)語,可單獨(dú)作為一類詞進(jìn)行識(shí)別.
(7)文章中若出現(xiàn)英文縮寫和中文譯文聯(lián)合使用的情況,按兩個(gè)術(shù)語分別標(biāo)注.如“ABS(防抱死制動(dòng)系統(tǒng))”,標(biāo)注為“ABS”和“防抱死制動(dòng)系統(tǒng)”兩個(gè)術(shù)語.
通過對(duì)汽車領(lǐng)域術(shù)語特點(diǎn)的分析可以看出領(lǐng)域術(shù)語在結(jié)構(gòu)上比較復(fù)雜,所以與一般的命名實(shí)體識(shí)別相比,領(lǐng)域術(shù)語的自動(dòng)抽取具有其特殊性,具體表現(xiàn)在:
(1)沒有明確的關(guān)于領(lǐng)域術(shù)語的定義,不能清晰地界定術(shù)語的邊界.目前已有的詞典或是詞表不足以涵蓋全部的術(shù)語,而且隨著技術(shù)的進(jìn)步,新的產(chǎn)品或應(yīng)用會(huì)不斷增多,相應(yīng)的術(shù)語表示也會(huì)不斷豐富.比如“綠色汽車”“零公里”是近幾年提出的概念.
(2)由于汽車領(lǐng)域引入國(guó)外技術(shù)比較多,在表述時(shí)多采用音譯詞或是英文縮寫,比如“皮卡”(“pick-up”的音譯)“RV”(休閑車),而且由于使用習(xí)慣等原因,在表述時(shí)使用的不同的名稱代表同一事物,比如“皮卡”和“轎卡”就代表同一類型汽車,在使用時(shí)比較隨意,沒有特定的用法.
(3)汽車領(lǐng)域的術(shù)語模式多變,表現(xiàn)在長(zhǎng)度、詞性、組成模式等方面.例如,“懸架”和“綜合電子控制動(dòng)力轉(zhuǎn)向系統(tǒng)”相差10個(gè)字長(zhǎng),還有類似于“可變預(yù)行程tics系統(tǒng)”和“D2T式制動(dòng)器”的中英文混合術(shù)語.
(4)一般的命名實(shí)體(人名、地名或組織機(jī)構(gòu)名等)通常會(huì)存在比較明顯的特征詞,上下文環(huán)境也相對(duì)規(guī)律,而就汽車領(lǐng)域術(shù)語而言很難找出比較統(tǒng)一的特點(diǎn),而且中英文混用的現(xiàn)象明顯.
(5)領(lǐng)域術(shù)語的一個(gè)公共特點(diǎn)就是存在嵌套(網(wǎng)狀術(shù)語),比如“曲軸箱換氣式二行程發(fā)動(dòng)機(jī)”,其中“曲軸箱”“二行程發(fā)動(dòng)機(jī)”“發(fā)動(dòng)機(jī)”本身又都分別作為術(shù)語出現(xiàn).
條件隨機(jī)場(chǎng)是一種判別式圖模型,由Lafferty等于2001年提出.CRFs同時(shí)具備最大熵模型(ME)和隱馬爾可夫模型(HMM)的特點(diǎn),不存在HMM那樣嚴(yán)格的獨(dú)立性假設(shè),而且其采用的是全局歸一化的方法,克服了最大熵馬爾可夫模型的標(biāo)記偏置問題,是目前處理序列化數(shù)據(jù)分割與標(biāo)注問題最好的統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,在分詞、命名實(shí)體識(shí)別等問題上已經(jīng)得到廣泛的應(yīng)用.雖然領(lǐng)域術(shù)語和一般的命名實(shí)體在自身結(jié)構(gòu)、所運(yùn)用的環(huán)境等方面有很大的不同,但是就其識(shí)別任務(wù)而言也有一定的相似性,故本文將領(lǐng)域術(shù)語的識(shí)別任務(wù)轉(zhuǎn)化為序列標(biāo)注問題,利用CRFs進(jìn)行汽車領(lǐng)域術(shù)語的識(shí)別.
汽車領(lǐng)域術(shù)語識(shí)別的基本流程是:
(1)獲取語料,進(jìn)行去噪、去重、分詞和詞性標(biāo)注等一系列預(yù)處理.
(2)選取合適的特征,使用CRFs訓(xùn)練模型.
(3)在測(cè)試語料上用訓(xùn)練出來的模型進(jìn)行識(shí)別.
(4)分析結(jié)果.
從網(wǎng)頁上爬取一定規(guī)模的原始語料,去除HTML標(biāo)簽提取網(wǎng)頁正文,獲得純文本.將獲取的純文本語料使用本實(shí)驗(yàn)室開發(fā)的分詞工具對(duì)語料進(jìn)行分詞和詞性標(biāo)注處理.本文將術(shù)語識(shí)別任務(wù)轉(zhuǎn)換為序列標(biāo)注問題,采用目前比較流行的BIO短語組塊標(biāo)記方法來表示序列的標(biāo)注結(jié)果,其中B表示術(shù)語的開始,即首詞;I表示術(shù)語除首詞以外的部分;O表示其他非術(shù)語詞,如“鼓/B式/I制動(dòng)器/I一般/O用于/O后輪/B”.
基于CRFs的術(shù)語抽取,選擇合適的特征很關(guān)鍵.文獻(xiàn)[4]使用詞本身和詞性作為特征,文獻(xiàn)[5]選取了6個(gè)特征,即詞本身、詞性、左信息熵、右信息熵、互信息和TF/IDF.文獻(xiàn)[7]將術(shù)語的統(tǒng)計(jì)信息融合到CRFs模型的特征中,并使用背景語料來強(qiáng)化詞語的術(shù)語特性,即使用了詞的頻率、領(lǐng)域頻率差、詞頻的Rank值,以及術(shù)語所在句子的信息.本文總結(jié)了前人的工作,并結(jié)合汽車領(lǐng)域術(shù)語的特點(diǎn),選取了9個(gè)特征,分別介紹如下:
(1)詞本身Word
根據(jù)領(lǐng)域術(shù)語的特性可知,有些詞只在本領(lǐng)域流通,故詞本身包含了術(shù)語最大的信息,所以使用詞本身作為特征.
(2)詞性POS
通過對(duì)已有的汽車術(shù)語資源分析可知雖然組成詞性模式有很多種,但是大部分是名詞性短語,統(tǒng)計(jì)得到前三位詞性組合模式為“n+n”“v+n”“n”,可見詞性對(duì)于術(shù)語的識(shí)別是一個(gè)重要特征.另外,汽車領(lǐng)域中一些術(shù)語由中英文搭配組成,用詞性作為特征可以將此種情況考慮在內(nèi).
(3)詞的長(zhǎng)度WordLen
領(lǐng)域術(shù)語中有一部分詞是未登錄詞,通用的分詞系統(tǒng)對(duì)于未登錄詞的處理辦法通常是分成單個(gè)字,比如“排擋桿”被標(biāo)記為“排/v 擋 /Ng桿/Ng”,可以利用這個(gè)特性,通過考慮當(dāng)前詞的長(zhǎng)度來判斷其是否作為術(shù)語中的一部分.
(4)是否在已知詞典中IsDic
本文整理的詞典中共7 525條術(shù)語,由3 109個(gè)詞組成,可知一些詞不止在一個(gè)術(shù)語中出現(xiàn).由2.1的分析可知,復(fù)雜術(shù)語占80%以上,單詞在復(fù)雜術(shù)語中出現(xiàn)的位置信息可以作為一項(xiàng)特征.經(jīng)分析統(tǒng)計(jì),詞典中的3 109個(gè)詞按在術(shù)語中的所處位置可分為以下6種情況:
(i)只作為單詞性術(shù)語,如“外胎”,詞典中不存在其出現(xiàn)在復(fù)雜術(shù)語中的情況.此類詞共166個(gè),占5.34%,記為OS;
(ii)可單獨(dú)使用也可以作為復(fù)雜術(shù)語的一部分,占8.11%,記為DS;
(iii)只出現(xiàn)在復(fù)雜術(shù)語的開頭,占14.09%,記為DB;
(iv)只作為復(fù)合詞的結(jié)尾,占20.75%,記為DE;
(v)只出現(xiàn)在復(fù)合詞的中間位置(針對(duì)由兩個(gè)以上的詞組成的術(shù)語),占40.59%,記為DI;
(vi)只出現(xiàn)在復(fù)合詞中,但其出現(xiàn)的位置不固定,占11.13%,記為OD.
根據(jù)以上分析,本文將詞典特征分為7個(gè)值,分別為OS、DS、DB、DE、DI、OD、O,其中O為當(dāng)前詞不在詞典中.
(5)當(dāng)前詞前后窗口大小范圍內(nèi)的詞的詞典特征WinDic
文獻(xiàn)[9]指出,一個(gè)候選術(shù)語,如果其前后窗口大小范圍內(nèi)的詞中,已在詞典中存在的詞所占的比例大于一定閾值,則此候選術(shù)語也被視為術(shù)語.文獻(xiàn)[10]分析得到一個(gè)領(lǐng)域通用詞,如“是”,其周圍的詞通常是領(lǐng)域相關(guān)的.本文結(jié)合這兩個(gè)特點(diǎn),將上下文的詞典特征分為3種類型:一是當(dāng)前詞窗口范圍內(nèi)的詞在詞典中出現(xiàn)的比例大于閾值且當(dāng)前詞也在背景語料中出現(xiàn),其值為1;二是比例大于閾值,但是當(dāng)前詞不在背景語料中出現(xiàn),值記為2;三是除去一、二外的情況,值記為3.
文獻(xiàn)[7]將術(shù)語的統(tǒng)計(jì)信息融合到CRFs模型的特征中,并使用背景語料來強(qiáng)化詞語的術(shù)語特性.本文借鑒文獻(xiàn)[7]中采用的統(tǒng)計(jì)特征,在前文介紹的特征的基礎(chǔ)上加入和頻率有關(guān)的特征(6)~(9):
(6)當(dāng)前詞在領(lǐng)域語料中的頻率DomainFreq
記C_word為當(dāng)前詞在語料中出現(xiàn)的頻次,C為語料中的總詞數(shù),則當(dāng)前詞的頻率為
由于計(jì)算出的頻率值是浮點(diǎn)數(shù),不能直接用于CRFs的特征值,可以把浮點(diǎn)值按大小分為幾類,本文按五類劃分,即特征值取1到5.
(7)當(dāng)前詞在背景語料中的頻率ContrastFreq
選用計(jì)算機(jī)語料作為背景領(lǐng)域語料,共8 014行,20 800個(gè)詞.頻率的計(jì)算方法和特征值的取值方法與汽車領(lǐng)域相同.
(8)當(dāng)前詞在兩類語料中的頻率差ΔFreq
(9)當(dāng)前詞所在句子中的所有詞的語料頻率差之和Sen_ΔFreq
使用Heritrix從“太平洋汽車網(wǎng)”的“汽車知識(shí)”版塊爬取約500篇網(wǎng)頁,去除HTML標(biāo)簽等噪音得到純文本文檔,進(jìn)行去重處理,得到約1MB的領(lǐng)域語料,共529 651字.為了減少數(shù)據(jù)不平衡的影響,將語料分成5組,進(jìn)行5倍交叉測(cè)試.
以第一組數(shù)據(jù)為例,測(cè)試語料中共2 069條術(shù)語(不包含重復(fù)),將分詞后的組成成分的個(gè)數(shù)作為計(jì)算詞長(zhǎng)的標(biāo)準(zhǔn),如“汽車發(fā)動(dòng)機(jī)”分詞后為“汽車/t發(fā)動(dòng)機(jī)”,計(jì)其詞長(zhǎng)為2.經(jīng)過分析可以看出本語料包含的術(shù)語在長(zhǎng)度上基本符合一般領(lǐng)域術(shù)語的分布規(guī)律.各長(zhǎng)度所占比例如圖1所示.
圖1 測(cè)試語料中各長(zhǎng)度的術(shù)語所占比例Fig.1 The proportion of each length term in test corpus
3.2.1 評(píng)價(jià)標(biāo)準(zhǔn)及結(jié)果 采用準(zhǔn)確率(P)、召回率(R)以及F-值作為評(píng)價(jià)指標(biāo)(術(shù)語數(shù)包含重復(fù)個(gè)數(shù)),計(jì)算方法如下:
本文采用了9個(gè)特征進(jìn)行術(shù)語抽取,為了驗(yàn)證特征的有效性,將各組特征分別加入到特征集中,實(shí)驗(yàn)結(jié)果如表1所示,其中各組結(jié)果均為交叉測(cè)試得到的平均值.
表1 不同特征的識(shí)別結(jié)果Tab.1 The results based on different features
由表1可以看出,使用詞本身、詞性、詞長(zhǎng)時(shí)正確率最高,加入詞典特征后正確率有所降低,召回率提高.加入詞典特征正確率反而降低,分析原因可能是有些字在有些詞中屬于術(shù)語的一部分,而在有些詞中則不是,比如詞典中的“差速器”分詞后為“差/速/器”,而在語料中,“差”這個(gè)字多用在“之/差”、“較/差”等詞中,從而干擾了正確率.在前6個(gè)特征的基礎(chǔ)上加入詞在領(lǐng)域語料和背景語料的頻率特征后召回率增加,正確率略有降低,F(xiàn)-值達(dá)到82.50%.加入詞所在句子的頻率特征后召回率達(dá)到最高的80.63%,但同時(shí)也導(dǎo)致正確率降低,F(xiàn)-值略有降低.
3.2.2 不同長(zhǎng)度的詞的識(shí)別結(jié)果 統(tǒng)計(jì)各個(gè)長(zhǎng)度術(shù)語的識(shí)別的情況,結(jié)果見表2.
表2 各個(gè)長(zhǎng)度的術(shù)語的識(shí)別情況Tab.2 The identification results of different lengths of terms
其中百分比是指各長(zhǎng)度正確識(shí)別的術(shù)語(不包含重復(fù)詞)占測(cè)試語料中該長(zhǎng)度的術(shù)語數(shù)的比例.從表中可以看出,簡(jiǎn)單術(shù)語識(shí)別效果最好,5詞以上復(fù)雜術(shù)語的識(shí)別效果最差.
以第一組為例分析實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)錯(cuò)誤主要集中在以下幾個(gè)方面:
(1)識(shí)別詞語不全,如“多連桿懸架橫梁”識(shí)別成了“連桿懸架橫梁”,“雙重防震懸架橫梁”識(shí)別成了“懸架橫梁”.
(2)由于分詞錯(cuò)誤導(dǎo)致的錯(cuò)誤,如“定鉗式盤式制動(dòng)器”被識(shí)別成“下定鉗式盤式制動(dòng)器”,因?yàn)榉衷~的結(jié)果是“裝/v下定/v鉗/Ng式/k盤/qr式/k制動(dòng)器/n”,CRFs模型共識(shí)別出1 437個(gè)術(shù)語(不包含重復(fù)),其中錯(cuò)誤的占323個(gè),有17個(gè)詞是因?yàn)榉衷~錯(cuò)誤導(dǎo)致的.
(3)識(shí)別出的詞比正確的術(shù)語多出一部分,除去因?yàn)榉衷~錯(cuò)誤的情況外,還有比如“車載gps”識(shí)別成“車載gps價(jià)格”,“減速器”識(shí)別成“帶有減速器”的情況.
(4)由于沒有統(tǒng)一的標(biāo)準(zhǔn),在標(biāo)注上有一些歧義,比如根據(jù)標(biāo)注規(guī)則,“3.2升fsi發(fā)動(dòng)機(jī)”被判定為一個(gè)術(shù)語,但是識(shí)別結(jié)果是“fsi發(fā)動(dòng)機(jī)”,類似的還有“車蠟”被識(shí)別成“高檔車蠟”,這類詞不能斷定其錯(cuò)誤,和術(shù)語判定標(biāo)準(zhǔn)有關(guān).
(5)一些詞不被認(rèn)為是汽車領(lǐng)域的術(shù)語,但因其自身特點(diǎn)或其所處上下文環(huán)境和術(shù)語類似也可能被識(shí)別出來,比如“激光”“超聲波”等.
(6)由于人工標(biāo)注上不可避免的錯(cuò)誤導(dǎo)致識(shí)別結(jié)果不正確.
由表2可知單詞型術(shù)語識(shí)別效果最好,長(zhǎng)術(shù)語較差.其中,單詞型術(shù)語中諸如“SUV”“RV”等英文縮寫詞識(shí)別效果較差,分析原因可能是由于這類詞所處的語言環(huán)境相對(duì)不固定,再加上語料稀疏.長(zhǎng)術(shù)語識(shí)別效果較差可能是由于出現(xiàn)頻次少,組成詞串的各個(gè)詞之間的聯(lián)系不緊密.
文獻(xiàn)[7]用語言學(xué)和統(tǒng)計(jì)相結(jié)合的方法從計(jì)算機(jī)科學(xué)領(lǐng)域論文中抽取計(jì)算機(jī)術(shù)語,將語料的語言學(xué)特征和統(tǒng)計(jì)學(xué)特征綜合起來作為CRFs訓(xùn)練的特征,進(jìn)行術(shù)語抽取,其在計(jì)算機(jī)科學(xué)領(lǐng)域中抽取計(jì)算機(jī)術(shù)語的最高F-值達(dá)到79.64%.其采用的特征分別為詞本身、詞性、當(dāng)前詞在兩類語料中的詞頻差ΔFreq和當(dāng)前詞所在句子中的所有詞的語料頻率差之和Sen_ΔFreq.本文將文獻(xiàn)[7]的方法在選用的語料上進(jìn)行了實(shí)驗(yàn).選取的特征與文獻(xiàn)[7]相同,進(jìn)行5倍交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果如表3所示.從表3可以看出,本文的方法比采用文獻(xiàn)[7]的模型其F-值高2.11%.實(shí)驗(yàn)結(jié)果表明,對(duì)汽車領(lǐng)域,本文通過選取有效的特征,建立了有效的術(shù)語抽取模型.
表3 與文獻(xiàn)[7]的比較Tab.3 Comparison with Lit.[7]
基于CRFs的方法必須以標(biāo)注語料為基礎(chǔ),人工標(biāo)注語料費(fèi)時(shí)費(fèi)力,因此研究初期本文也采用了基于統(tǒng)計(jì)量的無監(jiān)督方法在語料上進(jìn)行了實(shí)驗(yàn).將術(shù)語抽取分為候選術(shù)語抽取和術(shù)語確定兩步,文本預(yù)處理上采用Pat-tree結(jié)構(gòu).Pat-tree采用半無限長(zhǎng)字符串,是一種壓縮的二叉查詢樹,可以快速地得到任意長(zhǎng)度的字符串及其在文本中出現(xiàn)的頻次.候選術(shù)語利用計(jì)算詞串內(nèi)部關(guān)聯(lián)度[9](SEF)和外部關(guān)聯(lián)度[9](C-value)獲取.術(shù)語的確定利用候選術(shù)語和候選詞鄰接詞的詞性信息.本文總結(jié)了正確術(shù)語的詞性組合規(guī)律,從3 000行已標(biāo)注語料統(tǒng)計(jì)術(shù)語前后的詞性搭配情況,構(gòu)建詞性規(guī)則庫,把不在規(guī)則庫中的候選詞串過濾,剩下的則是最終正確的汽車領(lǐng)域術(shù)語.用該方法在同樣語料上測(cè)試的F-值為15.41%,要遠(yuǎn)低于基于CRFs的有監(jiān)督的機(jī)器學(xué)習(xí)方法.這主要是由于語料的規(guī)模和數(shù)據(jù)稀疏問題導(dǎo)致統(tǒng)計(jì)信息不足,在很大程度上影響了無監(jiān)督的統(tǒng)計(jì)方法在汽車領(lǐng)域語料上的術(shù)語抽取效果.
本文主要針對(duì)汽車領(lǐng)域進(jìn)行術(shù)語抽取,將其轉(zhuǎn)化為序列標(biāo)注問題,使用CRFs模型將詞、詞性、詞典、領(lǐng)域頻率等多個(gè)有效特征整合,采用交叉驗(yàn)證的方法,最終的F-值達(dá)到82.50%,由于CRFs模型融合了多種有效特征,在汽車領(lǐng)域術(shù)語的抽取實(shí)驗(yàn)中取得了較好的效果.
[1]溫 春,王曉斌,石昭祥.中文領(lǐng)域本體學(xué)習(xí)中術(shù)語的自動(dòng)抽?。跩].計(jì)算機(jī)應(yīng)用研究,2009,26(7):2652-2655.WEN Chun,WANG Xiao-bin,SHI Zhao-xiang.Automatic domain-specific term extraction in Chinese domain ontology learning [J].Application Research of Computers,2009,26(7):2652-2655.(in Chinese)
[2]張 鋒,許 云,侯 艷,等.基于互信息的中文術(shù)語抽取系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2005,22(5):72-73.ZHANG Feng, XU Yun, HOU Yan,etal.Chinese term extraction system based on mutual information [J].Application Research of Computers,2005,22(5):72-73.(in Chinese)
[3]何婷婷,張 勇.基于質(zhì)子串分解的中文術(shù)語自動(dòng)抽?。跩].計(jì)算機(jī)工程,2006,32(23):188-189.HE Ting-ting,ZHANG Yong.Automatic Chinese term extraction based on decomposition of prime string[J].Computer Engineering,2006,32(23):188-189.(in Chinese)
[4]劉 豹,張桂平,蔡?hào)|風(fēng).基于統(tǒng)計(jì)和規(guī)則相結(jié)合的科技術(shù)語自動(dòng)抽取研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(23):147-150.LIU Bao,ZHANG Gui-ping,CAI Dong-feng.Technical term automatic extraction research based on statistics and rules [J].Computer Engineering and Applications,2008,44(23):147-150.(in Chinese)
[5]ZHENG D Q,ZHAO T J,YANG J.Research on domain term extraction based on conditional random fields[C]//ICCPOL 2009,LNAI 5459.Berlin:Springer-Verlag,2009:290-296.
[6]岑詠華,韓 哲,季培培.基于隱馬爾科夫模型的中文術(shù)語識(shí)別研究[J].現(xiàn)代圖書情報(bào)技術(shù),2008(12):54-58.CHEN Yong-h(huán)ua,HAN Zhe,JI Pei-pei.Chinese term recognition based on hidden Markov model[J].New Technology of Library and Information Service,2008(12):54-58.(in Chinese)
[7]章承志.基于多層術(shù)語度的一體化術(shù)語抽取研究[J].情報(bào)學(xué)報(bào),2011,28(3):275-285.ZHANG Cheng-zhi.Using integration strategy and multi-level termhood to extract terminology [J].Journal of the China Society for Scientific and Technical Information,2011,28(3):275-285.(in Chinese)
[8]周 浪,史樹敏,馮 沖,等.基于多策略融合的中文術(shù)語抽取方法[J].情報(bào)學(xué)報(bào),2010,29(3):460-467.ZHOU Lang,SHI Shu-min,F(xiàn)ENG Chong,etal.A Chinese term extraction system based on multistrategies integration [J].Journal of the China Society for Scientific and Technical Information,2010,29(3):460-467.(in Chinese)
[9]JI L,SUM M,LU Q,etal.Chinese terminology extraction using window-based contextual information[C]// CICLing 2007,LNCS 4394.Berlin:Springer-Verlag,2007:62-74.
[10]YANG Y H,LU Q,ZHAO T J.Chinese term extraction using minimal resources [C]//Proceedings of the 22ndInternational Conference on Computational Linguistics.Manchester:[s n],2008:1033-1040.