謝永紅 蔣彥釗 賈麒 范欣欣
1. 北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院 北京 100083;
2.材料領(lǐng)域知識(shí)工程北京市重點(diǎn)實(shí)驗(yàn)室 北京 100083
自然語言處理是目前人工智能研究的一個(gè)重要研究方向,而高質(zhì)量的短語知識(shí)庫(kù)對(duì)自然語言處理中的信息抽取尤為重要。高質(zhì)量的語言知識(shí)庫(kù)不僅可以讓語料的標(biāo)注更加準(zhǔn)確,而且使得自然語言處理模型獲得更加準(zhǔn)確的語義信息。為了獲得高質(zhì)量的語言知識(shí)庫(kù),短語挖掘[1]成為研究者們研究的熱點(diǎn)。
短語挖掘指的是從給定的語料中挖掘出其中包含的高質(zhì)量的短語。從文本中挖掘出高質(zhì)量的短語不僅可以對(duì)文獻(xiàn)進(jìn)行客觀的評(píng)價(jià),而且也有利于人們對(duì)文獻(xiàn)的理解以及下一步的研究。
中醫(yī)作為中國(guó)傳統(tǒng)醫(yī)學(xué),經(jīng)過長(zhǎng)期的發(fā)展,積累了大量的書籍文獻(xiàn)著作,很多重要文獻(xiàn)多成書于古代,使用文言文和古人的口語。因?yàn)槌蓵甏煌磉_(dá)方式多種多樣,與現(xiàn)代漢語差異較大,其中大量的方劑名稱、癥狀信息、疾病名稱等多數(shù)是由幾個(gè)詞組成的短語形式,這些都增加了自動(dòng)化處理中醫(yī)文獻(xiàn)、正確抽取結(jié)構(gòu)化中醫(yī)知識(shí)的難度。所以研究提高中醫(yī)短語挖掘準(zhǔn)確率的自動(dòng)化方法顯得尤為重要。
分詞是短語挖掘的基礎(chǔ),相較于傳統(tǒng)文獻(xiàn),中醫(yī)文獻(xiàn)的語法和表達(dá)方式具有一定的特殊性,比如通假字等。所以本文提出了一種能夠較好處理具有古文特征的中醫(yī)文獻(xiàn)分詞器,使得短語挖掘在較好的分詞基礎(chǔ)上進(jìn)行;針對(duì)多數(shù)短語挖掘方法往往依賴于大量的專家指導(dǎo)和人工標(biāo)注訓(xùn)練集的問題,本文在現(xiàn)有的語言知識(shí)庫(kù)基礎(chǔ)上添加中醫(yī)文獻(xiàn)高質(zhì)量短語,構(gòu)建中醫(yī)領(lǐng)域的新語言知識(shí)庫(kù);并基于此構(gòu)建訓(xùn)練集,訓(xùn)練短語質(zhì)量評(píng)分模型;然后在分詞的基礎(chǔ)上結(jié)合詞性標(biāo)簽,構(gòu)建詞性標(biāo)簽序列質(zhì)量評(píng)分模型;最終形成中醫(yī)文獻(xiàn)分詞器+短語分割模型的中醫(yī)文獻(xiàn)短語挖掘模型。
國(guó)內(nèi)外針對(duì)短語挖掘已經(jīng)有很長(zhǎng)時(shí)間的研究[2-4],按照發(fā)展時(shí)間大致分為基于規(guī)則的短語挖掘方法,統(tǒng)計(jì)學(xué)習(xí)的短語挖掘方法和基于深度學(xué)習(xí)的短語挖掘方法。
基于規(guī)則的短語挖掘方法指的是根據(jù)短語的詞法、語法等規(guī)則及文本特征構(gòu)建相應(yīng)的格式化短語識(shí)別模板,并利用模式匹配的方法進(jìn)行短語挖掘[5]。基于統(tǒng)計(jì)學(xué)習(xí)的短語挖掘方法是指從大量的文本中統(tǒng)計(jì)短語的特征,根據(jù)短語的各個(gè)特征信息進(jìn)行短語挖掘的方法。如Sarasvady等[6]根據(jù)短語出現(xiàn)的頻率等信息挖掘高質(zhì)量的短語。基于神經(jīng)網(wǎng)絡(luò)的短語挖掘方法指的是利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本中所存在的語法、句法以及語義特征,根據(jù)這些特征對(duì)文本進(jìn)行短語挖掘。如Xu等[7]基于協(xié)同訓(xùn)練進(jìn)行的電商領(lǐng)域短語挖掘。但是這些方法在進(jìn)行短語挖掘時(shí)都是針對(duì)單一文檔進(jìn)行挖掘,所以其挖掘有一定的局限性。為解決此問題,有人進(jìn)行了相關(guān)研究,如K. Frantzi等[8]、Y. Park等[9]在進(jìn)行的術(shù)語提取任務(wù)時(shí)對(duì)多文檔進(jìn)行了挖掘。
當(dāng)前中文短語挖掘大多所挖掘的語料是現(xiàn)代文[10,11]。由于中醫(yī)文獻(xiàn)大量源于古籍,其語法有其特性,所以需要利用特有的分詞方法及詞性標(biāo)簽等語法信息,尋找在中醫(yī)文獻(xiàn)中短語存在的規(guī)律,并利用這種規(guī)律來提高短語挖掘獲得的短語的質(zhì)量。
本文的目標(biāo)是從大量的中醫(yī)語料中挖掘出一些高質(zhì)量短語,高質(zhì)量短語應(yīng)該具有以下幾個(gè)特性。
(1)高頻率:指高質(zhì)量短語應(yīng)該在待挖掘文獻(xiàn)中出現(xiàn)足夠多的次數(shù)。(2)一致性:指詞組作為短語出現(xiàn)的頻率要高于偶然出現(xiàn)的頻率。例如“金銀花 顆?!焙汀叭潭?顆?!?,假設(shè)“金銀花”和“忍冬”這兩個(gè)詞的出現(xiàn)頻率相似,但是在日常生活中,“金銀花 顆?!弊鳛槎陶Z出現(xiàn)的頻率要高于“忍冬 顆?!迸既怀霈F(xiàn)的頻率,所以“金銀花 顆?!备细哔|(zhì)量短語的一致性。(3)信息性:高質(zhì)量短語應(yīng)該具有實(shí)際的意義。(4)完整性:完整地表達(dá)了一個(gè)含義。在一些文本中,因?yàn)橹黝}的不同,一個(gè)短語和它的子短語可能都具有完整性。如“桂枝湯”和“桂枝”。所以在出現(xiàn)桂枝湯的時(shí)候希望其可以以“桂枝 湯”的形式挖掘出來。低質(zhì)量短語即為不完全包含上述四個(gè)特征的短語,如:克 乳香、一錢 青等。
為了更好地進(jìn)行高質(zhì)量的短語挖掘,需要構(gòu)建一個(gè)包含中醫(yī)高質(zhì)量短語的新語言知識(shí)庫(kù)。因此,本文在現(xiàn)有的通用語言知識(shí)庫(kù)基礎(chǔ)上,結(jié)合在中醫(yī)領(lǐng)域研究的前期積累,添加了大量中醫(yī)文獻(xiàn)高質(zhì)量短語,建立了中醫(yī)領(lǐng)域新語言知識(shí)庫(kù)。
首先中醫(yī)文獻(xiàn)分詞器對(duì)待挖掘語料進(jìn)行分詞。其次,在分詞的結(jié)果上采用N-gram[12]的方法提取出大量的候選短語,這些短語包含一些低質(zhì)量短語。再次,從候選短語中過濾掉已經(jīng)存在于中醫(yī)領(lǐng)域新語言知識(shí)庫(kù)中的短語,剩下的作為訓(xùn)練短語質(zhì)量評(píng)分模型的負(fù)樣本,并且將中醫(yī)領(lǐng)域新語言知識(shí)庫(kù)篩選出的高質(zhì)量短語作為正樣本形成訓(xùn)練集。從次,利用這個(gè)訓(xùn)練集訓(xùn)練得到短語質(zhì)量評(píng)分模型;同時(shí)利用分詞后每個(gè)詞的詞性標(biāo)簽,構(gòu)建詞性標(biāo)簽序列質(zhì)量評(píng)分模型;利用短語質(zhì)量評(píng)分模型以及詞性標(biāo)簽序列質(zhì)量評(píng)分模型構(gòu)建短語分割模型,對(duì)分詞后語料進(jìn)行短語分割。最后,對(duì)分割后的短語進(jìn)行質(zhì)量評(píng)分,獲取高評(píng)分的短語作為挖掘出的高質(zhì)量短語。具體細(xì)節(jié)方法在接下的章節(jié)中介紹。短語挖掘流程示意圖如圖1所示。
圖1 短語挖掘流程示意圖
中醫(yī)文獻(xiàn)大多數(shù)成書于古代,表達(dá)方式多種多樣,并有其獨(dú)特的語法特性,所以建立專門的中醫(yī)文獻(xiàn)分詞器[13]對(duì)于提高中醫(yī)短語挖掘及中醫(yī)語料的處理是非常重要的。中醫(yī)文獻(xiàn)分詞器基于統(tǒng)計(jì)學(xué)習(xí)的分詞方法,使用N-gram語言模型結(jié)合隱馬爾可夫模型(HMM[14])進(jìn)行中醫(yī)文獻(xiàn)分詞。分詞流程如圖2所示。
圖2 分詞流程示意圖
(1)數(shù)據(jù)預(yù)處理首先將大量的電子化中醫(yī)文獻(xiàn)進(jìn)行預(yù)處理,包括去目錄、調(diào)整文件編碼格式等,并將處理后文獻(xiàn)的每一個(gè)字后面添加一個(gè)空格,作為語言模型的訓(xùn)練集。
(2)訓(xùn)練語言模型。中醫(yī)文獻(xiàn)大多是用文言文撰寫的,單字詞的情況比較普遍,但考慮到中醫(yī)領(lǐng)域有很多專業(yè)術(shù)語,如方劑名稱、癥狀信息、疾病名稱,為了在最大化保證準(zhǔn)確率的前提下又盡可能節(jié)約算力和時(shí)間,選擇了4-gram語言模型。也就是第i個(gè)字出現(xiàn)的概率僅與前3個(gè)字出現(xiàn)的概率有關(guān)。
由于采用的是4-gram語言模型,所以每個(gè)字就存在4種狀態(tài):第一種為單字詞或者多字詞的首字;第二種為多字詞的第二字;第三種為多字詞的第三字;第四種為多字詞的其余部分。將這4種狀態(tài)分別標(biāo)記為a,b,c,d。在由n+1個(gè)字(ci,i=0…n)組成的句子c0,c1,c2, ...,cn中,對(duì)于ck來說,其對(duì)應(yīng)的四種狀態(tài)的概率分別為:
(3)確定狀態(tài)間轉(zhuǎn)移概率。由于單字詞的后面只能是單字詞或多字詞的詞首,多字詞的首字后面只能是多字詞的第二字,多字詞的第二字后面只能是多字詞的第三字或單字詞或多字詞的首字,多字詞的第三字后面只能是多字詞的其余部分或單字詞或多字詞的首字,多字詞的其余部分后面能是單字詞或多字詞的首字或多字詞的其余部分,那么除上述轉(zhuǎn)移狀態(tài),其余轉(zhuǎn)移概率為零。因此,非零狀態(tài)下的條件轉(zhuǎn)移概率有8種,即:
通過對(duì)大量的中醫(yī)文獻(xiàn)進(jìn)行統(tǒng)計(jì),得到上述轉(zhuǎn)移概率如下:
(4)使用語言模型進(jìn)行分詞。根據(jù)所得的轉(zhuǎn)移概率以及4-gram語言模型計(jì)算各個(gè)鄰接字的各種情況的條件概率,可以使用HMM的方法找到最優(yōu)狀態(tài)路徑,作為切分結(jié)果,得到最初的分詞結(jié)果。在由n+1個(gè)字(ci,i=0…n)組成的句子c0,c1,c2, ...,cn中,每個(gè)字符對(duì)應(yīng)的a,b,c,d四種可能存在狀態(tài)的切分方式概率如圖3所示:
圖3 切分方式概率示意圖
其中圖3一共存在4n條路徑,對(duì)每條路徑可以算出這條路徑不同狀態(tài)序列所對(duì)應(yīng)的概率,如可以得出c0,c1,c2,c3, ...,cn全為狀態(tài)a的這條路徑其概率P為:
類似地可以求出左右路徑的概率值,把所得概率最大的那條路徑作為初步的切分路徑,就可得到初步分詞結(jié)果。
(5)添加中醫(yī)規(guī)則修正。由于中醫(yī)文獻(xiàn)中有其存在的特殊語法,所以需要對(duì)初步切分的結(jié)果進(jìn)行優(yōu)化處理。具體做法為根據(jù)詞性和中醫(yī)方面語言學(xué)知識(shí)編寫規(guī)則文件,再根據(jù)規(guī)則文件對(duì)分詞結(jié)果進(jìn)行進(jìn)一步的切分。具體規(guī)則含義如表1所示:
表1 規(guī)則含義對(duì)照表(部分?jǐn)?shù)據(jù))
(6)得到最終分詞結(jié)果。根據(jù)規(guī)則文件對(duì)初步分詞結(jié)果進(jìn)行切分,得到第二次分詞結(jié)果,然后利用中醫(yī)領(lǐng)域常見詞表,對(duì)結(jié)果進(jìn)行修正得到最終的分詞結(jié)果。部分分詞結(jié)果如圖4所示:
圖4 部分分詞結(jié)果
2.2.1 構(gòu)建中醫(yī)領(lǐng)域新語言知識(shí)庫(kù)
為了得到中醫(yī)文獻(xiàn)高質(zhì)量短語,同時(shí)也為了減少人力和時(shí)間的花銷,在通用語言知識(shí)庫(kù)基礎(chǔ)上,利用實(shí)驗(yàn)室長(zhǎng)期進(jìn)行中醫(yī)領(lǐng)域研究積累的大量短語集合及從開放知識(shí)庫(kù)中獲取的高質(zhì)量中醫(yī)短語集合,建立中醫(yī)領(lǐng)域新語言知識(shí)庫(kù)。中醫(yī)領(lǐng)域新語言知識(shí)庫(kù)部分?jǐn)?shù)據(jù)如圖5所示:
圖5 中醫(yī)領(lǐng)域新語言知識(shí)庫(kù)部分?jǐn)?shù)據(jù)
2.2.2 形成候選短語
為了構(gòu)建正負(fù)樣本集,要使用N-gram的方法來形成候選短語,由于大多數(shù)短語由兩個(gè)詞組成,我們選用2-gram形成候選短語,也就是以2為長(zhǎng)度分割分詞后的句子。如對(duì)于分詞后的文本“用 藿香 正氣散 一服 愈”,那么使用2-gram的到的候選短語有{“用 藿香”,“藿香 正氣散”,“正氣散 一服”,“一服 愈”}。
2.2.3 構(gòu)建正負(fù)樣本集
構(gòu)建的候選短語中包含一些低質(zhì)量短語和高質(zhì)量短語,利用中醫(yī)領(lǐng)域新語言知識(shí)庫(kù)將候選短語分成兩個(gè)集合,一個(gè)是存在于中醫(yī)領(lǐng)域新語言知識(shí)庫(kù)中的高質(zhì)量短語集合,作為訓(xùn)練短語質(zhì)量評(píng)分模型的正樣本集;另一個(gè)是不在中醫(yī)領(lǐng)域新語言知識(shí)庫(kù)中的可能質(zhì)量較差的短語集合,作為訓(xùn)練的負(fù)樣本集。
構(gòu)建好訓(xùn)練集之后采用隨機(jī)森林[15]的方法訓(xùn)練短語質(zhì)量評(píng)分模型,隨機(jī)森林是一種由多棵決策樹組成的集成分類器。集成分類器用到的主要思想是集成學(xué)習(xí),因?yàn)閱我坏姆诸惼鞯木群苋菀子龅狡款i難以提升且容易出現(xiàn)過擬合現(xiàn)象,因此通過聚集多個(gè)模型來提高預(yù)測(cè)精度,獲得更好的分類結(jié)果。
采用隨機(jī)森林訓(xùn)練質(zhì)量評(píng)分模型對(duì)短語進(jìn)行特征選擇是至關(guān)重要的,選擇合適的特征會(huì)使得模型最后達(dá)到較好的效果。針對(duì)上述提到的高質(zhì)量短語的四個(gè)屬性,利用統(tǒng)計(jì)學(xué)方法選擇以下的信息作為短語特征。
1)短語出現(xiàn)的頻率:每一個(gè)候選短語在待挖掘語料中出現(xiàn)的頻率。
2)逐點(diǎn)互信息:可以用來衡量?jī)蓚€(gè)事物的相關(guān)性。逐點(diǎn)互信息的結(jié)果越大,表示相關(guān)性越高。
3)KL散度[16,17]:KL散度(Kullback-Leibler divergence)又被稱作相對(duì)熵,是兩個(gè)概率分布間差異的非對(duì)稱性度量。KL散度越小,說明候選短語的質(zhì)量越高。
4)TF-IDF[18]:TF-IDF是一種統(tǒng)計(jì)方法,用于評(píng)估一個(gè)字或者一個(gè)詞對(duì)一個(gè)文件集或一個(gè)語料庫(kù)中一份文件的重要程度。
5)短語中標(biāo)點(diǎn)符號(hào)的使用:短語標(biāo)點(diǎn)的使用分為不同的兩類。第一類是指候選短語中間帶有標(biāo)點(diǎn)符號(hào),那么不論是何種標(biāo)點(diǎn)符號(hào),該候選短語的質(zhì)量都會(huì)比較低,可以將其特征值設(shè)置為0。第二類是指候選短語在引號(hào)、括號(hào)之間,在這類標(biāo)點(diǎn)符號(hào)之間的候選短語具有較高的概率是提供了完整信息的高質(zhì)量短語,可以將其特征值設(shè)置為1。
選取好特征之后,就可以使用隨機(jī)森林訓(xùn)練短語質(zhì)量評(píng)分模型,這里的隨機(jī)森林包含1000棵樹,每棵樹分別從正樣本集合中和負(fù)樣本集合中分別隨機(jī)選取100個(gè)候選短語作為該樹的訓(xùn)練集(這里采取有放回抽樣)。當(dāng)隨機(jī)森林中所有決策樹訓(xùn)練完成之后,一個(gè)短語的質(zhì)量評(píng)分即為隨機(jī)森林中判斷該短語為高質(zhì)量短語的決策樹的比例。例如:對(duì)于短語“藿香正氣散”,如果1000棵樹中有800棵樹認(rèn)為其為高質(zhì)量短語,那么該短語的質(zhì)量評(píng)分就為0.8。短語質(zhì)量評(píng)分模型示意圖如圖6所示。
圖6 短語質(zhì)量評(píng)分模型示意圖
短語作為一個(gè)完整的語義單元是有一些語法規(guī)律的[19],從句子的語法角度進(jìn)行分析,詞性之間的組合方式往往有一定規(guī)律可循。因此可以利用詞性等信息來對(duì)句子的分詞結(jié)果進(jìn)行短語分割,從而提高被挖掘短語的質(zhì)量。
假設(shè)有一條由n+1個(gè)詞(wi,i=0…n)的待挖掘的語料的分詞結(jié)果w0,w1,w2,...,wn。每個(gè)wi詞可以打上其詞性標(biāo)簽ti(i=0…n)。假設(shè)其中包含一個(gè)詞性標(biāo)簽子序列t[1,r)∈t1....tr-1,對(duì)其進(jìn)行詞性標(biāo)簽序列質(zhì)量評(píng)分,其質(zhì)量評(píng)分越高表示其相關(guān)單詞序列作為一個(gè)完整語義的可能性越高。假如存在一條詞性標(biāo)簽序列‘n,n,n,v,n’,其中n表示詞性為名詞,v表示詞性為動(dòng)詞。那么對(duì)于‘n,n’這個(gè)詞性標(biāo)簽子序列的質(zhì)量評(píng)分可能會(huì)較高,而對(duì)于‘n,v’這個(gè)詞性標(biāo)簽子序列評(píng)分就會(huì)較低,因?yàn)榇蟛糠侄陶Z都不會(huì)以動(dòng)詞作為結(jié)尾。
假設(shè)將帶有詞性標(biāo)簽的句子分割為m個(gè)短語,其邊界設(shè)置為b0,b1,b2,...,bm(m≤n),其中bi表示第i+1個(gè)短語的起始位置,那么詞性標(biāo)簽序列的質(zhì)量評(píng)分模型T則可用以下公式表示:
然后可以利用詞性標(biāo)簽序列質(zhì)量評(píng)分模型T和之前訓(xùn)練好的短語質(zhì)量評(píng)分模型Q構(gòu)建短語分割模型對(duì)語料進(jìn)行短語邊界的重新劃分。對(duì)于一句話給定第一個(gè)短語邊界b0(通常為句首),那么下一個(gè)短語邊界b1,有:
選擇一個(gè)b1使得這個(gè)函數(shù)取得最大值,那么b0與b1之間的單詞組合就作為第一個(gè)劃分出的短語。對(duì)于短語邊界b2采取同樣的方法,這樣就完成了短語邊界的重新劃分。
在短語分割之后,利用短語質(zhì)量評(píng)分模型Q對(duì)出現(xiàn)頻次高于某個(gè)閾值的短語進(jìn)行評(píng)分。然后將短語以及質(zhì)量評(píng)分寫入文件中。
針對(duì)《中醫(yī)古代名醫(yī)醫(yī)案》文獻(xiàn)提取其中的高質(zhì)量短語;將短語出現(xiàn)頻率閾值設(shè)置為10,即出現(xiàn)10次以上的短語才能作為候選短語集中的短語;依據(jù)中醫(yī)文獻(xiàn)的分詞統(tǒng)計(jì)結(jié)果,分詞后的詞長(zhǎng)多為2~3,且短語通常由兩個(gè)詞組成,所以將短語最大字長(zhǎng)設(shè)置為6。
將中醫(yī)文獻(xiàn)分詞器+短語分割模型與TFIDF、TextRank[20]和ANSJ①https://github.com/NLPchina/ansj_seg分詞方法+短語分割模型結(jié)果進(jìn)行對(duì)比。其中,TF-IDF方法指的是根據(jù)詞頻等信息挖掘文章中的短語;TextRank方法是通過詞之間的相鄰關(guān)系構(gòu)建網(wǎng)絡(luò),然后用PageRank[21]迭代計(jì)算每個(gè)節(jié)點(diǎn)的rank值,排序rank值挖掘文章的短語。
本實(shí)驗(yàn)選取挖掘出的前300個(gè)短語作為高質(zhì)量短語。選用常用的精確率(Precision)作為評(píng)估指標(biāo)對(duì)四種方法進(jìn)行評(píng)判,精確率的計(jì)算方式為挖掘出的短語中真正的高質(zhì)量短語數(shù)除以挖掘出的高質(zhì)量短語數(shù)目。因無法對(duì)語料中所有的高質(zhì)量短語精確統(tǒng)計(jì),所以無法對(duì)其召回率及F1值進(jìn)行計(jì)算。實(shí)驗(yàn)評(píng)估結(jié)果如表2所示。
表2 四種方法評(píng)估結(jié)果
本實(shí)驗(yàn)每個(gè)方法都是返回的一個(gè)抽取的短語的列表。部分結(jié)果如表3所示。
表3 四種方法挖掘部分結(jié)果
根據(jù)表3可以發(fā)現(xiàn),ANSJ分詞+短語分割模型和中醫(yī)文獻(xiàn)分詞器+短語分割模型挖掘出的質(zhì)量短語語義更加完整,因?yàn)檫@兩種方法在分詞的基礎(chǔ)上利用詞性標(biāo)簽淺層語法信息對(duì)分詞后的文本進(jìn)行了短語的重新劃分,從而使得挖掘到的短語語義更加完整。而TD-IDF和TextRank是在分詞后直接利用詞頻等信息進(jìn)行短語挖掘,所以中醫(yī)文獻(xiàn)分詞器+短語分割模型相對(duì)于TD-IDF和TextRank這兩種方法挖掘出的短語語義信息是更加完整的。
根據(jù)表2可以發(fā)現(xiàn)中醫(yī)文獻(xiàn)分詞器+短語分割模型方法的準(zhǔn)確率更高,原因是我們所使用的分詞器是針對(duì)中醫(yī)文獻(xiàn)專門的分詞器,其在分詞的過程中加入了中醫(yī)方面語言學(xué)知識(shí)編寫規(guī)則文件對(duì)初次分詞結(jié)果進(jìn)行修正,所以在針對(duì)于中醫(yī)文獻(xiàn)的分詞上會(huì)更加準(zhǔn)確,從而導(dǎo)致分詞的誤差傳遞會(huì)更小從而在使得最后挖掘出的短語精確率更高。
每種方法的結(jié)果列表都是按照質(zhì)量從高到低順序進(jìn)行排列的,在此只使用了每種方法的前300個(gè)結(jié)果進(jìn)行評(píng)估,因此,方法整體的精確率會(huì)略微低于表2中的數(shù)據(jù)。但是根據(jù)表2中的結(jié)果,在前300個(gè)短語中中醫(yī)文獻(xiàn)分詞器+短語分割模型方法準(zhǔn)確率更高,也就表明在這300個(gè)短語中中醫(yī)文獻(xiàn)分詞器+短語分割模型挖掘出的高質(zhì)量短語比重更大,所以也就證明了對(duì)于同一篇中醫(yī)文獻(xiàn)使用中醫(yī)文獻(xiàn)分詞器+短語分割模型可以挖掘出更多的高質(zhì)量短語。
本文闡述了中醫(yī)短語挖掘的意義、實(shí)用性和重要性,詳細(xì)介紹了中醫(yī)文獻(xiàn)分詞器+短語分割模型的短語挖掘方法原理和流程。通過對(duì)比實(shí)驗(yàn),從多個(gè)角度分析表明了中醫(yī)文獻(xiàn)分詞器+短語分割模型方法能在中醫(yī)文獻(xiàn)的高質(zhì)量短語挖掘任務(wù)中取得較好的效果;定性分析結(jié)果也表明,增加了詞性標(biāo)簽的方法在中醫(yī)領(lǐng)域短語挖掘的任務(wù)上表現(xiàn)更好,能獲得更完整語義的高質(zhì)量短語,為其他任務(wù)(如詞表的擴(kuò)充、命名實(shí)體識(shí)別等任務(wù))打下了堅(jiān)實(shí)的基礎(chǔ)。方法還有進(jìn)一步改進(jìn)的空間,在分詞器、短語質(zhì)量評(píng)分模型及詞性標(biāo)簽范圍等方面還可進(jìn)一步優(yōu)化,這也是我們未來研究的目標(biāo)。