• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于全文索引與余弦公式醫(yī)學(xué)文本相似性分析

      2014-08-07 13:20:35謝翠萍陳家益白金山
      微型電腦應(yīng)用 2014年1期
      關(guān)鍵詞:余弦公式相似性向量

      謝翠萍,陳家益,白金山

      基于全文索引與余弦公式醫(yī)學(xué)文本相似性分析

      謝翠萍,陳家益,白金山

      醫(yī)學(xué)文本相似性問題是醫(yī)學(xué)文本挖掘中的重要內(nèi)容,如何能夠快速計(jì)算出大數(shù)據(jù)量下的醫(yī)學(xué)文本的相似性情況是醫(yī)學(xué)文本相似性計(jì)算的重點(diǎn)。針對基于傳統(tǒng)余弦公式醫(yī)學(xué)文本相似性分析算法在性能上的缺陷,提出了一種基于全文索引技術(shù)與余弦公式醫(yī)學(xué)文本相似性分析算法,對醫(yī)學(xué)文本相似性進(jìn)行分析。采用全文索引技術(shù)對醫(yī)學(xué)文本數(shù)據(jù)相關(guān)關(guān)鍵詞進(jìn)行索引,并根據(jù)若干關(guān)鍵詞在索引中檢索出部分?jǐn)?shù)據(jù),從而減少計(jì)算復(fù)雜度,提高效率。實(shí)驗(yàn)表明,該方法比基于傳統(tǒng)余弦公式醫(yī)學(xué)文本相似性分析算法具有更優(yōu)的性能。

      醫(yī)學(xué)文本相似性;余弦公式;全文索引;文本挖掘;向量空間模型

      0 引言

      隨著信息時(shí)代的發(fā)展,各個(gè)行業(yè)都將產(chǎn)生大量的各種各樣的數(shù)據(jù)。其中文本數(shù)據(jù)是較重要的一種數(shù)據(jù)。同樣,隨著醫(yī)學(xué)的不斷進(jìn)步,各種醫(yī)學(xué)文本數(shù)據(jù)也大量充斥在信息流中。如何快速準(zhǔn)確地分析出這些文本數(shù)據(jù)的規(guī)律,獲取有價(jià)值的信息是文本數(shù)據(jù)處理的一個(gè)難點(diǎn)問題。文本挖掘主要是指從相對較大文本數(shù)據(jù)中挖掘出一些有價(jià)值的信息和內(nèi)容。

      醫(yī)學(xué)文本挖掘主要是指對醫(yī)學(xué)相關(guān)數(shù)據(jù)的挖掘和分析,從而得出一些有價(jià)值的醫(yī)學(xué)信息。目前國內(nèi)外眾多學(xué)者對醫(yī)學(xué)文本挖掘相關(guān)知識(shí)做了一定的研究[1-6]。王浩暢等研究和概括了生物醫(yī)學(xué)文本挖掘技術(shù)的研究與進(jìn)展[1]。鄭強(qiáng)等研究了生物醫(yī)學(xué)命名實(shí)體識(shí)別的研究與進(jìn)展[2]。顧鈞等提出一種新的文本聚類算法,結(jié)合引文信息的生物醫(yī)學(xué)文本聚類研究[5]。醫(yī)學(xué)文本相似性是醫(yī)學(xué)文本挖掘的一種,主要是通過比較醫(yī)學(xué)文本數(shù)據(jù)之間的相似性,從而能夠確定各個(gè)醫(yī)學(xué)文本之間的相似程度。目前主要用來對醫(yī)學(xué)文本數(shù)據(jù)進(jìn)行相似搜索,對相似信息過濾等。趙國光對醫(yī)學(xué)文獻(xiàn)相似性進(jìn)行了相關(guān)研究,并利用后綴樹和向量空間模型計(jì)算相似度[7]。吳飛珍等通過對基因相似性的研究,一種新的基因注釋語義相似度計(jì)算方法[8]。傳統(tǒng)的醫(yī)學(xué)文本相似性分析算法一般是基于傳統(tǒng)余弦公式,性能較低,本文提出一種基于全文索引技術(shù)與余弦公式的醫(yī)學(xué)文本相似性分析算法,對醫(yī)學(xué)文本相似性進(jìn)行分析。

      1基于傳統(tǒng)余弦公式醫(yī)學(xué)文本相似性分析

      下述過程都是在文本分詞之后進(jìn)行的,因?yàn)槟壳拔谋痉衷~技術(shù)比較成熟,這里也不是本文的重點(diǎn)。

      1.1向量空間模型

      向量間空模型[9](VSM:Vector Space Model) 由Salton等人于20世紀(jì)70年代提出,并成功地應(yīng)用于著名的SMART文本檢索系統(tǒng)。在這個(gè)模型中,文本空間被看作是由詞語向量組成的向量空間。每個(gè)文本d將被表示為一個(gè)文本向量,其中是文本分詞后的各個(gè)詞語,是中的權(quán)值,這個(gè)權(quán)值通常在文本是各個(gè)詞語的詞頻或者詞頻的函數(shù)。這樣文本數(shù)據(jù)就轉(zhuǎn)換為文本向量空間,其中代表文檔數(shù),代表詞語個(gè)數(shù)。行表示文檔,列表示文檔中出現(xiàn)的詞。

      1.2 余弦公式

      文本相似性分析主要是希望能夠在大量文本中快速找到內(nèi)容相似的文章。故在相似性分析過程中,待計(jì)算文本數(shù)據(jù)需要依次與被比較文本進(jìn)行比較。根據(jù)1.1節(jié)中的描述可知,文本數(shù)據(jù)已轉(zhuǎn)換為文本向量空間了。計(jì)算文本之間的距離就轉(zhuǎn)換為計(jì)算文本向量空間的距離。計(jì)算向量空間距離的方法比較多,例如歐式距離法,皮爾遜相關(guān)系統(tǒng)法以及余弦公式。本文采用余弦公式[10]來計(jì)算相似度,即公式:

      1.3 算法流程

      步驟3:采用余弦公式計(jì)算待計(jì)算文本數(shù)據(jù)d與待比較文本數(shù)據(jù)D的相似度大??;

      步驟4:根據(jù)所設(shè)的相似度閾值s將步驟3計(jì)算出的相似度大小大于閾值的文本數(shù)據(jù)顯示出來;

      步驟6:按照步驟2至步驟5將計(jì)算出其它文本數(shù)據(jù)的相似文本數(shù)據(jù)。

      2 基于全文索引技術(shù)與余弦公式醫(yī)學(xué)文本相似性分析

      采用傳統(tǒng)余弦公式的醫(yī)學(xué)文本相似性分析在算法思路上比較清晰,簡單,實(shí)現(xiàn)上也很簡單。但是,該算法在性能上比較差,因?yàn)閷γ科谋緮?shù)據(jù),算法均需要比較待計(jì)算文本與待比較文本的數(shù)據(jù),比較次數(shù)會(huì)比較多。特別是在文本數(shù)據(jù)量比較大時(shí)更是如此,算法的性能會(huì)使算法的實(shí)用價(jià)值大打折扣。為此,本文提出一種基于全文索引技術(shù)與余弦公式相結(jié)合的文本相似性計(jì)算方法。

      2.1全文索引技術(shù)

      全文索引技術(shù)[11,12]是目前搜索引擎中比較關(guān)鍵的一項(xiàng)技術(shù)。試想在大小的文件中搜索一個(gè)詞,可能需要幾秒,在的文件中可能需要幾十秒,如果在更大的文件中搜索那么就需要更大的系統(tǒng)開銷,這樣的開銷是不現(xiàn)實(shí)的。所以在這樣的矛盾下出現(xiàn)了全文索引技術(shù),有時(shí)候有人叫倒排文檔技術(shù)。

      原理主要是先定義一個(gè)詞庫,然后在文章中查找每個(gè)詞出現(xiàn)的頻率和位置,并將這樣的頻率和相關(guān)位置信息按照一定的順序進(jìn)行歸納,這樣就相當(dāng)于對文件建立了一個(gè)以詞庫為目錄的索引,在這樣的情況下查找詞語的話就可以比較快的了。

      在全文索引技術(shù)中,在處理英文文檔的時(shí)候顯然這樣的方式是非常好的,因?yàn)橛⑽淖匀坏谋豢崭穹殖扇舾稍~,只要我們有足夠大的詞匯庫就能很好的處理。但是亞洲文字因?yàn)闆]有空格作為斷詞標(biāo)志,所以就很難判斷一個(gè)詞,而且人們使用的詞匯在不斷的變化,而維護(hù)一個(gè)可擴(kuò)展的詞匯庫的成本是很高的,所以問題出現(xiàn)了。

      解決出現(xiàn)這樣的問題使“分詞”成為全文索引的關(guān)鍵技術(shù)。目前有兩種基本的方法:

      詞庫法使用詞庫中的詞作為切分的標(biāo)準(zhǔn),這樣也出現(xiàn)了詞庫跟不上詞匯發(fā)展的問題,除非你維護(hù)詞庫。

      實(shí)際上現(xiàn)在很多著名的搜索引擎都使用了多種分詞的辦法,比如“正向最大匹配”+“逆向最大匹配”,基于統(tǒng)計(jì)學(xué)的新詞識(shí)別、自動(dòng)維護(hù)詞庫等技術(shù),但是,顯然這樣的技術(shù)還沒有做到完美。

      本文主要采用的是lucene索引技術(shù),Lucene是apache軟件基金會(huì)jakarta項(xiàng)目組的一個(gè)子項(xiàng)目,是一個(gè)開放源代碼的全文檢索引擎工具包,即它不是一個(gè)完整的全文檢索引擎,而是一個(gè)全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是為軟件開發(fā)人員提供一個(gè)簡單易用的工具包,以方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ),建立起完整的全文檢索引擎。

      2.2 算法流程

      步驟7:按照步驟2至步驟5將計(jì)算出其它文本數(shù)據(jù)的相似文本數(shù)據(jù)。

      3實(shí)驗(yàn)分析

      本文醫(yī)學(xué)文本數(shù)據(jù)來源于相關(guān)醫(yī)學(xué)論文數(shù)據(jù)。數(shù)據(jù)處理中,選取醫(yī)學(xué)文本數(shù)據(jù)中的標(biāo)題和內(nèi)容分別分詞處理,并將標(biāo)題的權(quán)重設(shè)置大一些,因?yàn)闃?biāo)題顯然比內(nèi)容重要一點(diǎn)。在計(jì)算分詞后詞語詞頻時(shí),為了使計(jì)算保持在一個(gè)數(shù)量級(jí)上,對數(shù)據(jù)進(jìn)行歸一化處理,即通過數(shù)據(jù)歸一化處理將數(shù)據(jù)映射到[0,1]。便于比較和處理方便,本文依次選擇1000篇、2000篇、5000篇、10000篇文本數(shù)據(jù)作為測試數(shù)據(jù),分別采用基于傳統(tǒng)余弦公式醫(yī)學(xué)文本相似性分析算法和基于全文索引技術(shù)與余弦公式醫(yī)學(xué)文本相似性分析算法對它們進(jìn)行計(jì)算和分析。其計(jì)算結(jié)果如表1所示:

      表1 算法效率比較表

      從表1中可以看出,基于傳統(tǒng)余弦公式醫(yī)學(xué)文本相似性分析算法在1000篇、2000篇等小數(shù)據(jù)量時(shí)算法速度是可以的,因?yàn)樾枰ヅ涞臄?shù)據(jù)量較小。但是,在數(shù)據(jù)量相對較大時(shí),比如5000篇、10000篇甚至更大量的數(shù)據(jù),算法則明顯比基于全文索引技術(shù)與余弦公式醫(yī)學(xué)文本相似性分析算法要慢很多了。數(shù)據(jù)量越大,相對于傳統(tǒng)算法而言,本文提出的算法性能優(yōu)勢越明顯。

      4 總結(jié)

      采用傳統(tǒng)余弦公式對醫(yī)學(xué)文本數(shù)據(jù)進(jìn)行相似性分析,算法比較簡單,思路也比較清晰、便于理解。但是在數(shù)據(jù)量較大情況下,算法的運(yùn)行效率比較低,難以滿足實(shí)際需求。針對該問題,本文采用全文索引技術(shù)與余弦公式結(jié)合的方式對醫(yī)學(xué)文本數(shù)據(jù)進(jìn)行相似性分析。該算法采用全文索引技術(shù)對醫(yī)學(xué)文本數(shù)據(jù)相關(guān)關(guān)鍵詞進(jìn)行索引,這樣算法在相似性計(jì)算時(shí),可以先根據(jù)若干關(guān)鍵詞在索引中檢索出部分?jǐn)?shù)據(jù)。這樣能夠大大減少算法計(jì)算的量,從而提高效率。實(shí)驗(yàn)表明,該方法比基于傳統(tǒng)余弦公式醫(yī)學(xué)文本相似性分析算法運(yùn)算效率更高,性能更優(yōu)。

      [1] 王浩暢,趙鐵軍.生物醫(yī)學(xué)文本挖掘技術(shù)的研究與進(jìn)展[J].中文信息學(xué)報(bào),2008,22(3):89-97.

      [2] 鄭強(qiáng), 劉齊軍, 王正華, 朱云平. 生物醫(yī)學(xué)命名實(shí)體識(shí)別的研究與進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2010,27(3):811-832.

      [3] 豆增發(fā),高琳.利用膜粒子群優(yōu)化和信息熵的醫(yī)學(xué)文本特征選擇[J].西安交通大學(xué)學(xué)報(bào),2012,4:45-51.

      [4] 米曉芳,秦 洋,王立宏,宋宜斌.基于潛在語義差異的醫(yī)學(xué)網(wǎng)頁聚類[J].計(jì)算機(jī)工程,2008,34(19):64-66.

      [5] 顧鈞,鄭曉東,張連明.結(jié)合引文信息的生物醫(yī)學(xué)文本聚類研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(10):5-7.

      [6] XUEZHONG ZHOU, YONGHONG PENG,BAOYAN LOU.Text mining for traditional Chinese medical knowledge discovery: A survey[J].Journal of Biomedical Informatics,2010,43 : 650–660.

      [7] 趙國光.醫(yī)學(xué)文獻(xiàn)相似性研究[D].首都師范大學(xué),2009.

      [8] 吳飛珍,馬文麗,王旺迪,陳啟龍,鄭文嶺.一種新的基因注釋語義相似度計(jì)算方法[J].生物信息學(xué),2010,1:23-29.

      [9] 郝文寧,馮波,陳剛,靳大尉,趙水寧.基于領(lǐng)域本體的文檔向量空間模型構(gòu)建[J].計(jì)算機(jī)應(yīng)用研究,2013,3:764-767.

      [10] 郭慶琳,李艷梅,唐琦.基于VSM 的文本相似度計(jì)算的研究[J].計(jì)算機(jī)應(yīng)用研究,2008,25(11):3256-3258.

      [11] 蘇潭英,郭憲勇,金鑫.一種基于 Lucene 的中文全文檢索系統(tǒng)[J].計(jì) 算 機(jī) 工 程,2007,33(23):94-96.

      [12] 劉小珠, 彭智勇.全文索引技術(shù)時(shí)空效率分析[J].軟件學(xué)報(bào),2009,20(7):1768-178.4.

      Similarity Analysis of Medical Text Based on Full-text Indexing Technology and Cosine Formul

      Xie Cuiping, Chen Jiayi, Bai Jinshan
      ( School of Information Engineering, Guangdong Medical College, Dongguan 523808, China )

      Medical text similarity is an important content of medical text mining, how to quickly calculate the similarity from a large number of medical text data is a key problem of medical text similarity calculation.For medical text similarity analysis based on traditional cosine formula algorithm on the performance of defects, this paper proposes a algorithm of medical text similarity analysis which based on full-text index and cosine formula, It can be analyzed in the similarity of medical text. It uses full-text indexing technology to index medical text data relevant keywords, and according to the number of keywords retrieve part of the data from the index , so as to reduce the computational complexity and improve efficiency. Experiments show that, the method of similarity analysis algorithm has better performance than the traditional medical text based on the cosine formula.

      Medical Text Similarity;Cosine Formula;Full-text Indexing;Text Mining;Vector Space Model

      TP393

      A

      1007-757X(2014)01-0025-03

      2013.12.16)

      湛江市科技計(jì)劃項(xiàng)目(編號(hào):2012C3102009)廣東醫(yī)學(xué)院青年基金項(xiàng)目(編號(hào):XQ1353)

      謝翠萍(1980-),女,湖南省安仁人,廣東醫(yī)學(xué)院講師,碩士,研究方向:數(shù)據(jù)庫、醫(yī)院信息系統(tǒng),東莞,523808陳家益(1983-),男,廣東省湛江市人,廣東醫(yī)學(xué)院,講師,碩士,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)與通信,東莞,523808白金山(1972-),男,黑龍江齊齊哈爾人,廣東醫(yī)學(xué)院,講師,博士,研究方向:并發(fā)模型檢,東莞,523808

      猜你喜歡
      余弦公式相似性向量
      一類上三角算子矩陣的相似性與酉相似性
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      淺析當(dāng)代中西方繪畫的相似性
      兩角差的余弦公式的不同推導(dǎo)方法
      追溯本源,自然生成*——《兩角差的余弦公式》的教學(xué)設(shè)計(jì)
      低滲透黏土中氯離子彌散作用離心模擬相似性
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      三角恒等變換
      辽源市| 林西县| 嵊州市| 文登市| 湘乡市| 镇宁| 鹤峰县| 龙江县| 犍为县| 侯马市| 南雄市| 邯郸市| 武宁县| 自治县| 广河县| 伊宁市| 长海县| 永靖县| 嘉黎县| 蓬安县| 泸溪县| 北碚区| 闽清县| 海阳市| 德兴市| 保康县| 綦江县| 调兵山市| 扶余县| 大港区| 盐山县| 麻阳| 电白县| 濮阳市| 同江市| 巴楚县| 铜陵市| 永清县| 大关县| 台安县| 大庆市|