• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)融合方法在醫(yī)療案例檢索中的應(yīng)用

      2017-03-27 10:41:43周新科鄔艷艷
      電子科技 2017年3期
      關(guān)鍵詞:檢索系統(tǒng)文檔規(guī)范化

      周新科,鄔艷艷

      (江蘇大學(xué) 計(jì)算機(jī)科學(xué)與通信工程學(xué)院,江蘇 鎮(zhèn)江 212013)

      數(shù)據(jù)融合方法在醫(yī)療案例檢索中的應(yīng)用

      周新科,鄔艷艷

      (江蘇大學(xué) 計(jì)算機(jī)科學(xué)與通信工程學(xué)院,江蘇 鎮(zhèn)江 212013)

      針對(duì)當(dāng)前醫(yī)學(xué)檢索領(lǐng)域中依據(jù)醫(yī)療案例進(jìn)行搜索時(shí)準(zhǔn)確率較低的問題,從數(shù)據(jù)融合的角度來考慮提升醫(yī)療案例檢索的性能。在公共有效數(shù)據(jù)集上的實(shí)驗(yàn)表明,采用數(shù)據(jù)融合算法能夠有效提升醫(yī)療案例檢索的有效性。其中在RP指標(biāo)上基于多元線性回歸的線性組合法與倒數(shù)規(guī)范化組合的策略取得了最佳結(jié)果,且超過了原有的最佳結(jié)果2.85%。

      醫(yī)療案例檢索;數(shù)據(jù)融合;線性組合法

      醫(yī)生所做臨床決策的主要依據(jù)是個(gè)人的經(jīng)驗(yàn)以及相關(guān)病情的案例資料。相對(duì)于需要長期的積累個(gè)人經(jīng)驗(yàn),相關(guān)病情的案例資料可從已有的醫(yī)學(xué)資料中尋找到。然而從海量的醫(yī)學(xué)資料中找到醫(yī)生所需的信息較為困難。這就需要一個(gè)能為臨床醫(yī)生提供快速檢索醫(yī)學(xué)資源的檢索系統(tǒng)了。醫(yī)療案例檢索系統(tǒng)(Medical Case-based Retrieval,MCR)正是為此而設(shè)計(jì)的。

      自2009年以來,ImageCLEF[1]評(píng)價(jià)活動(dòng)每年舉辦一次基于醫(yī)療案例的檢索任務(wù),其是屬于跨語言評(píng)價(jià)論壇中圖像檢索研究部分的。該任務(wù)允許研究人員使用常見的大型數(shù)據(jù)集來評(píng)估他們的系統(tǒng)。這是一個(gè)比較接近臨床工作流程的任務(wù)。在2013年的醫(yī)療案例檢索任務(wù)[2]中使用的案例數(shù)據(jù)集包含了7.5萬個(gè)能在生物醫(yī)學(xué)文獻(xiàn)的出版期刊中找到證據(jù)的案例描述,其中包括了約30萬張與醫(yī)療案例相關(guān)的圖像文件。2013年參加該任務(wù)的小組中共有7個(gè)小組提交了結(jié)果。在這7個(gè)小組提交的42個(gè)結(jié)果中,表現(xiàn)最優(yōu)的是文本檢索,多模式結(jié)合的檢索方式次之,圖像檢索的結(jié)果表現(xiàn)最差。以下是2013年在該任務(wù)中提交的最優(yōu)結(jié)果(括號(hào)中的是2012年[3]的最優(yōu)結(jié)果,MAP代表平均精度值[4]):

      通過文本檢索的最優(yōu)結(jié)果是MAP=24.29%(17%);通過多模式結(jié)合的檢索方式的最優(yōu)結(jié)果是MAP=16.08%(10%);通過圖像檢索的最優(yōu)結(jié)果是MAP=2.81%(3.7%)。

      1 數(shù)據(jù)融合技術(shù)

      在上述結(jié)果中可看到,文本檢索作為傳統(tǒng)信息檢索領(lǐng)域的主體,其性能表現(xiàn)是最好的,這是因其是發(fā)展歷史最久,技術(shù)最成熟的;而圖像檢索的性能表現(xiàn)最差是因?yàn)閳D像檢索的發(fā)展并不像文本檢索一樣有著相對(duì)成熟的技術(shù)。檢索性能居中的多模式結(jié)合的檢索方式則主要指的是數(shù)據(jù)融合方式了。

      數(shù)據(jù)融合在信息檢索領(lǐng)域中的又稱為信息融合或元搜索,原本應(yīng)用于多傳感器處理,其主要目的就是融合多個(gè)信息源來提高檢索性能[5]。在近年來,數(shù)據(jù)融合被普遍應(yīng)用于諸多的領(lǐng)域例如:神經(jīng)網(wǎng)絡(luò),多用傳感器,分類等,以此來提高系統(tǒng)的性能。依據(jù)融合的等級(jí)不同,數(shù)據(jù)融合又可分為:信號(hào)級(jí),特征級(jí)以及決策級(jí)[6]。信號(hào)和特征級(jí)融合屬于早期融合,決策級(jí)融合屬于后期融合。在過去的多年中,許多融合方法被提了出來,例如:combSUM,combMNZ以及線性組合法等。

      在醫(yī)療案例檢索任務(wù)中,其允許文本檢索系統(tǒng)間的融合,圖像檢索系統(tǒng)間的融合,以及文本和圖像檢索系統(tǒng)的多模式融合。

      Zhou等人研究并概括了經(jīng)典的分?jǐn)?shù)融合方法combMAX,combSUM和combMNZ,其的結(jié)論是對(duì)數(shù)logsitic模型是比較穩(wěn)定的得分歸一化的策略[7]。Gkoufas等人用線性組合法對(duì)2009和2010年的ImageCLEF的醫(yī)療案例檢索數(shù)據(jù)研究評(píng)價(jià)后得出結(jié)論:在該數(shù)據(jù)集上融合文本和圖像的檢索結(jié)果不能提升檢索結(jié)果在MAP指標(biāo)上的性能[8]。

      2 算法原理

      實(shí)驗(yàn)中選用了3種后期融合方法及兩種分?jǐn)?shù)規(guī)范化方法來進(jìn)行試驗(yàn),以測(cè)試不同的融合方法和不同的分?jǐn)?shù)規(guī)范化方法的組合中哪一種策略能夠更好地提升醫(yī)療案例檢索的性能

      2.1 數(shù)據(jù)融合算法

      假設(shè)現(xiàn)在有一組文檔集合D和一組檢索系統(tǒng)IR={iri}(1 ≤i≤n)每個(gè)檢索系統(tǒng)為查詢q檢索文檔集合D,從而每個(gè)系統(tǒng)都針對(duì)每個(gè)查詢q檢索出一個(gè)排好序的文檔列表Li=。在這個(gè)文檔列表中每個(gè)文檔都會(huì)有一個(gè)相對(duì)應(yīng)的得分si。下面介紹三種融合算法的計(jì)算公式:

      combSUM[9]

      (1)

      式中,si(d)表示在每個(gè)檢索系統(tǒng)中文檔d的得分;n表示需要融合的系統(tǒng)個(gè)數(shù);g(d)表示,文檔d通過融合后獲得的全局分值,此外,如果在某個(gè)系統(tǒng)中文檔d未被檢索到,則si(d)設(shè)置為0。

      combMNZ[10]

      (2)

      此處m表示的是檢索到該文檔d的檢索系統(tǒng)的數(shù)量。

      線性組合法[11-13]

      (3)

      其中,wi是分配給檢索系統(tǒng)iri的權(quán)重。線性組合法較為靈活,其可給不同的檢索系統(tǒng)設(shè)置不同的融合權(quán)重。其是combSUM一個(gè)更通用的形式,當(dāng)wi設(shè)置為1時(shí),線性組合法就變成combSUM方法了。如何分配權(quán)重是重點(diǎn)。實(shí)驗(yàn)中采用多元線性回歸的技術(shù)來獲取每個(gè)系統(tǒng)的權(quán)重[14]。該方法需要在一組數(shù)據(jù)上訓(xùn)練并建立一個(gè)多元線性回歸模型。訓(xùn)練數(shù)據(jù)中包含各個(gè)參與融合系統(tǒng)提供的檢索到的文檔的有效分?jǐn)?shù)信息,以及所有文檔的相關(guān)評(píng)價(jià)信息。通過使用最小二乘法來盡可能縮小文檔的得分與真實(shí)相關(guān)性之間的差值,最后建立的回歸模型的系數(shù)就是分配給參與融合的系統(tǒng)的權(quán)重。

      2.2 得分規(guī)范化方法

      不同的檢索系統(tǒng)對(duì)返回的文檔列表中文檔相關(guān)性打分的標(biāo)準(zhǔn)往往不同。有的檢索系統(tǒng)給相關(guān)文檔分配的得分是介于0~1之間的,有的則是-1 000~0之間的,各個(gè)系統(tǒng)的得分評(píng)價(jià)標(biāo)準(zhǔn)不同,因此有必要將各個(gè)系統(tǒng)之間的得分統(tǒng)一,在實(shí)驗(yàn)中使用的是兩種常用的得分規(guī)范化方法。

      0~1規(guī)范化方法[15]

      (4)

      其中,mini和maxi表示該檢索系統(tǒng)中對(duì)于某個(gè)query檢索出所有的文檔中的最低得分和的最高得分;si(d)是系統(tǒng)分配給文檔d的得分;scorei就是文檔d規(guī)范化后的得分。

      倒數(shù)規(guī)范化[16]

      (5)

      其中,ri(d)表示文檔d在檢索系統(tǒng)返回的結(jié)果列表中的排名;k是常數(shù),一般設(shè)置為60。

      3 實(shí)驗(yàn)設(shè)置與結(jié)果

      實(shí)驗(yàn)中將3種融合方法和兩種規(guī)范化方法進(jìn)行組合使用。選用的數(shù)據(jù)是2013年ImageCLEF中醫(yī)療案例檢索任務(wù)里提交的檢索結(jié)果。其中,5個(gè)文本檢索的結(jié)果由5個(gè)排名靠前的小組所提供。圖像檢索僅有3個(gè)小組提交了結(jié)果,因此實(shí)驗(yàn)選用了這3個(gè)小組提交的全部5個(gè)結(jié)果。實(shí)驗(yàn)中使用Treceval 9.0版本的評(píng)價(jià)程序來進(jìn)行評(píng)價(jià),選用的評(píng)價(jià)指標(biāo)有4個(gè):平均精度值(MAP)、召回率(RP)、前10個(gè)文檔的平均精度(P@10)和前30個(gè)文檔的平均精度(P@30)。實(shí)驗(yàn)選用的文本檢索結(jié)果和圖像檢索結(jié)果數(shù)據(jù)如表1和表2所示。表3~表5所示為不同數(shù)據(jù)在使用不同融合策略情況下的融合結(jié)果,其中MR-Fusion表示基于多元線性回歸的線性組合法,粗體字表示在某指標(biāo)下的最大值。

      表1 實(shí)驗(yàn)使用的文本檢索的結(jié)果

      表2 實(shí)驗(yàn)使用的圖像檢索的結(jié)果

      表3所示,在不同融合策略下文本融合的結(jié)果。從表中可觀察到采用基于多元線性回歸的線性組合法與0-1規(guī)范化組合的策略能夠有效提升MAP和RP的指標(biāo),提升效果分別為4.94%和1.09%。而相對(duì)于其他融合策略,使用基于多元線性回歸的線性組合法與倒數(shù)規(guī)范化組合的策略對(duì)P@10和P@30指標(biāo)的提升效果較好,其提升效果分別為10.53%和0.50%。此外,combSUM與combMNZ在使用0-1規(guī)范化的情況下,其融合結(jié)果的MAP指標(biāo)也超過了原始最佳的檢索結(jié)果。在P@10指標(biāo)上,除了combSUM與0-1規(guī)范化組合的策略以外,其余融合策略都超過了原始最佳檢索結(jié)果。

      表4所示,使用不同融合策略融合圖像檢索的結(jié)果。在MAP和P@10指標(biāo)上,只有基于多元線性回歸的線性組合法與0-1規(guī)范化組合的策略能夠在原有最佳結(jié)果的基礎(chǔ)上有所提升,提升效果分別為3.57%和2.27%。在RP指標(biāo)上基于多元線性回歸的線性組合法與倒數(shù)規(guī)范化組合的策略取得了最佳結(jié)果,且超過了原有的最佳結(jié)果2.85%;在P@10指標(biāo)上該融合策略與原有最佳結(jié)果持平;在P@30指標(biāo)上,該融合策略雖然取得了最佳的結(jié)果,但未超過原有最佳結(jié)果。

      表3 文本檢索融合結(jié)果

      表4 圖像檢索融合結(jié)果

      表5所示,使用不同融合策略同時(shí)融合文本與圖像檢索的結(jié)果。表中結(jié)果顯示,在MAP和RP指標(biāo)上,只有基于多元線性回歸的線性組合法與倒數(shù)規(guī)范化組合的策略超過了原始最佳結(jié)果,其提升效果分別為3.95%和1.82%。在P@10指標(biāo)上,只有基于多元線性回歸的線性組合法超過了原始最佳檢索結(jié)果,在使用0-1規(guī)范化和倒數(shù)規(guī)范化的時(shí)候,該方法在P@10指標(biāo)上的提升效果分別為4.14%和4.89%。而在P@30指標(biāo)上,只有combMNZ與0~1規(guī)范化組合的融合策略超過了原有最佳結(jié)果,提升效果為2.53%。

      表5 文本+圖像檢索融合結(jié)果

      4 結(jié)束語

      數(shù)據(jù)融合方法是在原有檢索結(jié)果的基礎(chǔ)上,使用融合算法將多個(gè)檢索結(jié)果組合,以得到一個(gè)新的更有效的結(jié)果。而使用了不同的數(shù)據(jù)融合的方法與不同分?jǐn)?shù)規(guī)范化方法對(duì)2013年醫(yī)療案例檢索任務(wù)中提交的結(jié)果進(jìn)行融合實(shí)驗(yàn)后,其結(jié)果表明使用數(shù)據(jù)融合方法提升醫(yī)療案例檢索的性能是可行的。且從實(shí)驗(yàn)結(jié)果來看,使用多元線性回歸來優(yōu)化融合權(quán)重的線性組合法對(duì)醫(yī)療案例檢索的提升效果較好。同時(shí),在融合過程中,對(duì)分?jǐn)?shù)規(guī)范化方法的選擇也會(huì)影響最終融合的效果。相信隨著醫(yī)療案例檢索研究的深入,數(shù)據(jù)融合能夠發(fā)揮更大的作用。

      [1] Caputo B, Muller H, Thomee B, et al. ImageCLEF 2013: the vision, the data and the open challenges[C].Korea:Information Access Evaluation, Multilinguality, Multimodality, and Visualization,2013.

      [2] Herrera A G S D, Kalpathy-Cramer J, Demner-Fushman D, et al. Overview of the Image CLEF 2013 medical tasks[C].Korea:Clef Working Notes,2013.

      [3] Müller H, Herrera A G S, Kalpathy-Cramer J, et al. Overview of the ImageCLEF 2012 medical image retrieval and classiFIcation tasks[C].Istanbul:CLEF 2012 Working Notes,2012.

      [4] Singhal A. Modern information retrieval: a brief overview[J].Bulletin of the IEEE Computer Society Technical Committee on Data Engineering,2001,24(24):35-43.

      [5] Wu S,Mcclean S. Performance prediction of data fusion for information retrieval[J]. Information Processing & Management,2006, 42(4):899-915.

      [6] Valet L, Mauris G, Bolon P. A statistical overview of recent literature in information fusion[J].Aerospace & Electronic Systems Magazine IEEE,2001,1(3):7-14.

      [7] Zhou X,Depeursinge A,Muller H. Information fusion for combining visual and textual image retrieval[C].Beijing:20th International Conference on Pattern Recognition (ICPR),2010.

      [8] Gkoufas Y,Morou A,Kalamboukis T. Combining textual and visual information for image retrieval in the medical domain[J]. Open Medical Informatics Journal,2011(5):50-7.

      [9] Fox E A, Shaw J A. Combination of multiple searches[C].Japan:Text Retrieval Conference,1993.

      [10] Fox E A, Koushik M P, Shaw J A, et al. Combining evidence from multiple searches[C].CA,USA:Text Retrieval Conference,1992.

      [11] Vogt C C, Cottrell G W.Predicting the performance of linearly combined IR systems[C].Itaty:International ACM SIGIR Conference on Research and Development in Information Retrieval,ACM,1998.

      [12] Vogt C C,Cottrell G W.Fusion via a linear combination of scores[J].Information Retrieval,1999,1(3):151-173.

      [13] Wu S. Linear combination of component results in information retrieval[J].Data & Knowledge Engineering,2012,71(1):114-126.

      [14] Wu S,Mcclean S.Improving high accuracy retrieval by eliminating the uneven correlation effect in data fusion[J].Journal of the American Society for Information Science & Technology, 2006, 57(14):1962-1973.

      [15] Lee J H. Analyses of multiple evidence combination[J].Acm Sigir Forum,1996, 31(SI):267-276.

      [16] Cormack G V, Clarke C L A, Buettcher S. Reciprocal rank fusion outperforms condorcet and individual rank learning methods[C].Boston, MA, USA:International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR,2009.

      Research on Application of Data Fusion Methods in Medical Case-based Retrieval

      ZHOU Xinke,WU Yanyan

      (School of Computer Science and communications Engineering, Jiangsu University, Zhenjiang 212013, China)

      In today’s society, with the growth of the medical data, how to quickly find the needed information in the massive medical data is a challenge. To improve the low performance of medical cased-based retrieval in medical field, data fusion technology is considered in this paper. This method can consider the characteristics of documents in different information retrieval systems and re-calculate their scores according to the fusion algorithm. Finally it will re-rank all the documents. Experiments on the public data sets show that data fusion can effectively improve the performance of medical case retrieval. And using the linear combination method can achieve a better improvement.

      medical case-based retrieval; data fusion; linear combination

      2016- 05- 05

      周新科 (1990-) ,男,碩士研究生。研究方向:信息檢索,數(shù)據(jù)融合。鄔艷艷(1989-),女,碩士研究生。研究方向:信息檢索,數(shù)據(jù)融合。

      10.16180/j.cnki.issn1007-7820.2017.03.013

      TP391.3

      A

      1007-7820(2017)03-045-04

      猜你喜歡
      檢索系統(tǒng)文檔規(guī)范化
      有人一聲不吭向你扔了個(gè)文檔
      收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫
      收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫
      本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
      本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
      價(jià)格認(rèn)定的規(guī)范化之路
      商周刊(2017年23期)2017-11-24 03:24:09
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      狂犬?、蠹?jí)暴露規(guī)范化預(yù)防處置實(shí)踐
      高血壓病中醫(yī)規(guī)范化管理模式思考
      建阳市| 靖江市| 建德市| 南岸区| 大足县| 平定县| 嘉荫县| 荣成市| 昌吉市| 栖霞市| 正阳县| 菏泽市| 土默特右旗| 比如县| 东海县| 开原市| 左权县| 景宁| 澄城县| 沙河市| 中超| 南溪县| 千阳县| 麦盖提县| 饶平县| 孟津县| 伊金霍洛旗| 蓬安县| 易门县| 榕江县| 广昌县| 九台市| 林芝县| 壤塘县| 兴宁市| 乌拉特后旗| 普兰县| 渑池县| 剑川县| 垦利县| 贵州省|