• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于序列標(biāo)注算法比較的醫(yī)學(xué)文獻(xiàn)風(fēng)險(xiǎn)事件抽取研究

      2018-01-03 01:59:06邱武松
      關(guān)鍵詞:馬爾可夫醫(yī)學(xué)文獻(xiàn)

      喻 鑫 張 矩 邱武松 王 飛

      1(中國(guó)科學(xué)院大學(xué) 北京 100000) 2(中國(guó)科學(xué)院重慶綠色智能技術(shù)研究院 重慶 400714) 3(第三軍醫(yī)大學(xué)西南醫(yī)院 重慶 400038)

      基于序列標(biāo)注算法比較的醫(yī)學(xué)文獻(xiàn)風(fēng)險(xiǎn)事件抽取研究

      喻 鑫1,2張 矩1,2邱武松2王 飛3

      1(中國(guó)科學(xué)院大學(xué) 北京 100000)2(中國(guó)科學(xué)院重慶綠色智能技術(shù)研究院 重慶 400714)3(第三軍醫(yī)大學(xué)西南醫(yī)院 重慶 400038)

      醫(yī)學(xué)文獻(xiàn)快速增長(zhǎng),如何從醫(yī)學(xué)文獻(xiàn)文本大數(shù)據(jù)中挖掘出有價(jià)值的知識(shí)是一種巨大挑戰(zhàn)。聚焦醫(yī)學(xué)文獻(xiàn)中定量風(fēng)險(xiǎn)語(yǔ)句的風(fēng)險(xiǎn)事件抽取,構(gòu)建智能臨床決策支持系統(tǒng)醫(yī)學(xué)風(fēng)險(xiǎn)知識(shí)庫(kù)。運(yùn)用序列標(biāo)注算法中重要的隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場(chǎng)三種模型分別對(duì)醫(yī)學(xué)文獻(xiàn)非結(jié)構(gòu)化全文文本中風(fēng)險(xiǎn)事件信息進(jìn)行抽取,并對(duì)算法進(jìn)行比較。從三個(gè)模型平均F1測(cè)度值來(lái)看,條件隨機(jī)場(chǎng)效果最好,其次為最大熵馬爾可夫模型,然后是隱馬爾可夫模型,但是每個(gè)模型都有自己對(duì)某些風(fēng)險(xiǎn)事件抽取的準(zhǔn)確率或者召回率的優(yōu)勢(shì)。

      醫(yī)學(xué)文獻(xiàn) 風(fēng)險(xiǎn)事件 隱馬爾可夫模型 最大熵馬爾可夫模型 條件隨機(jī)場(chǎng)

      0 引 言

      隨著生物技術(shù)的發(fā)展,生物醫(yī)學(xué)文獻(xiàn)呈現(xiàn)出爆炸式增長(zhǎng)的趨勢(shì),美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館的PubMed醫(yī)學(xué)文獻(xiàn)檢索系統(tǒng)中收錄的文章每年都有較大幅度增長(zhǎng),本文實(shí)驗(yàn)中所使用的醫(yī)學(xué)文獻(xiàn)就來(lái)自于PubMed檢索系統(tǒng)。

      在醫(yī)療領(lǐng)域,運(yùn)用信息抽取的算法對(duì)醫(yī)學(xué)文本進(jìn)行處理是目前重要而且熱門(mén)的研究方向,它是構(gòu)建臨床決策支持系統(tǒng)[1]的基礎(chǔ)。信息抽取可以自動(dòng)幫助人們從日益增長(zhǎng)的海量信息中快速找到自己真正需要的信息,并用結(jié)構(gòu)化的格式進(jìn)行表示[2-4]。其中,文本信息抽取是從自然語(yǔ)言文本中自動(dòng)抽取信息的技術(shù)。美國(guó)高級(jí)研究計(jì)劃署(DARPA)所資助的信息理解會(huì)議MUC(Message Understanding Conference)促進(jìn)了文本信息抽取的發(fā)展。

      本文對(duì)醫(yī)學(xué)風(fēng)險(xiǎn)信息的抽取對(duì)臨床醫(yī)學(xué)操作評(píng)判有著重要的預(yù)警和決策分析作用,對(duì)已發(fā)生的醫(yī)學(xué)事故有著重要的評(píng)估作用。醫(yī)學(xué)中風(fēng)險(xiǎn)分析研究一直都受到大家的關(guān)注。風(fēng)險(xiǎn)是引起不幸和損失的可能性,在流行病學(xué)、臨床醫(yī)學(xué)和日常生活具有重要地位,醫(yī)學(xué)風(fēng)險(xiǎn)信息有助于疾病的認(rèn)識(shí)、預(yù)防和治療[5]。一個(gè)重要的應(yīng)用就是在醫(yī)學(xué)領(lǐng)域決策支持中引入風(fēng)險(xiǎn)分析[6]。

      目前對(duì)醫(yī)學(xué)文本風(fēng)險(xiǎn)信息的抽取集中在對(duì)病歷文本知識(shí)的抽取[7]中,通過(guò)對(duì)病歷中治療指標(biāo)的抽取和分析,獲取其中的風(fēng)險(xiǎn)信息。然而,對(duì)醫(yī)學(xué)文獻(xiàn)文本進(jìn)行風(fēng)險(xiǎn)信息抽取的研究卻較少。一方面,醫(yī)學(xué)文獻(xiàn)中風(fēng)險(xiǎn)的表現(xiàn)形式各有不同[8],另一方面,閱讀醫(yī)學(xué)文獻(xiàn)需要花費(fèi)較長(zhǎng)時(shí)間。但是,如果醫(yī)生遇到已有知識(shí)和已有病例無(wú)法解決的問(wèn)題,這時(shí)候從醫(yī)學(xué)文獻(xiàn)中獲取知識(shí)極其關(guān)鍵,本文就是解決從醫(yī)學(xué)文獻(xiàn)中快速獲取風(fēng)險(xiǎn)知識(shí)的問(wèn)題。由于醫(yī)學(xué)文獻(xiàn)文本屬于非結(jié)構(gòu)化文本,信息噪聲太大,對(duì)它的處理難度較大,所以對(duì)醫(yī)學(xué)文獻(xiàn)處理大部分都集中在對(duì)醫(yī)學(xué)文獻(xiàn)中摘要的處理,摘要是全文的濃縮,文本量小,處理起來(lái)要簡(jiǎn)單一點(diǎn)。Deleris等從醫(yī)學(xué)文獻(xiàn)的摘要中對(duì)風(fēng)險(xiǎn)信息進(jìn)行抽取[9]。Jochim等所使用的風(fēng)險(xiǎn)信息語(yǔ)料庫(kù)就是從PubMed中200篇乳腺癌文獻(xiàn)摘要中得到的[10]。但文獻(xiàn)摘要會(huì)大面積舍掉正文信息,產(chǎn)生信息損失,存在著缺陷,所以本文嘗試對(duì)文獻(xiàn)全文進(jìn)行處理。Jochim等對(duì)條件事件和結(jié)果事件進(jìn)行了定義,并運(yùn)用條件隨機(jī)場(chǎng)的方法識(shí)別風(fēng)險(xiǎn)條件事件和風(fēng)險(xiǎn)結(jié)果事件[10]。

      本文從醫(yī)學(xué)文獻(xiàn)中提取風(fēng)險(xiǎn)信息知識(shí)不同于目前研究較多的醫(yī)學(xué)命名實(shí)體以及實(shí)體之間關(guān)系的提取。醫(yī)學(xué)實(shí)體之間關(guān)系的抽取是一個(gè)文本中兩個(gè)或者更多特定醫(yī)學(xué)實(shí)體之間關(guān)系的識(shí)別[11-12],是醫(yī)學(xué)本體研究的重要基礎(chǔ),其中比較重要的是確定醫(yī)學(xué)命名實(shí)體類別(如診斷、癥狀和治療等)和實(shí)體之間關(guān)系類別(如上下位、同義詞等關(guān)系,當(dāng)然也包括治療、預(yù)防等關(guān)系)。

      1 風(fēng)險(xiǎn)事件抽取

      1.1 醫(yī)學(xué)風(fēng)險(xiǎn)事件語(yǔ)料庫(kù)

      醫(yī)學(xué)文獻(xiàn)中的風(fēng)險(xiǎn)語(yǔ)句一般指的是已發(fā)表出來(lái)的醫(yī)學(xué)文獻(xiàn)文本中包含有對(duì)疾病的產(chǎn)生、發(fā)展、癥狀呈現(xiàn)、診斷治療、監(jiān)測(cè)隨訪等有影響因素的語(yǔ)句,因素可能是單一的,也可能是混合的,當(dāng)然因素也可以包括其他疾病。風(fēng)險(xiǎn)語(yǔ)句分為定性風(fēng)險(xiǎn)語(yǔ)句和定量風(fēng)險(xiǎn)語(yǔ)句,定性風(fēng)險(xiǎn)語(yǔ)句是用敘述的形式來(lái)進(jìn)行說(shuō)明,例如,“The highest risk is seen in women with lobular carcinoma in situ (LCIS), but this is very rare.”。而定量風(fēng)險(xiǎn)語(yǔ)句是指帶有數(shù)值說(shuō)明的風(fēng)險(xiǎn)語(yǔ)句,其中分為普通數(shù)字(不算百分?jǐn)?shù))和百分?jǐn)?shù)兩種,舉個(gè)帶有普通數(shù)字(不算百分?jǐn)?shù))的風(fēng)險(xiǎn)語(yǔ)句的例子,“More common is atypical hyperplasia (AH), which carries a 4-5-fold risk of breast cancer as compared to general population.”,再舉個(gè)帶有百分?jǐn)?shù)的風(fēng)險(xiǎn)語(yǔ)句的例子,“Tamoxifen has been shown to be particularly effective in preventing subsequent breast cancer in women with AH, with a more than 70% reduction in the P1 trial and a 60% reduction in IBIS-I.”。本文中所說(shuō)到的風(fēng)險(xiǎn)語(yǔ)句指的是帶有百分?jǐn)?shù)的強(qiáng)風(fēng)險(xiǎn)定量信息語(yǔ)句。

      風(fēng)險(xiǎn)語(yǔ)句中的風(fēng)險(xiǎn)事件指的是風(fēng)險(xiǎn)語(yǔ)句中關(guān)于其百分?jǐn)?shù)描述的相關(guān)事件,本文重點(diǎn)關(guān)注針對(duì)百分?jǐn)?shù)的影響說(shuō)明元素、被影響說(shuō)明元素、提示說(shuō)明元素、來(lái)源說(shuō)明元素、風(fēng)險(xiǎn)程度說(shuō)明元素,如表1所示。影響說(shuō)明元素,是指風(fēng)險(xiǎn)語(yǔ)句中產(chǎn)生影響的元素;被影響說(shuō)明元素,是指風(fēng)險(xiǎn)語(yǔ)句中受到影響的元素;提示說(shuō)明元素最能表明這是風(fēng)險(xiǎn)語(yǔ)句的標(biāo)志,如存活率、復(fù)發(fā)率、死亡率等;來(lái)源說(shuō)明元素指的是風(fēng)險(xiǎn)語(yǔ)句信息數(shù)據(jù)來(lái)自哪里,大多數(shù)情況下,數(shù)據(jù)來(lái)自作者的實(shí)驗(yàn)結(jié)果,但是也有可能來(lái)自臨床指南,或綜述報(bào)告等;風(fēng)險(xiǎn)程度說(shuō)明元素指的是風(fēng)險(xiǎn)數(shù)據(jù)的修飾術(shù)語(yǔ),如大約、精確、可能等。舉個(gè)例子,“Tamoxifen has been shown to be particularly effective in preventing subsequent breast cancer in women with AH, with a more than 70% reduction in the P1 trial and a 60% reduction in IBIS-I.”,對(duì)于百分?jǐn)?shù)70%,影響說(shuō)明元素為T(mén)(t)amoxifen,被影響說(shuō)明元素為breast cancer in women with AH (atypical hyperplasia),提示說(shuō)明元素為reduction,來(lái)源說(shuō)明元素是P1 trial,風(fēng)險(xiǎn)程度說(shuō)明元素為more than;對(duì)于百分?jǐn)?shù)60%,影響說(shuō)明元素為T(mén)(t)amoxifen,被影響說(shuō)明元素為breast cancer in women with AH (atypical hyperplasia),提示說(shuō)明元素為reduction,來(lái)源說(shuō)明元素是IBIS-I,無(wú)風(fēng)險(xiǎn)程度說(shuō)明元素。

      表1 風(fēng)險(xiǎn)事件類別

      1.2 隱馬爾可夫模型

      隱馬爾可夫模型HMM(Hidden Markov Model)[13]與馬爾可夫模型不同,隱馬爾可夫模型中包含一個(gè)隱藏狀態(tài)序列和一個(gè)觀察狀態(tài)序列。對(duì)隱馬爾可夫模型而言,模型中狀態(tài)之間的轉(zhuǎn)換是隱藏的,觀察狀態(tài)的隨機(jī)過(guò)程是狀態(tài)之間轉(zhuǎn)換的隨機(jī)函數(shù)[14]。

      其中對(duì)隱馬爾可夫模型作如下假設(shè):下一個(gè)隱藏狀態(tài)只與前一個(gè)隱藏狀態(tài)有關(guān),觀察狀態(tài)的概率只與當(dāng)前隱藏狀態(tài)有關(guān)。符合這種假設(shè)的隱馬爾可夫模型也就是我們常說(shuō)的一階隱馬爾可夫模型。

      從隱馬爾可夫模型的介紹中就可以看出來(lái),一個(gè)HMM=(N,M,A,B,π) 過(guò)程由五部分組成:

      (1) 隱藏狀態(tài)的數(shù)目N;

      (2) 觀察狀態(tài)的數(shù)目M;

      (3) 隱藏狀態(tài)之間轉(zhuǎn)換的概率矩陣A={aij};

      (4) 從隱藏狀態(tài)到觀察狀態(tài)的概率矩陣B={bj(k)};

      (5) 初始狀態(tài)概率矩陣π={πi}。

      給定一個(gè)觀察狀態(tài)序列O={o1,o2,…,oT}和模型M=(A,B,π)找出最優(yōu)的隱藏狀態(tài)序列S={s1,s2,…,sT},任務(wù)是要求解:

      (1)

      對(duì)于解碼問(wèn)題,常用解法是采用維特比(Viterbi)算法,維特比算法是運(yùn)用動(dòng)態(tài)規(guī)劃的方法求解最優(yōu)隱藏狀態(tài)序列[14]。

      (1) 初始化計(jì)算:

      β1(i)=πibi(o1)

      (2)

      φ1(i)=0

      (3)

      (2) 中間動(dòng)態(tài)規(guī)劃計(jì)算:

      (4)

      (5)

      (3) 結(jié)束計(jì)算:

      (6)

      (7)

      (4) 路徑回溯:

      (8)

      對(duì)于隱馬爾可夫模型中參數(shù)學(xué)習(xí)問(wèn)題,本文中由于語(yǔ)料庫(kù)有限,先通過(guò)似然估計(jì)的方法確定參數(shù),再通過(guò)Baum-Welch算法實(shí)現(xiàn)參數(shù)收斂。

      1.3 最大熵馬爾可夫模型

      最大熵馬爾可夫模型MEMM(Maximum Entropy Markov Model)[15-16]是在隱馬爾可夫模型基礎(chǔ)上增加了最大熵模型特點(diǎn)。由于隱馬可夫模型采用生成式聯(lián)合概率模型解決條件概率問(wèn)題時(shí)不能用多特征進(jìn)行刻畫(huà),最大熵馬爾可夫模型運(yùn)用最大熵的辦法彌補(bǔ)這個(gè)缺點(diǎn)[14]。

      隱馬爾可夫模型中當(dāng)前時(shí)刻觀察輸出取決于當(dāng)前隱藏狀態(tài),最大熵馬爾可夫模型中當(dāng)前時(shí)刻觀察輸出除了取決于當(dāng)前隱藏狀態(tài),也可能取決于前一時(shí)刻的隱藏狀態(tài)。

      假設(shè)觀察狀態(tài)序列為O={o1,o2,…,oT},隱藏狀態(tài)序列為S={s1,s2,…,sT},解碼問(wèn)題需要求解:

      (9)

      (10)

      前一時(shí)刻狀態(tài)取值st-1用s′表示,當(dāng)前觀察序列值ot用o表示,運(yùn)用最大熵原理:

      P(s|s′,o)=Ps′(s|o)

      (11)

      (12)

      式中:λa是需要學(xué)習(xí)的參數(shù),Z(o,s′)是歸一化因子,使得∑sP(s|o)=1 ,而fa(o,s)是特征函數(shù)。特征函數(shù)fa(o,s)包含兩個(gè)參數(shù),一個(gè)當(dāng)前觀察值,一個(gè)可能的隱藏狀態(tài)值,特征函數(shù)通過(guò)a=定義,b是二分特征值,s是狀態(tài)值:

      fa(ot,st)=f(ot,st)

      (13)

      (14)

      MEMM中對(duì)隱藏標(biāo)注序列的求解,也是用到Viterbi算法,不過(guò)需要在隱馬爾可夫模型所使用的Viterbi算法基礎(chǔ)上進(jìn)行改進(jìn)[16],改進(jìn)后的算法如下:

      (1) 初始化計(jì)算:

      β1(i)=πipi(s|o1)

      (15)

      φ1(i)=0

      (16)

      (2) 中間動(dòng)態(tài)規(guī)劃計(jì)算:

      (17)

      (18)

      (3) 結(jié)束計(jì)算:

      (19)

      (20)

      (4) 路徑回溯:

      (21)

      最大熵隱馬爾可夫模型的參數(shù)訓(xùn)練采用的是GIS算法。

      1.4 條件隨機(jī)場(chǎng)

      條件隨機(jī)場(chǎng)CRF(Conditional Random Field)[17-18]是一種由John Lafferty等于2001年提出的概率化無(wú)向圖,對(duì)于輸出標(biāo)識(shí)序列Y和觀察序列X,條件隨機(jī)場(chǎng)通過(guò)定義條件概率P(Y|X),而不是聯(lián)合概率P(X,Y)描述模型。以觀察序列X為條件,每一個(gè)隨機(jī)變量滿足馬爾可夫特性[14]。

      同樣,假設(shè)觀察狀態(tài)序列為O={o1,o2,…,oT},隱藏狀態(tài)序列為S={s1,s2,…,sT},則P(S|O)正比于:

      (22)

      式中:pj(si-1,si,O,i)表示觀察序列O的隱藏序列在i-1到i之間的轉(zhuǎn)移概率函數(shù),qk(si,O,i)表示已知觀察序列o在i時(shí)的狀態(tài)標(biāo)記概率函數(shù)。

      根據(jù)最大熵模型的方法,兩個(gè)特征函數(shù)可以通過(guò)二值特征表示,特征函數(shù)統(tǒng)一表示為:

      (23)

      那么條件隨機(jī)場(chǎng)的條件概率分布可以表示為:

      (24)

      分母為歸一化因子,表示為:

      (25)

      條件隨機(jī)場(chǎng)中對(duì)于隱藏標(biāo)注序列的求解同理于MEMM中改進(jìn)的Viterbi算法,而參數(shù)估計(jì)使用的是L-BFGS算法,算法通過(guò)對(duì)訓(xùn)練集進(jìn)行迭代來(lái)求解。

      1.5 特征選擇

      把SNOMED CT(Systematized Nomenclature of Medicine Clinical Terms)中的醫(yī)學(xué)臨床術(shù)語(yǔ)集和風(fēng)險(xiǎn)事件語(yǔ)料庫(kù)中的術(shù)語(yǔ)集組成醫(yī)學(xué)術(shù)語(yǔ)詞典,通過(guò)借鑒中文分詞的最大正向匹配算法把風(fēng)險(xiǎn)語(yǔ)句中的有關(guān)關(guān)鍵詞抽取出來(lái),可以極大過(guò)濾掉無(wú)用信息,接著就可以通過(guò)序列標(biāo)注算法對(duì)抽取出來(lái)的醫(yī)學(xué)術(shù)語(yǔ)進(jìn)行標(biāo)注。

      對(duì)于隱馬爾可夫模型,需要在已知觀察序列和訓(xùn)練語(yǔ)料庫(kù)下,先通過(guò)參數(shù)學(xué)習(xí),接著通過(guò)Viterbi算法求解得到最合適的隱藏狀態(tài)標(biāo)注序列。

      對(duì)于最大熵馬爾可夫模型和條件隨機(jī)場(chǎng),需要解決三個(gè)基本問(wèn)題:特征選取、參數(shù)訓(xùn)練以及實(shí)驗(yàn)解碼。兩種算法采用條件概率模型和改進(jìn)后的Viterbi算法來(lái)進(jìn)行求解隱藏標(biāo)注序列。對(duì)于其中的最大熵過(guò)程,需要選擇合適的特征。特征選取決定著特征函數(shù),會(huì)直接影響到序列標(biāo)注實(shí)驗(yàn)效果。如果特征集選擇過(guò)大,可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象;特征集過(guò)小,可能會(huì)降低實(shí)驗(yàn)準(zhǔn)確率。特征選擇需要考慮到上下文統(tǒng)計(jì)信息的重要性,上下文指的是當(dāng)前詞在術(shù)語(yǔ)抽取集中的前面若干詞和后面若干詞組成的窗口。窗口太小,就不能獲得更多有用信息,然而窗口太大,就會(huì)占用更多資源,效率反而會(huì)有所下降。詞性是信息提取中極其重要有效的特征,特征選擇中一般需要同時(shí)考慮到詞性,如風(fēng)險(xiǎn)程度事件更加集中于形容詞(組)、副詞(組)等。本文中詞性采用的是賓州樹(shù)庫(kù)詞性標(biāo)注類型,其中對(duì)詞組和單獨(dú)詞表示方式不同,通過(guò)詞性就可以看出來(lái)這個(gè)詞是一個(gè)單獨(dú)詞(一個(gè)單詞)還是一個(gè)詞組(兩個(gè)單詞及以上),如“cancer”的詞性為NN,而“breast cancer”詞性為NP。特征模板除了詞和詞性兩種以外,還對(duì)當(dāng)前詞進(jìn)行了一些其他判斷,包括當(dāng)前詞是不是本組中第一個(gè)詞,當(dāng)前詞是不是數(shù)字開(kāi)頭,以及當(dāng)前詞中是否有連詞。實(shí)驗(yàn)中選擇的特征模板如表2所示。

      表2 特征模板

      2 實(shí)驗(yàn)與分析

      2.1 實(shí)驗(yàn)準(zhǔn)備

      從美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館PubMed檢索系統(tǒng)中獲得醫(yī)學(xué)文獻(xiàn)文本,轉(zhuǎn)換為統(tǒng)一文本格式,構(gòu)建醫(yī)學(xué)文獻(xiàn)文本語(yǔ)料集。從醫(yī)學(xué)文獻(xiàn)文本中得到強(qiáng)風(fēng)險(xiǎn)定量信息語(yǔ)句,進(jìn)而構(gòu)建風(fēng)險(xiǎn)事件語(yǔ)料庫(kù)。實(shí)驗(yàn)選取風(fēng)險(xiǎn)事件語(yǔ)料庫(kù)中的3/4(3 140)事件作為訓(xùn)練語(yǔ)料,剩下的1/4(1 049)事件作為測(cè)試語(yǔ)料,用隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場(chǎng)分別對(duì)訓(xùn)練語(yǔ)料進(jìn)行學(xué)習(xí),然后分別對(duì)測(cè)試語(yǔ)料進(jìn)行測(cè)試。本文選用常用的準(zhǔn)確率、召回率和F1測(cè)度值進(jìn)行結(jié)果測(cè)試,通過(guò)實(shí)驗(yàn)得到每個(gè)模型每種事件抽取的準(zhǔn)確率、召回率和F1測(cè)度值,以及每個(gè)模型所有事件抽取的F1平均測(cè)度值:

      (26)

      (27)

      (28)

      (29)

      2.2 實(shí)驗(yàn)結(jié)果

      隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場(chǎng)抽取風(fēng)險(xiǎn)事件的結(jié)果分別為表3、表4和表5,隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場(chǎng)模型事件抽取的平均F1測(cè)度值的結(jié)果為表6。

      表4 最大熵馬爾可夫模型(MEMM)風(fēng)險(xiǎn)事件提取結(jié)果

      續(xù)表4

      表5 條件隨機(jī)場(chǎng)(CRF)風(fēng)險(xiǎn)事件提取結(jié)果

      表6 序列標(biāo)注算法風(fēng)險(xiǎn)事件抽取平均F1測(cè)度值比較

      2.3 實(shí)驗(yàn)分析

      對(duì)比隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場(chǎng)提取效果,進(jìn)行分析比較。

      從三個(gè)模型平均F1測(cè)度值來(lái)看,條件隨機(jī)場(chǎng)效果最好,其次為最大熵馬爾可夫模型,然后是隱馬爾可夫模型,但是每個(gè)模型都有自己對(duì)某些事件抽取的準(zhǔn)確率或者召回率的優(yōu)勢(shì)。對(duì)于影響說(shuō)明元素,條件隨機(jī)場(chǎng)的準(zhǔn)確率要高,最大熵馬爾可夫模型召回率要高;對(duì)于被影響說(shuō)明元素,最大熵馬爾可夫模型的準(zhǔn)確率最高,條件隨機(jī)場(chǎng)的召回率最高;對(duì)于提示說(shuō)明元素,條件隨機(jī)場(chǎng)的準(zhǔn)確率和召回率都是最高的;對(duì)于來(lái)源說(shuō)明元素,最大熵馬爾可夫模型準(zhǔn)確率最高,隱馬爾可夫模型的召回率最高;對(duì)于程度說(shuō)明元素,條件隨機(jī)場(chǎng)的準(zhǔn)確率和召回率都是最高的;對(duì)于其他我們不需要的情況,最大熵馬爾可夫模型的準(zhǔn)確率要高,隱馬爾可夫模型的召回率要高。從三個(gè)模型的各個(gè)元素F1值來(lái)看,三個(gè)模型的提示說(shuō)明元素和程度說(shuō)明元素效果都還可以,而來(lái)源說(shuō)明元素普遍效果較差。從事件的重要程度來(lái)看,最為重要的當(dāng)然是影響事件元素和被影響事件元素,三個(gè)模型中條件隨機(jī)場(chǎng)對(duì)這兩種事件的抽取F1值都超過(guò)了50%,而且都高于其他兩種模型。

      從準(zhǔn)確率來(lái)看,準(zhǔn)確率高的一般變化形式較少,例如,提示說(shuō)明元素一般集中在risk、rate、survival等,這些詞出現(xiàn)在句子中大部分時(shí)候就是提示說(shuō)明元素,屬于其他類別事件的情況較少。程度說(shuō)明元素集中在形容詞和副詞,如around、high、about等,而且這些詞出現(xiàn)大部分就是程度說(shuō)明元素,屬于其他類別情況較少。最大熵馬爾可夫模型的來(lái)源說(shuō)明元素準(zhǔn)確率極高,來(lái)源說(shuō)明元素一般集中在帶有report、review和guideline等詞中,而且與上下文關(guān)系較為密切。從召回率來(lái)看,從三個(gè)模型所有事件召回率來(lái)看,未有高于85%的,召回率不是太高,說(shuō)明三個(gè)模型在大部分事件提取中,還有很多相應(yīng)事件沒(méi)有找出來(lái),查全不夠,測(cè)試語(yǔ)料中的相應(yīng)事件的未登錄詞的識(shí)別差、召回率低。隱馬爾可夫模型是基于獨(dú)立假設(shè)的,如果以隱馬爾可夫模型為基準(zhǔn),可以看出,允許用特征來(lái)刻畫(huà)觀察序列有助于信息的抽取。

      從醫(yī)學(xué)文獻(xiàn)文本中抽取風(fēng)險(xiǎn)事件,面臨的最大問(wèn)題可能就是實(shí)驗(yàn)文本為非結(jié)構(gòu)化醫(yī)學(xué)文獻(xiàn)全文文本,自然語(yǔ)言處理起來(lái)噪聲太大,無(wú)關(guān)信息太多,作者句子中用詞風(fēng)格各有不同,與臨床標(biāo)準(zhǔn)術(shù)語(yǔ)集之間也有著很大的鴻溝,為醫(yī)學(xué)文獻(xiàn)文本信息抽取增加了很大難度。當(dāng)然本實(shí)驗(yàn)中抽取的事件類別較多,也無(wú)形中增添了更多難度。另一個(gè)比較大的問(wèn)題是語(yǔ)料庫(kù)太小,未登錄詞處理量大,嚴(yán)重影響實(shí)驗(yàn)結(jié)果。

      從結(jié)果來(lái)看,有些難點(diǎn)問(wèn)題需要特別說(shuō)明一下:

      1) 并列式,以and或者or聯(lián)合起來(lái)的事件。

      2) 指代式,如果句子中表示事件的詞是指代詞(如it等)的話,這可能就需要通過(guò)前面句子才能理解指代詞到底指代的是什么。

      3) 拼接式,如果句子中表示事件的詞表示不夠完整,需要當(dāng)前句子中的其他詞,或者前面句子中的詞拼接到一起才是完整的事件表示詞。

      后面要繼續(xù)努力的方向還很多,如風(fēng)險(xiǎn)語(yǔ)句邊界確定問(wèn)題、風(fēng)險(xiǎn)事件邊界確定問(wèn)題、無(wú)關(guān)信息詞的去除問(wèn)題和醫(yī)學(xué)領(lǐng)域本體構(gòu)建問(wèn)題等。

      3 結(jié) 語(yǔ)

      本文運(yùn)用序列標(biāo)注算法對(duì)醫(yī)學(xué)文獻(xiàn)文本中風(fēng)險(xiǎn)信息進(jìn)行了提取,構(gòu)建了風(fēng)險(xiǎn)事件語(yǔ)料庫(kù),比較了序列標(biāo)注算法中隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場(chǎng)三種模型的抽取效果,從每個(gè)模型的平均F1測(cè)度值來(lái)看,條件隨機(jī)場(chǎng)效果最好,其次是最大熵馬爾可夫模型,然后是隱馬爾可夫模型。當(dāng)然本研究還有很大的完善空間,如語(yǔ)料庫(kù)還是太小;對(duì)非結(jié)構(gòu)化文獻(xiàn)全文而言,信息抽取處理起來(lái)難度還是很大;還未結(jié)合規(guī)則化處理事件類別等。

      [1] 陳黎明,卞麗芳,馮志仙.基于護(hù)理電子病歷的臨床決策支持系統(tǒng)的設(shè)計(jì)與應(yīng)用[J].中華護(hù)理雜志,2014,49(9):1075-1079.

      [2] 李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(10):1-5.

      [3] 孫師堯,妙全興.基于改進(jìn)SVM和HMM的文本信息抽取算法[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(11):281-284.

      [4] 張國(guó)慶.基于生物醫(yī)學(xué)文獻(xiàn)的知識(shí)發(fā)現(xiàn)方法研究[D].華中科技大學(xué),2006.

      [5] Edwards A,Prior L,Butler C,et al.Communication about risk-Dilemmas for general practitioners[J].British Journal of General Practice,1997,47(424 ):739-742.

      [6] Deleris L A,Deparis S,Sacaleanu B,et al.Risk Information Extraction and Aggregation[M]//Algorithmic Decision Theory.Springer Berlin Heidelberg,2013:154-166.

      [7] 李瑩.文本病歷信息抽取方法研究[D].浙江大學(xué),2009.

      [8] Crowson C S,Therneau T M,Matteson E L,et al.Primer:demystifying risk-understanding and communicating medical risks[J].Nature Clinical Practice Rheumatology,2007,3(3):181-187.

      [9] Deleris L A,Sacaleanu B,Tounsi L.Extracting risk modeling information from medical articles[J].Studies in Health Technology & Informatics,2013,192(192):1158.

      [10] Jochim C,Sacaleanu B,Deleris L A.Risk event and probability extraction for modeling medical risks[C].2014 AAAI Fall Symposium Series on Natural Language Access to Big Data.2014:26-33.

      [11] 夏涵.基于本體的醫(yī)學(xué)命名實(shí)體識(shí)別技術(shù)研究[D].上海交通大學(xué),2012.

      [12] Ben A A,Zweigenbaum P.Automatic extraction of semantic relations between medical entities:a rule based approach[J].Journal of Biomedical Semantics,2011,2(S5):S4.

      [13] 于江德,肖新峰,樊孝忠.基于隱馬爾可夫模型的中文文本事件信息抽取[J].微電子學(xué)與計(jì)算機(jī),2007,24(10):92-94.

      [14] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].清華大學(xué)出版社,2008.

      [15] Rabiner L R,Juang B H.An introduction to hidden Markov models[J].IEEE ASSP Magazine,1986,3(1):4-16.

      [16] 林亞平,劉云中,周順先,等.基于最大熵的隱馬爾可夫模型文本信息抽取[J].電子學(xué)報(bào),2005,33(2):236-240.

      [17] 王勝,朱明.基于最大熵馬爾可夫模型的地址信息抽取[J].計(jì)算機(jī)工程與應(yīng)用,2005,41(21):192-194.

      [18] 張金龍,王石,錢存發(fā).基于CRF和規(guī)則的中文醫(yī)療機(jī)構(gòu)名稱識(shí)別[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(3):159-162,198.

      [19] 范巖.基于條件隨機(jī)場(chǎng)模型的中醫(yī)文獻(xiàn)知識(shí)發(fā)現(xiàn)方法研究[D].北京交通大學(xué),2009.

      RESEARCHONMEDICALDOCUMENTRISKEVENTEXTRACTIONBASEDONCOMPARISONOFSEQUENCEMARKINGALGORITHMS

      Yu Xin1,2Zhang Ju1,2Qiu Wusong2Wang Fei3

      1(UniversityofChineseAcademyofSciences,Beijing100000,China)2(ChongqingInstituteofGreenandIntelligentTechnology,ChineseAcademyofSciences,Chongqing400714,China)3(SouthwestHospital,theThirdMilitaryMedicalUniversity,Chongqing400038,China)

      With the rapid growth of medical literature, it is a huge challenge to extract valuable knowledge from big data in medical literature text. This paper focused on the event extraction of quantitative risk statements in medical literature, and constructed the knowledge base of intelligent clinical decision support system. Firstly, the risk events corresponding to the quantitative risk information were extracted from the medical literature, and then the risk events were processed. The hidden Markov model, the maximum entropy Markov model and the conditional random field model were used to extract the information of the risk events in medical literature unstructured full text, and the algorithms were compared. From the average F1 of three models, conditional random field was the best, followed by maximum entropy Markov model, and then the hidden Markov model, but each model had its own advantage of certain event extraction accuracy or recall.

      Medical literature Risk event Hidden Markov model Maximum entropy Markov model Conditional random field

      2017-02-14。重慶市社會(huì)民生科技創(chuàng)新專項(xiàng)項(xiàng)目(cstc2015shmszx120025)。喻鑫,碩士生,主研領(lǐng)域:機(jī)器學(xué)習(xí),自然語(yǔ)言處理。張矩,研究員。邱武松,助理研究員。王飛,工程師。

      TP391

      A

      10.3969/j.issn.1000-386x.2017.12.011

      猜你喜歡
      馬爾可夫醫(yī)學(xué)文獻(xiàn)
      Hostile takeovers in China and Japan
      速讀·下旬(2021年11期)2021-10-12 01:10:43
      醫(yī)學(xué)的進(jìn)步
      預(yù)防新型冠狀病毒, 你必須知道的事
      祝您健康(2020年4期)2020-05-20 15:04:20
      Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
      大東方(2019年12期)2019-10-20 13:12:49
      The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
      The Role and Significant of Professional Ethics in Accounting and Auditing
      商情(2017年1期)2017-03-22 16:56:36
      保費(fèi)隨機(jī)且?guī)в屑t利支付的復(fù)合馬爾可夫二項(xiàng)模型
      醫(yī)學(xué)
      基于SOP的核電廠操縱員監(jiān)視過(guò)程馬爾可夫模型
      應(yīng)用馬爾可夫鏈對(duì)品牌手機(jī)市場(chǎng)占有率進(jìn)行預(yù)測(cè)
      牟定县| 诸城市| 樟树市| 德钦县| 桦甸市| 长岭县| 仙游县| 茂名市| 牡丹江市| 伽师县| 江达县| 札达县| 贵德县| 泾源县| 连山| 泊头市| 安泽县| 常州市| 高邮市| 新化县| 新余市| 新民市| 科技| 四会市| 永修县| 吉隆县| 禹州市| 东海县| 河东区| 绿春县| 浙江省| 新营市| 泸溪县| 太和县| 克什克腾旗| 康乐县| 天水市| 临海市| 旺苍县| 通州区| 商丘市|