• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      利用條件隨機(jī)場(chǎng)實(shí)現(xiàn)中文病歷文本中時(shí)間關(guān)系的自動(dòng)提取

      2010-09-18 03:30:16周小甲李昊旻段會(huì)龍呂旭東
      關(guān)鍵詞:語(yǔ)料病歷語(yǔ)義

      周小甲 李昊旻 段會(huì)龍 呂旭東

      (浙江大學(xué)生物醫(yī)學(xué)工程與儀器科學(xué)學(xué)院生物醫(yī)學(xué)工程教育部重點(diǎn)實(shí)驗(yàn)室,杭州 310027)

      利用條件隨機(jī)場(chǎng)實(shí)現(xiàn)中文病歷文本中時(shí)間關(guān)系的自動(dòng)提取

      周小甲 李昊旻*段會(huì)龍 呂旭東

      (浙江大學(xué)生物醫(yī)學(xué)工程與儀器科學(xué)學(xué)院生物醫(yī)學(xué)工程教育部重點(diǎn)實(shí)驗(yàn)室,杭州 310027)

      從臨床病歷文本中自動(dòng)提取醫(yī)學(xué)問題的相關(guān)時(shí)間屬性可以服務(wù)于諸如臨床決策支持、數(shù)字化臨床路徑等多種醫(yī)療信息應(yīng)用,因此在醫(yī)學(xué)語(yǔ)言處理領(lǐng)域,面向病歷文本的時(shí)間信息自動(dòng)提取研究在國(guó)際上已開展多年,而中文環(huán)境下的相關(guān)研究仍屬空白。本研究提出了一種基于條件隨機(jī)場(chǎng)(CRF)的時(shí)間關(guān)系自動(dòng)提取算法實(shí)現(xiàn)了中文醫(yī)學(xué)病歷文本中面向醫(yī)學(xué)問題的時(shí)間屬性自動(dòng)提取。該機(jī)器學(xué)習(xí)方法以經(jīng)過醫(yī)學(xué)問題和時(shí)間信息語(yǔ)義標(biāo)注的病歷文本為訓(xùn)練內(nèi)容,時(shí)間關(guān)系結(jié)果標(biāo)注采用以醫(yī)學(xué)問題為中心的模式,即僅提取所關(guān)心醫(yī)學(xué)問題的時(shí)間屬性。在此方法框架下通過實(shí)驗(yàn),重點(diǎn)分析了不同的CRF學(xué)習(xí)模板對(duì)于時(shí)間關(guān)系提取的影響,實(shí)驗(yàn)以63份實(shí)際病歷作為實(shí)驗(yàn)文本,以多次交叉驗(yàn)證的方式獲得不同學(xué)習(xí)模板情況下時(shí)間關(guān)系自動(dòng)提取準(zhǔn)確率的平均值,通過分析實(shí)驗(yàn)數(shù)據(jù)總結(jié)了CRF學(xué)習(xí)模板設(shè)計(jì)的一般規(guī)律,實(shí)驗(yàn)中最佳模板情況下時(shí)間關(guān)系提取正確率可達(dá)86.94%,這些結(jié)果將為后續(xù)研究提供基礎(chǔ)。

      信息提取;時(shí)間關(guān)系;條件隨機(jī)場(chǎng);醫(yī)學(xué)語(yǔ)言處理

      引言

      時(shí)間作為事件信息的重要組成部分,在文本記錄中所占比重平均約為27%,僅次于專有名詞[1],面向時(shí)間關(guān)系的信息提取(information extraction)研究已經(jīng)廣泛開展[2],然而多數(shù)的研究都針對(duì)特定問題,缺乏有效統(tǒng)一的解決方法。在醫(yī)學(xué)領(lǐng)域中,時(shí)間信息同樣以非常高的頻率出現(xiàn)在臨床文本中。隨著臨床決策支持等臨床信息技術(shù)應(yīng)用對(duì)于臨床信息獲取需求的不斷增加,利用計(jì)算機(jī)從臨床文本中自動(dòng)提取臨床信息成為醫(yī)學(xué)信息學(xué)研究的一個(gè)熱門研究領(lǐng)域[3~5]。其中對(duì)于時(shí)間及其關(guān)聯(lián)臨床事件的自動(dòng)提取,可以服務(wù)于諸如臨床路徑、臨床決策支持等應(yīng)用[6],甚至可以服務(wù)于疾病發(fā)展模式的挖掘,幫助醫(yī)生及研究者理解和認(rèn)識(shí)動(dòng)態(tài)的醫(yī)學(xué)現(xiàn)象[7],因而在醫(yī)學(xué)領(lǐng)域中的時(shí)間信息提取的自然語(yǔ)言處理研究受到越來越多的關(guān)注[8-9]。哥倫比亞大學(xué)Zhou等開發(fā)的TimeText系統(tǒng)在基于病歷文本提取時(shí)間信息研究中 具有代表性[10-11],它基于MedLEE英文醫(yī)學(xué)語(yǔ)言處理系統(tǒng)[12],提出一套處理臨床病歷中時(shí)間信息的結(jié)構(gòu)框架,其中利用大量術(shù)語(yǔ)庫(kù)和語(yǔ)法規(guī)則庫(kù)等實(shí)現(xiàn)了英文病歷文本中時(shí)間關(guān)系的提取。雖然中文環(huán)境下的時(shí)間信息提取研究已有所開展[13-14],但是面向醫(yī)學(xué)臨床文本,服務(wù)于醫(yī)療信息化的同類研究仍處空白。

      實(shí)現(xiàn)病歷文本中時(shí)間關(guān)系的自動(dòng)提取屬于信息提取研究范疇[15],目前廣泛應(yīng)用的信息提取方法可以分為兩種:基于規(guī)則的方法和自動(dòng)學(xué)習(xí)方法,基于規(guī)則方法主要靠手工編制規(guī)則,使其可以處理特定知識(shí)領(lǐng)域的信息提取問題,這些規(guī)則往往依賴于具體語(yǔ)言、領(lǐng)域、文本格式,難以達(dá)到很高的語(yǔ)言覆蓋面。自動(dòng)學(xué)習(xí)方法主要基于機(jī)器學(xué)習(xí)理論通過對(duì)標(biāo)記好的語(yǔ)料庫(kù)的學(xué)習(xí),訓(xùn)練各種機(jī)器學(xué)習(xí)模型,并基于該訓(xùn)練模型實(shí)現(xiàn)對(duì)于信息特征的提取。近年來,研究者更側(cè)重于利用機(jī)器學(xué)習(xí)方法增強(qiáng)系統(tǒng)的可移植能力[16]。

      本研究基于條件隨機(jī)場(chǎng)提出了一種面向中文病歷文本的時(shí)間關(guān)系自動(dòng)提取方法,該方法以醫(yī)學(xué)問題為中心,從臨床文本中自動(dòng)提取指定醫(yī)學(xué)問題的時(shí)間屬性信息,可以服務(wù)于臨床決策支持等應(yīng)用,對(duì)于解決目前臨床決策支持應(yīng)用過程中臨床信息獲取困難的問題具有重要意義。

      1 條件隨機(jī)場(chǎng)

      條件隨機(jī)場(chǎng)是基于統(tǒng)計(jì)的序列標(biāo)記識(shí)別模型,是一種最大化條件概率的無向圖模型,2001年由John Lafferty等首次提出[17]。條件隨機(jī)場(chǎng)中給定輸入序列 x=(x1,…,xn) ,它的狀態(tài)序列 y=(y1,…,yn)的條件概率是勢(shì)函數(shù)(potential function)乘積的歸一化形式,每個(gè)因子的形式為

      式中,ti(yj-1,yj,x,j) 為整個(gè)觀測(cè)序列位置 i以及 i-1標(biāo)記的特征函數(shù),sk(yj,x,j)是位置i的標(biāo)記和觀測(cè)序列的狀態(tài)特征函數(shù),λi和μk是特征權(quán)重,可以從訓(xùn)練語(yǔ)料中估計(jì)得到。特征函數(shù)只有在判斷正確的時(shí)候?yàn)?,其他情況下為0。又令:

      式中,特征函數(shù) fi(yj-1,yj,x,j) 可以是狀態(tài)特征函數(shù)sk(yj,x,j) ,也可以是轉(zhuǎn)移特征函數(shù) ti(yj-1,yj,x,j),因此給定輸入序列為x=(x1,…,xn)的狀態(tài)序列y=(y1,…,yn) 的條件概率是

      其中Zλ(x)是歸一化因子,

      求解序列標(biāo)注任務(wù)就是求pλ(y|x)的最大值Y*:

      使用Viterbi等動(dòng)態(tài)優(yōu)化方法可求得最優(yōu)解Y*。CRF避免了隱馬爾可夫模型(hidden Markov model,HMM)的獨(dú)立性假設(shè),解決了最大熵模型(Maximum Entropy,ME)所帶來的標(biāo)記偏見問題,不像ME在每一節(jié)點(diǎn)都要進(jìn)行歸一化,而是對(duì)所有特征進(jìn)行全局歸一化,可以求得全局的最優(yōu)值,因此在自然語(yǔ)言處理領(lǐng)域的眾多序列化標(biāo)注任務(wù)中得到廣泛應(yīng)用[18-19]。

      2 中文病歷文本中的時(shí)間關(guān)系提取

      本研究關(guān)注于臨床文本中的各種癥狀、檢查異常以及診斷(為了方便本文將這些統(tǒng)稱為“醫(yī)學(xué)問題”)與明確時(shí)間的關(guān)系提取,在病歷文本中醫(yī)務(wù)工作者會(huì)記錄這些醫(yī)學(xué)問題發(fā)生和持續(xù)的時(shí)間,或者問題發(fā)生改變(如癥狀惡化、緩解或消失等)的時(shí)間和持續(xù)時(shí)間。借鑒人工智能時(shí)間推理等時(shí)間表示研究領(lǐng)域的相關(guān)研究成果[20],結(jié)合醫(yī)學(xué)領(lǐng)域信息利用需求,將病歷文本中的時(shí)間信息分為兩類:時(shí)間點(diǎn)和時(shí)間段,并定義了如表1所示的醫(yī)學(xué)問題時(shí)間屬性標(biāo)簽。

      表1 醫(yī)學(xué)問題的時(shí)間屬性標(biāo)簽Tab.1 Temporal attribute tags of medical problem

      為自動(dòng)提取這類時(shí)間屬性,建立了如下圖1所示的處理流程,首先利用各種醫(yī)學(xué)語(yǔ)言處理技術(shù)實(shí)現(xiàn)對(duì)于病歷文本中醫(yī)學(xué)問題和時(shí)間信息的自動(dòng)語(yǔ)義標(biāo)注,然后以醫(yī)學(xué)問題為中心的模式對(duì)其進(jìn)行手工時(shí)間關(guān)系標(biāo)注,形成CRF訓(xùn)練語(yǔ)料,最后根據(jù)訓(xùn)練語(yǔ)料中時(shí)間與問題之間的規(guī)律,設(shè)計(jì)CRF學(xué)習(xí)模板,使用學(xué)習(xí)模板通過訓(xùn)練獲得CRF模型,基于生成的CRF模型可以實(shí)現(xiàn)對(duì)時(shí)間關(guān)系的自動(dòng)提取。圖中P-O表示與關(guān)心醫(yī)學(xué)問題無關(guān)的時(shí)間信息;NR表示不相關(guān)信息;CLAUSE表示分句標(biāo)記。下面結(jié)合本文所做實(shí)驗(yàn),對(duì)時(shí)間關(guān)系自動(dòng)提取流程進(jìn)行詳細(xì)介紹,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。

      圖1 關(guān)系提取流程Fig.1 The procedure of the relation extraction

      2.1 語(yǔ)義標(biāo)注

      語(yǔ)義標(biāo)注(semantic tagging)的目的是為特定上下文的語(yǔ)言表述賦予一定的語(yǔ)義描述,自動(dòng)語(yǔ)義標(biāo)注在構(gòu)建大型語(yǔ)料庫(kù)[21]、信息檢索[22]和信息提取等研究中具有重要意義。根據(jù)應(yīng)用需要,語(yǔ)義標(biāo)注可以在詞匯、句子和文本不同層次上進(jìn)行,本研究的語(yǔ)義標(biāo)注是在詞匯和短語(yǔ)層面上進(jìn)行的。在通用語(yǔ)言領(lǐng)域,基于機(jī)器學(xué)習(xí)的自動(dòng)語(yǔ)義標(biāo)注方法是主流方式,而在子語(yǔ)言領(lǐng)域基于帶語(yǔ)義注釋的術(shù)語(yǔ)知識(shí)源進(jìn)行語(yǔ)義標(biāo)記顯示出更好的實(shí)用性[23]。對(duì)于醫(yī)學(xué)問題的語(yǔ)義標(biāo)注依賴于建立的一個(gè)具有語(yǔ)義注釋的醫(yī)學(xué)術(shù)語(yǔ)庫(kù),采用反向最大匹配法來實(shí)現(xiàn)。由于采用面向問題的時(shí)間關(guān)系提取,因此在所有標(biāo)記為癥狀、診斷和檢驗(yàn)結(jié)果等的語(yǔ)義類型中,每次樣本提取都選擇特定醫(yī)學(xué)問題標(biāo)注為P(即關(guān)心的問題),其他標(biāo)注為OP(即其他問題)。由于本研究要提取的時(shí)間屬性包括了對(duì)于問題變化所關(guān)聯(lián)的時(shí)間信息,因此一些病歷文本中,描述問題變化的詞語(yǔ)(如:“加重”、“緩解”、“停止”)等也被添加到帶語(yǔ)義注釋的醫(yī)學(xué)術(shù)語(yǔ)庫(kù)中,這類詞分別標(biāo)記為:C-M代表惡化或增加;C-L代表改善或減少;C-C代表消失或結(jié)束。對(duì)于時(shí)間信息的語(yǔ)義標(biāo)注就是尋找時(shí)間短語(yǔ)并分配時(shí)間點(diǎn)(TP)或者時(shí)間段(TD)類型,相關(guān)研究表明正則表達(dá)式具有非常強(qiáng)大的時(shí)間信息模式匹配能力[24],從大量實(shí)際病歷文本中總結(jié)出相關(guān)正則表達(dá)式,在實(shí)驗(yàn)中表現(xiàn)出良好效果。受篇幅限制以及本文重點(diǎn)不在于此,對(duì)于語(yǔ)義標(biāo)注過程的細(xì)節(jié)不再贅述。

      2.2 語(yǔ)料準(zhǔn)備

      實(shí)驗(yàn)采用crf++[25]作為條件隨機(jī)場(chǎng)算法執(zhí)行工具。用于crf++工具對(duì)于訓(xùn)練和實(shí)驗(yàn)語(yǔ)料的輸入格式具有特定要求:每行數(shù)據(jù)作為一個(gè)標(biāo)記(token)必須包含相同的列數(shù),每個(gè)病歷語(yǔ)句由多行標(biāo)記組成,中間用空行隔開以區(qū)分句子的邊界。本研究側(cè)重于時(shí)間關(guān)系提取部分的研究,所以對(duì)語(yǔ)義標(biāo)注結(jié)果進(jìn)行人工的檢查和修正,并面向醫(yī)學(xué)問題從語(yǔ)義標(biāo)注好的語(yǔ)料中提取樣本自動(dòng)轉(zhuǎn)換為相應(yīng)的格式。作為一種監(jiān)督的機(jī)器學(xué)習(xí)方法,還需要手工按照表1所示類型為訓(xùn)練數(shù)據(jù)標(biāo)注正確的時(shí)間關(guān)系,最終形成的訓(xùn)練語(yǔ)料中第一列數(shù)據(jù)是原始文本分解后的信息,第二列數(shù)據(jù)是相應(yīng)的語(yǔ)義標(biāo)注,第三列是用于crf++學(xué)習(xí)的時(shí)間關(guān)系標(biāo)注正確結(jié)果。本研究的實(shí)驗(yàn)數(shù)據(jù)選取了63份覆蓋30多個(gè)科室的入院記錄或者大病歷文本,通過上述方法對(duì)所選病歷進(jìn)行時(shí)間和醫(yī)學(xué)問題的語(yǔ)義標(biāo)注,并自動(dòng)生成病歷文本中所包含的醫(yī)學(xué)問題列表,選取列表中一個(gè)醫(yī)學(xué)問題后,整份病歷中所有包含此醫(yī)學(xué)問題的語(yǔ)句將自動(dòng)顯示,挑選出其中包含時(shí)間信息語(yǔ)句作為實(shí)驗(yàn)語(yǔ)料,本實(shí)驗(yàn)最終篩選出319個(gè)病歷語(yǔ)句作為實(shí)驗(yàn)數(shù)據(jù),對(duì)其中所包含醫(yī)學(xué)問題和時(shí)間信息的個(gè)數(shù)統(tǒng)計(jì)如表2所示。

      表2 語(yǔ)料統(tǒng)計(jì)信息Tab.2 The statistic of corpus

      2.3 模板準(zhǔn)備

      在CRF方法學(xué)習(xí)過程中,設(shè)計(jì)適當(dāng)?shù)奶卣髂0蹇梢砸龑?dǎo)算法利用合適的上下文信息,以取得良好的學(xué)習(xí)效果。在crf++工具的模板文件中,每行代表一個(gè)特征模板,每個(gè)特征模板用專門的宏%x[row,col]確定輸入數(shù)據(jù)中的一個(gè)標(biāo)記,row代表與當(dāng)前標(biāo)記的相對(duì)行數(shù),col代表絕對(duì)列數(shù),從0開始計(jì)數(shù),如%x[2,1]表示距當(dāng)前標(biāo)記相對(duì)行數(shù)為2、第一列的標(biāo)記。crf++針對(duì)每個(gè)特征模板生成多個(gè)特征函數(shù),利用當(dāng)前標(biāo)記的特征對(duì)特征函數(shù)賦予0或1,同時(shí)改變特征函數(shù)的權(quán)值。模板文件中可以有多維的復(fù)合模板,即由多個(gè)上下文相關(guān)標(biāo)記共同作為一個(gè)特征模板,用于CRF算法的學(xué)習(xí)。

      通過對(duì)語(yǔ)料標(biāo)注結(jié)果的統(tǒng)計(jì)得出一些臨床文本表達(dá)時(shí)間與醫(yī)學(xué)問題的常用模式,如表3所示。其中“窗口跨度”代表時(shí)間信息與相關(guān)聯(lián)醫(yī)學(xué)問題標(biāo)記之間存在的上下文跨度,體現(xiàn)了時(shí)間關(guān)系提取過程中所需要的上下文信息,“0”對(duì)應(yīng)標(biāo)注結(jié)果中的時(shí)間信息,其他數(shù)字代表標(biāo)注結(jié)果相對(duì)于此時(shí)間信息的相對(duì)偏移量,如“-1”代表當(dāng)前時(shí)間信息的前一個(gè)標(biāo)注對(duì)象。

      表3 常見時(shí)間關(guān)系模式Tab.3 Frequency temporal relation pattern

      表4 模板文件Tab.4 Template files

      模板設(shè)計(jì)過程中,理論上利用的上下文信息越豐富,則機(jī)器學(xué)習(xí)方法可以尋找出更多蘊(yùn)涵的語(yǔ)言特征,產(chǎn)生較好的提取效果,但如果所利用上下文信息跨度過大,會(huì)降低機(jī)器學(xué)習(xí)的效率,還有可能出現(xiàn)過擬合現(xiàn)象,反而降低提取效果。

      CRF方法以語(yǔ)義標(biāo)注列為特征學(xué)習(xí)列,基于表3統(tǒng)計(jì)結(jié)果和模板選擇原則,一維原子模板選取距當(dāng)前標(biāo)記距離為4的上下文標(biāo)記,多維復(fù)合模板為原子模板的組合,由表3得出的二維復(fù)合模板為%x[0,1]/%x[2,1]、%x[0,1]/%x[3,1]、%x[0,1]/%x[4,1]、%x[-2,1]/%x[0,1]。高維特征能把握更多的長(zhǎng)距離依賴關(guān)系,但也需要更大的訓(xùn)練開銷,并帶來更嚴(yán)重的數(shù)據(jù)稀疏問題,所以本文最高維設(shè)定為4維。為方便討論,把不連續(xù)的多維特征稱為跳躍特征。

      為了研究CRF學(xué)習(xí)模板對(duì)于其提取效果的影響,設(shè)計(jì)了如表4所示的6種較有特點(diǎn)的模板文件。為表示方便,利用A、B分別代表兩組不同的一維原子模板,A 代表%x[-4,1]到%x[4,1]的 9 個(gè)原子模板,同1號(hào)模板文件中所有一維模板;B只比A缺少%x[4,1]模板,同 2號(hào)模板文件中所有一維模板。

      3 實(shí)驗(yàn)

      crf++利用用戶設(shè)定的模板文件對(duì)以上標(biāo)注語(yǔ)料進(jìn)行訓(xùn)練學(xué)習(xí),學(xué)習(xí)結(jié)果以模型文件(model file)形式輸出,利用生成的模型文件crf++可以自動(dòng)在測(cè)試數(shù)據(jù)每行的最后一列標(biāo)注出相關(guān)時(shí)間關(guān)系信息,實(shí)現(xiàn)對(duì)病歷文本中時(shí)間關(guān)系的自動(dòng)標(biāo)注。本文實(shí)驗(yàn)的目的是驗(yàn)證CRF機(jī)器學(xué)習(xí)方法在時(shí)間關(guān)系提取方面的效果和找出CRF在中文時(shí)間關(guān)系提取過程中模板選擇的規(guī)律。

      實(shí)驗(yàn)中首先將319句標(biāo)注好的語(yǔ)料資源隨機(jī)分為5組,然后采用5折交叉驗(yàn)證(5-fold cross validation)方法分別對(duì)不同的特征模板進(jìn)行評(píng)測(cè)獲得算法時(shí)間關(guān)系標(biāo)注的準(zhǔn)確率(即時(shí)間關(guān)系標(biāo)注正確個(gè)數(shù)與標(biāo)注為時(shí)間的標(biāo)記總數(shù)之間的比值),為了降低訓(xùn)練和測(cè)試數(shù)據(jù)對(duì)于模板效果的影響,這樣的實(shí)驗(yàn)共進(jìn)行了10次,然后將10次實(shí)驗(yàn)準(zhǔn)確率的平均值作為評(píng)價(jià)模板的依據(jù)。表4所述的6類模板的最終評(píng)測(cè)結(jié)果如圖2所示。

      4 結(jié)果討論

      從圖2中分析可得,基于CRF自動(dòng)提取病歷文本中醫(yī)學(xué)問題的時(shí)間屬性的準(zhǔn)確率基本可以達(dá)到80%以上,使用6個(gè)模板中的最優(yōu)模板,與時(shí)間點(diǎn)相關(guān)的時(shí)間關(guān)系提取正確率可達(dá)84.97%;與時(shí)間段相關(guān)的時(shí)間關(guān)系提取正確率可達(dá)89.43%;與全部時(shí)間信息相關(guān)的時(shí)間關(guān)系提取正確率可達(dá)86.94%。這樣的自動(dòng)提取效果雖然不能滿足完全自動(dòng)信息獲取,但在一些輔助信息錄入應(yīng)用中已經(jīng)具有顯著的應(yīng)用潛力。

      圖2 不同模板下的時(shí)間關(guān)系提取結(jié)果Fig.2 The results of temporal relation extraction using different templates

      本研究是在較小語(yǔ)料環(huán)境下開展的,因此一些機(jī)器學(xué)習(xí)方法的通常弊端也在結(jié)果中顯現(xiàn),一些錯(cuò)誤標(biāo)注是由于訓(xùn)練數(shù)據(jù)的不完備造成數(shù)據(jù)稀疏問題引起的,還有一些錯(cuò)誤是由于本身自然語(yǔ)言描述過程中相關(guān)信息之間的距離過長(zhǎng),超出了機(jī)器學(xué)習(xí)所提供的模板長(zhǎng)度,使得提取失敗,另外病歷文本中存在部分不明確的時(shí)間表達(dá)關(guān)系,也給人工標(biāo)注關(guān)系和自動(dòng)判斷帶來了困難。

      如圖2所示,隨著特征模板復(fù)雜性的增加,準(zhǔn)確率整體上呈現(xiàn)上升趨勢(shì),但其中還蘊(yùn)含了一些有趣的現(xiàn)象:模板2相比模板1缺少了%x[4,1]特征模板,準(zhǔn)確率卻比模板1略高,由此分析此特征模板在模板文件1中可能引起了過擬合現(xiàn)象,然而模板6與模板5相比,同樣缺少%x[4,1]特征模板,但因缺少此模板引起準(zhǔn)確率的下降,這些結(jié)果表明某個(gè)特定模板是否引起過擬合現(xiàn)象不僅在于訓(xùn)練語(yǔ)料的特點(diǎn),亦和模板文件中各模板之間的關(guān)系相關(guān);模板4和模板3相比正確率有明顯提升,可見相鄰的上下文特征有更好的學(xué)習(xí)效果;模板3雖然比模板1增加了三維和四維特征模板,但時(shí)間點(diǎn)的關(guān)系提取正確率明顯降低,說明增加的多維跳躍特征引起了與時(shí)間點(diǎn)相關(guān)的規(guī)則學(xué)習(xí)混亂,多維跳躍特征不利于時(shí)間點(diǎn)相關(guān)的規(guī)則學(xué)習(xí);模板5將模板4中的8個(gè)二維相鄰特征改為4個(gè)跳躍特征,性能有所提高,顯示出模板4中的二維相鄰特征效率低下,由表3統(tǒng)計(jì)所得的跳躍特征更能抓住時(shí)間關(guān)系提取的特征。

      綜上分析,認(rèn)為以文本語(yǔ)料所得的常見時(shí)間關(guān)系模式是二維特征模板設(shè)計(jì)的重要依據(jù);更高維的特征模板選取連續(xù)的上下文特征有利于規(guī)則的學(xué)習(xí);某個(gè)特征模板是否產(chǎn)生過擬合現(xiàn)象不僅取決于訓(xùn)練語(yǔ)料,也與模板文件中各模板之間的關(guān)系相關(guān)。

      5 結(jié)論

      在我國(guó)醫(yī)療信息化開始逐步轉(zhuǎn)向臨床,各類臨床支持信息系統(tǒng)開始走入應(yīng)用的大背景下,研究中文環(huán)境下的病歷文本中的關(guān)系信息自動(dòng)提取具有非?,F(xiàn)實(shí)的價(jià)值,在中文醫(yī)學(xué)語(yǔ)言處理規(guī)則解析尚缺乏基礎(chǔ)的前提下,本研究提出的這一套面向醫(yī)學(xué)問題的時(shí)間關(guān)系自動(dòng)提取框架,具有了相當(dāng)?shù)膽?yīng)用潛力,在后續(xù)的研究中,會(huì)結(jié)合實(shí)際的應(yīng)用需求對(duì)該方法進(jìn)行優(yōu)化實(shí)現(xiàn)。同時(shí)所提出的框架也可以應(yīng)用于中文環(huán)境下的其它關(guān)系信息提取,而本研究對(duì)基于CRF的信息提取方法中的特征模板評(píng)測(cè)和規(guī)律總結(jié),也為后續(xù)相關(guān)研究提供了很好的參考。

      [1] 王昀.金融領(lǐng)域中漢語(yǔ)時(shí)間信息提取的研究[D].北京:清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,2004.

      [2] Xiao Ling,Weld DS.Temporal information extraction[A].In:Cohn A.ProceedingsoftheTwenty-FourthConferenceon Artificial Intelligence(AAAI-10)[C].Atlanta:GE,2010.156-161.

      [3] Xu Hua,Stenner SP,Doan S,et al.MedEx:a medication information extraction system for clinical narratives[J].Journal of the American Medical Informatics Association,2010,17(1):19-24.

      [4] Demner-Fushman D,Chapman WW,McDonald CJ.What can natural language processing do for clinical decision support?[J].Journal of Biomedical Informatics,2009,42(5):760-772.

      [5] Meystre SM,Savova GK,Kipper-Schuler KC.Extracting information from textual documents in the electronic health record:a review of recent research[J].Yearb Med Inform,2008,47(1):128-144.

      [6] Augusto JC.Temporal reasoning for decision support in medicine[J].Artificial Intelligence in Medicine,2005,33(1):1 -24.

      [7] Savova G,Bethard S,Styler W.Towards temporal relationdiscovery from the clinical narrative[A].In:Lucila OM,eds.AMIA 2009 Annual Symposium Proceedings[C].San Francisco:AMIA Symposium,2009.568-572.

      [8] Moskovitch R,Shahar Y.Medical temporal-knowledge discovery via temporal abstraction[A].In:Lucila OM,eds.AMIA 2009 Annual Symposium Proceedings[C].San Francisco:AMIA Symposium,2009.2-6.

      [9] Gaizauskas R,Harkema H,Hepple M,et al.Task-oriented extraction of temporal information:the case of clinical narratives[A].In: MontanariA.Proceedings ofthe Thirteenth InternationalSymposium on Temporal Representation and Reasoning[C].Budapest,Hungary:IEEE Computer Society,2006.188-195.

      [10] Zhou Li,F(xiàn)riedman C,Simon P.System architecture for temporal information extraction,representation and reasoning in clinical narrative reports[A].In:Friedman CP,eds.Proceedings of the 2005 AMIA Annual Symposium[C].Austin:AMIA Symposium,2005.869-873.

      [11] Zhou Li,Melton GB,Parsons S.A temporal constraint structure for extracting temporal information from clinical narrative[J].J Biomed Inform,2006,39(4):424 -439.

      [12] Friedman C.A broad-coverage natural language processing system[A].In:Overhage JM,eds.Proceedings of the 2000 AMIA Annual Symposium[C].Los Angeles:AMIA Symposium,2000.270-274.

      [13] Li Wenjie,Wong Kamfai.A word-based approach for modeling and discovering temporalrelations embedded in Chinese sentences[J].ACM Transactions on Asian Language Information Processing(TALIP),2002,1(3):173 -206.

      [14] Li Wenjie,WongKamfai,YuanChunfa.Towardautomatic Chinese temporal information extraction[J].Journal of the American Society for Information Science and Technology,2001,52(9):748-762.

      [15] Hobbs JR.The generic information extraction system[A].In:Sundheim B,eds.Proceedings of the 5th Conference on Message Understanding[C].Baltimore:Association for Computational Linguistics,1993.87 -91.

      [16] 李保利,陳玉忠,俞士汶.信息提取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(10):1 -5.

      [17] Lafferty JD,McCallum A,Pereira FCN.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[A].In:Brodley CE,Danyluk AP,eds.Proceedings of the Eighteenth International Conference on Machine Learning[C].Massachusetts:Morgan Kaufmann Publishers Inc,2001.282-289.

      [18] Zhao Hai,Huang Changning,Li Mu.An improved Chinese word segmentation system with conditional random field[A].In:Dale R,eds.Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing[C].Sydney: 2006 Association for Computational Linguistics,2006.162 -165.

      [19] Peng Fuchun,McCallum A.Information extraction from research papers using conditional random fields[J].Information Processing& Management,2006,42(4):963 -979.

      [20] Zhou Li,Hripcsak G.Temporal reasoning with medical data-A review with emphasis on medical natural language processing[J].Journal of Biomedical Informatics,2007,40(2):183 -202.

      [21] Dill S,Eiron N,Gibson D,et al.A case for automated large-scale semantic annotation[J].Web Semantics:Science,Services and Agents on the World Wide Web,2003,1(1):115 -132.

      [22] Kiryakov A,Popov B,Terziev I,et al.Semantic annotation,indexing,and retrieval[J].Web Semantics:Science,Services and Agents on the World Wide Web,2004,1(1):49 -79.

      [23] Coden AR,Pakhomov SV,Ando RK,et al.Domain-specific language models and lexicons fortagging[J].Journalof Biomedical Informatics,2005,38(6):422 -430.

      [24] Amo S de,Daniel A,F(xiàn)urtado.First-order temporal pattern mining with regular expression constraints[J].Data & Knowledge Engineering,2007,62(3):401 -420.

      [25] Taku Kudo,CRF++:Yet another CRF toolkit[EB/OL].http://crfpp.sourceforge.net/,2009 -05 -06/2010-04-15.

      The Automatic Extraction of Temporal Relation from Chinese Narrative Medical Records Using Conditional Random Fields

      ZHOU Xiao-Jia LI Hao-Min*DUAN Hui-Long LU Xu-Dong
      (College of Biomedical Engineering and Instrument Science,The Key Laboratory of Biomedical Engineering,Ministry of Education Zhejiang University,Hangzhou 310027,China)

      The automatic extraction of temporal attributes related to medical problems from clinical narrative text serves various applications in medical informatics,such as clinical decision support,digital clinical pathway and so on.For this reason,in the domain of medical language processing,studies about automatic temporal information extraction from narrative medical records have been developed abroad for several years.Nevertheless,there is little investigation on Chinese language.This study proposed a solution to automatic extraction of temporal attributes of medical problems from Chinese narrative medical records based on conditional random fields(CRF).In this solution,the medical records were firstly semantically annotated with medical problem and temporal information tags to fulfill the CRF training task.In the labeled training dataset the temporal relationship was tagged based on medical problem oriented mode,that is to say only interested medical problem's temporal attributes were tagged.A further analysis of the impacts of various feature templates of CRF on temporal relationship extraction was taken.A multiple cross-validation method was used to evaluate different CRF learning templates in the corpus including 63 practical narrative medical records.The general principle of template design was proposed.And the accuracy of temporal relationship extraction reached 86.94%with the optimal template file.

      information extraction; temporal relationship; conditional random fields; medical language processing

      R318

      A

      0258-8021(2010)05-0710-07

      10.3969/j.issn.0258-8021.2010.05.012

      2010-05-10,

      2010-07-23

      國(guó)家自然科學(xué)基金資助項(xiàng)目(30900329);中國(guó)博士后基金資助項(xiàng)目(20090451467)

      *通訊作者。 E-mail:Haomin_li@yahoo.com

      猜你喜歡
      語(yǔ)料病歷語(yǔ)義
      強(qiáng)迫癥病歷簿
      “大數(shù)的認(rèn)識(shí)”的診斷病歷
      語(yǔ)言與語(yǔ)義
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      為何要公開全部病歷?
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      村醫(yī)未寫病歷,誰之過?
      認(rèn)知范疇模糊與語(yǔ)義模糊
      《苗防備覽》中的湘西語(yǔ)料
      遵义市| 彰化市| 色达县| 封开县| 类乌齐县| 深水埗区| 桑日县| 云南省| 治县。| 高青县| 赤峰市| 泰和县| 浦江县| 黄浦区| 宁城县| 盱眙县| 石景山区| 安龙县| 江山市| 青岛市| 阿鲁科尔沁旗| 弥渡县| 临清市| 时尚| 进贤县| 高碑店市| 贵南县| 兖州市| 呈贡县| 淮北市| 鄂伦春自治旗| 沅陵县| 宁河县| 金湖县| 融水| 汤原县| 涟源市| 元氏县| 黑龙江省| 方城县| 青神县|