• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于條件隨機(jī)場(chǎng)的中醫(yī)臨床病歷命名實(shí)體抽取

      2014-06-06 10:46:47周雪忠1b1b張潤(rùn)順
      計(jì)算機(jī)工程 2014年9期
      關(guān)鍵詞:誘因命名病歷

      劉 凱,周雪忠,1b,于 劍,1b,張潤(rùn)順

      (1.北京交通大學(xué)a.計(jì)算機(jī)與信息技術(shù)學(xué)院;b.交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室,北京100044; 2.中國(guó)中醫(yī)科學(xué)院廣安門(mén)醫(yī)院,北京100053)

      基于條件隨機(jī)場(chǎng)的中醫(yī)臨床病歷命名實(shí)體抽取

      劉 凱1a,周雪忠1a,1b,于 劍1a,1b,張潤(rùn)順2

      (1.北京交通大學(xué)a.計(jì)算機(jī)與信息技術(shù)學(xué)院;b.交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室,北京100044; 2.中國(guó)中醫(yī)科學(xué)院廣安門(mén)醫(yī)院,北京100053)

      中醫(yī)臨床病歷是中醫(yī)重要的科研數(shù)據(jù)資源,但目前臨床病歷仍以文本為主要表達(dá)形式,對(duì)病歷數(shù)據(jù)深入分析的前提是進(jìn)行結(jié)構(gòu)化信息抽取,而命名實(shí)體抽取是其基礎(chǔ)性步驟。針對(duì)中醫(yī)臨床病歷的命名實(shí)體,如癥狀、疾病和誘因等的抽取問(wèn)題,通過(guò)手工標(biāo)注的413份病歷數(shù)據(jù)(以中文字為特征)與4類(lèi)特征模版,將條件隨機(jī)場(chǎng)(CRF)、隱馬爾科夫模型(HMM)和最大熵馬爾科夫模型(MEMM)用于中醫(yī)病歷命名實(shí)體抽取的實(shí)驗(yàn),并進(jìn)行比較分析。結(jié)果表明,結(jié)合合適的特征模版,CRF命名實(shí)體抽取方法取得了較好的性能,F1值的癥狀達(dá)到0.80,疾病名稱達(dá)到0.74,誘因0.74。與HMM和MEMM相比,CRF有最高的準(zhǔn)確率和召回率,是一種較為適用的中醫(yī)臨床病歷命名實(shí)體抽取方法。

      中醫(yī)臨床病歷;命名實(shí)體抽取;語(yǔ)料庫(kù)標(biāo)注系統(tǒng);條件隨機(jī)場(chǎng);特征模板

      1 概述

      隨著近十年醫(yī)療信息化建設(shè)的進(jìn)展和臨床數(shù)據(jù)的不斷積累,作為診療實(shí)踐主要信息載體的中醫(yī)臨床病歷成為中醫(yī)學(xué)和信息學(xué)關(guān)注的重要研究資源[1-2]。名老中醫(yī)文本病歷是中醫(yī)臨床診療的重要數(shù)據(jù)資源,它具有非結(jié)構(gòu)化、口語(yǔ)化、專業(yè)化等特點(diǎn),對(duì)其數(shù)據(jù)深度利用的重要前提是對(duì)相關(guān)醫(yī)學(xué)命名實(shí)體術(shù)語(yǔ)的抽取,而命名實(shí)體抽取方法正是從自由文本中抽取所需命名實(shí)體術(shù)語(yǔ)的基礎(chǔ)技術(shù)。但由于中文自然語(yǔ)言表達(dá)的靈活性和中醫(yī)臨床信息內(nèi)容的個(gè)體性特點(diǎn),進(jìn)行中醫(yī)臨床文本病歷的信息抽取研究是一個(gè)難點(diǎn)問(wèn)題。因此進(jìn)行中醫(yī)文本病歷的命名實(shí)體抽取研究,探索形成相關(guān)的適宜信息抽取方法具有重要價(jià)值[3-4]。

      中醫(yī)臨床病歷中蘊(yùn)含著豐富的疾病治療、疾病誘因、疾病癥狀等信息,所以對(duì)病歷進(jìn)行數(shù)據(jù)挖掘,能推動(dòng)中醫(yī)的發(fā)展。由于大部分中醫(yī)病歷是自由文本,因此在對(duì)其進(jìn)行深度利用前,必須通過(guò)命名實(shí)體抽取技術(shù)提取病歷中的重要命名實(shí)體。

      本文首先提出條件隨機(jī)場(chǎng)的概念,然后是中醫(yī)臨床病歷標(biāo)準(zhǔn)數(shù)據(jù)集的介紹和特征的選擇。隨后在標(biāo)準(zhǔn)數(shù)據(jù)集上,使用條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)在不同特征模板上進(jìn)行命名實(shí)體抽取實(shí)驗(yàn)和分析,并與HMM和MEMM模型進(jìn)行命名實(shí)體抽取對(duì)比。

      2 條件隨機(jī)場(chǎng)

      文獻(xiàn)[5]提出了一個(gè)基于統(tǒng)計(jì)的序列標(biāo)記和數(shù)據(jù)分割的概率模型——條件隨機(jī)場(chǎng)CRF。CRF是一種通過(guò)最大化條件概率來(lái)訓(xùn)練模型的無(wú)向圖模型,它是一個(gè)以全局觀察O為條件的隨機(jī)場(chǎng)。在實(shí)際中,最常用的CRF是一種線性鏈結(jié)構(gòu),它非常適合于序列標(biāo)注。序列標(biāo)注分布的條件屬性,使得CRF可以很好地?cái)M合真實(shí)世界的數(shù)據(jù)。而在這些數(shù)據(jù)中,命名實(shí)體抽取的條件概率是依賴于觀察序列中非獨(dú)立的相互作用的特征,通常通過(guò)賦予這些特征不同的權(quán)重來(lái)表示該特征的重要程度[6]。圖1是一種最簡(jiǎn)單最常用的CRF,稱為線性CRF。

      圖1 CRF的概率圖模型

      其中,Z0為歸一化因子,它保證所有可能的狀態(tài)序列概率之和為1,即式(2):

      其中,fk(st-1,st,O,t)是模型中任意的特征函數(shù),它通常是一個(gè)二值函數(shù);λk是特征函數(shù)fk(st-1,st,O,t)在模型中的權(quán)重;λk可以經(jīng)過(guò)模型訓(xùn)練得到。如果λk是值很大的正數(shù),說(shuō)明特征函數(shù)fk所表示的事件在訓(xùn)練集中出現(xiàn)的次數(shù)很多。

      給定一個(gè)由式(1)定義的CRF模型,在已經(jīng)輸入的數(shù)據(jù)序列O的情況下,最可能的標(biāo)記序列可表示為下式:

      對(duì)式(3)的計(jì)算可以通過(guò)維特比算法。

      將條件概率公式式(1)代入式(4)中,可得:

      為了避免參數(shù)估計(jì)時(shí)出現(xiàn)的過(guò)擬合情況,在進(jìn)行參數(shù)估計(jì)時(shí),采用高斯先驗(yàn)來(lái)調(diào)整模型的參數(shù)計(jì)算過(guò)程,式(5)變?yōu)?

      其中,最后一項(xiàng)是用于進(jìn)行調(diào)整的高斯先驗(yàn)值,σ2表示方差。

      通過(guò)前文的介紹可知CRF的圖模型是無(wú)向圖模型。CRF與HMM,MEMM,ME相比,保持了它們的優(yōu)點(diǎn),避免了它們的不足。不同于MEMM在給定當(dāng)前的狀態(tài),計(jì)算下一個(gè)狀態(tài)的狀態(tài)概率分布,CRF是在給定需要標(biāo)注的觀察序列的條件下,計(jì)算整個(gè)狀態(tài)序列的聯(lián)合概率分布,求解一個(gè)全局的最優(yōu)狀態(tài)序列,因此,CRF避免了標(biāo)注偏置的問(wèn)題。

      3 數(shù)據(jù)集和特征選擇

      3.1 數(shù)據(jù)集信息

      本標(biāo)準(zhǔn)語(yǔ)料集的原始中醫(yī)臨床病歷來(lái)源于廣安門(mén)醫(yī)院、西苑醫(yī)院、望京醫(yī)院等多所醫(yī)院2009年-2010年采集的冠心病、糖尿病的門(mén)診病歷和住院病歷。在原始病歷的篩選時(shí),使用隨機(jī)抽樣結(jié)合人工篩選的樣本篩選方式,因此,該原始病歷(樣本)能較好地代表中醫(yī)臨床病歷集。

      病歷中包括病人基本信息、主訴、現(xiàn)病史等內(nèi)容??紤]要抽取命名實(shí)體在病歷中的分布和最終數(shù)據(jù)集的標(biāo)準(zhǔn)化,選擇主訴、現(xiàn)病史作為數(shù)據(jù)集的源數(shù)據(jù)。

      在中醫(yī)臨床病歷標(biāo)注過(guò)程中,首先利用語(yǔ)料庫(kù)標(biāo)注系統(tǒng)對(duì)病歷進(jìn)行粗標(biāo)注,然后對(duì)病歷進(jìn)行數(shù)次細(xì)致的審核,再由中醫(yī)專家對(duì)標(biāo)注病歷進(jìn)行最后的審核和校對(duì)。整個(gè)標(biāo)準(zhǔn)語(yǔ)料集的標(biāo)注過(guò)程先后持續(xù)半年之久。

      使用語(yǔ)料庫(kù)標(biāo)注系統(tǒng)結(jié)合臨床人員的校對(duì)方式,標(biāo)注了413份病歷。其中冠心病(233)、糖尿病(180)。該標(biāo)準(zhǔn)語(yǔ)料集共有癥狀實(shí)體3 623個(gè),誘因?qū)嶓w250個(gè),疾病實(shí)體340個(gè)。

      在構(gòu)造標(biāo)準(zhǔn)數(shù)據(jù)集時(shí),本文沒(méi)有對(duì)中醫(yī)臨床病歷文本進(jìn)行分詞,而是直接在單字粒度上對(duì)病歷進(jìn)行標(biāo)注,這是由于現(xiàn)階段中醫(yī)病歷領(lǐng)域缺乏準(zhǔn)確度高、標(biāo)準(zhǔn)統(tǒng)一的詞典。

      本文雖然采用以字為單位的標(biāo)注方式,但為了保持病歷中單字在命名實(shí)體中的位置特征,在對(duì)單字進(jìn)行標(biāo)注的同時(shí),使用符號(hào)集(B,E)來(lái)保存字在詞中的位置信息。例如在疾病名“糖尿病”中,將它標(biāo)注為糖(B-D)尿(E-D)病(E-D)。在中醫(yī)病歷標(biāo)注數(shù)據(jù)中,字特征標(biāo)注符號(hào)的聲明如表1所示。

      表1 數(shù)據(jù)符號(hào)集

      3.2 特征選擇

      本節(jié)將分別介紹訓(xùn)練CRF模型時(shí)使用的詞位特征、狀態(tài)轉(zhuǎn)移特征、上下文窗口特征、指示詞特征、詞典特征和構(gòu)詞模式特征。

      3.2.1 詞位特征

      詞位的選擇有3種方案,分別是2詞位標(biāo)注集、4詞位標(biāo)注集和6詞位標(biāo)注集[7]。本文采用的是2詞位標(biāo)注集,即對(duì)一個(gè)漢字按照它是否是詞首字進(jìn)行劃分,單字成詞或者處于非單字詞的詞首時(shí)都劃分為B,其余情況劃分為E。詞位特征能有效地保留實(shí)體中字的關(guān)系。例如:“烘熱”標(biāo)為“烘/B-Z熱/E-Z”。

      3.2.2 狀態(tài)轉(zhuǎn)移特征

      在CRF中,特征函數(shù)fk(st-1,st,o,t)既能整合觀察序列的特征,也能整合隱藏狀態(tài)轉(zhuǎn)移的特征。

      例如,當(dāng)st-1標(biāo)記為“癥狀指示詞”,st標(biāo)記為“癥狀”,并且O中的第1個(gè)字在癥狀首字詞典中時(shí),特征函數(shù)的取值為“1”。這樣,CRF模型將狀態(tài)轉(zhuǎn)移st-1→st整合到特征函數(shù)中。

      3.2.3 上下文窗口特征

      所謂上下文窗口,指的是包括當(dāng)前字w0及其前后若干個(gè)字組成的一個(gè)字符串(w-n,w-n+1,…,w0,…,wn)。窗口越大,能利用的上下文越多,但效率會(huì)下降,而且還會(huì)產(chǎn)生過(guò)擬合現(xiàn)象;窗口過(guò)小,特征利用得就不夠充分,會(huì)因?yàn)檫^(guò)于簡(jiǎn)單而丟失有用的信息。有統(tǒng)計(jì)研究顯示,在中文語(yǔ)料中,99%的詞是由5個(gè)或者5個(gè)以下的子構(gòu)成[8]。因此,本文使用5字上下文特征。

      3.2.4 指示詞特征

      通過(guò)對(duì)中醫(yī)臨床病例中命名實(shí)體及其上下文信息進(jìn)行統(tǒng)計(jì)分析后,發(fā)現(xiàn)在特定的指示詞后面,有很大的概率出現(xiàn)癥狀、誘因和疾病實(shí)體。因此,選擇實(shí)體詞的前面2個(gè)或1個(gè)字作為實(shí)體指示詞特征。指示詞特征的特征函數(shù)為:

      其中,P-*代表指示詞(*表示任意一種實(shí)體類(lèi)型),如發(fā)現(xiàn)、由于等。本文中使用的指示詞部分如表2所示。

      表2 實(shí)體指示詞特征

      3.2.5 詞典特征

      本文中所使用的實(shí)體詞典是在對(duì)中醫(yī)病歷的統(tǒng)計(jì)分析的前提下,經(jīng)過(guò)人工挑選出的命名實(shí)體詞,包括癥狀詞典、疾病詞典和誘因詞典,具體情況如表3所示。其中,癥狀詞典中包括853個(gè)病歷中常見(jiàn)的癥狀詞;疾病詞典包括108個(gè)病歷中常見(jiàn)的疾病詞;誘因詞典包括46個(gè)病歷中常見(jiàn)的誘因(冠心病和糖尿病中醫(yī)臨床病歷)。3.2.6 構(gòu)詞模式特征

      表3 實(shí)體詞典特征

      通過(guò)對(duì)病歷的主訴、現(xiàn)病史的統(tǒng)計(jì)分析,發(fā)現(xiàn)癥狀通常由身體部位和基本癥狀詞2個(gè)部分組成,例如“雙上頜麻木”,可以拆分為“雙上頜”和“麻木”2個(gè)部分。疾病名通常由修飾部分、身體部位和基本疾病名3個(gè)部分組成,如“慢性心絞痛”,可以拆分為“慢性”、“心”和“絞痛”3個(gè)部分。在本文中,通過(guò)人工采集和拆分,共構(gòu)造了3個(gè)外部字典,如表4所示。

      表4 構(gòu)詞詞典特征

      4 實(shí)驗(yàn)及結(jié)果分析

      在中醫(yī)臨床病歷標(biāo)準(zhǔn)數(shù)據(jù)集上,首先選擇不同的特征模板訓(xùn)練CRF對(duì)中醫(yī)臨床病歷數(shù)據(jù)集進(jìn)行命名實(shí)體抽取實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。然后對(duì)CRF和HMM[9-10]、MEMM[11]進(jìn)行命名實(shí)體抽取對(duì)照實(shí)驗(yàn)。使用的命名實(shí)體工具是MALLET[12]。

      4.1 基于CRF的名老中醫(yī)病歷命名實(shí)體抽取

      選擇不同的特征組成特征模板進(jìn)行CRF模型的訓(xùn)練,并對(duì)它們進(jìn)行實(shí)驗(yàn)對(duì)比和結(jié)果分析。

      在本系列實(shí)驗(yàn)中,將字特征、轉(zhuǎn)移特征和上下文窗口特征作為基本特征,用B來(lái)標(biāo)識(shí),將其他特征作為備選組合特征,通過(guò)選擇不同的特征模板分析各個(gè)特征對(duì)實(shí)驗(yàn)結(jié)果的影響。本文中所使用的特征模板組成如表5所示,分別用T1,T2,T3來(lái)標(biāo)識(shí)實(shí)體指示詞特征、詞典特征和構(gòu)詞模式特征。

      表5 特征模板集

      根據(jù)疾病類(lèi)型的不同,首先將數(shù)據(jù)集中的數(shù)據(jù)分為2個(gè)部分,它們分別是糖尿病數(shù)據(jù)(180份)和冠心病數(shù)據(jù)(233份)。選擇基于不同特征模板集的CRF分別在這2個(gè)數(shù)據(jù)集上進(jìn)行十重交叉檢驗(yàn)。

      分別選擇特征模板集MT1,MT2和MT3在2類(lèi)數(shù)據(jù)集上對(duì)CRF模型進(jìn)行十重交叉驗(yàn)證,并與基于基本特征模板上的CRF模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表6所示。

      表6 不同特征模板的CRF中醫(yī)病歷命名實(shí)體抽取比較

      對(duì)照實(shí)驗(yàn)顯示,相對(duì)于基本CRF,使用特征模板集MT1的CRF在對(duì)癥狀和誘因抽取時(shí),效果有一定的提高。而在對(duì)疾病實(shí)體進(jìn)行抽取時(shí),基本CRF效果更好,這是由于病歷中的癥狀和誘因指示詞比較固定,而疾病的出現(xiàn)較隨機(jī)。

      相對(duì)于模板集MT1,使用特征模板集MT2的CRF命名實(shí)體抽取的效果更好(其中,在糖尿病數(shù)據(jù)集上F1值分別達(dá)到了0.79,0.78,0.63;在冠心病數(shù)據(jù)集上F1值分別達(dá)到了0.77,0.56,0.71)。

      使用特征模板集MT3的CRF命名實(shí)體抽取的綜合效果比基本CRF有大幅提高(其中,在糖尿病數(shù)據(jù)集上F1值分別達(dá)到了0.8,0.74,0.63;在冠心病數(shù)據(jù)集上F1值分別達(dá)到了0.77,0.64,0.74)。

      以上一系列實(shí)驗(yàn)說(shuō)明,在對(duì)中醫(yī)臨床病歷進(jìn)行命名實(shí)體抽取時(shí),特征模板集MT3具有最好的效果。即除了使用基本特征意外,額外選用實(shí)體指示詞特征、詞典特征和構(gòu)詞模式特征。

      4.2 CRF與其他模型的比較

      分別在冠心病和糖尿病數(shù)據(jù)集上對(duì)使用特征模板MT3的CRF和HMM,MEMM進(jìn)行命名實(shí)體抽取對(duì)照實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7所示。

      表7 CRF與其他模型的中醫(yī)病歷命名實(shí)體抽取比較

      實(shí)驗(yàn)顯示,在中醫(yī)臨床病歷標(biāo)準(zhǔn)數(shù)據(jù)集上,CRF命名實(shí)體抽取的性能最好,MEMM次之,HMM最差。從實(shí)驗(yàn)結(jié)果可知,HMM未能對(duì)疾病和誘因進(jìn)行有效的抽取。這是因?yàn)镠MM是一種產(chǎn)生式模型,模型依賴于大規(guī)模數(shù)據(jù)集。而在中醫(yī)病歷中,相對(duì)于癥狀實(shí)體,疾病實(shí)體和誘因出現(xiàn)的次數(shù)很少。除此之外,由于HMM模型是建立在條件獨(dú)立假設(shè)和觀察獨(dú)立假設(shè)之上的,這些假設(shè)使得HMM不能很好地利用數(shù)據(jù)特征集。MEMM模型對(duì)癥狀實(shí)體的抽取效果比較好(冠心病F1值達(dá)到了0.76;糖尿病F1值達(dá)到了0.74),但在對(duì)疾病和誘因的抽取上結(jié)果不夠理想。這是因?yàn)镸EMM模型存在標(biāo)注偏置問(wèn)題[5]。CRF是判別式模型且它的概率圖模型是無(wú)向圖,所以CRF能充分利用病歷中的特征;另一方面,CRF在所有狀態(tài)上進(jìn)行全局歸一化,可求得全局的最優(yōu)解,解決了標(biāo)注偏置問(wèn)題。所以相對(duì)于其他模型,CRF更適合對(duì)中醫(yī)臨床病歷的命名實(shí)體抽取。

      5 結(jié)束語(yǔ)

      從基于字特征的命名實(shí)體抽取實(shí)驗(yàn)研究可見(jiàn),采用基于CRF的方法對(duì)中醫(yī)病歷的主體內(nèi)容,如主訴和現(xiàn)病史進(jìn)行癥狀、誘因和疾病名稱的自動(dòng)抽取是可行的。癥狀名稱的抽取由于在標(biāo)注語(yǔ)料集中具有較多的出現(xiàn)率而達(dá)到較好的性能,后續(xù)研究將通過(guò)構(gòu)建更大規(guī)模的語(yǔ)料集,擬在CRF的基礎(chǔ)上探索研制一種更加實(shí)用高效的中醫(yī)病歷命名實(shí)體抽取方法。

      [1] 周雪忠.文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D].杭州:浙江大學(xué),2004.

      [2] Zhou Xuezhong,Peng Yonghong,Liu Baoyan.Text Mining for Traditional Chinese Medical Knowledge Discovery:A Survey[J].JournalofBiomedical Informatics,2010,43(4):650-660.

      [3] Zhou Xuezhong,Liu Baoyan,Wang Yinghui,et al. Building ClinicalData Warehouse for Traditional Chinese Medicine Knowledge Discovery[C]//Proc.of International Conference on BioMedical Engineering and Informatics.[S.l.]:IEEE Press,2008:615-620.

      [4] Zhou Xuezhong,Chen Shibo,Liu Baoyan,etal. Development of Traditional Chinese Medicine Clinical Data Warehouse for Medical Knowledge Discovery and Decision Support[J].Artificial Intelligence in Medicine, 2010,48(2/3):139-152.

      [5] Lafferty J D,McCallum A,Pereira F C N.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proc.ofthe 18th International Conference on Machine Learning.[S.l.]: Morgan Kaufmann Publishers Inc.,2001:282-289.

      [6] 熊 英.中文自然語(yǔ)言理解中基于條件隨機(jī)場(chǎng)理論的詞法分析研究[D].上海:上海交通大學(xué),2009.

      [7] Franzén K,Eriksson G,Olsson F,et al.Protein Names and How to Find Them[J].International Journal of medical Informatics,2002,67(1):49-61.

      [8] Kim J D,Ohta T,Tsuruoka Y,et al.Introduction to the Bio-Entity Recognition Task at JNLPBA[C]//Proc.of InternationalJointWorkshop on NaturalLanguage Processing in Biomedicine and Its Applications.[S.l.]: IEEE Press,2004:70-75.

      [9] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2008.

      [10] Freitag D,McCallum A.Information Extraction with HMM Structures Learned by Stochastic Optimization [C]//Proc.of the National Conference on Artificial Intelligence.[S.l.]:AAAI Press,2000:584-589.

      [11] McCallum A,Freitag D,Pereira F.Maximum Entropy Markov Models for Information Extraction and Segmentation[C]//Proc.of the 17th International Conference on Machine Learning.Pittsburgh,USA:[s.n.],2000: 591-598.

      [12] McCallum A K.Mallet:A Machine Learning for Language Toolkit[EB/OL].(2002-02-28).http:// mallet.cs.umass.edu.

      編輯 顧逸斐

      Named Entity Extraction of Traditional Chinese Medicine
      Medical Records Based on Conditional Random Field

      LIU Kai1a,ZHOU Xue-zhong1a,1b,YU Jian1a,1b,ZHANG Run-shun2
      (1a.School of Computer and Information Technology;1b.Beijing Key Lab of Traffic Data Analysis and Mining,Beijing Jiaotong University,Beijing 100044,China;2.Guang'anmen Hospital,China Academy of Chinese Medical Sciences,Beijing 100053,China)

      Traditional Chinese Medicine(TCM)medical records are the important data resources of the TCM medical research.The main form of them is still text now,and it is necessary to extract the structured information from the medical records,while named entity extraction is the basic step.It makes 413 copies of manually labeled medical records in Chinese text and four types of feature templates to study about the named entity extraction practice such as symptoms, diseases and incentives.It compares the results of TCM medical records named entity extraction by Conditional Random Field(CRF),Hidden Markov Model(HMM)and Maximum Entropy Markov Model(MEMM).Combined with appropriate feature templates,CRF has well performance of F1:symptoms 0.80,the name of the disease 0.74,incentives 0.74.Compared with HMM and MEMM,CRF has the highest precision and recall rate.This preliminary shows that CRF is an applicable method of the Chinese medical records named entity extraction.

      Traditional Chinese Medicine(TCM)medical records;named entity extraction;corpus annotation system; Conditional Random Field(CRF);feature template

      1000-3428(2014)09-0312-05

      A

      TP391

      10.3969/j.issn.1000-3428.2014.09.062

      國(guó)家自然科學(xué)基金資助項(xiàng)目(61105055,81230086);國(guó)家“863”計(jì)劃基金資助項(xiàng)目(2012AA02A609);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)基金資助項(xiàng)目(K13JB00140)。

      劉 凱(1986-),男,碩士,主研方向:文本信息抽取;周雪忠(通訊作者),副教授;于 劍、張潤(rùn)順,教授。

      2013-06-07

      2013-08-21E-mail:xzzhou@bjtu.edu.cn

      猜你喜歡
      誘因命名病歷
      強(qiáng)迫癥病歷簿
      憋尿是尿路感染的重要誘因之一
      公路施工安全事故誘因與預(yù)警管理的探討
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      “大數(shù)的認(rèn)識(shí)”的診斷病歷
      幼兒攻擊性行為的誘因及干預(yù)策略
      甘肅教育(2020年21期)2020-04-13 08:08:28
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      為何要公開(kāi)全部病歷?
      村醫(yī)未寫(xiě)病歷,誰(shuí)之過(guò)?
      开化县| 金塔县| 绍兴市| 南宫市| 布尔津县| 阳高县| 玛沁县| 黔南| 和平县| 孝义市| 贡嘎县| 屏南县| 天等县| 石屏县| 焦作市| 皋兰县| 延安市| 武强县| 武冈市| 桂平市| 望城县| 白银市| 弥勒县| 株洲市| 同江市| 横山县| 调兵山市| 黄骅市| 和林格尔县| 贞丰县| 铜梁县| 南阳市| 抚州市| 铁岭县| 凉城县| 句容市| 涿鹿县| 阜城县| 滁州市| 仙居县| 新竹县|