• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      信息提取技術(shù)在電子病歷中的應(yīng)用

      2011-03-22 08:53:27陳鶯鶯葉楓浙江工業(yè)大學(xué)管理科學(xué)與工程浙江杭州310023
      中國(guó)醫(yī)療器械雜志 2011年1期
      關(guān)鍵詞:自動(dòng)機(jī)術(shù)語(yǔ)病歷

      【作 者】陳鶯鶯,葉楓浙江工業(yè)大學(xué) 管理科學(xué)與工程,浙江,杭州,310023

      信息提取技術(shù)在電子病歷中的應(yīng)用

      【作 者】陳鶯鶯,葉楓浙江工業(yè)大學(xué) 管理科學(xué)與工程,浙江,杭州,310023

      嘗試將信息提取技術(shù)應(yīng)用于病歷的部分內(nèi)容,提取其中的病癥相關(guān)信息,為完整電子病歷的信息提取累積經(jīng)驗(yàn)。采用基于術(shù)語(yǔ)庫(kù)和規(guī)則相結(jié)合的方法進(jìn)行實(shí)體識(shí)別。信息提取基于淺層語(yǔ)法分析,通過(guò)句型模式匹配來(lái)實(shí)現(xiàn)。整個(gè)信息提取過(guò)程借助一個(gè)3層的有限狀態(tài)自動(dòng)機(jī)來(lái)完成。

      電子病歷;信息抽?。籌CD-10;有限狀態(tài)自動(dòng)機(jī)

      0 引言

      隨著信息技術(shù)的發(fā)展,電子病歷作為醫(yī)療信息化建設(shè)的重要內(nèi)容,在我國(guó)已經(jīng)得到了長(zhǎng)足的發(fā)展,并逐漸成為一種記錄和管理患者信息的非常重要的現(xiàn)代化手段。與此同時(shí),臨床決策支持系統(tǒng)(Clinical Decision Support System,CDSS)作為醫(yī)院信息系統(tǒng)向智能領(lǐng)域的延伸,也開(kāi)始成為我國(guó)醫(yī)療信息化建設(shè)的新進(jìn)程。

      電子病歷涵蓋了住院志、病程記錄、會(huì)診記錄、手術(shù)記錄以及各種醫(yī)技科室發(fā)出的超聲、內(nèi)鏡、心電檢查報(bào)告等多種文檔。但是,現(xiàn)有的結(jié)構(gòu)化錄入技術(shù)卻無(wú)法完全滿足臨床對(duì)于病歷信息的表示要求,如何在不影響臨床醫(yī)生以自然語(yǔ)言記錄信息的前提下,將非結(jié)構(gòu)化信息轉(zhuǎn)化為結(jié)構(gòu)化信息,是電子病歷發(fā)展過(guò)程中亟需解決的問(wèn)題。此外,如果計(jì)算機(jī)可以自動(dòng)準(zhǔn)確獲取多種文檔中的重要臨床信息并服務(wù)于CDSS,將能提高醫(yī)院的醫(yī)療質(zhì)量和降低醫(yī)療成本。

      信息提?。↖nformation extraction)技術(shù)可以根據(jù)預(yù)先定義的模版,從文本中提取出特定的信息并形成結(jié)構(gòu)化數(shù)據(jù),以幫助人們對(duì)信息內(nèi)容進(jìn)行整理和分析[1]。應(yīng)用信息提取技術(shù),能夠很好解決上述一系列問(wèn)題。因此,本文針對(duì)如何將抽取技術(shù)應(yīng)用于電子病歷進(jìn)行了實(shí)踐研究。

      1 總體概述

      由于電子病歷種類繁多且內(nèi)容復(fù)雜,實(shí)現(xiàn)完整病歷的信息抽取非常困難。本文對(duì)病歷的部分內(nèi)容進(jìn)行信息提取,以為完整電子病歷的信息提取累積經(jīng)驗(yàn)。既往史中包含了大量患者既往的健康信息且用語(yǔ)相對(duì)規(guī)范,因此本文選擇它作為提取范圍,提取其中的病癥名、是否曾經(jīng)患有、出現(xiàn)時(shí)間、目前治愈狀況等目標(biāo)信息。

      命名實(shí)體識(shí)別是信息提取的第一步,其方法主要有:基于規(guī)則的方法、基于詞典的方法和機(jī)器學(xué)習(xí)的方法[5]。本文中的命名實(shí)體主要指的是病癥和時(shí)間,考慮到缺少大規(guī)模的中文病歷語(yǔ)料庫(kù)的支持,本文決定采用基于詞典和規(guī)則相結(jié)合的方法。

      目前,很多生物醫(yī)學(xué)領(lǐng)域的信息提取系統(tǒng)都用到了淺層語(yǔ)法分析[2-3],即僅通過(guò)詞匯或短語(yǔ)的順序、彼此間的關(guān)系進(jìn)行提取,而不用理解文本的內(nèi)在含意。在淺層語(yǔ)法分析中,有限狀態(tài)自動(dòng)機(jī)(FSA,以下簡(jiǎn)稱自動(dòng)機(jī))是一種常用工具[4],用于實(shí)現(xiàn)短語(yǔ)識(shí)別和句子模式識(shí)別等功能。

      以時(shí)間短語(yǔ)為例,通過(guò)圖3給出的狀態(tài)圖可以清楚地了解自動(dòng)機(jī)的識(shí)別過(guò)程。其中,qi(0≦i≦3) 表示狀態(tài),q0為初始狀態(tài),q3為結(jié)束狀態(tài),狀態(tài)間的連線表示匹配到不同詞類后的狀態(tài)轉(zhuǎn)移,每一條完整路徑表示自動(dòng)機(jī)依據(jù)相應(yīng)的規(guī)則所完成的一次識(shí)別。如圖1所示,當(dāng)識(shí)別路徑為“q0→q1→q2→q3”時(shí),表示自動(dòng)機(jī)所識(shí)別的時(shí)間短語(yǔ)由“數(shù)詞(m)+其他數(shù)詞(m)或量詞(q)+時(shí)間量詞(time_unit)”等3部分組成,如“30(m) 余(m) 年(time_unit)”。

      圖1 用于識(shí)別時(shí)間的FSA狀態(tài)圖Fig.1 State chart diagram of FSA used to recognize time

      經(jīng)典的信息提取系統(tǒng)FASTUS,應(yīng)用自動(dòng)機(jī)取得了很好的提取效果。參照FASTUS系統(tǒng),本文自行開(kāi)發(fā)了一個(gè)基于C#語(yǔ)言的簡(jiǎn)易信息提取系統(tǒng)。信息提取整體過(guò)程如圖2所示,大致經(jīng)歷了3個(gè)階段,分別從詞語(yǔ)、短語(yǔ)、句子3個(gè)層次進(jìn)行處理,后一層以前一層的結(jié)果為基礎(chǔ),具體可以分為5個(gè)步驟,過(guò)程中使用了3層自動(dòng)機(jī):

      圖2 信息抽取過(guò)程Fig.2 Information extraction process

      (1) 命名實(shí)體識(shí)別和標(biāo)注經(jīng)歷了3個(gè)步驟:術(shù)語(yǔ)查找、分詞和實(shí)體標(biāo)注。通過(guò)術(shù)語(yǔ)查找,可以實(shí)現(xiàn)病癥的初步識(shí)別。由于漢語(yǔ)的書(shū)寫(xiě)特點(diǎn),詞與詞之間缺少天然的分詞標(biāo)記,文本需要先經(jīng)過(guò)分詞處理,為進(jìn)一步識(shí)別奠定基礎(chǔ)。實(shí)體標(biāo)注將依據(jù)實(shí)體識(shí)別規(guī)則實(shí)現(xiàn)實(shí)體的最終識(shí)別和標(biāo)注,將借助底層自動(dòng)機(jī)來(lái)完成。

      (2) 信息抽取經(jīng)歷2個(gè)步驟:獲取句型和句型匹配。在實(shí)體標(biāo)注的基礎(chǔ)上,中層自動(dòng)機(jī)用于識(shí)別命名實(shí)體,并提取其位置關(guān)系來(lái)獲取常見(jiàn)句型模式。對(duì)每一常見(jiàn)句型,本文通過(guò)人工分析句型特點(diǎn),制定了相應(yīng)的提取規(guī)則。頂層自動(dòng)機(jī)則用于將新提取的句型與已知句型進(jìn)行匹配,以決定采用哪些提取規(guī)則。

      本文系統(tǒng)中所用的病癥術(shù)語(yǔ)庫(kù)包含24000個(gè)術(shù)語(yǔ),主要來(lái)源于ICD-10(The International Classification of Disease,10th Revision),在保留了原有的編碼規(guī)則的基礎(chǔ)上,通過(guò)舍棄無(wú)關(guān)術(shù)語(yǔ)、拆分部分術(shù)語(yǔ)和擴(kuò)充術(shù)語(yǔ)等三個(gè)步驟構(gòu)建。分詞則采用由中科院研發(fā)的ICTCLAS系統(tǒng),并進(jìn)行了一定的詞典擴(kuò)展,將新建術(shù)語(yǔ)庫(kù)中的術(shù)語(yǔ)納入其用戶詞典中。實(shí)體識(shí)別和信息提取規(guī)則通過(guò)樣本集的人工統(tǒng)計(jì)分析獲得。本文中使用的樣本集由《病歷書(shū)寫(xiě)示范》[6]和30份病歷的既往史中所摘取的151個(gè)句子構(gòu)成,共可劃分為339個(gè)子句。

      2 信息提取詳細(xì)過(guò)程

      2.1 實(shí)體初步識(shí)別

      實(shí)體初步識(shí)別采用術(shù)語(yǔ)庫(kù)查找來(lái)實(shí)現(xiàn)病癥的識(shí)別,但是機(jī)械式的查找容易造成分割歧義。為此,本文主要借鑒了文獻(xiàn)[7]中的相關(guān)方法進(jìn)行歧義消除。整個(gè)初步識(shí)別過(guò)程如下:首先,將每個(gè)句子劃分為以逗號(hào)、分號(hào)、句號(hào)等標(biāo)點(diǎn)結(jié)束的子句;然后,對(duì)每個(gè)子句采用高精度的反向最大匹配算法查找病癥術(shù)語(yǔ);最后,對(duì)包含病癥的子句進(jìn)行分詞和歧義消除處理,而對(duì)不包含醫(yī)學(xué)術(shù)語(yǔ)的子句只進(jìn)行分詞處理。如圖3所示,放棄詞性為動(dòng)詞的“感染”,將錯(cuò)誤劃分的“無(wú)意識(shí)/障礙”調(diào)整為“無(wú)/意識(shí)障礙”;放棄從“牛痘苗”中錯(cuò)誤提取到的術(shù)語(yǔ)“牛痘”。

      圖3 初步識(shí)別Fig.3 Initial recognition

      2.2 實(shí)體最終識(shí)別

      如典型肺炎、急性菌痢等病癥,通過(guò)初步識(shí)別只能識(shí)別出劃線部分。同時(shí),ICTCALS雖然能夠識(shí)別部分時(shí)間,卻無(wú)法識(shí)別5歲、10余年等類型的時(shí)間短語(yǔ)。為了更精確地進(jìn)行實(shí)體識(shí)別,并引入了disease和time_unit這2種語(yǔ)義標(biāo)簽,用于標(biāo)識(shí)病癥和時(shí)間量詞(年、月等),對(duì)初步識(shí)別的結(jié)果進(jìn)行了語(yǔ)義標(biāo)注。依據(jù)樣本集統(tǒng)計(jì)結(jié)果,制定了5條實(shí)體識(shí)別規(guī)則,其概略表述如下:

      R1 disease → ( t|b|m|a|n|z|h )* disease

      R2 disease → disease k? disease

      R3 t → m ( m|q )? time_unit

      R4 t → a? t ( f|m )?

      R5 t → t t

      其中m、q、t等單個(gè)英文字符表示詞性,“()”表示分組,“|”表示析取,“*”表示出現(xiàn)0至多次,“?”表示出現(xiàn)0至1次。以規(guī)則3為例,自動(dòng)機(jī)依據(jù)該規(guī)則,可以將符合符號(hào)“→”右邊部分的文本識(shí)別為一個(gè)時(shí)間短語(yǔ)(t),具體識(shí)別過(guò)程可以參見(jiàn)前文中的圖1。

      為了便于獲取統(tǒng)一的句型,建立了3類語(yǔ)義詞集,加上病癥和時(shí)間,句型將由5部分組成。不同句子成分采用不同的語(yǔ)義標(biāo)識(shí),標(biāo)注格式統(tǒng)一為“{標(biāo)識(shí) 信息內(nèi)容}”,其中:“DI”表示病癥;“TP”表示時(shí)間,“VM”表示第一類語(yǔ)義詞,用于標(biāo)識(shí)病癥的開(kāi)始(患、發(fā)現(xiàn)等);“DS”表示第二類語(yǔ)義詞,表示病癥治愈狀況(治愈、好轉(zhuǎn)等);“NEG”為第三類語(yǔ)義詞,表示否定意義(否、非等)。依據(jù)規(guī)則和語(yǔ)義詞集,利用底層自動(dòng)機(jī)對(duì)樣本集中的句子進(jìn)行自動(dòng)識(shí)別和標(biāo)注,典型標(biāo)注結(jié)果如下所示:

      例 1:{TP 去冬12月} {VM 患} {DI 典型麻疹}、{DI肺炎},/w

      例 2:{TP 5周} {DS 治愈} 。/w

      例 3:{NEG 無(wú)} {DI 血吸蟲(chóng)病} 史/ng 。/w

      2.3 信息提取

      本文中,具體目標(biāo)信息的類型判斷和提取由中層自動(dòng)機(jī)來(lái)完成。如“{TP 去冬12月}”,中層自動(dòng)機(jī)不僅能識(shí)別其句子成分為時(shí)間短語(yǔ)(TP),還能提取其中的時(shí)間信息(去冬12月)。為獲取一致的句型模式,對(duì)樣本集中的339個(gè)子句利用中層自動(dòng)機(jī)自動(dòng)提取其句子結(jié)構(gòu),并將頓號(hào)、和等可以表示并列的詞或標(biāo)點(diǎn)統(tǒng)一用“and”代替。最終,獲得了表1中5類含有目標(biāo)信息的常見(jiàn)句型模式,其中模式1-4為含有病癥名的句型,模式5為含有治愈狀況的句型。符號(hào)使用說(shuō)明參見(jiàn)3.2。

      表1 常見(jiàn)子句句型模式Tab.1 Common sub-sentence patterns

      從句型上看,多個(gè)病癥并列的現(xiàn)象普遍存在,它們除了名稱和代碼不同,其余的信息均相同,可以統(tǒng)一處理。因此,本文以句號(hào)結(jié)尾的自然句為信息提取的獨(dú)立單元,當(dāng)句子中出現(xiàn)分號(hào)時(shí),則以分號(hào)劃分的分句作為信息提取的獨(dú)立單元。通過(guò)對(duì)各個(gè)句型模式本身的特點(diǎn)以及所處的上下文環(huán)境的分析,本文針對(duì)每一句型模式設(shè)置了不同的提取規(guī)則。

      最后,對(duì)每一獨(dú)立信息提取單元,根據(jù)提取到的句子結(jié)構(gòu),利用頂層自動(dòng)機(jī)進(jìn)行句型識(shí)別和分類處理,再利用中層自動(dòng)機(jī)依據(jù)相應(yīng)規(guī)則完成目標(biāo)信息提取。

      3 實(shí)驗(yàn)結(jié)果與數(shù)據(jù)分析

      由于既往史中會(huì)出現(xiàn)大量重復(fù)的描述語(yǔ)句,因此,本文隨機(jī)提取700份來(lái)自醫(yī)院各個(gè)科室病歷,剔除其中完全相同的語(yǔ)句,最后獲得374條語(yǔ)句,共1031子句,作為測(cè)試樣本進(jìn)行信息提取。實(shí)驗(yàn)將每一病癥作為信息提取的單元,共提取到465個(gè)信息單元,其中有100個(gè)單元提取到了完整的信息,314個(gè)單元提取到了時(shí)間信息,108個(gè)單元提取到了治愈狀況信息,各項(xiàng)實(shí)驗(yàn)結(jié)果數(shù)據(jù)如下,其中F=2P·R/(P +R):

      表2 提取結(jié)果Tab.2 Results of Extraction

      實(shí)驗(yàn)結(jié)果表明,對(duì)于句子結(jié)構(gòu)相對(duì)簡(jiǎn)單的自由文本,采用淺層分析的技術(shù),在句型匹配的基礎(chǔ)上,依據(jù)少量的提取規(guī)則就能實(shí)現(xiàn)信息提取。本文依據(jù)句子結(jié)構(gòu)和目標(biāo)信息的相對(duì)位置來(lái)實(shí)現(xiàn)信息提取,并取得了較為滿意的提取結(jié)果。但是,從“治愈狀況”較低的召回率上也可以看出,僅依靠淺層句法分析并不能獲得文本中的全部信息。如“血壓經(jīng)間斷服藥后得到控制”,表示患者患有高血壓但未完全治愈,超過(guò)了一般淺層分析能處理的范圍,需要經(jīng)過(guò)更深層的語(yǔ)義分析才能理解。因此,對(duì)于描述復(fù)雜、缺乏規(guī)律的句子,僅通過(guò)幾個(gè)關(guān)鍵描述詞,信息提取的效果并不理想,需要進(jìn)一步的句法分析才能進(jìn)行識(shí)別和提取。

      本文對(duì)病癥名和時(shí)間的提取結(jié)果進(jìn)行了分析,發(fā)現(xiàn)錯(cuò)誤主要是由標(biāo)點(diǎn)錯(cuò)誤、句法分析不足、語(yǔ)義歧義和用語(yǔ)本身的錯(cuò)誤等幾個(gè)因素造成的,如何加強(qiáng)句法分析和歧義消除將是本課題今后研究的方向。

      [1] Doan A, Naughton JF, Ramakrishnan R, et al. Information extraction challenges in managing unstructured data[J]. ACM SIGMOD Record, 2008, 37(4): 14-20.

      [2] Erk K, Padó S. SHALMANESER-A Toolchain For Shallow Semantic Parsing[A]. In Proceedings of LREC[C], 2006, Genoa, Italy.

      [3] Mykowiecka A, Marciniak M, et al. Rule-based information extraction from patients’ clinical data[J]. Journal of Biomedical Informatics, 2009, 42: 923-936.

      [4] Chang CH, Kayed M,et al. A Survey of Web Information Extraction System[J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1411-1428.

      [5] 肖春, 周建龍. 生物醫(yī)學(xué)領(lǐng)域中的文本信息抽取技術(shù)與系統(tǒng)綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2007, 24(9): 1-6.

      [6] 霍仲厚著. 病歷書(shū)寫(xiě)示范[M]. 江蘇: 江蘇科學(xué)技術(shù)出版社, 2004.

      [7] 李昊旻, 李瑩, 等. 中文病歷文檔術(shù)語(yǔ)提取和否定檢出方法[J]. 中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào), 2008, 27(5): 715-720.

      lnformation Extraction Methodology Used in Electronic Medical Records

      【 Writers 】Chen Yingying, Ye Feng
      Economic Management College, Zhejiang University of Technology, Hangzhou, China, 310023

      electronic medical records, information extraction, ICD-10, finite state automaton

      TN911.1

      A

      10.3969/j.isnn.1671-7104.2011.01.009

      1671-7104(2011)01-0039-03

      2010-0909

      陳鶯鶯,E-mail:chenyy050@163.com

      【 Abstract 】We try to use information extraction technology in some parts of the medical records and extract disease information to accumulate experience for extracting complete information from medical records. This paper attempts to use dictionary and rules to achieve the named entity recognition. Information extraction is based on shallow parsing and use pattern sentence matching method with the help of a 3 levels finite state automaton.

      猜你喜歡
      自動(dòng)機(jī)術(shù)語(yǔ)病歷
      強(qiáng)迫癥病歷簿
      {1,3,5}-{1,4,5}問(wèn)題與鄰居自動(dòng)機(jī)
      “大數(shù)的認(rèn)識(shí)”的診斷病歷
      一種基于模糊細(xì)胞自動(dòng)機(jī)的新型疏散模型
      廣義標(biāo)準(zhǔn)自動(dòng)機(jī)及其商自動(dòng)機(jī)
      為何要公開(kāi)全部病歷?
      村醫(yī)未寫(xiě)病歷,誰(shuí)之過(guò)?
      有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
      從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
      模糊自動(dòng)機(jī)的強(qiáng)連通性及群自動(dòng)機(jī)
      贺州市| 灌阳县| 吉首市| 浦北县| 隆昌县| 思南县| 张家口市| 曲松县| 天水市| 图木舒克市| 奉新县| 马山县| 萝北县| 长沙县| 扎鲁特旗| 太谷县| 博客| 兴城市| 新河县| 杭锦后旗| 乐安县| 通许县| 洛隆县| 左云县| 福贡县| 峨山| 德令哈市| 乌海市| 宜州市| 微博| 山阴县| 杭锦旗| 呼图壁县| 濉溪县| 南木林县| 汕尾市| 阿克苏市| 鄂伦春自治旗| 望江县| 鹿泉市| 民勤县|