• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于自然語言處理的中文產(chǎn)科電子病歷研究

      2017-11-23 01:13:29張坤麗馬鴻超趙悅淑昝紅英
      關(guān)鍵詞:病歷產(chǎn)科病程

      張坤麗, 馬鴻超, 趙悅淑, 昝紅英, 莊 雷

      (1.鄭州大學(xué) 信息工程學(xué)院 河南 鄭州 450001; 2.鄭州大學(xué) 第三附屬醫(yī)院 河南 鄭州 450052)

      DOI: 10.13705/j.issn.1671-6841.2017005

      基于自然語言處理的中文產(chǎn)科電子病歷研究

      張坤麗1, 馬鴻超1, 趙悅淑2, 昝紅英1, 莊 雷1

      (1.鄭州大學(xué) 信息工程學(xué)院 河南 鄭州 450001; 2.鄭州大學(xué) 第三附屬醫(yī)院 河南 鄭州 450052)

      電子病歷中蘊(yùn)含著大量的醫(yī)療知識和患者的健康信息,而產(chǎn)科電子病歷的結(jié)構(gòu)化及信息抽取對臨床決策支持及提高人口的生育健康水平具有重要意義.首先對中文產(chǎn)科電子病歷的結(jié)構(gòu)特點及內(nèi)容進(jìn)行了分析,并采用基于規(guī)則的方法對電子病歷數(shù)據(jù)進(jìn)行了清洗和結(jié)構(gòu)化;其次采用最大熵(ME)模型及基于規(guī)則方法按治療類型對電子病歷進(jìn)行分類,分類的F值達(dá)到88.16%;最后,為了進(jìn)一步利用電子病歷進(jìn)行信息抽取和知識挖掘,以短句為單位,相似度為衡量標(biāo)準(zhǔn),采用支持向量機(jī)(SVM)模型對首次病程記錄進(jìn)行去重處理及自動差異化分析,從分析的結(jié)果中篩選出68.6%的重復(fù)及相似短句.

      產(chǎn)科電子病歷; 數(shù)據(jù)清洗; 分類; 差異化; 相似度

      DOI: 10.13705/j.issn.1671-6841.2017005

      0 引言

      醫(yī)療信息化離不開電子病歷的支撐.電子病歷是指醫(yī)務(wù)人員在醫(yī)療活動過程中,使用醫(yī)療機(jī)構(gòu)信息系統(tǒng)生成的文字、符號、圖表、圖形、數(shù)據(jù)、影像等數(shù)字化信息,并能實現(xiàn)存儲、管理、傳輸和重現(xiàn)的醫(yī)療記錄,是病歷的一種記錄形式[1].美國麻省總醫(yī)院門診電子病歷系統(tǒng)于1960年開發(fā)完成并投入使用,是早期最著名的電子病歷系統(tǒng)[2].我國的電子病歷的廣泛實施起步較晚,自2010年國家衛(wèi)生計生委醫(yī)政醫(yī)管局出臺《電子病歷基本規(guī)范(試行)》[1]之后,電子病歷在各級醫(yī)療機(jī)構(gòu)廣泛實施.海量的電子病歷數(shù)據(jù)是醫(yī)療領(lǐng)域的大數(shù)據(jù),蘊(yùn)含著大量的醫(yī)療知識和患者的健康信息,亟待得到有效應(yīng)用.

      電子病歷包括一些自由文本(半結(jié)構(gòu)或無結(jié)構(gòu))數(shù)據(jù),采用自然語言處理技術(shù)(natural language processing,NLP)對電子病歷進(jìn)行結(jié)構(gòu)化和信息抽取,是充分利用電子病歷所蘊(yùn)藏知識的重要一步.本文在分析中文產(chǎn)科電子病歷自由文本結(jié)構(gòu)及內(nèi)容的基礎(chǔ)上,對數(shù)據(jù)進(jìn)行了清洗,去除病歷中存在的噪音數(shù)據(jù),按照治療類型采用最大熵(maximum entropy,ME)模型對電子病歷進(jìn)行了分類,并采用支持向量機(jī)(support vector machine,SVM)對電子病歷中的相似或相同句子進(jìn)行了去重處理及差異化分析,為后續(xù)利用產(chǎn)科電子病歷大數(shù)據(jù)進(jìn)行信息抽取及臨床決策支持奠定了基礎(chǔ).

      1 相關(guān)工作

      國外對于電子病歷的研究起步較早,有針對電子病歷系統(tǒng)的研究[3],也有NLP技術(shù)在臨床決策支持中的研究[4].文獻(xiàn)[5]用SVM構(gòu)建分類器對電子病歷中的命名實體進(jìn)行識別,并且采用ME模型對電子病歷實體關(guān)系進(jìn)行抽取.文獻(xiàn)[6]采用統(tǒng)計模型(條件隨機(jī)和ME)與規(guī)則相結(jié)合的方法識別電子病歷中的命名實體.文獻(xiàn)[7]用半監(jiān)督的方法,用SVM作為分類器對電子病歷實體關(guān)系進(jìn)行抽取.文獻(xiàn)[8]開發(fā)了一個臨床決策支持系統(tǒng),用于提高診斷準(zhǔn)確性,實現(xiàn)精準(zhǔn)醫(yī)療.文獻(xiàn)[9]用神經(jīng)網(wǎng)絡(luò)的方法對雙胞胎胎兒體重進(jìn)行估計[9].此外,醫(yī)療領(lǐng)域還有其獨有的語言資源,如一體化醫(yī)學(xué)語言系統(tǒng)(unified medical language system,UMLS)[10],國際疾病分類標(biāo)準(zhǔn)(international classification of diseases,ICD)[11]和醫(yī)學(xué)系統(tǒng)命名法-臨床術(shù)語(systematized nomenclature of medicine-clinical terms,SNOMED CT)[12]等資源,這些資源為英文電子病歷的研究提供了術(shù)語規(guī)范及知識層級結(jié)構(gòu).

      針對中文的電子病歷的研究則起步較晚,文獻(xiàn)[13]和[14]從不同的角度針對電子病歷的結(jié)構(gòu)化進(jìn)行了研究.文獻(xiàn)[15]對出院小結(jié)中存在的問題進(jìn)行了歸納.此外,從自然語言處理的角度,文獻(xiàn)[16]采用分詞和詞性聯(lián)合模型——管道模型對中文電子病歷的詞性標(biāo)注進(jìn)行研究.文獻(xiàn)[17]采用條件隨機(jī)和深度學(xué)習(xí)的方法對實體和關(guān)系抽取進(jìn)行了研究.在語言資源建設(shè)方面,文獻(xiàn)[18]借鑒I2B2的標(biāo)注規(guī)范初步構(gòu)建了電子病歷命名實體和實體關(guān)系標(biāo)注語料庫.文獻(xiàn)[19]構(gòu)建了中文醫(yī)學(xué)一體化醫(yī)學(xué)語言系統(tǒng)(Chinese unified medical language system,CUMLS).文獻(xiàn)[20]構(gòu)建了中藥一體化醫(yī)學(xué)語言系統(tǒng)(traditional Chinese medical language system,TCMLS).針對中文產(chǎn)科電子病歷,文獻(xiàn)[21]對產(chǎn)科電子病歷中的手術(shù)知情同意書進(jìn)行了研究.文獻(xiàn)[22]運(yùn)用統(tǒng)計學(xué)的方法探討了產(chǎn)科病歷的質(zhì)量問題,分析其缺陷并制定出相應(yīng)的改進(jìn)措施.到目前為止,還鮮有公開的中文電子病歷的數(shù)據(jù)集,并且缺乏公開的中文生物醫(yī)學(xué)領(lǐng)域語言資源的支撐,這也為開展中文電子病歷研究帶來了一定的困難.

      2 產(chǎn)科電子病歷的結(jié)構(gòu)及特點

      2.1基本結(jié)構(gòu)和內(nèi)容

      中國的電子病歷書寫以《電子病歷基本規(guī)范(試行)》[1]為基本指導(dǎo).圖表和自由文本是電子病歷數(shù)據(jù)的主要表現(xiàn)形式[23],而自由文本這種非結(jié)構(gòu)化數(shù)據(jù)是信息抽取研究的最主要對象.本文著重介紹病程記錄和出院小結(jié)兩部分的結(jié)構(gòu)和內(nèi)容.病程記錄包括首次病程記錄(每份病歷中一個)、日常病程記錄(也稱查房記錄,每份病歷中有一個或多個)、上級醫(yī)師查房記錄和出院小結(jié)(每份病歷一個)等.本文以15家醫(yī)院隨機(jī)抽取的產(chǎn)科3 034份電子病歷為研究對象,對電子病歷結(jié)構(gòu)及內(nèi)容進(jìn)行了分析.所使用的數(shù)據(jù)均已作隱私化處理.病程記錄及出院小結(jié)結(jié)構(gòu)及所包含的內(nèi)容如表1所示.

      表1 產(chǎn)科電子病歷結(jié)構(gòu)與內(nèi)容

      2.2產(chǎn)科電子病歷現(xiàn)存問題及數(shù)據(jù)清洗

      醫(yī)院信息管理系統(tǒng)在設(shè)計時為了減少輸入工作量,通常采用直接套用模板,或在原有病歷上修改的方式錄入.這種方式會導(dǎo)致一些問題,如電子病歷中重復(fù)內(nèi)容較多,信息不一致,時間先后順序錯誤等.本文主要針對電子病歷中存在的信息的冗余與缺失以及信息的錯誤這兩類問題進(jìn)行分析.

      2.2.1信息冗余與缺失 根據(jù)電子病歷章節(jié)特征,采用基于規(guī)則的方法對電子病歷進(jìn)行結(jié)構(gòu)化時發(fā)現(xiàn),電子病歷中存在首次病程記錄和出院小結(jié)缺失的情況.由于已經(jīng)隱私化處理,無法建立兩個病歷之間的關(guān)聯(lián),根據(jù)信息抽取的需求,對缺失這兩部分的電子病歷直接從數(shù)據(jù)集中移除.移除的病歷一共279份.

      對冗余信息的處理,采用自動比對的方式進(jìn)行篩選,當(dāng)檢測到同一個病歷中有多個首次病程記錄或出院小結(jié)時,根據(jù)信息的完整性以及記錄時間,甄選出正確的首次病程記錄或出院小結(jié).

      2.2.2電子病歷數(shù)據(jù)錯誤及識別 通過分析,本文所采集的電子病歷中,第一類較為集中的錯誤是時序錯誤.按診療順序及診療時間,病歷中出現(xiàn)時間超前,甚至為未來時間的情況.如本文抽樣采集的數(shù)據(jù)為2015年電子病歷,個別病歷中出現(xiàn)記錄時間為 “2016.12.23”的情況.針對時序錯誤問題,根據(jù)產(chǎn)科治療的時序邏輯,首次病程記錄中出現(xiàn)的時間一般不會早于末次月經(jīng)時間,且不會晚于預(yù)產(chǎn)期的時間.根據(jù)診療活動的邏輯順序,設(shè)計出了時序檢測方案,具體算法如圖1所示.經(jīng)時序錯誤檢測,共發(fā)現(xiàn)有10份病歷出現(xiàn)時序錯誤.

      圖1 時序錯誤檢測算法Fig.1 The detection algorithm of time series error

      第二類錯誤是電子病歷中的邏輯錯誤.針對產(chǎn)科住院者的情況,在電子病歷的入院診斷和出院診斷中,會出現(xiàn)“孕X產(chǎn)Y”這樣明確的診斷.根據(jù)在產(chǎn)科所進(jìn)行的如順產(chǎn)、剖宮產(chǎn)、引產(chǎn)、流產(chǎn)、保胎治療等醫(yī)療活動中,在入院診斷中為“孕X產(chǎn)Y”,出院診斷則應(yīng)為“孕X產(chǎn)Y”或“孕X產(chǎn)Y+1”.如入院診斷是“孕2產(chǎn)0”,當(dāng)所進(jìn)行的治療為保胎治療,出院診斷是“孕2產(chǎn)0”,此出院診斷與入院診斷邏輯一致.但是某一份病歷中入院診斷和出院診斷中都是“孕4產(chǎn)2”,但在出院診斷中有“剖娩了一個男嬰和一個女嬰”,據(jù)此可判斷此病歷出現(xiàn)了邏輯錯誤.基于以上分析,發(fā)現(xiàn)如果進(jìn)行生產(chǎn),則首次病程記錄中的入院診斷中的“孕X產(chǎn)Y”, 出院小結(jié)中的出院診斷應(yīng)為“孕X產(chǎn)Y+1”,而其余醫(yī)療活動,入院診斷和出院診斷中的“孕X產(chǎn)Y”應(yīng)保持一致.根據(jù)這一規(guī)律,用規(guī)則分別提取到這兩部分內(nèi)容進(jìn)行比對,經(jīng)過處理發(fā)現(xiàn)共有52份出現(xiàn)此類邏輯錯誤的病歷.

      2.3信息過濾及結(jié)構(gòu)整理

      電子病歷是對病人診療活動的完整記錄,其中有些數(shù)據(jù)是常規(guī)的告知性信息,并非患者的個性信息,如手術(shù)前的風(fēng)險告知等內(nèi)容,對所有的患者都是相同的.這部分內(nèi)容會成為數(shù)據(jù)分析與挖掘時的噪音,因此從病歷中剔除這類無特定病人信息的告知性文本.此外,電子病歷的原始文本是所有內(nèi)容混排在一起,為了進(jìn)行數(shù)據(jù)分析,需要把首次病程記錄、查房記錄和出院小結(jié)按章節(jié)進(jìn)行整理,對首次病程記錄按表1所示的內(nèi)容,如主訴、入院查體、產(chǎn)科檢查、輔助檢查、入院診斷、診斷依據(jù)、鑒別診斷和診療計劃等進(jìn)行結(jié)構(gòu)化.為了便于進(jìn)一步的研究,先把病程記錄和出院小結(jié)提取出來,然后對首次病程記錄的格式進(jìn)行整理.

      3 產(chǎn)科電子病歷的自動分類

      患者在產(chǎn)科的診療按其是否分娩可分為保胎治療、分娩和其他,按分娩方式可分為順產(chǎn)、剖宮產(chǎn)、引產(chǎn)和流產(chǎn).本文把產(chǎn)科電子病歷分為:順產(chǎn)、剖宮產(chǎn)、引產(chǎn)、流產(chǎn)、保胎治療和其他6類.諸如產(chǎn)后并發(fā)癥等入住產(chǎn)科的病歷,則歸入其他類別.相同的診療活動,電子病歷的內(nèi)容及結(jié)構(gòu)較為相似,因此把產(chǎn)科電子病歷按診療活動分為不同種類,便于對同一種類電子病歷的信息進(jìn)行抽取處理.本文采用最大熵模型和基于規(guī)則的方法對電子病歷進(jìn)行自動分類.

      3.1最大熵原理

      最大熵模型的基本原理是在已知部分信息的前提下,關(guān)于未知分布最合理的推斷是符合已知信息最不確定或最大隨機(jī)的推斷.對于任意一個隨機(jī)變量X,隨機(jī)變量的不確定性越大,熵也就越大.

      (1)

      (2)

      3.2實驗

      實驗數(shù)據(jù)是人工標(biāo)注了1 500份經(jīng)過數(shù)據(jù)清洗的電子病歷,包含順產(chǎn)(29.4%)、剖宮產(chǎn)(30.47%)、保胎治療(30.13%)、引產(chǎn)(5.73%)、流產(chǎn)(2.47%)和其他(1.8%)6類,其中1 000份作為訓(xùn)練語料,500份作為測試語料.本實驗選用最大熵工具包(https://github.com/lzhang10/maxent),分詞工具是ICTCLAS(https://codeload.github.com/NLPIR-team/NLPIR-ICTCLAS/zip/master),詞表是在互聯(lián)網(wǎng)和《婦產(chǎn)科學(xué)》[24]上收集的婦產(chǎn)科醫(yī)療術(shù)語和藥物名稱等一共1 751個.實驗采用P、R和F-1值作為評價指標(biāo).

      基于規(guī)則的方法是在觀察語料過程中,根據(jù)電子病歷特點,將其分類特征形式化,形成了兩個規(guī)則集Ruleset1和Ruleset2,其中|Ruleset1|lt;|Ruleset2|.Ruleset1規(guī)則集中主要是顯式特征,包括“入院診斷”和“出院診斷”中“孕X產(chǎn)Y”形式及含有某個類別特定的關(guān)鍵字,通過對“孕X產(chǎn)Y”比對及關(guān)鍵字匹配確定相應(yīng)的類別.采用Ruleset1的分類效果較差,P為82.47%,保胎類別的準(zhǔn)確率P_bt為94.01%.

      進(jìn)一步總結(jié)了非明顯特征,加入到規(guī)則集Ruleset1中,形成Ruleset2.Ruleset2中增加了諸如流產(chǎn)和引產(chǎn)在月份上的區(qū)別,2.2.2節(jié)所提到的入院診斷和出院診斷中“孕X產(chǎn)Y”判斷分類等規(guī)則.采用規(guī)則集Ruleset2進(jìn)行分類時,P為88.53%,保胎類別的準(zhǔn)確率P_bt為97.51%.雖然基于規(guī)則的方法也有比較好的分類結(jié)果,但總結(jié)規(guī)則的工作比較煩瑣,費時費力,人工成本較高,且沒有學(xué)習(xí)能力,因此無法有效推廣.通過表2中的F-1值可以看出,最大熵模型能夠?qū)Σv很好的分類,F(xiàn)-1達(dá)到了最高的88.16%,并且能夠很好地推廣利用.

      表2 分類結(jié)果

      4 首次病程記錄的文本去重

      根據(jù)目前現(xiàn)有電子病歷的特點,每個類別的電子病歷有大量的重復(fù)和相似性信息.如果能去除這部分重復(fù)的信息,保留個性,則能提高后期的信息抽取等工作的效率.例如在主訴中出現(xiàn)的“發(fā)育正常,營養(yǎng)中等”都是正常的指標(biāo),且多份電子病歷中的首次病程記錄中均相同,并非診斷的決定性因素,因此本文考慮通過計算句子相似度,去同存異,僅留存?zhèn)€性信息.但若句子中有數(shù)值信息,如末次月經(jīng)時間,雙頂徑等,是診斷所依據(jù)的關(guān)鍵信息,因此在進(jìn)行文本去重時,首先將這類句子篩選出來,不參與相似度計算.

      4.1句子相似度計算

      本文采用基于語義的方法計算句子的相似度(https://my.oschina.net/twosnail/blog/370744#comment-list),具體公式為

      (3)

      其中S1、S2是兩個句子的語義向量表示.S1和S2的計算方式如下:

      1) 給定句子Ti,分詞后,得到的所有詞W構(gòu)成的向量為句子Ti的向量表示,即Ti={w1,w2,…,wn}.

      2) 給定兩個句子Ti、Tj的向量表示,將Ti、Tj中的所有詞wi進(jìn)行合并,重復(fù)的詞只保留一個,得到兩個向量之和,稱為Ti、Tj的并集,表示T=TiUTj.

      3) 給定句子Ti的向量表示Ti={w1,w2,…,wn}和一個詞wi,依次計算wi和Ti中每一個詞的相似度(值為0到1之間),所有結(jié)果中的最大值稱為wi在Ti中的語義分?jǐn)?shù),表示為Ci.

      4) 給定兩個句子Ti、Tj的向量表示,Ti和Tj的集合T={w1,w2,…,wn},對T中的每一個詞wi,計算wi在Ti中的語義分?jǐn)?shù)Ci=score(如果wi在Ti中出現(xiàn),則score=1;如果wi在Ti中沒有出現(xiàn),本文設(shè)score=0.2),T中每個分詞的語義分?jǐn)?shù)組成的一個向量,稱為Ti基于T的語義向量,表示為Si={C1,C2,…,Cn}.

      4.2實驗數(shù)據(jù)準(zhǔn)備

      基于相同類型診療活動電子病歷更為相似的原則,采用第3節(jié)所訓(xùn)練最大熵模型對未標(biāo)注的1 255份電子病歷進(jìn)行分類,并對分類結(jié)果進(jìn)行人工校對,加上第3節(jié)所用1 500份電子病歷,抽取所包含的824份剖宮產(chǎn)類別的首次病程記錄進(jìn)行文本去重.在進(jìn)行相似度計算之前,先對數(shù)據(jù)做如下處理.

      1) 用標(biāo)點符號“;”(中文分號)、“.”(中文句號)、“、”(中文頓號)、“,”(中文逗號)、“:”(中文冒號)、“;” (英文分號)、“:” (英文冒號)和正則表達(dá)式“[1-9]{1}\.”把首次病程記錄切分成一條條的短句,共130 910條短句.

      2) 含有數(shù)字的短句可能包含關(guān)鍵信息,去除含有數(shù)字的短句,剩余10 023條短句.

      3) 進(jìn)行分詞處理.

      4.3實驗結(jié)果

      通過對相似度計算結(jié)果的分析,將相似度的閾值設(shè)置為0.9,這個閾值能將相似度較高的句子剔除,保留個性化信息.實驗數(shù)據(jù)中的10 023短句,經(jīng)過相似度計算,刪除相似度高于0.9之后,剩余3 146條短句.可以看出,經(jīng)過相似度處理之后,短句減少了68.6%.例如句子“患者自覺胎動明顯增多或者減少”和句子“患者胎動無明顯異?!庇幸欢ú顒e,相似度為0.694 9,因此不能刪除.句子“唐氏篩查及四維彩超正?!焙途渥印八木S彩超及唐氏篩查均無異?!毕嗨贫容^高為0.900 7,則進(jìn)行刪除.通過這樣的差異化分析,保留了更有價值的信息,并且減小了數(shù)據(jù)規(guī)模,為進(jìn)一步的輔助診斷及高效的信息抽取奠定了基礎(chǔ).

      5 總結(jié)與展望

      本文完成的主要工作有:分析產(chǎn)科電子病歷的基本結(jié)構(gòu)及內(nèi)容,對電子病歷中存在的問題及數(shù)據(jù)清洗進(jìn)行了介紹.采用基于規(guī)則及最大熵模型按診療活動類型對電子病歷的自動分類進(jìn)行了研究;依據(jù)分類結(jié)果,采用語義相似度的計算方法剔除電子病歷中相似度較高的句子,為差異化分析及信息抽取奠定基礎(chǔ).本文所完成的工作對產(chǎn)科的電子病歷進(jìn)行了初步的分類及處理,今后將在此基礎(chǔ)上以醫(yī)學(xué)專業(yè)敘詞表為基礎(chǔ),構(gòu)建知識圖譜,對電子病歷中所包含的實體、關(guān)系以及所蘊(yùn)含的知識進(jìn)行識別和抽取,針對不同類型的生產(chǎn)方式進(jìn)行研究分析,為臨床專家提供醫(yī)療輔助決策.

      [1] 李曉雅.衛(wèi)生部出臺《電子病歷基本規(guī)范(試行)》[J]. 中國社區(qū)醫(yī)師(醫(yī)學(xué)專業(yè)),2010,11(3):21.

      [2] 楊孝光,李運(yùn)明,張虎軍,等.發(fā)達(dá)國家及地區(qū)電子病歷發(fā)展現(xiàn)狀與啟示[J].西南軍醫(yī),2013,15(3):345-346.

      [3] KOHANE I S, GREENSPUN P, FACKLER J, et al. Building national electronic medical record systems via the world wide web[J]. American journal of ophthalmology, 1996, 122(3):191-207.

      [4] DEMNERFUSHMAN D, CHAPMAN W W, MCDONALD C J. What can natural language processing do for clinical decision support?[J]. Journal of biomedical informatics, 2009, 42(5):760-772.

      [5] BRUIJN B, CHERRY C, KIRITCHENKO S, et al. Machine-learned solutions for three stages of clinical information extraction: the state of the art at i2b2 2010[J]. Journal of the American medical informatics association, 2011, 18(5): 557-562.

      [6] CLARK C, ABERDEEN J, COARR M, et al. MITRE system for clinical assertion status classification[J]. Journal of the American medical informatics association, 2010, 18(5): 563-567.

      [7] RYAN R J. Groundtruth budgeting: a novel approach to semi-supervised relation extraction of medical language[D]. Cambridge: Massachusetts institute of technology, 2011: 2-66.

      [8] CASTANEDA C, NALLEY K, MANNION C, et al. Clinical decision support systems for improving diagnostic accuracy and achieving precision medicine[J]. Journal of clinical bioinformatics, 2015, 5(1):1-16.

      [9] MOHAMMADI H, NEMATI M, ALLAHMORADI Z, et al. Ultrasound estimation of fetal weight in twins by artificial neural network[J]. Journal of biomedical science and engineering, 2011, 4(1):46-50.

      [10] BODENREIDER O. The unified medical language system (UMLS): integrating biomedical terminology[J]. Nucleic acids research, 2004, 32: 267-270.

      [11] UZUNER ?, LUO Y, SZOLOVITS P. Evaluating the state-of-the-art in automatic de-identification[J]. Journal of the American medical informatics association, 2007, 14(5): 550-563.

      [12] UZUNER ?, SOLTI I, CADAG E. Extracting medication information from clinical text[J]. Journal of the American medical informatics association, 2010, 17(5): 514-518.

      [13] 于一,廖睿,葉大田. 電子病歷結(jié)構(gòu)化方法概述[J]. 北京生物醫(yī)學(xué)工程,2007,26(1):103-106.

      [14] 李偉. 非結(jié)構(gòu)化病歷文檔結(jié)構(gòu)化轉(zhuǎn)換方法研究[D]. 天津:河北工業(yè)大學(xué),2013.

      [15] 趙津京,滕國洲,冷建文,等. 出院小結(jié)存在的問題及對策[J]. 解放軍醫(yī)院管理雜志,2009,16(1):34-35.

      [16] 趙芳芳. 面向中文電子病歷的詞性標(biāo)注技術(shù)研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué), 2014.

      [17] 葉楓,陳鶯鶯,周根貴,等. 電子病歷中命名實體的智能識別[J]. 中國生物醫(yī)學(xué)工程學(xué)報,2011,30(2):256-262.

      [18] 楊錦鋒, 關(guān)毅, 何彬,等. 中文電子病歷命名實體和實體關(guān)系語料庫構(gòu)建[J]. 軟件學(xué)報, 2016, 27(11): 2725-2746.

      [19] 李丹亞,胡鐵軍,李軍蓮,等.中文一體化醫(yī)學(xué)語言系統(tǒng)的構(gòu)建與應(yīng)用[J].情報雜志,2011,30(2):147-151.

      [20] 曾召,王小平.UMLS與中醫(yī)藥一體化語言系統(tǒng)的建立[J].中華醫(yī)學(xué)圖書情報雜志,2006,15(3):1-3.

      [21] 李廉. 電子病歷婦產(chǎn)科手術(shù)知情同意書缺陷分析與改進(jìn)措施[J].中國病案,2015,16(2):56-59.

      [22] 江林,童亞非,李興海,等. 婦產(chǎn)科住院病歷書寫質(zhì)控與持續(xù)改進(jìn)[J].現(xiàn)代醫(yī)學(xué),2011,39(3):353-355.

      [23] 楊錦鋒,于秋濱,關(guān)毅,等. 電子病歷命名實體識別和實體關(guān)系抽取研究綜述[J]. 自動化學(xué)報,2014,40(8):1537-1562.

      [24] 謝幸, 茍文麗. 婦產(chǎn)科學(xué)[M]. 第8版.北京:人民衛(wèi)生出版社, 2013.

      (責(zé)任編輯:方惠敏)

      TheStudyofChineseObstetricElectronicMedicalRecordsBasedonNaturalLanguageProcessing

      ZHANG Kunli1, MA Hongchao1, ZHAO Yueshu2, ZAN Hongying1, ZHUANG Lei1

      (1.SchoolofInformationEngineering,ZhengzhouUniversity,Zhengzhou450001,China; 2.TheThirdAffiliatedHospital,ZhengzhouUniversity,Zhengzhou450052,China)

      Electronic medical record contains a lot of medical knowledge and patient′s health information. The structuralization and information extraction of obstetric electronic medical records is of great significance on clinical decision and the bearing health. The structural characteristics and content of Chinese obstetric electronic medical records were analyzed. The EMR data was cleaned and structuralized by using the rule-base method. Then the electronic medical records of different treatment types were automatically classified by using the maximum entropy model and rule-based methods. And theFvalue reached 88.16%. At last, in order to further use electronic medical records for information extraction and knowledge mining, the support vector machine model, in which a phrase was taken as a unit and similarity as benchmark, was used to remove the repetition in first course of disease records. And the result was that 68.6% of the reduplicate and similar phrases were deleted from the records. It was expected that this study could contribute to the further research on the information extraction from obstetrics electronic medical records.

      obstetric electronic medical record; data cleaning; categorization; differentiation; similarity degree

      2017-01-08

      973課題(2014CB340504);國家自然科學(xué)基金項目(61402419,60970083);國家社會科學(xué)基金項目(14BYY096);河南省科技廳基礎(chǔ)研究項目(142300410231,142300410308).

      張坤麗(1977—),女,河南鞏義人,講師,主要從事自然語言處理、語言資源構(gòu)建研究,E-mail:ieklzhang@zzu.edu.cn;通信作者:馬鴻超(1990—),男,河南開封人,主要從事自然語言處理研究,E-mail:ma-hc@foxmail.com.

      TP391

      A

      1671-6841(2017)04-0040-06

      猜你喜歡
      病歷產(chǎn)科病程
      強(qiáng)迫癥病歷簿
      趣味(語文)(2021年9期)2022-01-18 05:52:42
      “大數(shù)的認(rèn)識”的診斷病歷
      認(rèn)識產(chǎn)科大出血
      產(chǎn)科醫(yī)師答問錄
      媽媽寶寶(2017年4期)2017-02-25 07:01:36
      產(chǎn)科醫(yī)師答問錄
      媽媽寶寶(2017年3期)2017-02-21 01:22:34
      產(chǎn)科醫(yī)師答問錄
      媽媽寶寶(2017年2期)2017-02-21 01:21:28
      為何要公開全部病歷?
      中西醫(yī)結(jié)合治療對急性胰腺炎病程的影響
      手術(shù)科室用血病程記錄缺陷評析
      村醫(yī)未寫病歷,誰之過?
      红原县| 连南| 剑川县| 新安县| 西乌珠穆沁旗| 山丹县| 垦利县| 韶关市| 尼玛县| 泉州市| 秭归县| 漯河市| 雷州市| 哈巴河县| 大化| 志丹县| 土默特左旗| 江门市| 两当县| 涞源县| 临朐县| 荔波县| 嵊州市| 腾冲县| 南宁市| 米易县| 阿巴嘎旗| 四子王旗| 肥城市| 广安市| 崇州市| 鄢陵县| 巧家县| 韩城市| 镇宁| 嵊州市| 巴东县| 安平县| 田东县| 西藏| 循化|