劉勇 陳文生
摘要:結(jié)構化電子病歷具有數(shù)據(jù)標準化程度高、數(shù)據(jù)檢索方便的優(yōu)點,能夠為循證醫(yī)學、科研、教學提供有效的信息支撐,電子病歷數(shù)據(jù)錄入的質(zhì)量會影響臨床管理和決策水平。本文首先分析了影響電子病歷錄入質(zhì)量的相關因素,在此基礎上提出了電子病歷術語規(guī)范化流程,總結(jié)了關鍵技術、系統(tǒng)實現(xiàn)及界面設計經(jīng)驗,旨在為臨床提供客觀、準確的數(shù)據(jù)以及實現(xiàn)輔助臨床診斷提供參考。
關鍵詞:電子病歷;術語;規(guī)范化;輔助診斷
中圖分類號:R197.323? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:B? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2020.14.003
文章編號:1006-1959(2020)14-0007-03
Electronic Medical Record Terminology Standardization Process and
Design of Clinical Assistant Diagnosis System
LIU Yong1,CHEN Wen-sheng2
(1.Information Center,Nanjing Jiangbei People's Hospital,Nanjing 210048,Jiangsu,China;
2.Library of Nanjing Vocational College of Science and Technology,Nanjing 210048,Jiangsu,China)
Abstract:The structured electronic medical record has the advantages of high data standardization and convenient data retrieval, and can provide effective information support for evidence-based medicine, scientific research, and teaching. The quality of electronic medical record data entry will affect clinical management and decision-making. This article first analyzes the relevant factors that affect the quality of electronic medical record entry, on this basis, it proposes a standardized process of electronic medical record terminology, summarizes key technologies, system implementation, and interface design experience, and aims to provide clinical and objective data and implementation assistance provide a reference for clinical diagnosis.
Key words:Electronic medical records;Terminology;Standardized;Auxiliary diagnosis
目前國內(nèi)主流的電子病歷系統(tǒng)在設計的時候也考慮到用結(jié)構化的方法來實現(xiàn),但是由于醫(yī)學的復雜性和多變性,結(jié)構化的電子病歷實施難度較高,且必須確保有醫(yī)療背景的高級用戶參與,參與程度則直接影響使用效果[1]。此外,結(jié)構化病歷由于采取的是基于表格模板的一種方式,使得臨床醫(yī)生的自主決定的靈活性降低,部分功能如主訴等由于專業(yè)特異性不高,醫(yī)生常常選擇使用自由文本進行錄入[2],因此存在不規(guī)范的信息錄入,從而影響電子病歷的書寫質(zhì)量,如何對這些不規(guī)范的輸入進行分析,包括特征術語篩選、提煉、分析、規(guī)范化、分類,最終為臨床提供客觀、準確的數(shù)據(jù),提高臨床的管理和決策能力就顯得尤為重要。本文主要設計了電子病歷術語規(guī)范化流程,旨在為臨床決策提供客觀、詳盡的準確的數(shù)據(jù),也為科研提供精確的資料。
1需求分析
本系統(tǒng)設計旨在實現(xiàn)電子病歷醫(yī)學術語的規(guī)范化,并提供疾病的輔助診斷功能。首先,構建醫(yī)學術語相關標準術語集,包括可擴充的非規(guī)范術語-規(guī)范術語映射詞典和同義詞詞典,為標準化和規(guī)范化醫(yī)學術語做好前期的數(shù)據(jù)準備;其次,利用自然語言處理的相關技術對電子病歷文本進行處理分析,自動識別不規(guī)范醫(yī)學術語,提示臨床人員予以更正,從而達到電子病歷的醫(yī)學專業(yè)術語規(guī)范化的目的;然后,應用機器學習的相關方法,對醫(yī)學特征術語進行特征分類,以獲取疾病的診斷分類。最后,對系統(tǒng)的實現(xiàn)和界面進行設計,從而為醫(yī)療人員的臨床管理與決策提供方便。
2技術路線
2.1電子病歷結(jié)構化的前期準備工作? ①相關醫(yī)學術語詞典的構建:標準化的字典對電子病歷結(jié)構化和規(guī)范化是至關重要的,本系統(tǒng)使用人類與獸類醫(yī)學系統(tǒng)術語(SNOMED)、國際疾病分類(ICD10和ICD9)的漢化版本,在實際使用中還可以將經(jīng)常使用到的未收錄術語增加到詞典中,進一步豐富詞典的詞匯容量。②規(guī)范化對象的確定:電子病歷中的所有相關醫(yī)學術語包括規(guī)范醫(yī)學術語和非規(guī)范醫(yī)學術語,兩類術語被顯著標識,出錯時由醫(yī)療人員予以更正,并確認當前識別出的非規(guī)范術語是否需要被添加到“非規(guī)范術語-規(guī)范術語映射”詞典(簡稱非規(guī)范對照詞典)中。
2.2電子病歷文本的自然語言處理相關技術
2.2.1漢語分詞? 主要方法如下:①基于詞典的分詞方法,包括正向最大匹配、逆向最大匹配法、雙向匹配法、最少切分法[3];②基于統(tǒng)計的方法,包括統(tǒng)計語言模型[3]、基于HMM的方法[4]、由字構詞法[5]等。
2.2.2詞性標注? 盡管漢語言詞性標注有些情況較為復雜,但醫(yī)學術語涉及專業(yè)領域,大多數(shù)醫(yī)學術語可直接標注為名詞詞形,便于簡化詞性標注的復雜度。
2.2.3醫(yī)學術語命名實體識別? 近年來,隨著臨床信息化的發(fā)展和電子病歷開始在臨床中逐漸普及,我國學者開始對生物醫(yī)學領域內(nèi)的專有名詞進行智能識別。在電子病歷中,命名實體的類別繁多,除了時間、人名、地名、組織機構等常見的實體類別外,還有疾病、癥狀、手術操作、病因、病理、藥品等特有的實體類別。在電子病歷中,涉及到輔助診斷的幾類實體是疾病、臨床癥狀、手術操作、實驗室檢查等。目前,命名實體的識別方法主要有3種:①基于詞典的方法:需要建立臨床規(guī)范標準的醫(yī)學專業(yè)術語集,要涵蓋醫(yī)學的各個領域,如SNOMED CT等中描述的相關的同義詞、變形詞,建立不規(guī)范和規(guī)范術語的映射等等,然后再運用相應的匹配算法根據(jù)詞典對文本中醫(yī)學術語實體進行識別;②基于規(guī)則的方法:需要建立針對性的識別規(guī)則庫,優(yōu)點是在特定領域準確率較高,優(yōu)于基于統(tǒng)計的方法,缺點是規(guī)則的制定需要消耗大量的時間和人力,且所制定的規(guī)則往往與特定的領域相關,可移植性較差;③基于機器學習的方法利用標注過的語料進行訓練,語料的標注也不需要較多的語言學知識,較小規(guī)模的語料也可以在可接受的時間和人力代價內(nèi)完成。因此,該方法具有很好的移植性,目前已經(jīng)廣泛應用于包括命名實體識別在內(nèi)的許多自然語言處理任務中。常用的機器學習模型包括隱馬爾可夫(hidden Markov model,HMM)[6]、條件隨機場(CRF)[7]等,近年來,基于神經(jīng)網(wǎng)絡的方法也常被應用于命名實體識別,如基于長短期記憶網(wǎng)絡(LSTM)的Lattice LSTM模型抽取實體[8]。
2.2.4特征術語相似度度量? 通過實體識別出來的特征術語,有的意思相似或相近,甚至意思完全一樣,只是因為操作人員輸入了非規(guī)范術語造成的。例如“冠狀動脈支架置入術”和“冠狀動脈支架植入術”,實際上指代同一個意思,由于輸入的不規(guī)范,導致系統(tǒng)提取出兩個不同的特征術語。因此,需要通過計算特征術語之間的相似程度來規(guī)范化特征。度量特征文本相似度方法有以下幾種:①基于向量空間的度量方式 利用特征頻率-反向文檔頻率(TF-IDF)[9]將文檔向量化。TF-IDF是一種統(tǒng)計方法,用以評估特征項相對于文件集或語料庫中的一個文檔的重要程度。特征項的重要性與它在該文檔中出現(xiàn)的次數(shù)成正比,與它在語料庫中出現(xiàn)的頻率成反比,最后計算向量之間的夾角余弦(Cosine)。②距離度量 Jaro-Winkler Distance[10] 作為Jaro Distance的一個擴展,是一種計算兩個字符串之間相似度的方法。
2.3特征分類流程? 本流程是根據(jù)電子病歷文本,得到病歷內(nèi)容對應的疾病,為了驗證特征分類的效果,特收集了幾個疾病類型,包括不同特征的疾病類型和相似特征的疾病類型,如高血壓心臟病、冠狀動脈粥樣硬化性心臟病、急性支氣管炎、肺部感染、慢性阻塞性肺病等,其中有部分患者的電子病歷文本中夾雜著多種疾病類型的特征,當存在這種情況時,疾病以該患者的第一診斷為主。疾病診斷可以被看作是一個文本分類問題,即輸入是一段病歷自然文本文本,經(jīng)過對醫(yī)學術語的規(guī)范化,提取相關醫(yī)學特征術語,最后經(jīng)過分類模型輸出疾病的診斷分類。此外,分類模型中使用的各種分類器有很多,如支持向量機(SVM)、決策樹、隨機深林[11],以及神經(jīng)網(wǎng)絡[12]等。特征分類流程圖見圖1。
3系統(tǒng)設計
根據(jù)系統(tǒng)需求,設計了基于機器學習的電子病歷規(guī)范化和輔助診斷的系統(tǒng)框架圖,見圖2。根據(jù)系統(tǒng)框架圖,整個研究可分為兩個部分:①醫(yī)學特征術語規(guī)范化:包括中文分詞、醫(yī)學實體識別、特征術語規(guī)范處理,其中在規(guī)范術語的過程中,可以將非規(guī)范術語添加到非規(guī)范對照詞典中,從而提高非規(guī)范術語的識別效率。②輔助診斷:將規(guī)范后的特征術語,輸入到分類模型中,得出相應的疾病診斷。
3.1電子病歷文檔提取? 由于人工標注較大規(guī)模的語料庫比較困難,本次設計考慮了人機結(jié)合的方式以快速建立一個小規(guī)模的語料庫,具體步驟如下:①人工收集了1200份電子病歷文檔,涵蓋了心臟科、呼吸科等科室的患者資料;②程序自動抽取每位患者的主訴、現(xiàn)病史、既往史、實驗室及器械檢查等涉及的文本數(shù)據(jù),作為原始處理文件;③在此基礎上使用相應的工具進行文本的自動標注,再進行人工審核標注的方法,快速構建一個語料庫。
3.2詞性標注? 該模塊設計的目的是快速獲取文本的詞性。選取部分效果如下顯示:【主/a訴/v:/w咳嗽/v咳痰/n伴/v呼吸困難/n3/n天/q。/w現(xiàn)/t病史/n:/w3/n天/q前/f患者/n在/p我院/n呼吸/v科/n住院/v期間/f出現(xiàn)/v咳嗽/v、/w咳痰/n,/w自主/v排/v痰/n困難/a,/w需/v輔助/v排/v痰/n,/w為/p大量/m灰色/n粘液/n痰/n,/w未/d見/v痰/n中/f帶/v血/n?!?/p>
3.3詞位標注? 為了獲取醫(yī)學實體識別學習必要訓練語料,須對文檔中的所有字進行詞位標注,但顯然通過人工標注的方式效率較低,考慮用計算機快速標注方式解決。標注的時候需要用到相關醫(yī)學領域的標準詞典,系統(tǒng)將ICD10、ICD-9-CM、SNOMED、同義詞詞典等的術語增加到字典中,以增加分詞的命中效率。診斷、手術、檢查的相關醫(yī)學術語長度一般比較長,使用反向最大匹配算法并依據(jù)詞首(B)、詞中(I)、詞尾(E),進行自動標注,考慮到詞典的覆蓋率問題,由人工對自動標注后的語料庫進行了核對。
3.4特征術語規(guī)范化處理? 特征提取后會得到一個特征術語集合,里面既包含規(guī)范的特征術語,也可能包含了不規(guī)范的特征術語,將這些特征術語與同義詞典中“非規(guī)范特征術語”比較,并自動將非規(guī)范特征術語用紅色標識出來,并提供相似度較高的特征術語供臨床醫(yī)務人員參考選擇,“術語維護”功能可以將新的“非規(guī)范特征術語”添加到非規(guī)范術語-規(guī)范術語映射詞典中,見圖3。
3.5臨床輔助診斷? 在系統(tǒng)中點擊“載入文檔”,加載需要診斷的電子病歷文檔。點擊“特征詞加載”,自動在后臺生成對應的醫(yī)學特征術語,再點擊“輔助診斷”根據(jù)這些醫(yī)學特征術語,使用分類模型該電子病歷文檔進行分類,并且把分類結(jié)果顯示在第一行,即“慢性阻塞性肺病急性發(fā)作”。最后,根據(jù)該電子病歷的醫(yī)學特征術語與已經(jīng)有明確診斷的且被作為標準對照的疾病標注電子病歷文檔做比較,按照相似度降序顯示出來,供臨床醫(yī)務人員參考。
4總結(jié)
由于電子病歷系統(tǒng)的特殊性,需要與其他各個系統(tǒng)做相應的連接,這就使得電子病歷復雜性較高,包括臨床路徑、患者的其他相關記錄(首頁、病程記錄、檢查檢驗結(jié)果、醫(yī)囑、手術記錄、護理記錄等),因此,電子病歷系統(tǒng)每天會產(chǎn)生大量的數(shù)據(jù),這些海量數(shù)據(jù)有很多都是不規(guī)范的自由文本輸入,包含的信息卻是很重要的,這就需要通過研究將重要的醫(yī)學特征抽取出來,并且將其規(guī)范化,最后結(jié)合分類模型達到臨床輔診、決策支持的目的。本系統(tǒng)的設計開發(fā),最終規(guī)范了電子病歷的書寫,可為臨床提供客觀、準確的數(shù)據(jù),進而達到輔助臨床進行診斷的功能。
參考文獻:
[1]梅文華,刁君,常奕,等.結(jié)構化電子病歷的應用[J].中國數(shù)字醫(yī)學,2016,11(3):22-25.
[2]朱彥斌.結(jié)構化電子病歷在臨床管理中的應用[J].中國醫(yī)藥導報,2015,12(35):161-164.
[3]宗慶成.統(tǒng)計自然與語言處理[M].北京:清華大學出版社,2008.
[4]朱咸軍,洪宇,黃雅琳,等.基于HMM的算法優(yōu)化在中文分詞中的應用[J].金陵科技學院學報,2019,35(3):1-7.
[5]黃昌寧.由字構詞——中文分詞新方法[C]//中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集.2006.
[6]劉博,杜建強,聶斌,等.基于二階HMM的中醫(yī)診斷古文詞性標注[J].計算機工程,2017,43(7):211-216.
[7]宓林暉,袁駿毅.基于CRF模型的臨床醫(yī)囑信息實體識別方法應用研究[J].計算機應用與軟件,2020,37(3):209-212.
[8]Zhang Y,Yang J.Chinese ner using lattice lstm[J].Preprint,2018(v1):1554-1564.
[9]黃春梅,王松磊.基于詞袋模型和TF-IDF的短文本分類研究[J].軟件工程,2020,23(3):1-3.
[10]吳凌芬,楊小淵,葉添杰,等.改進Jaro-Winkler算法在迎賓機器人語音交互中的應用[J].現(xiàn)代計算機(專業(yè)版),2015(8):8-13.
[11]陳宋.基于機器學習的醫(yī)學輔助診斷算法研究[D].福州大學,2018.
[12]陳欽界.基于機器學習的智能醫(yī)療診斷輔助方法研究[D].國防科學技術大學,2017.
收稿日期:2020-05-11;修回日期:2020-05-20
編輯/錢洪飛
作者簡介: 劉勇(1977.5-),男,江蘇鹽城人,碩士,工程師,主要從事機器學習、自然語言處理工作
通訊作者: 陳文生(1977.1-),男,河北黃驊人,碩士,館員,主要從事信息與信息系統(tǒng)管理工作