摘要:
當(dāng)前國內(nèi)醫(yī)療機(jī)構(gòu)疾病編碼主要采用國際疾病分類ICD10標(biāo)準(zhǔn)并由人工完成,人工工作量大、時間成本高。提出了一種基于組合語義相似度技術(shù)進(jìn)行疾病術(shù)語自動編碼的方法,其基于領(lǐng)域知識庫結(jié)合分詞、實體識別和詞向量表示技術(shù)進(jìn)行術(shù)語相似度計算。通過在婦產(chǎn)科疾病中的應(yīng)用表明,該方法在術(shù)語自動編碼精度能達(dá)到80%以上,可以有效輔助臨床醫(yī)生書寫診斷編碼,減少病案科審核工作量,提升總體工作效率。
關(guān)鍵詞:
自動編碼; 語義相似度; 實體識別; 詞向量
中圖分類號: TP 311
文獻(xiàn)標(biāo)志碼: A
Automatic Coding Method for Disease Term Based on
Combined Semantic Similarity Calculation
HUANG Jiajun
(Information Department, Shanghai Changning Maternity & Infant Health Hospital, Shanghai 200050, China)
Abstract:
Currently, the national medical institutions mainly adopt the ICD10 standard for the disease code,and it iscompleted manually. The large amount of manual work and time cost are the main problems that we are facing. This paper proposes an automatic coding disease terms methodbased on domain knowledge, entity recognition and Word2vec technology for term similarity calculation. The application in the digestive diseases shows that the method can achieve more than 80% accuracy in the term automatic coding, which can effectively assist the clinician to write the diagnosis code, reduce the workload of the medical record review, and improve the overall work efficiency.
Key words:
automatic encoding; semantic similarity; entity identification; word embedding
0引言
近年來,隨著醫(yī)療信息化程度不斷加深以及國家衛(wèi)計委對于全國醫(yī)療術(shù)語統(tǒng)一規(guī)范化的持續(xù)推進(jìn),各醫(yī)療機(jī)構(gòu)對于醫(yī)生病歷書寫規(guī)范化要求進(jìn)一步加強(qiáng)。根據(jù)衛(wèi)生部門要求當(dāng)前醫(yī)療機(jī)構(gòu)對于臨床電子病歷信息系統(tǒng)(clinical electronic medical recordinformation system,CEMRIS)中疾病的診斷必須進(jìn)行術(shù)語編碼。電子病歷 (electronic medical record,EMR)[12]作為病人入院就診信息的基本載體,記錄了大量有意義的信息,而這些病歷信息大多以自由文本形式存在,很難直接分析利用,并且由于醫(yī)生個人書寫習(xí)慣以及術(shù)語表達(dá)多樣性的因素,導(dǎo)致當(dāng)前電子病歷書寫很難規(guī)范統(tǒng)一,通常存在縮寫,異型,拼寫錯誤或采用院內(nèi)術(shù)語標(biāo)準(zhǔn)等。充分挖掘這些非結(jié)構(gòu)化的電子病歷信息并實現(xiàn)術(shù)語統(tǒng)一編碼,尤其是疾病術(shù)語編碼,對于當(dāng)前研究的疾病輔助診療、科研檢索、疾病分組(Diagnosis Related Groups, DRGS)以及智能醫(yī)??刭M的研究具有重要的現(xiàn)實意義。
當(dāng)前國內(nèi)的疾病診斷術(shù)語編碼主要采用的是ICD10疾病編碼的標(biāo)準(zhǔn)體系(國際疾病分類,第10次修訂本),其是一套由世界衛(wèi)生組織(WHO)制定的國際統(tǒng)一系統(tǒng)組織的關(guān)于疾病分類的術(shù)語標(biāo)準(zhǔn)集,它根據(jù)疾病的病因、病理、臨床表現(xiàn)和解剖位置等特性,將疾病分門別類,使其成為一個有序的組合,并用編碼的方法來表示的系統(tǒng)[3]。由于大多數(shù)臨床醫(yī)師對于該標(biāo)準(zhǔn)不是很了解,對于疾病的診斷書寫較為隨意,這樣就需要專業(yè)的編碼人員對臨床醫(yī)生的診斷進(jìn)行二次編碼,而專業(yè)編碼人員必須了解編碼規(guī)則和相關(guān)專業(yè)知識,總體學(xué)習(xí)成本較高,并且人工編碼總體效率低下[4]。因此研究一種自動疾病術(shù)語匹配標(biāo)準(zhǔn)ICD10編碼技術(shù)對于推進(jìn)醫(yī)療信息標(biāo)準(zhǔn)化建設(shè)以及編碼人員的工作量,提高工作效率具有重要的現(xiàn)實意義。
1當(dāng)前現(xiàn)狀
針對術(shù)語診斷編碼問題,已有大量的醫(yī)生和技術(shù)人員進(jìn)行了研究和探索,目前主要分為三類方法,即基于人工手動結(jié)合規(guī)則匹配進(jìn)行編碼的方法、基于自然語言的有監(jiān)督學(xué)習(xí)自動編碼技術(shù)和無監(jiān)督學(xué)習(xí)自動編碼技術(shù)。從當(dāng)前結(jié)果看,三類方法各有所長和不足,人工加規(guī)則的方法匹配精度較高,但是效率低下,并且該方法無泛化性能,無法滿足實時性需求。無監(jiān)督編碼存在匹配精度不高,編碼人員校驗工作量大的問題,但是無需前期人工標(biāo)注語料,該方法是當(dāng)前需要重點研究和突破的領(lǐng)域。監(jiān)督學(xué)習(xí)編碼算法匹配算法則是當(dāng)前主流的應(yīng)用方法,從目前看,其總體性能和精度表現(xiàn)優(yōu)于前兩種方法。
文章在基于前人的研究基礎(chǔ)上,提出了一種組合語義相似度的疾病術(shù)語自動編碼技術(shù),該方法針對現(xiàn)有術(shù)語匹配算法的優(yōu)缺點進(jìn)行改進(jìn)組合,結(jié)合語義表示、分詞和實體識別技術(shù)進(jìn)行語義相似度計算,能夠針對醫(yī)生書寫的疾病診斷術(shù)語快速生成其對應(yīng)的標(biāo)準(zhǔn)ICD10術(shù)語及編碼。
2方法實現(xiàn)
組合語義相似度的疾病術(shù)語自動編碼技術(shù)主要包括術(shù)語拆分、術(shù)語識別和術(shù)語相似度計算三項任務(wù)。其中術(shù)語拆分即,對于疾病中的診斷術(shù)語進(jìn)行分詞,生成最小粒度的術(shù)語;術(shù)語識別則是在第一部分拆分的基礎(chǔ)上識別小粒度的術(shù)語實體類型;術(shù)語相似度計算則是綜合評估原詞各部分與標(biāo)準(zhǔn)術(shù)語集目標(biāo)術(shù)語相似度并根據(jù)歷史數(shù)據(jù)生成各部分權(quán)重從而計算原詞與標(biāo)準(zhǔn)術(shù)語詞相似度[5]??傮w實現(xiàn)方法如圖1所示。
ICD10標(biāo)準(zhǔn)術(shù)語集Similarity=Softmax(wordj)wordj=∑wi*parti
2.1診斷疾病術(shù)語拆分與實體識別
從ICD10的編碼規(guī)范可知,當(dāng)前診斷術(shù)語均由其更小粒度的“細(xì)目”構(gòu)成,如“乳腺纖維囊性乳腺病”可以由“部位”+“性質(zhì)”+“疾病”構(gòu)成,即為“乳腺/部位”+“纖維囊性/性質(zhì)”+“乳腺病/疾病”。又如ICD10中對疾病不同程度分別有不同的編碼,N81.251為Ⅰ度子宮脫垂,N81.252為Ⅱ度子宮脫垂,N81.351為Ⅲ度子宮脫垂?;贗CD10編碼的特點,我們對現(xiàn)有疾病按照發(fā)生方位、部位、程度、性質(zhì)等屬性信息以及核心疾病實體進(jìn)行拆分,將一個完整疾病看作“核心實體”+“屬性信息”的組合。
實現(xiàn)術(shù)語小粒度的切分可由采用基于統(tǒng)計模型的方法和基于領(lǐng)域詞庫的方法+統(tǒng)計模型方法,其中第一種方法當(dāng)前主流技術(shù)為基于條件隨機(jī)場(Conditional Random Filed, CRF) +詞性特征或基于字/詞語向量BI_LSTM+CRF的深度模型的技術(shù),第二種方法則是采用領(lǐng)域詞庫結(jié)合隱馬爾科夫模型(Hidden Markov Model, HMM)進(jìn)行未登錄詞的識別。由于我們前期整理了部位、方位、程度等屬性詞庫以及核心疾病術(shù)語詞庫,故我們采用了第二種技術(shù)方案進(jìn)行術(shù)語的識別。實驗中,將該部分領(lǐng)域詞庫結(jié)合自主研發(fā)的自然語言處理組件中進(jìn)行細(xì)粒度術(shù)語切分和實體識別功能,總體準(zhǔn)確率97%以上。
2.2語義相似度計算
文章提出的語義相似度計算包括基于字符串的相似度計算s1、基于細(xì)粒度實體屬性相似度計算s2以及基于詞向量語義相似度的相似度計算s3,根據(jù)三部分的相似度計算分別給出對應(yīng)權(quán)重Wi,并給出源詞語與標(biāo)準(zhǔn)ICD10疾病術(shù)語的相似度,并將最高相似度的結(jié)果作為源詞語的最終術(shù)語編碼。組合語義相似度計算過程如圖2所示。
2.2.1基于字符串相似度計算
字符串相似度的計算方法已有較多研究成果,現(xiàn)有算法主要考慮字符匹配個數(shù),字符順序以及字符距離等信息,文章采用了編輯距離jaroDistance(JD)和JaroWinklerDistance(JWD)字符串相似度的度量方法。前者又稱為Levenshtein距離,是指兩個字串之間,由一個轉(zhuǎn)成另一個所需的最少編輯操作次數(shù),如式(1)。JWD為JD的改進(jìn),其通過設(shè)置preLen的開頭匹配來增加匹配置信度[6],
如式(1)、式(2)。
式(1)中m是匹配數(shù)目(保證順序相同),|s|為字符串長度,t是換位數(shù)目,
式(2)中JD(s1,s2)是兩個字符串的JD,prelen是前綴相同的長度,但是規(guī)定最大為4,
prescale則是一個恒定調(diào)整分?jǐn)?shù)的比例因子,規(guī)定不能超過0.25,而Winkler將這個常數(shù)定義為0.1。
對于給定的兩個字符串,此處如術(shù)語s1“乳腺纖維腺瘤”與s2“乳腺良性腫瘤”、s3“乳腺炎”、s4“乳腺腫瘤”,通過計算JWD(s1,s2)、
JWD(s1,s3)和JWD(s1,s4)可以給出相似度分別為0.85和0.6和0.73。同樣的,還可以計算“乳腺纖維腺瘤”與“乳腺纖維瘤”的相似度為0.98。觀察發(fā)現(xiàn)該距離度量方法能夠從字面度量短語相似性,但是對于異形詞以及形態(tài)極度相似的術(shù)語沒有較好的識別能力。
2.2.2基于遠(yuǎn)程監(jiān)督的相似度評估
該方法是為了解決術(shù)語編碼中出現(xiàn)的異形詞語而剔除的解決方法,其核心思想是通過小粒度同義詞轉(zhuǎn)化實現(xiàn)大粒度術(shù)語的相似度計算。常見的同義異形詞語如“卵巢瘤樣病變”與“卵巢囊腫”,可以直接通過遠(yuǎn)程監(jiān)督[7]方法可以實現(xiàn)小粒度實體術(shù)語對齊。此處遠(yuǎn)程監(jiān)督算法主要通過利用開源醫(yī)療術(shù)語集合實現(xiàn)術(shù)語匹配[89],如百度百科中的醫(yī)療術(shù)語集合就是一個非常豐富的外源同義詞庫。結(jié)合小粒度分詞和實體識別以及遠(yuǎn)程監(jiān)督能夠很大程度識別異性詞語的識別問題。
2.2.3詞向量語義相似度評估
詞向量語義相似度是一種從詞語語義層面評估詞語相似度的方法,其通過詞向量化表示術(shù)語語義,并通過向量相似度計算兩個術(shù)語間的關(guān)系。目前主要采用Google開源的Word2vec進(jìn)行詞向量的表示,代表性的算法分為CBOW(詞袋模型)[10]和
SkipGram[11]兩種,其通過對文本內(nèi)容的處理簡化為K維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度。因此, Word2vec輸出的詞向量可以被用來作查找同義詞的任務(wù)。
對于訓(xùn)練完成的詞語詞向量表示,文章采用余弦相似度來度量詞語相似度,相似度處于0-1之間,值越大代筆相似度越小,值越小則相似度越高。
其中,vs1表示s1的詞向量表示。如式(3)。
2.3語義相似度融合
針對上述3中相似度度量方法,實驗采用線性組合方法進(jìn)行融合得到源術(shù)語與每個ICD10術(shù)語的相似度,通過softmax將最終輸出相似度歸一到[0,1]之間,最終,選出相似度最高的ICD10術(shù)語為源術(shù)語的編碼。如圖2所示。
3實驗結(jié)果分析
實驗數(shù)據(jù)來源于長寧區(qū)婦幼保健院婦產(chǎn)科病歷文書、病案首頁和門診診斷數(shù)據(jù),其中病歷文書診斷抽取通過自然語言處理工具進(jìn)行提取,將三部分診斷疾病術(shù)語整合,共得230 840條數(shù)據(jù),剔除重復(fù)診斷數(shù)據(jù)后11 300條。實驗中,ICD10選用國際疾病分類標(biāo)準(zhǔn)編碼(國標(biāo)版)。實驗過程按照第2章中所描述的網(wǎng)絡(luò)搭建方式,先對疾病中的診斷術(shù)語采用領(lǐng)域詞庫結(jié)合隱馬爾科夫HMM模型進(jìn)行細(xì)粒度術(shù)語切分和實體識別,再利用同義詞詞庫進(jìn)行同義詞轉(zhuǎn)換,最后分別按照三種語義相似度計算方式(基于字符串的相似度計算s1、基于細(xì)粒度實體屬性相似度計算s2以及基于詞向量語義相似度的相似度計算s3)進(jìn)行概率相似度計算,取出5 000個診斷結(jié)果進(jìn)行人為校驗評估匹配結(jié)果。具體結(jié)果如表1,表2所示。
表1為使用組合語義相似度進(jìn)行疾病術(shù)語編碼的方法,匹配結(jié)果分為同位匹配和上下位匹配兩種形式,并均算入匹配正確序列。其中,同位匹配是指術(shù)語能夠完全匹配,即,同義詞的概念,如“子宮肌瘤”,匹配“子宮平滑肌瘤”。而上位匹配是指術(shù)語在沒有找到其同義詞的情況下匹配父類節(jié)點的情形,如“左乳腺浸潤性導(dǎo)管癌II級(T2N2M0)”無法在ICD10中查詢到其同位詞語細(xì)分,故將其歸為“乳腺惡性腫瘤”大類,此時認(rèn)為此種匹配正確。表2從總匹配率上對比基于字符串的相似度s1、基于細(xì)粒度實體屬性相似度s2以及基于詞向量語義相似度的相似度s3以及組合語義相似度s進(jìn)行疾病術(shù)語自動編碼的方法。
從實驗結(jié)果可以看到基于組合語義相似度進(jìn)行術(shù)語自動編碼的方法由于其他三種相似度計算方法。對于組合語義相似度計算,在相似度概率為0.9及以上時,同位詞語匹配量遠(yuǎn)大于上位詞匹配,可信度較高,在0.8以上時同位詞識別數(shù)量明顯小于上位詞,并且匹配精度隨匹配相似度概率逐漸降低。從同位詞與上位詞占比來看,上位詞總體占比較大,說明有較多診斷術(shù)語并沒有找到完全匹配的同義詞語。
4總結(jié)
文章提出了一種基于組合語義進(jìn)行相似度計算的疾病術(shù)語自動編碼技術(shù)方案,技術(shù)能夠?qū)崟r快速實現(xiàn)疾病術(shù)語的自動高效編碼。該研究成果可以應(yīng)用于臨床醫(yī)生電子病歷輔助書寫以及病案科歷史病歷診斷編碼工作。從實驗結(jié)果可以看到較多術(shù)語尚未找到同位詞語,故后續(xù)需要通過校驗拓展同義詞術(shù)語庫以及ICD10診斷編碼,從而使更多診斷術(shù)語能夠歸一到同位詞標(biāo)準(zhǔn)編碼。
參考文獻(xiàn)
[1]Hornberger J. Electronic Health Records: a guide for clinicians and administrators[J]. JAMA, 2009, 301 (1): 110.
[2]Meystre S M, Savova G K, KipperSchuler K C, et al. Extracting Information from Textual Documents in the Electronic Health Record: a review of recent research[J]. Yearbook of Medical Informatics, 2008(35): 128144.
[3]Grider D J. Principles of ICD10CM Coding Third Edition[M]. American Medical Association Press. United States of America, 2014.
[4]Pereria S, Neveol A, Massari P, et al. Construction of a Semiautomated ICD10 Coding Help System to Optimize Medical and Economic Coding[J]. MIE, 2006: 845850.
[5]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[C].第三屆漢語詞匯語義學(xué)研討會論文集.臺北,200208:5976.
[6]Cohen W W, Ravikumar P,F(xiàn)ienberg S E. A comparison of string distance metrics for namematching tasks[J]. KDD Workshop on Data Cleaning and Object Consolidation,2003(3): 7380.
[7]Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Association for Computational Linguistics, 2009(2):10031011.
[8]白龍,靳小龍,席鵬弼,等.基于遠(yuǎn)程監(jiān)督的關(guān)系抽取研究綜述[J]. 中文信息學(xué)報, 2019, 33(10): 1017.
[9]蔡強(qiáng),郝佳云,曹健,等.采用多尺度注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取[J].中文信息學(xué)報, 2018, 32(1): 96101.
[10]姜霖,王東波.采用連續(xù)詞袋模型(CBOW)的領(lǐng)域術(shù)語自動抽取研究[J].現(xiàn)代圖書情報技術(shù), 2016(2):911.
[11]黃艷群,王妮,劉紅蕾,等.基于Skipgram詞嵌入算法的結(jié)構(gòu)化患者特征表示方法研究[J].北京生物醫(yī)學(xué)工程, 2019, 38(6): 568574.
(收稿日期: 2020.06.27)
作者簡介:
黃嘉俊(1982),男,碩士,高級工程師,研究方向:醫(yī)院信息管理、云計算等。
文章編號:1007757X(2020)08015704