王嘯宇,郭代紅,徐元杰(解放軍總醫(yī)院藥品保障中心,北京 100853)
?
·藥學(xué)服務(wù)·
基于文本分類(lèi)技術(shù)的住院患者藥源性變態(tài)反應(yīng)自動(dòng)監(jiān)測(cè)模塊研究
王嘯宇,郭代紅,徐元杰(解放軍總醫(yī)院藥品保障中心,北京 100853)
[摘要]目的:利用醫(yī)療電子病歷中的文本信息開(kāi)展住院患者用藥安全性評(píng)價(jià),為住院患者ADR監(jiān)測(cè)提供新方法。方法:在已有的主動(dòng)監(jiān)測(cè)系統(tǒng)基礎(chǔ)上,設(shè)計(jì)、開(kāi)發(fā)基于文本分類(lèi)技術(shù)的住院患者藥源性變態(tài)反應(yīng)自動(dòng)監(jiān)測(cè)模塊,利用優(yōu)質(zhì)文本進(jìn)行分類(lèi)算法的機(jī)器學(xué)習(xí)。結(jié)果:完成包括事件配置器、特征詞集、自然語(yǔ)言處理器、文本分類(lèi)器、結(jié)果展示器5部分的主動(dòng)監(jiān)測(cè)模塊的開(kāi)發(fā);試用于頭孢哌酮舒巴坦用藥患者的主動(dòng)監(jiān)測(cè),結(jié)果顯示629例患者中出現(xiàn)變態(tài)反應(yīng)的陽(yáng)性預(yù)測(cè)值達(dá)到44.44% (4/9),其真實(shí)世界發(fā)生率0.64%,與說(shuō)明書(shū)中所列的發(fā)生率0.68%相近。結(jié)論:本研究建立了文本信息主動(dòng)監(jiān)測(cè)方法,陽(yáng)性預(yù)測(cè)值可通過(guò)特征詞集、分類(lèi)規(guī)則的深入研究加以改善。
[關(guān)鍵詞]藥品不良反應(yīng);醫(yī)療電子病歷;自然語(yǔ)言處理;文本分類(lèi)技術(shù)
藥品不良反應(yīng)(adverse drug reaction,ADR)監(jiān)測(cè)是藥品安全性監(jiān)測(cè)的主要手段,是藥品上市后評(píng)價(jià)的重要組成部分。隨著藥品風(fēng)險(xiǎn)研究領(lǐng)域中ADR主動(dòng)監(jiān)測(cè)工作的日趨重要,計(jì)算機(jī)ADR自動(dòng)監(jiān)測(cè)系統(tǒng)的研究也日漸深入。我們采觸發(fā)器技術(shù)研發(fā)的“醫(yī)療機(jī)構(gòu)ADE主動(dòng)監(jiān)測(cè)與智能評(píng)估警示系統(tǒng)”,能夠監(jiān)控患者檢驗(yàn)指標(biāo)的異常變化,對(duì)血小板減少、肝腎功能異常等多種藥源性疾病實(shí)施主動(dòng)監(jiān)測(cè),并已初步形成了國(guó)內(nèi)首個(gè)藥品安全信息化主動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)[1-2]。但醫(yī)療電子病歷中包含有患者在院治療期間的全部醫(yī)療數(shù)據(jù),且其中大部分信息為采醫(yī)療自然語(yǔ)言記錄的文本,由于缺少高效的計(jì)算機(jī)自動(dòng)監(jiān)測(cè)系統(tǒng),無(wú)法精準(zhǔn)的篩選這些文本中包含的大量ADR相關(guān)信息。因此本研究采文本分類(lèi)技術(shù)開(kāi)發(fā)醫(yī)療電子病歷文本信息監(jiān)測(cè)模塊,并通過(guò)機(jī)器學(xué)習(xí)獲取較高的陽(yáng)性報(bào)警率,填補(bǔ)自動(dòng)監(jiān)測(cè)系統(tǒng)在該領(lǐng)域的空白,為臨床藥師更加精準(zhǔn)的開(kāi)展藥學(xué)監(jiān)護(hù)工作提供有效支撐工具,保障患者的藥安全。
醫(yī)療電子病歷文本信息監(jiān)測(cè)模塊的功能需求是能夠通過(guò)自然語(yǔ)言處理手段挖掘醫(yī)療電子病歷中的文本信息,以文本自動(dòng)分類(lèi)技術(shù)判定患者是否發(fā)生ADR,自動(dòng)監(jiān)測(cè)院內(nèi)目標(biāo)藥物導(dǎo)致變態(tài)反應(yīng)的發(fā)生情況。為實(shí)現(xiàn)這一目的,模塊需具備劃定監(jiān)測(cè)范圍、信息識(shí)別、信息收集、文本性質(zhì)判定、結(jié)果呈現(xiàn)等功能。因此,應(yīng)包括以下幾個(gè)部分:
1.1事件配置器
1.2特征詞集
特征詞集是在藥源性變態(tài)反應(yīng)的診斷、治療過(guò)程中醫(yī)療電子病歷記錄內(nèi)可能出現(xiàn)的專(zhuān)業(yè)詞語(yǔ)的集合。特征詞集是文本分類(lèi)的依據(jù),應(yīng)能夠全面地描述ADR,涵蓋目標(biāo)ADR相關(guān)的專(zhuān)業(yè)詞、同義詞、特殊詞;為兼顧系統(tǒng)運(yùn)行效率,特征詞集不宜過(guò)大,要求每個(gè)特征詞都具有代表性和特異性。因此,特征詞集的建立是本課題的研究重點(diǎn)之一。
1.3自然語(yǔ)言處理器
自然語(yǔ)言處理是基于文本信息的自動(dòng)監(jiān)測(cè)的基礎(chǔ),也是研究的難點(diǎn)。合格的處理器應(yīng)具備3種基本能力:①目標(biāo)藥物使人群的查詢(xún);②利病人特征編碼如住院號(hào)、病歷號(hào)等,通過(guò)電子病歷系統(tǒng)接口取得患者病歷資料;③結(jié)合特征詞集提取患者與目標(biāo)ADR有關(guān)的文本信息及完整的藥物治療記錄,并能按照標(biāo)準(zhǔn)化格式儲(chǔ)存、傳遞上述數(shù)據(jù),便于數(shù)據(jù)的進(jìn)一步利。
1.4文本分類(lèi)器
1.5結(jié)果展示器
監(jiān)測(cè)的結(jié)果交由結(jié)果展示器呈現(xiàn),包括報(bào)警、正常、排除三類(lèi)。報(bào)警結(jié)果為自動(dòng)監(jiān)測(cè)系統(tǒng)判斷為陽(yáng)性的病例,正常為陰性病例,排除結(jié)果為按照監(jiān)測(cè)計(jì)劃的納入排除標(biāo)準(zhǔn)排除的相關(guān)病例。在結(jié)果展示器中可查看由患者電子病歷中提取的文本數(shù)據(jù)、特征詞集記錄、藥物治療記錄等信息,由專(zhuān)業(yè)人員分析、評(píng)估自動(dòng)監(jiān)測(cè)的結(jié)果。
在這種模塊構(gòu)架下的自動(dòng)監(jiān)測(cè)一般流程為:在事件配置器中設(shè)定自動(dòng)監(jiān)測(cè)計(jì)劃,啟動(dòng)監(jiān)測(cè)任務(wù),而后配置器在HIS系統(tǒng)中調(diào)取計(jì)劃所需數(shù)據(jù),傳遞給自然語(yǔ)言處理器;自然語(yǔ)言處理器結(jié)合特征詞表,提取有意義的數(shù)據(jù),于文本分類(lèi);在文本分類(lèi)器中,處理上一階段產(chǎn)生的數(shù)據(jù),判斷文本性質(zhì),完成分類(lèi),提交到結(jié)果展示器,供藥師人工甄別。如圖1。
圖1 自動(dòng)監(jiān)測(cè)模塊運(yùn)行流程圖Fig 1 Program flow chart of the automatic monitoring module
2.1建立特征詞集
在本次特征詞集建立過(guò)程中,我們深入研究了變態(tài)反應(yīng)這一ADR事件在臨床醫(yī)療文書(shū)中的表達(dá)。首先,研讀《過(guò)敏性疾病診療指南》等5本藥源性變態(tài)反應(yīng)或皮膚疾病專(zhuān)著,劃定了一個(gè)包括43個(gè)詞語(yǔ)的待選范圍,入選的均為藥源性變態(tài)反應(yīng)臨床表現(xiàn)相關(guān)的專(zhuān)術(shù)語(yǔ);而后利院內(nèi)已確診的藥源性變態(tài)反應(yīng)患者醫(yī)療電子病歷,對(duì)照備選特征詞進(jìn)行病案研究,統(tǒng)計(jì)特征詞在陽(yáng)性病例中出現(xiàn)的詞頻,分析詞語(yǔ)與ADR事件的關(guān)聯(lián)性,確定特征詞集。同時(shí)收集病案中出現(xiàn)的特殊詞、非標(biāo)準(zhǔn)詞,以擴(kuò)充詞量,提高特征詞集的特異性。最后確定的藥源性變態(tài)反應(yīng)特征詞集包括臨床表現(xiàn)、解救措施、相關(guān)排除等多個(gè)維度,共44個(gè)特征詞。
2.2自然語(yǔ)言處理方法探索
自然語(yǔ)言處理的難點(diǎn)之一在于詞語(yǔ)的正確提取,如“皮疹”和“疹”都是模塊中的特征詞,但在詞語(yǔ)提取時(shí),將“皮疹”中的“疹”作為獨(dú)立的詞語(yǔ)提取出來(lái),則會(huì)產(chǎn)生詞語(yǔ)重復(fù)提取的情況;醫(yī)療文書(shū)的語(yǔ)義分析也存在難度,例如“皮疹”與“無(wú)皮疹”、“未見(jiàn)皮疹”語(yǔ)義完全相反,如果不能正確識(shí)別,則會(huì)產(chǎn)生極大的歧義。對(duì)于上述問(wèn)題,我們將中文分詞技術(shù)和文本關(guān)鍵詞檢索與語(yǔ)言邏輯處理相結(jié)合,分詞得到的結(jié)果需通過(guò)邏輯檢驗(yàn)才予以采信、保留,解決了以上問(wèn)題。
另外,自然語(yǔ)言處理對(duì)計(jì)算機(jī)性能有很高的要求,在大規(guī)模處理文本時(shí),會(huì)對(duì)服務(wù)器帶來(lái)極大的壓力;我們以時(shí)間為標(biāo)志增量提取電子病歷,避免了重復(fù)讀取病歷全文,有效地緩解了這一壓力。
2.3文本分類(lèi)方法的選擇
中文文本分類(lèi)研究中比較成熟的技術(shù)主要分為兩類(lèi)[6],一類(lèi)是根據(jù)特征詞在各類(lèi)文本中分布概率來(lái)進(jìn)行文本分類(lèi)的,比較具有代表性的方法為樸素貝葉斯法;另一類(lèi)是根據(jù)特征詞間存在的具有方向性的聯(lián)系對(duì)文本分類(lèi),如:決策樹(shù)法。本研究采樸素貝葉斯法,在機(jī)器學(xué)習(xí)后能夠得到每個(gè)特征詞與文本性質(zhì)間的邏輯關(guān)系,即在是否發(fā)生了ADR兩類(lèi)文檔中的分布概率,在分類(lèi)過(guò)程中,計(jì)算每個(gè)病歷的總分布概率,以達(dá)到分類(lèi)的目的。采樸素貝葉斯法的優(yōu)勢(shì)是:①分類(lèi)結(jié)果準(zhǔn)確,系統(tǒng)調(diào)試難度??;②特征詞間不存在關(guān)聯(lián)性,便于調(diào)整特征詞集,適于系統(tǒng)初期開(kāi)發(fā);③算法易行,系統(tǒng)運(yùn)算壓力小;④能夠進(jìn)行自主學(xué)習(xí)。使決策樹(shù)法亦能達(dá)到系統(tǒng)所需要的分類(lèi)性能,但決策樹(shù)法依賴(lài)于特征詞間的相互關(guān)系,不利于特征詞集的調(diào)整,而且其自主學(xué)習(xí)機(jī)制搭建復(fù)雜,應(yīng)難度大,并不適于系統(tǒng)初期開(kāi)發(fā),在特征詞集調(diào)整完畢后,可添加為比較算法,提升系統(tǒng)效率。
2.4分類(lèi)算法的機(jī)器學(xué)習(xí)
在基于樸素貝葉斯法的文本分類(lèi)器構(gòu)建完成后,仍需經(jīng)過(guò)機(jī)器學(xué)習(xí)方能使獲得特征詞分布概率形成文本分類(lèi)的能力[6]。機(jī)器學(xué)習(xí)是指針對(duì)算法,通過(guò)統(tǒng)計(jì)分析分類(lèi)確定的優(yōu)質(zhì)文本中特征詞的分布情況,計(jì)算特征詞在各分類(lèi)中的概率,以開(kāi)展真實(shí)樣本分析。在機(jī)器學(xué)習(xí)的過(guò)程中,我們發(fā)揮醫(yī)療電子病歷資源豐富的優(yōu)勢(shì),通過(guò)人工篩選的方式在HIS系統(tǒng)中取得陽(yáng)性樣本132例,陰性樣本68例,完成了系統(tǒng)建設(shè)階段的機(jī)器學(xué)習(xí);并通過(guò)程序設(shè)定,將每次自動(dòng)監(jiān)測(cè)任務(wù)的結(jié)果返回系統(tǒng),進(jìn)一步調(diào)整特征詞的分布概率,從而完成運(yùn)行后的機(jī)器學(xué)習(xí),在使過(guò)程中自動(dòng)優(yōu)化軟件性能。
3.1模塊開(kāi)發(fā)
本系統(tǒng)模塊開(kāi)發(fā)工具為Microsoft Visual Studio 2012,其中服務(wù)器端配置為:CPU 2.0 GHz,內(nèi)存4 G,硬盤(pán)200 G;操作系統(tǒng)兼容Win2003 Server/Win2008 Server;數(shù)據(jù)庫(kù)采Microsoft SQL Server 2008。客戶(hù)端配置:CPU 2.0 GHz,內(nèi)存2 G,硬盤(pán)空間20 G;操作系統(tǒng)兼容Win2003/XP/Win7/Win10等,IE6.0及以上環(huán)境。
3.2模塊內(nèi)容
按照模塊設(shè)計(jì)思路,完成了文本監(jiān)測(cè)模塊的初步開(kāi)發(fā)工作。模塊共包括事件配置器、特征詞集、自然語(yǔ)言處理器、文本分類(lèi)器、結(jié)果展示器5部分,其中事件配置器、特征詞集、結(jié)果展示器有可操作界面,自然語(yǔ)言處理器和文本分類(lèi)器為后臺(tái)運(yùn)行。見(jiàn)圖2~4。
圖2 事件配置器Fig 2 The event configurator
圖3 事件配置器及特征詞庫(kù)Fig 3 The event configurator and the representative feature set
3.3實(shí)際應(yīng)用效果
模塊的監(jiān)測(cè)目標(biāo)是醫(yī)療過(guò)程中產(chǎn)生的患者醫(yī)療文本數(shù)據(jù),因此其報(bào)警提示的ADR信號(hào)已經(jīng)被臨床醫(yī)生發(fā)現(xiàn),并做出客觀描述,具有一定的滯后性,但對(duì)于及時(shí)補(bǔ)充漏報(bào)ADR并分析其發(fā)生原因具有重要的實(shí)際意義,能夠減輕臨床藥師的工作負(fù)擔(dān),提高臨床藥學(xué)干預(yù)的效率和準(zhǔn)確性,增加患者藥安全性。
經(jīng)過(guò)測(cè)試,本次研究開(kāi)發(fā)的自動(dòng)監(jiān)測(cè)模塊陽(yáng)性率為44.44%,低于已有模塊的平均水平[7],除了醫(yī)生病案書(shū)寫(xiě)的規(guī)范性外,還可能與以下3個(gè)因素相關(guān):①測(cè)試覆蓋的患者范圍窄,ADR發(fā)生率低,陽(yáng)性病例數(shù)少,監(jiān)測(cè)結(jié)果受誤差影響較大;②特征詞集中,存在1個(gè)或多個(gè)特征詞的特異性不強(qiáng),對(duì)主動(dòng)監(jiān)測(cè)結(jié)果造成干擾,致使結(jié)果陽(yáng)性率較低;③特征詞集所包含的詞語(yǔ)間存在一定的聯(lián)系,而樸素貝葉斯法未能將這些聯(lián)系納入考察范圍,使文本中蘊(yùn)含的部分信息被忽略,影響自動(dòng)監(jiān)測(cè)模塊性能未能達(dá)到預(yù)期的目標(biāo)。
針對(duì)上述可能的影響因素,我們將繼續(xù)展開(kāi)以下研究:①進(jìn)一步擴(kuò)大使范圍,增加樣本量,減少隨機(jī)誤差對(duì)實(shí)驗(yàn)結(jié)果的影響;②深化特征詞集研究,對(duì)再次特征詞與ADR之間的聯(lián)系,篩選可能存在干擾的詞語(yǔ),同時(shí)在擴(kuò)大試范圍的基礎(chǔ)上,加大機(jī)器學(xué)習(xí)的強(qiáng)度,得到更加準(zhǔn)確的特征詞分布概率;③文本分類(lèi)算法由樸素貝葉斯調(diào)整為貝葉斯網(wǎng)絡(luò),將特征詞間的相互聯(lián)系納入到文本性質(zhì)考察中來(lái),更全面地分析文本中的信息。
圖4 結(jié)果展示器Fig 4 The result display unit
[參考文獻(xiàn)]
[1] 郭代紅,陳超,馬亮,等.5所醫(yī)院住院患者ADE警示系統(tǒng)主動(dòng)監(jiān)測(cè)數(shù)據(jù)分析與評(píng)價(jià)[J].中國(guó)藥物應(yīng)與監(jiān)測(cè),2014,11 (6):368-371.
[2] 陳超,郭代紅,薛萬(wàn)國(guó),等.住院患者藥品不良事件主動(dòng)監(jiān)測(cè)與評(píng)估警示系統(tǒng)的研發(fā)[J].中國(guó)藥物警戒,2013,10(7):411-414,418.
[3] 呂婷,姜友好.文本挖掘在生物醫(yī)學(xué)領(lǐng)域中的應(yīng)及其系統(tǒng)工具[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2010,19(4):56-64.
[4] 耿魁魁,劉圣,沈愛(ài)宗,等.醫(yī)院信息系統(tǒng)中藥品不良反應(yīng)主動(dòng)監(jiān)測(cè)系統(tǒng)的構(gòu)建[J].中國(guó)醫(yī)院藥學(xué)雜志,2012,32(14):1147-1149.
[5] 余凱,賈磊,陳雨強(qiáng),等.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799-1804.
[6] 蘇金樹(shù),張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006,17(9):1848-1859.
[7] 裴斐,陳超,郭代紅.阿托伐他汀致轉(zhuǎn)氨酶異常升高的主動(dòng)監(jiān)測(cè)研究[J].中國(guó)藥物應(yīng)與監(jiān)測(cè),2014,11(1):31-33.
Study on automatic monitoring module of inpatient drug-induced allergy based on text categorization technology
WANG Xiao-yu, GUO Dai-hong, XU Yuan-jie(Department of Pharmaceutical Care, PLA General Hospital, Beijing 100853, China)
[ABSTRACT]Objective: To evaluate drug safety of inpatients by text information in electronic healthcare records, and provide the new method for inpatients ADR monitoring. Methods: On the basis of active monitoring system, automatic monitoring module of inpatient drug-induced allergy based on text categorization technology was designed and developed, and the machine learning of categorization algorithm was carried out through qualifed text. Results: The active monitoring module consists of the event confgurator,the representative feature set,the natural language processors,the text categorizer and the result display unit. The module had been tested, and the positive predictive value was 44.44% (4/9) in the 629 users of cefoperazone and sulbactam. The real world incidence rate was 0.64%, which was similar with the incidence rate (0.68%) in the drug directions. Conclusion: Text information active monitoring method had been built and the positive predictive value could be improved by further study of the representative feature set and categorization rules.
[KEY WORDS]Adverse drug reaction; Electronic healthcare record; Natural language processing; Text categorization technology
[中圖分類(lèi)號(hào)]R95
[文獻(xiàn)標(biāo)識(shí)碼]A
[文章編號(hào)]1672–8157(2016)02–0117–04
[基金項(xiàng)目]2014年全軍后勤科研重點(diǎn)項(xiàng)目(BWS14R039)
[通信作者]郭代紅,女,主任藥師,碩士生導(dǎo)師,主要從事臨床藥學(xué)及藥物警戒研究。E-mail:guodh301@163.com
[作者簡(jiǎn)介]王嘯宇,男,藥師,碩士研究生,主要從事臨床藥學(xué)研究。E-mail:metallica365@126.com
收稿日期:(2016-01-20 修回日期:2016-02-25)