劉世雄 熊旺平
摘? 要:為降低藥物不良事件的發(fā)生率,保障中成藥臨床合理用藥水平。文章基于機器閱讀理解和預訓練模型的命名實體識別方法提取處方關鍵信息,采用雙向LSTM和注意力機制的關系抽取模型建立知識圖譜規(guī)則庫,在此基礎上形成中成藥用藥監(jiān)測系統。所構建的實體識別和關系抽取模型在各自數據集上,F1值分別達到88.89%和77.96%,相較于關系型數據庫,知識圖譜系統的監(jiān)測準確率提升12%。評估結果表明,該系統能夠快速響應,有效提高處方監(jiān)測效率,對保證患者用藥安全具有重要意義。
關鍵詞:中成藥;安全用藥;知識圖譜;監(jiān)測系統;關系抽取
中圖分類號:TP39? 文獻標識碼:A? 文章編號:2096-4706(2023)13-0145-05
Design and Implementation of Drug Monitoring System for Chinese Patent Medicine Based on Knowledge Graph
LIU Shixiong, XIONG Wangping
(School of Computer, Jiangxi University of Chinese Medicine, Nanchang? 330004, China)
Abstract: To reduce the incidence of adverse drug events and promote the rational clinical use of Chinese Patent Medicines. In this research, the key information in the prescription is extracted by the named entity recognition method based on machine reading comprehension and pre-training model, and the relationship extraction model of the two-way LSTM and attention mechanism is used to establish a knowledge graph rule library, and on the basis of the above, a e drug monitoring system for Chinese patent medicine is formed. The entity identification and relational extraction models constructed in this study achieve 88.89% and 77.96% F1 values, respectively, on their respective datasets, and the knowledge graph system improves the monitoring accuracy by 12% compared to relational databases. The evaluation results show that the system built in this study can respond quickly and effectively improve the efficiency of prescription monitoring, which is of great significance to ensure the safety of patients' medication.
Keywords: Chinese patent medicine; safe medication; knowledge graph; monitoring system; relationship extraction
0? 引? 言
藥品安全事關人民群眾身體健康和生命安全。我國人口基數大,不合理現象不容忽視。中成藥因性質穩(wěn)定、療效確切、毒副作用相對較小、服用方便等特點,有著深厚的基層群眾基礎[1,2],但臨床開藥存有不少問題:開藥行為不規(guī)范,或在患者分科、分院就診時存在重復用藥現象;開中成藥時忽視中醫(yī)的辨證施治,即未考慮特殊人群(包括老人、兒童、妊娠期和哺乳期婦女等)的身體特征,或未考慮中成藥藥量對患者肝腎功能的損害[3];忽視中成藥禁忌、藥物之間的相互作用。為此研發(fā)安全用藥監(jiān)測系統,以保障患者合理用藥[4]。本文通過知識圖譜將疾病實體、病癥實體以及中成藥藥物實體等關聯起來,形成中成藥給藥基礎數據規(guī)則庫;將上傳的處方組提煉癥、病和中成藥給藥關鍵信息,與醫(yī)療知識圖譜中的現有癥狀進行匹配,對處方中所涉中成藥的聯合用藥、重復用藥、藥與病、藥量以及辨證施治五個方面進行監(jiān)測,以期為預防藥物不良事件發(fā)生,提高安全用藥水平提供一種新的技術思路。
1? 國內外藥品安全系統研究現狀
歐美發(fā)達國家率先將安全用藥系統嵌入電子處方系統,進行實時的監(jiān)管控制,歐洲各國紛紛建立歐洲微生物耐藥監(jiān)測系統和歐洲抗菌藥物使用量檢測網。美國波士頓醫(yī)院將臨床路徑的經驗和成果引入合理用藥系統。First DataBank公司作為全球最大的藥物信息數據庫開發(fā)中心,為PASS系統提供全面的技術支持和基礎數據源[5,6]。目前國內應用的合理用藥系統主要有四川美康醫(yī)藥研究開發(fā)有限公司的PASS合理用藥監(jiān)測系統和上海大通醫(yī)藥信息技術有限公司的藥物咨詢及用藥安全監(jiān)測系統,在用藥劑量、藥品禁忌癥、相互作用等可能會對患者造成身體傷害的方面,進行實時的監(jiān)控提醒,避免醫(yī)療事故的發(fā)生[7-9]。盡管傳統中醫(yī)藥學歷經幾千年的發(fā)展,但是缺乏統一描述,知識體系完備性不夠,給信息利用以及共享造成很大難度,而對中成藥不良反應監(jiān)測又存在涉及的藥物品種多、應用范圍廣、成分復雜、認識不統一、量效關系不明確、命名不規(guī)范等特點[10,11],對中成藥進行有效監(jiān)測的難度可想而知。目前監(jiān)測框架使用的基礎規(guī)則庫主要面向西藥[12,13],缺少中成藥聯合用藥禁忌、辨證施治等系統的標準化數據規(guī)則庫,因此現有中成藥監(jiān)測體系不能很好地滿足具體需求。
2? 系統設計
用藥監(jiān)測系統以用藥規(guī)則庫為基礎實現對處方的審核,由于傳統關系型規(guī)則庫難以適應中成藥體系的復雜性,本文通過關系抽取模型抽取知識,再形成能整合多尺度信息的知識圖譜用藥規(guī)則庫,同時以命名實體識別方法提取處方中的關鍵信息,在此基礎上形成中成藥用藥監(jiān)測系統。本系統的主要框架包括模型構建、知識圖譜構建、系統應用三大模塊,如圖1所示。
2.1? 模型構建
2.1.1? 關系抽取模型
關系抽取對于知識圖譜的構建具有重要的意義,是自動化獲取關系三元組的必要手段。本研究利用雙向長短期記憶網絡(Long Short-term Memory Networks, LSTM)[14]和注意力機制構建端到端的關系抽取模型,再基于預定義的抽取規(guī)則進行關系三元組抽取。根據標注整理好的中成藥關系抽取語料庫,模型的輸入嵌入層利用Word2Vec訓練得到字向量,雙向LSTM神經網絡進行特征提取,注意力機制計算字符之間的權重,獲取文本信息中的重要信息以及條件隨機場(Conditional Random Field, CRF)[15]序列輸出,最后基于抽取規(guī)則達到三元組抽取,如圖2所示。
2.1.2? 命名實體識別模型
命名實體識別主要是針對給定的預處理處方,識別出其中可能存在的實體詞,進而與知識圖譜相匹配,是實現系統的技術基礎之一。本研究主要利用預訓練BERT[16]模型實現模型的構建,模型編碼層將句子中的每個字映射為向量表示,再由Transformers得到句子信息的隱層表示,最后由模型分類層得到實體識別的輸出,完成句子中有特殊意義的實體識別。
2.2? 模型結果
2.2.1? 關系抽取結果
為自動抽取三元組,使用整理后的中成藥關系抽取語料庫,語料庫的來源包含書籍《國家基本藥物(中成藥)臨床指南》《常用中藥配伍與禁忌》等。關系類別分為5類,如聯合用藥禁忌等,評價標準采用F1值。通過雙向LSTM的強大特征提取能力和注意力機制的強化關鍵信息關聯,在關系抽取數據集上訓練達到了77.96%的F1值,最后得到三元組關系文件。
通常,完備的知識圖譜經過關系抽取后還要歷經知識融合、知識加工等流程,而本研究知識圖譜只利用關系抽取得到三元組,最后輔以人工校正三元組,錄入Neo4j圖形數據庫。
2.2.2? 命名實體識別結果
對于用藥系統而言,能否準確分詞,識別處方語句中與中成藥相關的實體,從而進行知識圖譜的匹配查詢才是系統的關鍵所在。本研究的命名實體識別標注語料來自《國家基本藥物臨床應用指南》以及部分臨床電子病歷,將原始數據整理成BIO標注格式,實體類別主要分為三類:疾病、癥狀、中成藥,評價標準采用綜合評價指標F1值。通過實體識別模型,引入有關實體信息的先驗知識,最后在標注數據集上達到88.89%的綜合F1值,可以滿足實際需求。訓練得到的模型會自動保存,新的處方文件會直接調用模型進行預測,得到有關中成藥的中文字段。
3? 知識圖譜構建
通過關系抽取得到的三元組文件,輔以人工校正、錄入,構建合理用藥、重復用藥、依癥施治等圖譜,各知識圖譜組合成中成藥合理用藥規(guī)則庫。圖譜的實體為中成藥藥名、癥狀、藥量、證等本體概念,本體概念之間具有關系,實體與關系以三元組形式(E1,R,E2)存于Neo4j圖形數據庫中。例如(附子理中丸,禁忌,牛黃解毒片),附子理中丸和牛黃解毒片為兩個實體,而兩實體之間存在禁忌關系,在Neo4j圖形數據庫中,節(jié)點表示實體,而節(jié)點相連的邊表示實體之間的關系。
中成藥用藥知識圖譜將中成藥、病、癥、特殊人群等信息關聯起來,將這些關聯信息結構化,實現多尺度知識的關聯與融合,為基于知識圖譜的中成藥用藥監(jiān)測系統形成數據基礎。部分中成藥合理用藥知識圖譜如圖3所示。
4? 中成藥用藥監(jiān)測系統的實現
本文基于知識圖譜的用藥規(guī)則庫,搭建中成藥合理用藥監(jiān)測系統。選用C#三層架構、Client/Server結構進行系統的開發(fā)。系統主要包括合理用藥知識庫、合理用藥審查、用藥動態(tài)監(jiān)測和專家處方點評等功能模塊以及相關數據統計分析和用戶權限分配等輔助功能模塊。系統采取“事先限制、事中干預、事后監(jiān)管”的模式,多維度發(fā)現和制止不合理用藥的情況,達到監(jiān)測目標。
4.1? 模塊設計
4.1.1? 合理用藥知識庫
模塊主要包括藥品說明書、標準處方模板、國家藥典。說明書針對已收錄的中成藥,可以查看中成藥詳細信息,標準處方模板收錄一些標準的模板,給用戶提供參考。合理用藥知識庫主要是滿足醫(yī)藥工作人員或患者對基礎醫(yī)學知識的查詢需求,是系統設定的最基礎模塊。頁面展示如圖4所示。
4.1.2? 用藥審查
該模塊實現藥物相互作用的審查,用戶自行添加兩種以上待監(jiān)測的藥物,在規(guī)則庫中進行匹配檢索,查找是否存在用藥禁忌關系,并反饋結果到前端界面,避免醫(yī)生開具不合理用藥處方,達到合理用藥事前預警的目的。
4.1.3? 用藥動態(tài)監(jiān)測
用藥動態(tài)監(jiān)測模塊是系統的核心模塊。監(jiān)測管理員將醫(yī)生開具的處方文件導入到系統中,系統自動監(jiān)測處方數據,通過參數調用訓練好的命名實體識別模型提取其中的實體,對五個方面進行監(jiān)測:聯合用藥監(jiān)測、對癥給藥監(jiān)測、重復用藥監(jiān)測、辨證施治監(jiān)測、藥量控制監(jiān)測。合理用藥監(jiān)測完畢將此次監(jiān)測結果更新到數據庫,在首頁進行展示,供相關人員統計之用。功能展示如圖5所示。
4.1.4? 專家點評
專家處方點評模塊是本研究框架的第二個核心模塊。該模塊的功能是專家人員點評醫(yī)生開具的處方,并根據系統提供的處方點評標準,對每個處方中的不合理項目進行計分標注,監(jiān)測員可以通過系統查看處方的得分信息,找到相應的問題所在,在不合理用藥的最后一個階段實施監(jiān)測。
4.2? 系統評估效果
為驗證系統的準確率及相應速度,對收集到的200份包含中成藥的電子病歷集進行監(jiān)測,以系統響應時間、模塊監(jiān)測等平均準確率為評價標準,與傳統關系型規(guī)則庫的監(jiān)測系統進行對比。結果兩種以上聯合用藥可能存在風險的監(jiān)測準確率明顯高于傳統關系型數據庫,提升了12%,此外基于知識圖譜的系統結果響應時間提升至0.8 s。得益于知識圖譜關系表達能力強的優(yōu)點及其查詢簡單、快速的特點,在提高準確率的同時,又能快速反饋,大大提升了用戶的使用體驗。
5? 結? 論
中成藥用藥監(jiān)測系統根據臨床安全用中成藥工作的基本特點和要求,基于知識圖譜數據庫組織原理和技術,成功實現了合理用藥監(jiān)測、專家處方點評及相關統計分析。根據上傳的電子病歷對醫(yī)生的處方進行基本審查,對不符合合理用藥規(guī)范的處方信息給出警示信息。該系統有助于提升醫(yī)療質量,保障患者用藥安全。
此外,該系統有待深入研究的地方在于:現階段的關系抽取還是基于有監(jiān)督學習,人工標注語料的代價巨大。下一步嘗試半監(jiān)督學習,將未標注的數據和部分標注的數據同時訓練,從而降低圖譜構建代價。進一步完善合理用藥知識庫(包括全品種藥物相互作用規(guī)則庫、藥物食物相互作用規(guī)則庫、禁忌癥及老年人、兒童、妊娠期、哺乳期等特殊人群合理用藥規(guī)則庫等),從而使該系統更貼近實際場景。同時在此應用監(jiān)測的基礎上,綜合考慮患者的病情、給藥方式和用藥時間,實現更為全面的監(jiān)測。
參考文獻:
[1] 馬志會.我院2015年—2017年中成藥不良反應分析報告 [J].基層醫(yī)學論壇,2019,23(16):114-116.
[2] 王少波,左錚云.江西省鄉(xiāng)鎮(zhèn)衛(wèi)生院中醫(yī)藥發(fā)展現狀及對策分析 [J].江西中醫(yī)藥大學學報,2013,25(4):82-83.
[3] 林相如.基于Hadoop的合理用藥系統設計與實現 [D].哈爾濱:哈爾濱工業(yè)大學,2014.
[4] 蘇洽玉.合理用藥監(jiān)測系統對臨床不合理用藥監(jiān)測情況分析 [J].中國醫(yī)院用藥評價與分析,2018,18(11):1551-1554.
[5]ANGRAAL S,KRUMHOLZ H M,SCHULZ W L. Blockchain technology:Applications in health care [J].Circulation:Cardiovascular Quality and Qutcomes,2017,10(9):91-94.
[6] DAGHER G G,MOHLER J,MILOJKOVIC M,et al. Ancile:Privacy-preserviong framework for access controland interoperability of electronic health records using blockchain technology [J].Sustainable Cities and Society,2018,39(4):283-297.
[7] 薛騰飛,傅群超,王樅,等.基于區(qū)塊鏈的醫(yī)療數據共享模型研究 [J].自動化學報,2017,43(9):1555-1562.
[8] 程冬梅,李志.基于霧計算的醫(yī)院信息服務系統 [J].計算機科學,2015(7):170-173.
[9] WU X H,XIE G Y,CAI C M,et al.Discussion on Effects of PASS on Monitoring the Rationality of Clinical Medication in Xiamen Haicang Hospital [J].Evaluation and Analysis of Drug-Use in Hospitals of China,2018,18(6):856-857+861.
[10] 包文虎,陶有青,王璐,等.中醫(yī)藥國際標準化進展、問題和對策芻議 [J].世界中醫(yī)藥,2015,10(4):613-618.
[11] 王傳池,楊燕,胡鏡清,等.中醫(yī)藥標準化調研分析的現狀、問題與相關政策解讀[J].中華中醫(yī)藥雜志,2018,33(9):3776-3780.
[12] TANG M Q. Design and Implementation of Health Management System Based on Mobile Application [J].Computer ence and Application,2018,8(12):1843-1849.
[13] 胡欣燕,李璐瑒,國琦,等.中醫(yī)醫(yī)院用藥咨詢數據庫模式分析與探討 [J].中國藥師,2019,22(4):682-685.
[14] MIWA M,BANSAL M. End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures [EB/OL].[2022-11-26].https://arxiv.org/pdf/1601.00770.pdf.
[15] LAFFERTY J,MCCALLUM A,PEREIRA F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [EB/OL].[2022-11-25].https://www.researchgate.net/publication/2529190_Conditional_Random_Fields_Probabilistic_Models_for_Segmenting_and_Labeling_Sequence_Data.
[16] DEVLIN J,CHANG M W,LEE K,et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [EB/OL].[2022-11-21].https://arxiv.org/pdf/1810.04805.pdf.
作者簡介:劉世雄(1997—),男,漢族,山西運城人,碩士研究生在讀,研究方向:自然語言處理;通訊作者:熊旺平(1982—),男,漢族,江西豐城人,副教授,博士,研究方向:數據挖掘、自然語言處理。
收稿日期:2022-12-28
基金項目:國家自然科學基金資助項目(82160955)