劉勇 齊夢霽
摘要:隨著我國居民生活方式的變化,糖尿病已成為流行病,且逐漸呈年輕化趨勢。作為一種長期慢性疾病,患者日常行為和自我管理能力對糖尿病的控制起到關(guān)鍵性的作用,為了促進(jìn)糖尿病醫(yī)學(xué)知識的共享、傳播和利用,使得糖尿病患者擁有更積極的態(tài)度、科學(xué)的糖尿病知識和較好的糖尿病自我管理意識,本文提出了建立糖尿病的醫(yī)學(xué)知識圖譜,使用如醫(yī)學(xué)實體抽取、醫(yī)學(xué)實體關(guān)系抽取、醫(yī)學(xué)實體屬性抽取、醫(yī)學(xué)知識融合等自然語言的相關(guān)技術(shù),在語義層面對醫(yī)學(xué)大數(shù)據(jù)進(jìn)行了統(tǒng)一表達(dá)和組織,建立醫(yī)學(xué)知識服務(wù)和應(yīng)用,旨在促進(jìn)患者掌握糖尿病管理所需的知識和技能,提高患者的生活質(zhì)量。
關(guān)鍵詞:糖尿病;醫(yī)學(xué)知識圖譜;關(guān)系抽取;自然語言處理
中圖分類號:R319 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:B ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2020.18.004
文章編號:1006-1959(2020)18-0011-04
Research on the Construction of Medical Knowledge Graph Based
on Diabetes Prevention and Treatment
LIU Yong1,QI Meng-ji2
(Information Center1,Science and Education Department2,Nanjing Jiangbei People's Hospital,Nanjing 210048,Jiangsu,China)
Abstract:With the changes in the lifestyles of Chinese residents, diabetes has become an epidemic, and it is gradually showing a younger trend. As a long-term chronic disease, the daily behavior and self-management ability of patients play a key role in the control of diabetes. In order to promote the sharing, dissemination and utilization of diabetes medical knowledge, diabetic patients have a more positive attitude and scientific diabetes knowledge and better awareness of diabetes self-management, this article proposes to establish a diabetes medical knowledge map, using natural language related technologies such as medical entity extraction, medical entity relationship extraction, medical entity attribute extraction, medical knowledge fusion, etc. Big data is uniformly expressed and organized, and medical knowledge services and applications are established to promote patients to master the knowledge and skills required for diabetes management and improve the quality of life of patients.
Key words:Diabetes;Medical knowledge graph;Relation extraction;Natural language processing
知識圖譜(knowledge graph)是若干實體相互連接而成的語義網(wǎng)絡(luò),是由Google在2012年正式提出的,目前比較流行的大規(guī)模知識庫有DBpedia、Freebase、Wikidata等。隨著醫(yī)療大數(shù)據(jù)時代的到來,基于本體的知識表示模型成為知識表示的主流方法,本體可定義為概念模型的明確的規(guī)范說明[1],它強調(diào)概念間的邏輯推理關(guān)系,基于語義網(wǎng)的本體描述語言成為研究和應(yīng)用的熱點,包括資源描述框架(Resource Description Framework,RDF)。RDF定義了資源、屬性、值三種基本實體,作為一種基于資源標(biāo)識符的三元組來描述語義實體間關(guān)系的知識組織的概念模型和邏輯模型,能夠表達(dá)醫(yī)學(xué)知識實體間的復(fù)雜關(guān)系。國內(nèi)的知識譜圖研究起步相對較晚,主要集中于幾個大型的互聯(lián)網(wǎng)公司,如搜狗、百度等。知識圖譜在醫(yī)療行業(yè)的研究目前也在積極地探索中,北京大學(xué),計算語言教育部重點實驗室,利用自然語言處理技術(shù),以人機結(jié)合的方式研發(fā)了中文醫(yī)學(xué)知識圖譜第一版CMeKG1.0,為醫(yī)學(xué)知識圖譜的構(gòu)建提供了很有意義的參考[2]。為了解決醫(yī)學(xué)知識圖譜中知識重復(fù)、知識質(zhì)量和知識融合的問題,提出了在大數(shù)據(jù)驅(qū)動下的醫(yī)學(xué)知識圖譜構(gòu)建方法[3]。針對醫(yī)學(xué)數(shù)據(jù)專業(yè)性強、結(jié)構(gòu)復(fù)雜等特點,結(jié)合當(dāng)前我國醫(yī)學(xué)知識圖譜構(gòu)建在數(shù)據(jù)和技術(shù)層面臨的問題和挑戰(zhàn),提出了相應(yīng)的對策和建議[4]。本研究以《中國2型糖尿病防治指南(2017年版)》內(nèi)容為核心,結(jié)合醫(yī)學(xué)詞典、電子病歷、各種醫(yī)學(xué)指南、專家共識等基礎(chǔ)數(shù)據(jù),使用自然語言處理的相關(guān)技術(shù),從糖尿病的教育與管理的角度出發(fā),建立一套完整的糖尿病知識圖譜的構(gòu)建方法,目標(biāo)是提供一個深入了解糖尿病的全新視角,幫助患者不斷掌握疾病管理所需的知識和技能,最終實現(xiàn)糖尿病的被動救治向主動防治的轉(zhuǎn)變,降低人群中糖尿病發(fā)病風(fēng)險,維護(hù)和促進(jìn)全民健康。
1糖尿病知識圖譜構(gòu)建
糖尿病知識圖譜的構(gòu)建步驟見圖1,分為醫(yī)學(xué)知識表示、醫(yī)學(xué)知識抽取、醫(yī)學(xué)知識融合和知識圖譜存儲四個部分。
1.1醫(yī)學(xué)知識表示 ?醫(yī)療大數(shù)據(jù)的來源非常繁雜,各個醫(yī)學(xué)實體之間的關(guān)系也比較復(fù)雜,為了把相關(guān)信息表示成可理解的方式,需要相應(yīng)的知識表示模型。①醫(yī)學(xué)術(shù)語規(guī)范化唯一概念標(biāo)識:為了解決醫(yī)學(xué)術(shù)語在不同詞匯表中的差異,參照統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(UMLS)、國際疾病分類(ICD-10)等,使用唯一概念標(biāo)識對來自不同詞匯表源但相同的詞匯的概念進(jìn)行編碼。如:參照ICD-10,疾病“2型糖尿病”對應(yīng)的標(biāo)準(zhǔn)編碼是“E11.901”、疾病“糖尿病性下肢潰瘍”對應(yīng)的標(biāo)準(zhǔn)編碼是“E14.6913”。有了唯一概念標(biāo)識就可以把不同數(shù)據(jù)來源但具有相同概念的詞匯進(jìn)行統(tǒng)一的編碼管理,使得醫(yī)學(xué)知識表示具有規(guī)范的數(shù)據(jù)表達(dá)方式。②基于語義的本體描述:RDF三元組RDF因其結(jié)構(gòu)簡單、表述清晰,且具有于語義與關(guān)聯(lián)表達(dá)的靈活性優(yōu)勢,可用于構(gòu)建知識圖譜。RDF可表達(dá)實體以及實體之間的關(guān)系,具體形式為<實體,關(guān)系,實體>或者<實體,屬性,屬性值>,如<糖尿病,分型,2型糖尿病>,其中“糖尿病”和“2型糖尿病”是實體,“分型”是這兩個實體之間的關(guān)系。此外,RDF也可以用節(jié)點和關(guān)系組成的圖模型來表示,其中節(jié)點表示實體和屬性值,連線表示節(jié)點之間的關(guān)系。
1.2醫(yī)學(xué)知識抽取 ?醫(yī)學(xué)數(shù)據(jù)的知識信息抽取包括實體抽取、關(guān)系抽取和屬性抽取三個步驟。在糖尿病指南中,主要分為半結(jié)構(gòu)和非結(jié)構(gòu)化文本兩種類型。半結(jié)構(gòu)化文本即文本中存在部分結(jié)構(gòu)化的數(shù)據(jù),兼顧了格式性和自由性,在抽取信息時,相對非結(jié)構(gòu)化文本更為方便,見圖2。非結(jié)構(gòu)化文本也被稱為自由化文本,一般沒有固定格式,經(jīng)常是連續(xù)的字符串來描述相關(guān)內(nèi)容,需要經(jīng)過如分詞、實體識別等步驟才能獲取相關(guān)信息,如一段有關(guān)糖尿病診斷與分型的介紹,見圖3。
1.2.1醫(yī)學(xué)實體抽取[5] ?采用基于Lattice LSTM模型抽取實體[6],該模型對輸入字符序列和所有匹配詞典的潛在詞匯進(jìn)行編碼,抽取如醫(yī)學(xué)文本中的藥物名稱、癥狀名、疾病名等。
1.2.2醫(yī)學(xué)實體關(guān)系抽取 ?為實現(xiàn)推理,還需要抽取醫(yī)學(xué)實體之間的關(guān)系[7],以形成知識圖譜。近年來,利用深度學(xué)習(xí)的方法抽取醫(yī)學(xué)實體語義的關(guān)系取得了長足發(fā)展,如模型中引入位置特征、依賴關(guān)系、先驗知識和注意力機制等附加特征,進(jìn)一步提高了模型性能,見圖4。基于大規(guī)模的人工標(biāo)注語料可進(jìn)一步提高模型的性能。此外,將各模型混合在一起用于醫(yī)學(xué)語義關(guān)系抽取,可很好地利用各模型的優(yōu)勢,提高醫(yī)學(xué)語義關(guān)系抽取的性能,如將基于深度學(xué)習(xí)和基于規(guī)則匹配的方法結(jié)合在一起,利用句法卷積神經(jīng)網(wǎng)絡(luò)模型抽取存在某種關(guān)系的蛋白質(zhì)實體對,最后基于句法模板和詞典匹配的方法抽取當(dāng)前兩個蛋白質(zhì)實體間的關(guān)系[8]。在實體關(guān)系抽取中,最重要的是關(guān)系指示詞的確認(rèn),有些是顯性的指示詞,如“癥狀是”“表現(xiàn)為”“可分為”等;有些是隱性的指示詞,如“對于兒童和青少年的糖尿病高危人群,宜從10歲開始,但青春期提前的個體則推薦從青春期開始”,此句中暗藏了關(guān)系指示詞“年齡”,即兒童糖尿病高危人群,年齡,10歲/青春期起。我們使用{B,I,O,E,S}三類標(biāo)簽標(biāo)注候選關(guān)系指示詞,B代表這個詞語是關(guān)系指示詞序列的開始,I代表這個詞語在關(guān)系指示詞的中間位置,O代表這個詞語不是關(guān)系指示詞的一部分,E代表這個詞語是關(guān)系指示詞的結(jié)束,S 代表這個詞語是一個完整的關(guān)系指示詞。圖5是一個標(biāo)注樣例,是基于LSTM的雙向LSTM醫(yī)學(xué)實體關(guān)系抽取模型,表明高尿酸血癥與糖尿病之間具有[疾病癥狀]的關(guān)系,此種關(guān)系屬于隱含的關(guān)系,只有通過人工標(biāo)注的方式才能完成。
1.2.3醫(yī)學(xué)實體屬性抽取 ?例如藥品的屬性包括不良反應(yīng)、禁忌等,以實現(xiàn)對醫(yī)學(xué)實體的完整描述。
1.3 醫(yī)學(xué)知識融合 ?由于醫(yī)學(xué)大數(shù)據(jù)來源多樣的特點,且存在不規(guī)范術(shù)語、一詞多義或多詞同義的情況,因此需要根據(jù)知識表示模型合并已有結(jié)構(gòu)化數(shù)據(jù),以保證獲取醫(yī)學(xué)知識的質(zhì)量。例如使用基于語料庫分析的知識獲取方法,結(jié)合現(xiàn)有的分類,對本體進(jìn)行擴(kuò)展[9]。在進(jìn)行醫(yī)學(xué)知識融合的過程中,可以使用一個混合匹配模型的融合方法,見圖6。該融合過程中使用了字符匹配、語義匹配以及本體匹配的混合匹配模型,根據(jù)標(biāo)準(zhǔn)術(shù)語集,對輸入的醫(yī)學(xué)術(shù)語計算相應(yīng)的匹配值,最后將匹配分值匯總,通過閾值判別來判定指定的醫(yī)學(xué)術(shù)語與標(biāo)準(zhǔn)術(shù)語中某醫(yī)學(xué)實體的匹配程度,從而達(dá)到醫(yī)學(xué)知識融合的目的。
2糖尿病知識圖譜的存儲與展示
Nero4j是一個圖形數(shù)據(jù)庫,基本要素包括:節(jié)點、屬性、關(guān)系,用來存儲由無數(shù)個節(jié)點相連構(gòu)成的屬性圖[10]。圖7展示了每個醫(yī)學(xué)實體是如何與其他醫(yī)學(xué)實體連接或相互關(guān)聯(lián)的,它既具有高效的查詢功能,還具備可視化的能力。允許在不依賴于數(shù)據(jù)集總大小的情況下每秒快速遍歷數(shù)百萬個連接,擅長于管理高度連接的數(shù)據(jù)和復(fù)合查詢。Cypher是Neo4j的圖形查詢語言,它允許用戶從圖形數(shù)據(jù)庫中存儲和檢索數(shù)據(jù)[11]。Neo4j讓查詢圖形數(shù)據(jù)變得易于學(xué)習(xí)、理解和使用,但同時也融入了其他標(biāo)準(zhǔn)數(shù)據(jù)訪問語言的強大功能。
3總結(jié)
醫(yī)療大數(shù)據(jù)的分析與決策研究核心在于醫(yī)學(xué)知識的表示,與其相關(guān)的醫(yī)學(xué)信息的抽取、融合和分析顯得尤為重要。本文闡述了從多源異構(gòu)的大數(shù)據(jù)中,如電子病歷、各種醫(yī)學(xué)指南、專家共識等數(shù)據(jù)源中獲取數(shù)據(jù),通過自然語言的相關(guān)技術(shù),如醫(yī)學(xué)實體抽取、醫(yī)學(xué)實體關(guān)系抽取、醫(yī)學(xué)實體屬性抽取、醫(yī)學(xué)知識融合等,在語義層面對醫(yī)學(xué)大數(shù)據(jù)進(jìn)行了統(tǒng)一組織和表達(dá),并構(gòu)建了糖尿病醫(yī)學(xué)知識圖譜。最終促進(jìn)患者不斷掌握糖尿病管理所需的知識和技能,提高糖尿病患者的自我管理能力,對糖尿病的防控起到了積極的作用。
參考文獻(xiàn):
[1]Gruber TR.Toward principles for the design of ontologies used for knowledge sharing[J].International journal of human-computer studies,1995,43(5-6):907-928.
[2]奧德瑪,楊云飛,穗志方,等.中文醫(yī)學(xué)知識圖譜CMeKG構(gòu)建初探[J].中文信息學(xué)報,2019,33(10):1-9.
[3]孫鄭煜,鄂海紅,宋美娜,等.基于大數(shù)據(jù)技術(shù)的醫(yī)學(xué)知識圖譜構(gòu)建方法[J].軟件,2020,41(1):13-17.
[4]修曉蕾,吳思竹,崔佳偉,等.醫(yī)學(xué)知識圖譜構(gòu)建研究進(jìn)展[J].中華醫(yī)學(xué)圖書情報雜志,2018,27(10):33-39.
[5]Xu K,Zhou Z,Hao T,et al.A bidirectional LSTM and conditional random fields approach to medical named entity recognition[C]//International Conference on Advanced Intelligent Systems and Informatics.2017:355-365.
[6]Zhang Y,Yang J.Chinese ner using lattice lstm[J].arXiv,2018(v1):02023.
[7]Zeng D,Liu K,Chen Y,et al.Distant supervision for relation extraction via piecewise convolutional neural networks[C]//Proceedings of the 2015 conference on empirical methods in natural language processing.2015:1753-1762.
[8]趙哲煥,楊志豪,孫聰,等.生物醫(yī)學(xué)文獻(xiàn)中的蛋白質(zhì)關(guān)系抽取研究[J].中文信息學(xué)報,2018,32(7):82-90.
[9]Dieng-Kuntz R,Minier D,R??i?ka M,et al.Building and using a medical ontology for knowledge management and cooperative work in a health care network[J].Computers in Biology and Medicine,2006,36(7-8):871-892.
[10]任玉琪.基于CNKI的中文醫(yī)學(xué)知識圖譜構(gòu)建與應(yīng)用[D].大連理工大學(xué),2019.
[11]王鑫,鄒磊,王朝坤,等.知識圖譜數(shù)據(jù)管理研究綜述[J].軟件學(xué)報,2019,30(7):2139-2174.
收稿日期:2020-06-03;修回日期:2020-06-13
編輯/錢洪飛