劉悅悅,李 燕
(甘肅中醫(yī)藥大學 信息工程學院,甘肅 蘭州 730000)
大數據(也稱巨量資料)時代,醫(yī)療數據量以幾何級數的形式高速增長,數據增長速度可以用“爆炸式”來形容。醫(yī)療數據是醫(yī)生在對病患進行診療救治的過程中生成數據的總和,包括病患的基本信息、電子病歷、醫(yī)學管理、診斷數據、儀器數據、功能檢驗數據等。概括而言,凡是留存于醫(yī)療衛(wèi)生領域的大數據都可稱為醫(yī)療數據。大數據具有“4V1O”的特征,即數據量大(Volume)、類型繁多(Variety)、價值密度低(Value)、速度快時效高(Velocity),以及數據在線(Online)。在此基礎上醫(yī)療大數據還具有獨特特征,如長期保存性、時空性、語義性和隱私性??傊?,醫(yī)療數據增長迅速且來源多樣,這使得如何有效擷取、組織管理以及合理運用海量醫(yī)學數據成為亟需解決的問題。
智能離不開知識,知識始終是人工智能的核心之一。知識圖譜(Knowledge Graph)并不是突然興起的新興技術,而是在語義網、本體論、自然語言處理等相關技術的影響下產生的結果。知識圖譜的概念于2012 年5 月由谷歌公司基于數據基礎Freebase 正式推出知識圖譜搜索引擎后正式產生,其從關系的角度分析事物間的聯系,由節(jié)點(抽象的概念或實體)和邊(實體的屬性或關系)構成知識圖譜。知識圖譜的最初目標是提高搜索引擎的能力,隨著技術的推進開始在自然語言理解、數據分析、智能問答以及人工智能等方面體現出極大價值。
近年來,關于醫(yī)學知識圖譜構建的成果不斷被提出,國外知名醫(yī)學知識圖譜包括Gene.Ontology、DrugBank、Watson Health 等,國內知名醫(yī)學知識圖譜包括鵬城實驗室人工智能研究中心智慧健康醫(yī)療課題組,北京大學計算語言學研究所,鄭州大學自然語言處理實驗室共同構建的中文醫(yī)學知識圖譜CMeKG,中國科學院計算機技術研究所的OpenKN,上海曙光醫(yī)院中醫(yī)藥知識圖譜,中國中醫(yī)科學院中醫(yī)藥信息研究所的中醫(yī)臨床知識圖譜,中文開放知識圖譜OpenKG,阿里巴巴的“醫(yī)知鹿”,百度的“靈醫(yī)智慧”,平安智慧醫(yī)療的“平安好醫(yī)生”,騰訊的“覓影”以及北京左醫(yī)科技有限公司旗下的“左手醫(yī)生”等。國內知識圖譜在醫(yī)療領域的應用相對于國外來說起步較晚,趙悅淑等[1]通過對中國知網和PubMed 英文數據庫的中文醫(yī)學知識圖譜相關文獻進行檢索及可視化分析,發(fā)現有關醫(yī)學知識圖譜的研究開始于2009 年,2018 年得到快速發(fā)展,并在中醫(yī)藥、影像智能以及疾病風險預測方面取得較大進步。
知識圖譜按照領域通??梢苑譃橥ㄓ弥R圖譜和特定領域知識圖譜,相對于通用知識圖譜而言,領域知識圖譜的知識結構更復雜并且質量要求更高;在準確率方面,通用知識圖譜往往有一定程度的容錯率,但在領域知識圖譜,尤其是醫(yī)療領域對知識圖譜構建過程中各類技術的要求極其苛刻。本文探討的醫(yī)療知識圖譜屬于領域知識圖譜,在醫(yī)療領域中關乎人類生命,知識來源必須是高質量且準確率更高,盡可能做到完全避免知識錯誤。本文通過介紹醫(yī)學知識圖譜的相關概念,歸納總結醫(yī)學知識圖譜的研究現狀與發(fā)展,以此探索醫(yī)學知識圖譜領域的整體概況。
醫(yī)學知識圖譜的構建相較一般知識圖譜更具挑戰(zhàn)性。醫(yī)學知識存在著1-1、1-N、N-1、N-N 的關系,復雜、歧義等特點使其知識圖譜的構建困難諸多。單單針對疾病實體而言,如心血管疾病就包括冠心?。ㄐ乇裕?、高血壓(眩暈)、心肌梗死(真心痛)、心絞痛(胸痹心痛)、心律失常(心動悸)、心悸(包括驚悸和怔忡)。本文結合知識圖譜的構建,從醫(yī)學數據源、醫(yī)學知識抽取、醫(yī)學知識融合、醫(yī)學知識表示、醫(yī)學知識存儲、醫(yī)學知識推理和醫(yī)學質量評估7 個方面介紹醫(yī)學知識圖譜的構建過程。從3 類不同數據源中抽取醫(yī)學知識,針對抽取知識異構的情況對知識進行融合,并以三元組的形式進行醫(yī)學知識的表示,然后對處理好的醫(yī)學知識進行知識庫存儲,以構建知識圖譜。對于醫(yī)學知識圖譜構建不完整的問題,采用知識圖譜推理技術進行知識圖譜補全,最后通過質量評估提高醫(yī)學知識圖譜的質量和置信度。醫(yī)學知識圖譜構建框架如圖1所示。
Fig.1 Construction framework of medical knowledge graph圖1 醫(yī)學知識圖譜構建框架
醫(yī)學信息技術的快速發(fā)展導致醫(yī)學數據不斷大量增長,而這些醫(yī)學數據的來源也盡不相同。概括而言,在目前的醫(yī)療領域中,醫(yī)學數據源可以分為結構化數據、半結構化數據以及非結構化數據3 類。其中,結構化數據包括部分醫(yī)療信息系統(tǒng)中的醫(yī)學知識庫、疾病知識庫以及臨床業(yè)務數據等;半結構化數據包括表格、網頁、藥品說明書、心/腦電圖數據等;非結構化數據包括醫(yī)學文獻、古籍等文本數據[2]。在知識圖譜的構建過程中,難點在于如何將非結構化以及半結構化知識轉化為結構化知識,因為非結構化數據對于計算機而言是難以直接理解的,需要將其轉化為結構化數據,這就需要借助醫(yī)學知識抽取技術。
知識抽取是構建知識圖譜的重要技術,對于實現自動化構建具有重大意義。知識抽取即從數據源中通過自動化或者半自動化的方式抽取有價值的知識。知識即指知識單元,包括實體、屬性和關系,以三元組的形式進行存儲。醫(yī)學知識抽取的主要目標是從不同醫(yī)學數據源知識中抽取醫(yī)學實體、醫(yī)學關系以及醫(yī)學屬性等,同時保證抽取的準確性。以下按照知識單元的構成從實體抽取、關系抽取以及屬性抽取3方面進行醫(yī)學知識抽取介紹。
1.2.1 醫(yī)學實體抽取
實體抽取又名命名實體識別,是知識抽取最基本的任務。實體指具有可區(qū)別性且獨立存在的某種事物。醫(yī)學領域實體指科室、癥狀、藥物、疾病、處方等。早期醫(yī)學實體識別主要采用基于字典和規(guī)則的方法,由醫(yī)學領域知識專家手工編寫規(guī)則的方法對實體進行抽取,通過字符串匹配從而達到識別命名實體的效果,這種方法在數據集小時具有很高的準確率和召回率,但對于大規(guī)模的數據集來說,這種方法不管是在時效性還是復用性上均較差。為此,有研究者開始將機器學習算法與統(tǒng)計模型相結合為應用到實體抽取中,利用完全標注或部分標注的語料信息進行模型訓練,常用相關模型為隱馬爾可夫模型(Hiden Markov Model,HMM)、條件馬爾可夫模型(Conditional Markov Model,CMM)、最大熵模型(Maximum Entropy Model,MEM)以及條件隨機場模型(Conditional Random Fields,CRF)、雙向長短時記憶模型(Bidirectional Long Short-Term Memory,Bi LSTM)?;跈C器學習的醫(yī)學實體抽取存在著醫(yī)學質量不一且人工標注專業(yè)性不高的問題。
近年來,深度學習技術開始應用于醫(yī)學知識圖譜領域。例如,景慎旗等[3]針對中文電子病歷文書的命名實體識別問題,提出一種基于半監(jiān)督深度學習的方法,結合專家權威半自動化實體標注法和BERT-GCN-CRF 框架構建BERT-GCN-CRF 模型,與其他模型相比在準確率、召回率和F1 值方面均有提高,人工標注工作量也顯著減少,對于電子病歷非結構化文本挖掘具有重要意義。針對BERT 模型語義單一、詞匯量有限的問題,馬詩語等[4]提出一種ALBERT-BILSTM-CRF 模型,以糖尿病相關論文及臨床指南為數據集,通過比較不同模型F1 值的變化情況,最終得出融合ALBERT 的實體識別效果優(yōu)于現有主流模型,且較BERT 訓練速度有所提升的結論;李小亞[5]提出超聲數據命名實體識別模型,在基線模型BiLSTM-CRF 上引入Bert,設計實驗解決了非結構化數據的實體識別問題。
1.2.2 醫(yī)學關系抽取
關系抽取是指從文本數據中抽取兩個或多個實體間的語義聯系,與實體抽取密切相關。醫(yī)學領域實體間的關系包括疾病—部位、疾病—癥狀、疾病—檢查、疾病—疾病等。早期關系抽取方法主要為基于共現和基于規(guī)則模板匹配的方法?;诠铂F的方法通過文本出現頻次反映實體之間的相關性,方法簡單、召回率高但準確率低?;谝?guī)則模板匹配的方法由醫(yī)學專家手工構造規(guī)則模板,然后人工匹配有特定關系的實體,準確率較高,但召回率低、移植性差。近年來,基于深度學習的關系抽取模型不斷被提出,總體分為流水線關系抽取和聯合關系抽取兩類。流水線關系抽取方法是在實體抽取后再進行關系抽取,兩者過程相互獨立,但關系抽取位于實體抽取后,又受其影響,常用抽取模型包括Att-Pooling-CNN 模型、depLCNN+NS 模型、CR-CNN 模型等。流水線方法存在誤差不斷積累的缺陷,從而使得抽取性能下降。為此,一些學者提出了聯合抽取的方法,聯合關系抽取是在同一模型中將關系抽取與實體抽取相結合,共同優(yōu)化。例如,Miwa 等[6]基于嵌入層、LSTM-RNN 層以及依存關系層三層表示層構建了實體抽取以及關系抽取的聯合模型;劉蘇文等[7]針對因果關系抽取關聯性問題,提出了二元關系抽取和一元功能識別共同決策的聯合學習模型,解決了生物醫(yī)學實體因果關系抽取問題;鐘靈玥[8]針對實體抽取和關系抽取兩者間聯系較弱、模型處理重疊三元組效果欠佳的問題提出TagRE 系列模型,采用聯合抽取方法重新定義子任務的方式進行處理,從而避免了兩者間缺乏關聯的問題。
1.2.3 醫(yī)學屬性抽取
屬性抽取即以結構化的形式呈現識別文本中關于屬性的信息。醫(yī)學實體屬性的存在,如藥品不良反應、服用劑量等,使得對實體的認識更加具體。實體屬性作為實體的一種附屬關系,其抽取問題在一定程度上可以轉化為關系抽取問題。
醫(yī)學知識融合是指在專業(yè)術語的規(guī)范下對異構或冗雜的多源數據進行整合、消歧、加工,其主要任務是消除由于醫(yī)學數據源不同而引起醫(yī)學知識重復、質量良萎不齊、錯誤冗雜的問題。本體所述語義內容存在重疊或關聯的問題,在表示語言和模型上存在差異,從而造成本體異構。實體同樣存在異構的問題,存在一對多或多對一的關系,這種共指問題會對知識圖譜產生影響。也就是說知識融合最重要的工作就是解決構建知識圖譜過程中的異構問題。本文將醫(yī)學知識融合分成醫(yī)學實體對齊和醫(yī)學知識庫融合兩部分。
實體對齊的主要任務是解決同義異名的問題,即異構數據中的實體沖突、指向不明問題,以此獲取高質量知識。目前針對醫(yī)學領域的知識融合,學者也進行了相關探索。針對醫(yī)學數據的多源化,張坤麗等[9]依據術語標準和主題詞表對多來源的200 余萬字非結構化產科疾病文本進行人工校對和異構數據的整合、消歧、加工、更新等知識融合形成了中文產科知識圖譜(COKG)數據層;宋培彥等[10]在復用疫苗、人類疾病、癥狀的基礎上進行本體的形式合并,利用Word2vec 方法和Owready2 功能模塊完成本體語義融合,取得了較高的本體語義關系準確度,實現了公共衛(wèi)生領域多本體融合;胡正銀等[11]針對知識圖譜多源異構問題,基于SPO 三元組模型,通過實體對齊、概念層析融合與關系融合實現多源異構數據融合,生成了完整領域的知識圖譜。
之所以進行知識庫融合,是因為醫(yī)學知識圖譜往往針對的是某一個具體科室或者疾病構建,不同的醫(yī)學數據庫獨立存在,這種情況下有必要對不同醫(yī)學數據庫進行融合,以獲得涵蓋范圍更廣的醫(yī)學知識圖譜。例如,劉雷等[12]在構建精準醫(yī)學知識庫時利用跨庫知識融合技術對生物醫(yī)學知識進行融合;劉新奎等[13]采用眾包的方式解決疾病診斷相關分組知識融合的問題;廖開際等[14]針對多來源醫(yī)療知識庫融合過程存在知識冗雜的問題,利用綜合多種注意力機制和圖卷積神經網絡的MuGNN 模型對互聯網醫(yī)療知識進行融合。目前醫(yī)學知識庫融合技術仍停留在人工干預階段,自動化融合算法還有待相關學者進一步研究。
知識表示面向的對象是知識庫中的實體和關系,通過在低維空間中高效計算實體和關系的語義關系,有效解決數據稀疏的問題,對知識獲取、知識融合以及知識推理有著重大意義,可提高知識圖譜構建的效率。醫(yī)學知識主要以符號化、形式化、模式化的形式進行知識的表示。目前主流醫(yī)學知識表示方式為三元組(頭實體—關系—尾實體)的形式,這種知識表示由Sem Rep 依托于UMLS 三大知識源,通過句法分析、短語映射、詞性消歧、語義謂詞歸一化等,最終輸出SPO(Subject-Predicate-Object)三元組“概念a|語義謂詞|概念b”表示的語義知識,并廣泛應用于知識圖譜的知識發(fā)現。SPO 語義表達豐富,對于語義關系復雜的醫(yī)學領域來說極為適用。例如,蔡妙芝等[15]利用Sem-Rep 提出基于SPO 語義三元組的疾病知識發(fā)現模型,并基于糖尿病相關文獻驗證了該模型揭示大規(guī)模文獻中隱含生物醫(yī)學知識的可行性。三元組雖然已得到使用和認可,但在進行醫(yī)學領域三元組表示時需要圖算法進行計算,而這些圖算法計算復雜度較高,在大規(guī)模知識圖譜上難以快速運行,從而導致計算效率低的問題。
隨著深度學習的發(fā)展,醫(yī)學知識表示技術有了一定進展,按照計算方式的不同分為距離平移模型和語義匹配模型兩大類[2],如表1所示。
Table 1 Knowledge representation model based on deep learning表1 基于深度學習知識表示模型
知識存儲的主要目的是確定合理高效的存儲方式,其好壞會直接影響后續(xù)查詢的效率。目前主流知識存儲主要可分為基于資源描述框架(Resource Description Framework,RDF)的存儲與基于圖的存儲兩大類。在RDF 存儲方面,語義萬維網領域的三元組庫更好地實現了三元組數據的存儲,而數據庫領域提出了專門用于管理屬性圖的圖數據庫。三元組數據庫與圖數據庫的相互融合發(fā)展為知識圖譜的存儲奠定了強大基礎。
知識存儲貫穿醫(yī)學知識圖譜構建的整個周期,數據存儲對醫(yī)學領域非常重要。目前在圖存儲方式中,基于Neo4j 的原生圖數據庫成為主流,Neo4j 屬性圖為三元組專門設置存儲方案,因此其存取效率優(yōu)于關系數據庫。王明強等[16]利用RDF 模型與Neo4j 構成的相似性,通過將RDF模型映射到Neo4j 數據模型的方式將三元組存儲到Neo4j,最終基于Neo4j 圖數據庫構建的中醫(yī)皮膚病“病—證—治”本體具有更強的擴展性,數據準性也較高??梢娙绾胃鶕R特點選擇存儲方案,或采取一定方法將兩種不同的方案結合起來提升準確率,是知識存儲過程中需要解決的重要問題。
知識推理指根據已有知識推斷未知知識的過程,是完善知識圖譜的重要手段之一。醫(yī)學領域知識圖譜的構建因知識的復雜性和歧義性而存在嚴重的非完整性,目前醫(yī)學知識圖譜亟需解決的就是如何根據已存在的醫(yī)學知識推斷出那些尚未被挖掘出來的隱含醫(yī)學知識,進而補全醫(yī)學知識圖譜。針對這一問題,醫(yī)學知識推理技術應運而生。知識推理方法可以分為邏輯推理和非邏輯推理,邏輯推理又可細分為演繹推理和歸納推理(包含溯因推理和類比推理)。而針對知識圖譜的知識推理方法[17]包括本體推理、基于邏輯編程的推理、基于圖結構的推理、基于規(guī)則學習的推理、基于分布式表示學習的推理、基于強化學習的推理、基于神經網絡的推理、基于深度學習的推理,目前主流知識圖譜推理算法為基于圖結構的算法。在大數據時代下,基于深度學習的推理方法廣受學者的青睞,其中基于知識表示技術、知識計算應用技術、知識獲取技術的知識推理在醫(yī)學領域有著廣闊的應用前景。然而,醫(yī)學知識推理仍處于初步階段,通過董文波等[18]對現階段醫(yī)學知識推理研究現狀的概述可知,醫(yī)學知識推理現階段存在缺乏高效的動態(tài)推理模型、推理過程耗時耗力、推理泛化能力低等眾多問題,現階段針對樣本數據存在缺少頭尾實體、查詢路徑過長、樣本數據錯誤等各種缺陷,零樣本、單樣本、少樣本和多樣本的知識圖譜推理更受矚目,但在醫(yī)學領域的知識推理仍有許多工作需要學者進行完善和創(chuàng)新。
知識圖譜質量評估指通過去粗取精來保證圖譜質量,換言之,質量評估是通過篩選置信度高的知識來保障知識圖譜構建質量,這一過程是保障知識質量的重要環(huán)節(jié),并貫穿始終。醫(yī)學知識圖譜質量評估包括但不限于對知識質量、專家信息、醫(yī)學知識庫、醫(yī)學知識圖譜本體等方面的評估。整體評估過程要注意錯誤預警,著重檢查知識質量。醫(yī)學知識圖譜本體的評估方法可分為基于黃金標準、基于本體任務/應用、基于數據驅動、基于指標的方法四大類,各有優(yōu)缺點,其中基于黃金標準的評估比較客觀,但是黃金標準卻難以定義或不存在;基于本體任務/應用的評估具有針對性,直接面對本體應用,但因對具體應用較為依賴從而導致可移植性和通用性較差;基于數據驅動的評估方法結果相較于專家的主觀評估更具客觀化,同時容易驗證,但受限于本體概念的覆蓋度;基于指標的評估方法具有較為全面的指標體系,但卻面臨著指標難以統(tǒng)一的問題。例如,張曉冉等[19]提出一個與領域無關的通用數據質量檢測和評估的數學模型,同時采用本體技術定義了該模型到本體模型的轉換,用于解決數據的質量問題;趙地等[20]提出一種新的面向知識圖譜構建全流程的質量評估框架,以用戶的角度系統(tǒng)評估知識圖譜從而達到優(yōu)化知識圖譜的目的。
知識圖譜在醫(yī)學領域的應用促進了醫(yī)療智能化水平的提高,目前醫(yī)學知識圖譜主要應用于輔助診斷、臨床決策支持、風險評估和智能語義搜索等方面。
決策支持系統(tǒng)(Decision Support Systems,DSS)隸屬于管理科學的范疇。20 世紀70 年代中期,Keen 和Scott Morton 首次提出DSS 的概念?;贒SS 的相關理論和技術,臨床決策支持系統(tǒng)(Clinical Decision Support Systems,CDSS)應運而生。CDSS 是醫(yī)學決策支持系統(tǒng)的重要組成部分,是推進精準醫(yī)療的關鍵以及提升醫(yī)療質量的重要手段,根本目的是為了評估和提高醫(yī)療質量。利用醫(yī)學知識圖譜技術可以極大減少醫(yī)療決策中的失誤和醫(yī)療差錯,并有效解決臨床醫(yī)生知識的局限性,提高診斷效率。根據患者對自身情況的自述以及檢查數據初步給出診斷結果和治療方案等,同時針對醫(yī)生的方案進行核實檢查,一定程度上避免誤診,使診斷更加精確?,F有臨床決策支持系統(tǒng)在建模過程中一般會用到人工神經網絡、貝葉斯網絡、遺傳算法、產生式規(guī)則系統(tǒng)、邏輯條件、因果概率網絡等。例如,時雨[21]采用功能應用界面展示設計實現了支持相似病歷檢索、疾病診斷以及治療方案分析的基于知識圖譜的腦血管輔助決策支持系統(tǒng),為腦血管病的臨床診療決策提供了支持;鄭少宇[22]面向臨床經驗相對不足的社區(qū)醫(yī)生,基于圖譜和癥狀特征抽取算法、癥狀分類算法、癥狀檢索算法設計開發(fā)了基于知識圖譜的常見病診斷輔助系統(tǒng),能夠在癥狀采集階段對當前癥狀的所有相關疾病進行預覽,便于用戶在后續(xù)鑒別診斷環(huán)節(jié)中合理地制定治療流程;董麗麗等[23]針對深度學習技術用于診斷需大規(guī)模依賴標注數據,且缺乏醫(yī)生或專家經驗知識的問題,提出一種融合醫(yī)學知識圖譜與深度學習的疾病診斷方法;劉勘等[24]結合知識圖譜、表示學習、深度神經網絡等技術構建了并發(fā)癥輔助診斷模型,該模型對于提高并發(fā)癥的診斷準確率起到積極作用。目前臨床決策支持應用方面存在的問題主要為支持疾病類型單一,準確率也有待提高,而構建一整套全面的疾病臨床決策支持系統(tǒng)所耗費的人力和物力也較大,目前尚未較好的解決方案。
智能問答系統(tǒng)是自然語言處理領域備受關注的研究方向,在醫(yī)學知識圖譜領域具有廣闊的應用前景?;卺t(yī)學知識的專業(yè)性和復雜性,非醫(yī)護人員很難理解,進而導致醫(yī)患間的溝通問題。而醫(yī)學問答系統(tǒng)在一定程度上可以起到普及公民醫(yī)學知識的作用,通過醫(yī)學問答的形式將醫(yī)學規(guī)范用語用一種通俗易懂的方式反饋給患者及其家屬。問答系統(tǒng)采用人機交互的形式,通過自然語言處理技術實現機器與用戶的交流?;卺t(yī)學知識圖譜的問答系統(tǒng)通過自然語言處理技術對用戶問題進行解析,然后基于知識圖譜的查詢語句在對應醫(yī)學知識圖譜中進行查詢,并返回答案。目前不少學者對醫(yī)學問答系統(tǒng)進行了探索,例如李俊卓等[25]基于兒科醫(yī)學知識圖譜,利用AC 自動機(Aho-Corasick Automaton)和正則表達式融合數據源,最終實現了兒科疾病及保健知識問答系統(tǒng)的構建;馬滿福等[26]針對中文醫(yī)療領域分詞困難的問題,提出基于格子卷積神經網絡(Lattice CNN,LCN)的醫(yī)療知識問答模型,準確率達到89.0%,比同類模型提高2%。
基于知識圖譜的語義搜索與傳統(tǒng)依靠網頁間超鏈接實現網頁搜索不同,前者搜索的對象是具體事物,如醫(yī)療領域的病患、癥狀、藥物等,這些事物的來源可以是電子病歷、醫(yī)學診斷圖片、文本數據等各種信息資源,而知識圖譜和語義技術為這些事物提供了實體、屬性和關系的描述,使得搜索引擎可以直接對這些具體事物進行索引。概括而言,醫(yī)學語義搜索是指在已存在的大規(guī)模醫(yī)學數據庫中通過對關鍵字以及相關內容進行語義標注,最終實現從醫(yī)學知識圖譜中檢索查詢相應實體、實體間的關系以及屬性的擴展查詢,達到高效便捷搜索醫(yī)療信息的效果。目前,有關醫(yī)學領域智能語義搜索的相關應用有搜醫(yī)網、360 良醫(yī)、搜狗明醫(yī)、春雨醫(yī)生、丁香醫(yī)生等醫(yī)學搜索引擎,騰訊醫(yī)典和訊飛健康平臺等醫(yī)學相關產品,同時相關學者也在學術方面對醫(yī)學語義搜索進行了探究,如楊笑然[27]為解決互聯網醫(yī)療科普搜索需求增加與現有科普網站導航過于專業(yè)用戶無法找到針對性答案的問題,基于運用語義搜索和問答系統(tǒng)相關技術,設計開發(fā)了基于知識圖譜的醫(yī)療專家系統(tǒng),提供醫(yī)療語義搜索和醫(yī)療智能問答服務;翟姍姍等[28]將知識圖譜與分面檢索相結合,構建了基于醫(yī)學知識圖譜的慢性病在線醫(yī)療社區(qū)分面檢索模型,提高了用戶檢索的效率和質量。
知識圖譜是大數據時代最有效的知識表示和整合方法之一,泛指各種大型知識庫,是將所有不同種類的信息連接在一起而得到的一個關系網絡,是機器大腦中的知識庫。作為一種以圖譜形式描述實體與屬性關系的新技術,知識圖譜用于醫(yī)療領域可有效對海量數據進行挖掘、處理和分析,但目前仍面臨諸多挑戰(zhàn)。
構建醫(yī)學知識圖譜最重要的步驟是數據處理,高質量的數據往往來源于中醫(yī)醫(yī)案、醫(yī)學古籍或是由權威機構發(fā)布的文件,獲取數據后如何對這些數據進行標注成為一個重大難題。一般數據標注通常采用BIO 標注方法,但方劑所含實體類型較多,包括藥物、疾病、功效、炮制方法等,若按照BIO 標注工作量極大。此外,醫(yī)學古籍內容晦澀,需要人工命名實體標注,且會由于標注人的不同而導致標注結果不盡相同。
目前知識圖譜存儲主要方式是基于RDF 和基于圖數據庫的存儲,目前醫(yī)學知識圖譜主要采用基于圖數據庫的存儲方法。雖然基于RDF 的存儲方法總體不如圖數據庫,但其仍有圖數據庫未涉及的優(yōu)點。例如,圖數據庫最大的缺點就是不支持SQL 的查詢,是否可以將RDF 與圖數據存儲相融合有待學者驗證和嘗試,而面對醫(yī)療數據的快速增長以及數據復雜化等問題,現有存儲方式能否應對還有待驗證。
知識推理技術的準確率提高是一大難題,主要原因有二:其一是數據質量越高,推理越準確,而高質量數據的訓練耗時耗力耗財;其二是關系預測能力有限,隨著知識圖譜的擴展,關系預測路徑長度也不斷增長,現有預測方法長度有限,這在一定程度上影響了準確率。
不論是醫(yī)學知識抽取、醫(yī)學實體對齊還是醫(yī)學知識融合方面,相關算法或多或少存在準確率低、擴展性低、復雜度高等問題,高效、可擴展性強的相關算法仍有待學者深入研究。
現有知識圖譜大多以文本、網頁的形式進行展示,能否采用多模態(tài)技術將聲音、影像、信號數據以及古籍中的醫(yī)學信息一起融入醫(yī)學知識庫中將有待學者進一步研究。
本文針對醫(yī)學知識圖譜的構建技術以及應用進行了分析,并對目前醫(yī)學知識圖譜面臨的挑戰(zhàn)進行了相關總結和展望,認為醫(yī)學知識圖譜具有廣泛的應用前景。隨著技術的不斷成熟、經驗的不斷積累,目前存在的不足終會被解決,知識圖譜在醫(yī)學領域的應用將會更加準確、具體,成為推動醫(yī)學智能化一種不可或缺的助力。醫(yī)學知識圖譜的意義在于推動了醫(yī)學自動化和智能化的發(fā)展,對于中醫(yī)來說更是如此。相信醫(yī)學知識圖譜可以成為中醫(yī)得以傳承和創(chuàng)新的一種推動力,為整個醫(yī)療產業(yè)發(fā)展注入鮮活血液。