• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      可計算醫(yī)學(xué)知識的基本概念與實現(xiàn)路徑

      2021-11-25 09:32:08孔桂蘭李鵬飛白永梅張路霞
      情報學(xué)報 2021年11期
      關(guān)鍵詞:醫(yī)學(xué)知識三元組結(jié)構(gòu)化

      杜 建,孔桂蘭,李鵬飛,2,白永梅,張路霞

      (1.北京大學(xué)健康醫(yī)療大數(shù)據(jù)國家研究院,北京 100191;2.北京大學(xué)信息技術(shù)高等研究院,杭州 226019)

      1 引言

      如何從數(shù)據(jù)中生成知識(data to knowledge,D2K)是情報學(xué)和數(shù)據(jù)科學(xué)的重要研究內(nèi)容,也是解決大數(shù)據(jù)時代信息超載的關(guān)鍵[1-2]。當(dāng)前,各國高度重視科技創(chuàng)新,由此產(chǎn)出的科學(xué)出版物及其相關(guān)數(shù)據(jù)將持續(xù)快速增長。現(xiàn)代科學(xué)的特點是科學(xué)文獻(xiàn)呈指數(shù)級增長,但出版量的增長并未反映科學(xué)認(rèn)知領(lǐng)域的擴大,例如,新出現(xiàn)的科學(xué)概念(論文標(biāo)題中識別出的新短語)數(shù)量呈線性增長[3-4]。受此啟發(fā),我們認(rèn)為,海量的科學(xué)出版物僅是數(shù)據(jù)或信息,而其中涉及的“知識單元”對于開展知識發(fā)現(xiàn)、加快知識轉(zhuǎn)化、促進(jìn)知識驅(qū)動的管理決策則具有更重要意義。我國情報學(xué)學(xué)者馬費成教授曾指出,從物理層次的文獻(xiàn)單元向認(rèn)知層次的知識單元轉(zhuǎn)換是情報學(xué)取得突破性發(fā)展需要解決的關(guān)鍵問題[5]。但究竟如何表示知識單元一直沒有得到解決[6]。知識通常以文字、符號和圖片的形式呈現(xiàn),并通過書籍、期刊和論文的形式進(jìn)行傳播。一個人想要理解、總結(jié)以及運用這些知識,則需要親自閱讀這些書籍、期刊和論文,這是一個緩慢而費力的過程。為了保持知識更新,需要從海量數(shù)據(jù)和信息中抽取、剝離出知識單元,并建立適宜的表示模型;同時,為促進(jìn)知識轉(zhuǎn)化,需要搭建知識和實踐之間的橋梁,構(gòu)建兩者之間的交互機制,促進(jìn)知識驅(qū)動或知識指導(dǎo)的實踐。

      上述觀點在醫(yī)學(xué)領(lǐng)域尤為明顯和迫切。醫(yī)學(xué)知識從發(fā)現(xiàn)到實際應(yīng)用,平均有17年的時滯。為何轉(zhuǎn)化時滯如此之長,一個重要原因是目前的醫(yī)學(xué)知識多表現(xiàn)為線性的文本(如醫(yī)學(xué)文獻(xiàn)、臨床指南等)和碎片化的模型(如疾病風(fēng)險評估模型等)。為了加速醫(yī)學(xué)知識向臨床應(yīng)用的轉(zhuǎn)化,美國密歇根大學(xué)提出了“推進(jìn)可計算生物醫(yī)學(xué)知識”(mobilizing computable biomedical knowledge,MCBK)的理 念和行動,在美國、英國、澳大利亞、中國等引起了廣泛關(guān)注[7],已連續(xù)3年召開年會,共同推動第二次知識革命[8]。其核心思想包括3個重要環(huán)節(jié)。一是將目前人讀的知識格式轉(zhuǎn)化為機器可執(zhí)行的格式,開發(fā)輔助臨床決策的應(yīng)用產(chǎn)品,實現(xiàn)“從數(shù)據(jù)到知識”;二是將知識對象存儲在知識管理平臺上,供臨床醫(yī)護人員在實踐中實時調(diào)用,實現(xiàn)廣泛共享和利用,實現(xiàn)“從知識到實踐”;三是在知識驅(qū)動的臨床實踐中產(chǎn)生新的數(shù)據(jù),實現(xiàn)“從實踐再到數(shù)據(jù)”,進(jìn)而循環(huán)往復(fù)又形成新的知識。最終實現(xiàn)“從數(shù)據(jù)到知識,從知識到實踐,從實踐再到數(shù)據(jù)”的循環(huán),促進(jìn)學(xué)習(xí)型健康醫(yī)療體系的建立。

      目前,在“數(shù)據(jù)-知識-實踐”周期中,從數(shù)據(jù)到知識,是科學(xué)共同體開展科學(xué)發(fā)現(xiàn)的過程;而從知識到實踐的進(jìn)程緩慢,可計算知識是實現(xiàn)“從知識到實踐”的重要技術(shù)手段。以醫(yī)學(xué)領(lǐng)域為例,通過革新醫(yī)學(xué)知識的呈現(xiàn)和管理方式(從“人讀”到“機器讀”,從“圖書館存儲”到“可計算知識管理平臺存儲”),并構(gòu)建知識應(yīng)用的標(biāo)準(zhǔn)模式,有望促成整個健康醫(yī)療體系的變革。本文在國際相關(guān)研究和實踐基礎(chǔ)上,結(jié)合我們的理解,引入和闡述可計算醫(yī)學(xué)知識的基本概念、主要類型、表示模型和管理平臺等,以期為學(xué)術(shù)界開展醫(yī)學(xué)知識可計算引入跨學(xué)科研究思路,也為我國建立學(xué)習(xí)型健康醫(yī)療體系提供方法基礎(chǔ)和實現(xiàn)路徑。

      2 可計算醫(yī)學(xué)知識的基本概念

      根據(jù)能否清晰表述和有效轉(zhuǎn)移,可以把知識分為顯性知識(explicit knowledge)和隱性知識(tac‐it knowledge)。醫(yī)學(xué)知識,是經(jīng)過醫(yī)學(xué)實踐證實、科學(xué)分析或嚴(yán)謹(jǐn)研討過程后形成的結(jié)果或論斷,對特定的臨床專業(yè)或疾病人群具有重要指導(dǎo)意義,可界定為經(jīng)過科學(xué)實驗/試驗并經(jīng)同行評議后已發(fā)表或已被醫(yī)學(xué)界接受的結(jié)果、主張或認(rèn)知。由于醫(yī)學(xué)(特別是現(xiàn)代醫(yī)學(xué))有嚴(yán)格的培養(yǎng)標(biāo)準(zhǔn)和教育體系,醫(yī)學(xué)知識主要以顯性知識為主,即可以被記錄下來,并被他人直接加以使用的知識[9]。醫(yī)學(xué)研究產(chǎn)出的醫(yī)學(xué)文獻(xiàn)和臨床指南成為醫(yī)學(xué)知識的主要載體。然而,大多數(shù)已發(fā)表的電子文獻(xiàn)停留于人類可理解的自然語言表示模式,即非結(jié)構(gòu)化的格式(一般以PDF文檔格式存儲),機器無法理解與計算,導(dǎo)致大量隱含在醫(yī)學(xué)文獻(xiàn)中的知識主張、可在實踐中應(yīng)用的模型或規(guī)則不能得到有效管理與利用。

      以“‘computable knowledge’AND‘biomedical OR medical’”為核心關(guān)鍵詞,通過系統(tǒng)的文獻(xiàn)檢索與分析歸納,這一概念從字面上主要有兩種表述,“可計算的醫(yī)學(xué)知識”(computable medial knowledge)和“醫(yī)學(xué)知識的可計算化”(making medical knowl‐edge computable)。前者側(cè)重實現(xiàn)的結(jié)果,后者側(cè)重實現(xiàn)的過程。從本質(zhì)上來看,兩者表達(dá)的意思是相同的。我們認(rèn)為,可計算醫(yī)學(xué)知識的基本概念包括兩個方面,一是知識的表示形式可計算化,二是知識在實踐中“可執(zhí)行”,兩者缺一不可。

      2.1 知識的表示形式可計算化

      表示形式主要有兩類:一是從非結(jié)構(gòu)化數(shù)據(jù)中生成知識單元(knowledge unit),表示為從自由文本中抽取的“主語-謂語-賓語”語義三元組(subjectpredicate-object,SPO triple)[10-11];二是從結(jié)構(gòu)化數(shù)據(jù)中生成可計算的知識對象(computable knowledge objects),表示為從醫(yī)療大數(shù)據(jù)中生成的疾病預(yù)測模型,以及疾病診斷規(guī)則、計算機化的臨床指南等[7,12]。

      美國密歇根大學(xué)MCBK主要側(cè)重于后者,包括兩方面。一是構(gòu)建可計算的各類知識對象,通過計算機程序?qū)Ω黝愔R進(jìn)行編程封裝,形成計算機能處理的知識對象。一個知識對象包括知識載體、與用戶交互的界面,以及有關(guān)知識的詳細(xì)說明3個部分。二是在一個大的知識管理平臺上實現(xiàn)對知識對象的共享和利用。例如,在統(tǒng)一的標(biāo)準(zhǔn)下類似Apple的APP Store提供各類APP應(yīng)用的下載和使用,醫(yī)生、患者、公眾等都能夠直接使用這些知識對象。

      以“動脈粥樣硬化性心血管疾病預(yù)測的中國模型”為例進(jìn)行說明,作者不僅發(fā)表了學(xué)術(shù)論文(人讀的格式,如文字、圖片和公式)[13];在此基礎(chǔ)上還開發(fā)了可公開使用的網(wǎng)頁版計算器(web-based calculator)①http://cvdrisk.com.cn和手機APP程序,把疾病預(yù)測模型以機器可執(zhí)行的格式存儲并供用戶使用。

      根據(jù)健康人或患者輸入的年齡、總膽固醇、高密度脂蛋白膽固醇、糖尿病等綜合指標(biāo)數(shù)據(jù),可計算出10年后個人ASCVD(arteriosclerotic cardiovas‐cular disease,動脈硬化性心血管疾?。┑陌l(fā)病風(fēng)險?;诰W(wǎng)頁版計算器和手機APP程序這樣的機器可執(zhí)行的知識對象,用戶通過“填寫-計算-預(yù)測”產(chǎn)生了大量新的數(shù)據(jù),這些新的數(shù)據(jù)可進(jìn)一步幫助改進(jìn)預(yù)測模型的準(zhǔn)確性,進(jìn)而又形成了性能更佳的預(yù)測模型(即“新知識”)。最終,實現(xiàn)了“從數(shù)據(jù)到知識、從知識到實踐,從實踐再到數(shù)據(jù)”的循環(huán)。然而,目前,這樣的疾病預(yù)測模型散落于醫(yī)學(xué)科研機構(gòu)或醫(yī)療機構(gòu)中科研人員自建的網(wǎng)站,無法對于用戶實現(xiàn)“一站式獲取和大規(guī)模使用”。MCBK的目標(biāo)就是要建立規(guī)范統(tǒng)一的、標(biāo)準(zhǔn)化的知識對象存儲和共享平臺。

      2.2 知識在實踐中“可執(zhí)行”

      除了上述介紹的源自結(jié)構(gòu)化數(shù)據(jù)的疾病預(yù)測模型作為可直接調(diào)用和運行(即“可執(zhí)行”)的知識對象外,來源于非結(jié)構(gòu)化文本的知識圖譜通常也作為計算機系統(tǒng)中用來形式化表示知識的一種工具[14]。知識圖譜在臨床實踐中的價值主要體現(xiàn)為在將知識圖譜和基于真實世界數(shù)據(jù)的電子病歷的結(jié)合應(yīng)用上。目前,將醫(yī)學(xué)知識圖譜與電子病歷相結(jié)合(即促使醫(yī)學(xué)知識“可執(zhí)行”)是醫(yī)學(xué)知識圖譜應(yīng)用的前沿研究課題。這樣的結(jié)合為臨床醫(yī)護人員帶來的益處主要包含3個方面:一是方便查詢醫(yī)學(xué)領(lǐng)域知識;二是邏輯化呈現(xiàn)患者數(shù)據(jù)和信息;三是輔助臨床決策,從而幫助提高診斷效率和準(zhǔn)確率。

      使用知識圖譜可以提升從文獻(xiàn)或大量臨床數(shù)據(jù)中檢索信息、查詢知識的能力。例如,利用大型開放式知識庫(如Wikipedia和SemMedDB)提供的有關(guān)每種疾病及其相關(guān)癥狀、檢查和治療的知識圖譜,將電子病歷中提取的與診斷相關(guān)的信息與之進(jìn)行比對,可提高臨床診斷的效率[15]。采用結(jié)構(gòu)化圖譜方式取代傳統(tǒng)的敘述性文本對患者病情進(jìn)行描述,可改進(jìn)復(fù)雜患者數(shù)據(jù)或個人健康信息的表示和呈現(xiàn),減輕醫(yī)生的信息負(fù)擔(dān)和認(rèn)知負(fù)擔(dān)。在臨床診療過程中,可通過將人讀的、自然語言描述的醫(yī)學(xué)證據(jù)和臨床指南轉(zhuǎn)化為機器可讀、可理解的知識圖譜,把已有的知識通過知識圖譜工具提供給臨床以作為診療決策的重要參考[16]。醫(yī)學(xué)知識圖譜與先進(jìn)的知識圖譜推理方法的結(jié)合可以極大地減輕臨床醫(yī)生的診斷壓力,減少誤診率并提高診斷效率。由于醫(yī)學(xué)的系統(tǒng)性,目前的醫(yī)學(xué)知識圖譜主要面向?qū)2。磥硇枰鼮橥暾蜏?zhǔn)確的全科醫(yī)學(xué)知識圖譜,并需要不斷改進(jìn)知識圖譜推理算法,以期更好地與臨床決策支持相結(jié)合[17]。

      此外,與MCBK側(cè)重“醫(yī)學(xué)知識的表示形式可計算化,即從人讀的論文轉(zhuǎn)化為機器可執(zhí)行的程序”不同,有學(xué)者提出醫(yī)學(xué)證據(jù)合成(evidence synthesis)也需要引入可計算化的思路,以減輕人工負(fù)荷。根據(jù)統(tǒng)計,目前全球每天要進(jìn)行75項臨床試驗和11項系統(tǒng)綜述,如何跟上海量醫(yī)學(xué)證據(jù)的發(fā)展,并將其轉(zhuǎn)化為臨床實踐是一個迫切需要解決的科學(xué)問題[18]。系統(tǒng)綜述和meta分析已被公認(rèn)為是客觀評價和合成針對某一特定問題的研究證據(jù)的最佳手段,通常被視作最高級別的證據(jù)。2020年,醫(yī)學(xué)信息學(xué)領(lǐng)域的學(xué)者發(fā)表了“可計算的證據(jù)合成”(comput‐able evidence synthesis)的概念,提出了直接利用結(jié)構(gòu)化數(shù)據(jù)促進(jìn)醫(yī)學(xué)證據(jù)合成的觀點[19]。

      在臨床試驗過程中,有關(guān)試驗設(shè)計和實施的信息通常與試驗結(jié)果一起以期刊文章的形式發(fā)布。因此,當(dāng)前的醫(yī)學(xué)證據(jù)合成主要依賴于人工檢索書目數(shù)據(jù)庫并閱讀、篩選證據(jù),導(dǎo)致數(shù)據(jù)不夠完整,且?guī)в幸欢ǔ潭鹊钠?,如已發(fā)表文章多為陽性結(jié)果。關(guān)于試驗涉及的臨床問題和干預(yù)措施的詳細(xì)信息,可通過在試驗注冊時預(yù)先指定的數(shù)據(jù)元素獲取,使得數(shù)據(jù)結(jié)果能夠以標(biāo)準(zhǔn)化、結(jié)構(gòu)化的格式呈現(xiàn)。臨床試驗注冊平臺所提供的結(jié)構(gòu)化結(jié)果數(shù)據(jù)更具有及時性、完整性和易獲取的特點,且可以實現(xiàn)數(shù)據(jù)的自動更新和計算機可解釋。

      因此,現(xiàn)在應(yīng)該重新反思證據(jù)合成的基本原理。隨著獲取不同形式的可計算試驗數(shù)據(jù)成為可能,將有助于系統(tǒng)綜述從耗時的試驗結(jié)果出版物篩選模式轉(zhuǎn)為主動積極的臨床試驗監(jiān)測模式,從證據(jù)積累模式轉(zhuǎn)變?yōu)樽C據(jù)優(yōu)先級排序的模式。與此概念相對應(yīng),2020年8月,可計算化出版(computable publishing)組織成立,通過開發(fā)臨床試驗結(jié)果報告器(clinical trials reporter)等工具,支持基于標(biāo)準(zhǔn)的、機器可解釋的公共知識表達(dá),尤其是與健康醫(yī)療和科學(xué)證據(jù)有關(guān)的公共知識[20]。

      3 可計算醫(yī)學(xué)知識的前端表示模型

      基于美國密歇根大學(xué)對可計算醫(yī)學(xué)知識的定義,只有通過計算機編程封裝知識對象之后,才能實現(xiàn)可計算,從這個角度來看,可計算醫(yī)學(xué)知識的最終表示方式都是程序代碼。然而,本節(jié)重點闡述如何表示封裝之前的可計算醫(yī)學(xué)知識,即可計算醫(yī)學(xué)知識的前端表示模型。

      3.1 醫(yī)學(xué)規(guī)則與診療知識庫

      在醫(yī)學(xué)教科書、醫(yī)學(xué)文獻(xiàn)中出現(xiàn)的大多醫(yī)學(xué)知識,均是以傳統(tǒng)IF(前件)-THEN(后果)規(guī)則的格式進(jìn)行表示。以發(fā)燒為例,醫(yī)學(xué)知識中的診斷規(guī)則通常表示如下:如果患者體溫超過38℃,那么該患者處于發(fā)燒狀態(tài)。傳統(tǒng)的醫(yī)學(xué)規(guī)則包含前件和后果,前件為臨床的某種病癥,后果為某種特定的疾病、治療方案、或者結(jié)局等。在臨床實踐中,大多數(shù)醫(yī)護人員的疾病診斷及治療均是依賴現(xiàn)有醫(yī)學(xué)知識中累積的各種規(guī)則。把針對特定疾病的診療規(guī)則進(jìn)行歸納、整理,最終形成該種疾病的診療知識庫。

      隨著計算機技術(shù)的發(fā)展,計算機存儲和計算能力已經(jīng)遠(yuǎn)超人腦的記憶思維能力,把傳統(tǒng)IF-THEN診療規(guī)則或者診療知識庫電子化、結(jié)構(gòu)化,就形成了計算機能夠存儲并理解的計算機化醫(yī)學(xué)規(guī)則或者知識庫。在文獻(xiàn)和醫(yī)學(xué)實踐中,基于專家系統(tǒng)方式實現(xiàn)的臨床決策支持系統(tǒng),就是依賴于這樣的醫(yī)學(xué)規(guī)則和知識庫。

      3.2 數(shù)據(jù)驅(qū)動的疾病預(yù)測模型

      傳統(tǒng)醫(yī)學(xué)實踐中,醫(yī)護人員是依據(jù)權(quán)威的醫(yī)學(xué)知識或者自身經(jīng)驗進(jìn)行臨床疾病診斷、治療以及疾病管理決策,因此,不同醫(yī)療機構(gòu)以及醫(yī)護人員的醫(yī)療服務(wù)水平和患者的預(yù)后與醫(yī)護人員自身的醫(yī)療背景以及經(jīng)驗具有很大關(guān)聯(lián),差異性非常大。在計算機與信息技術(shù)高度發(fā)達(dá)、大數(shù)據(jù)與人工智能已經(jīng)深度融入醫(yī)學(xué)領(lǐng)域的當(dāng)今時代,臨床的診療及疾病管理決策已經(jīng)不單單是依靠現(xiàn)有領(lǐng)域知識和專家自身經(jīng)驗,基于傳統(tǒng)醫(yī)學(xué)研究臨床試驗中所收集的數(shù)據(jù)以及真實醫(yī)療實踐中累積的醫(yī)療大數(shù)據(jù)進(jìn)行分析、挖掘,找出疾病的規(guī)律和特征,構(gòu)建疾病發(fā)生、發(fā)展以及患者預(yù)后的預(yù)測模型,將輔助醫(yī)護人員進(jìn)行有效的、優(yōu)化的臨床決策。

      數(shù)據(jù)驅(qū)動的疾病發(fā)生、發(fā)展及患者預(yù)后的預(yù)測模型,其輸入變量一般是患者的人口學(xué)信息、臨床病癥以及實驗室檢查檢驗的結(jié)果,其輸出變量一般是某種疾病或并發(fā)癥發(fā)生、某種預(yù)后發(fā)生的概率。將數(shù)據(jù)驅(qū)動的疾病預(yù)測模型進(jìn)行系統(tǒng)實現(xiàn),并有效嵌入或者集成到日常的醫(yī)療服務(wù)工作流程中,就形成了一個自動化、智能的臨床決策支持工具,以輔助臨床醫(yī)護人員進(jìn)行各種診療決策。一般來講,數(shù)據(jù)驅(qū)動的疾病預(yù)測工具應(yīng)與基于知識的決策支持工具融合使用,一是拓展了現(xiàn)有領(lǐng)域知識和專家經(jīng)驗,二是彌補了基于局部真實世界醫(yī)療大數(shù)據(jù)或者臨床試驗數(shù)據(jù)進(jìn)行疾病建模帶來的局限性。

      3.3 語義三元組:細(xì)粒度表示醫(yī)學(xué)知識主張

      大量的生物醫(yī)學(xué)知識隱藏在自由文本中,自然語言處理技術(shù)對實體(如疾病、藥物、基因、蛋白質(zhì)等)和關(guān)系(如疾病治療、蛋白質(zhì)/藥物相互作用和藥物不良反應(yīng)事件)的抽取,有助于支撐生物醫(yī)學(xué)知識管理和發(fā)現(xiàn)等應(yīng)用,促進(jìn)臨床醫(yī)生和實驗室科研人員更有效地獲取信息和生成新知識??捎嬎阒R應(yīng)是結(jié)構(gòu)化的知識,從格式上可由計算機程序讀取。一種簡單的、可計算的知識表示是語義三元組。語義三元組由兩個概念組成,這兩個概念通過某些謂語(即動詞)相互關(guān)聯(lián),如“導(dǎo)致(causes)”和“治療(treats)”。如“布洛芬-引起-胃腸道出血”就是這樣一種語義三元組。語義三元組被稱為“思想的原子”,既可以具象地表示某一命題或主張,又具有不可再分性。例如,可以將藥物知識表示為三元組[21],以從PubMed文獻(xiàn)中抽取的三元組作為基準(zhǔn),將從FDA(Food and Drug Administration,美國食品藥品監(jiān)督管理局)藥物說明書中抽取的三元組與之對比,可識別新的且文獻(xiàn)中未報道過的醫(yī)學(xué)知識[22];將電子病歷文本中的知識元表示為語義三元組,開展電子病歷潛在知識發(fā)現(xiàn)研究[23]?;凇耙匀M為知識單元,以不確定性為知識語境”的知識計算模型,開展矛盾性、沖突性知識發(fā)現(xiàn)[24]。

      在醫(yī)學(xué)領(lǐng)域,語義三元組抽取已具有較為成熟的技術(shù),其中,以美國國立醫(yī)學(xué)圖書館的“科學(xué)知識語義表示”項目開發(fā)的SemRep工具和SemMed‐DB知識庫為典型代表。SemRep是Semantic Repre‐sentation的簡稱,是一個基于規(guī)則的自然語言處理工具。以一體化醫(yī)學(xué)語言系統(tǒng)(unified medical lan‐guage system,UMLS)中標(biāo)準(zhǔn)化的醫(yī)學(xué)概念、概念類型(如藥物、疾病)和概念之間的語義關(guān)系(如治療)為基礎(chǔ),從自然語言文本中抽取“主語-謂語-賓語”三元組。最新版UMLS收錄約380萬個概念、127種概念類型和54種語義關(guān)系。SemMedDB知識庫存儲基于SemRep工具,抽取PubMed文獻(xiàn)標(biāo)題和摘要形成的三元組以及其來源語句[25]。該庫每年發(fā)布一次,且不斷改進(jìn),包括對SemRep工具提取的錯誤概念和關(guān)系進(jìn)行糾正。SemRep和SemMedDB支持了多種臨床決策和轉(zhuǎn)化應(yīng)用,包括醫(yī)療診斷、藥物再利用、基于文獻(xiàn)的發(fā)現(xiàn)和假設(shè)生成,有助于改善健康結(jié)局。目前,SemRep工具正在被重新設(shè)計,以提高其整體性能。SemRep和SemMedDB實現(xiàn)了大規(guī)模知識單元的抽取和存儲,是一個基礎(chǔ)庫,并且可進(jìn)行二次開發(fā)。例如,英國學(xué)者最近開發(fā)了MELODI Presto系統(tǒng)①http://melodi-presto.mrcieu.ac.uk,該系統(tǒng)提供基于Web網(wǎng)頁查詢SemMedDB中的三元組及其背后的支持語句[26]。

      3.4 納米出版模型(nanopublication)

      近年來,生物語義學(xué)(biosemantics)領(lǐng)域的進(jìn)展為細(xì)粒度表示醫(yī)學(xué)知識對象提供了啟示和借鑒,以荷蘭萊頓大學(xué)生物語義學(xué)專家Barend Mons教授及其團隊提出的納米出版模型為典型代表[27-28]。該模型并非專指納米領(lǐng)域,而是指借鑒納米之義,具有科學(xué)意義的、機器可讀的、最小的知識單元。納米出版物模型解決了由于科學(xué)論文和數(shù)據(jù)集的不斷增長而導(dǎo)致檢索、分析知識單元以及將科學(xué)結(jié)果與基礎(chǔ)數(shù)據(jù)聯(lián)系起來日益困難的問題,實現(xiàn)了將人讀的知識轉(zhuǎn)化為機器可讀的知識。

      基本結(jié)構(gòu)包括三部分:①主張(assertion),即主-謂-賓三元組表示的科學(xué)論斷;②出處信息(provenance),表示提出主張或創(chuàng)建了事實性素材(如數(shù)據(jù)、圖表等)的作者、機構(gòu)、時間和地點等;③出版信息(publication Information),關(guān)于一個納米出版物本身的元數(shù)據(jù),包括納米出版物的創(chuàng)建者、創(chuàng)建日期和版本等。這三個組件缺一不可,保證了信息完整性,并能有效提升科研信息的復(fù)用可能。這三個部分的內(nèi)容均使用RDF格式進(jìn)行描述,保證了機器可理解和可操作。

      目前主要有三種進(jìn)行中的應(yīng)用。一是科研工作者自行將個人研究成果發(fā)布為納米出版物(存儲于平臺http://nanopub.org/wordpress/);二是將已有關(guān)系型數(shù)據(jù)庫(如基因-疾病關(guān)聯(lián)知識庫DisGeNet)以納米出版物形式發(fā)布[29];三是支持目標(biāo)導(dǎo)向的大型項目,如藥物發(fā)現(xiàn)語義平臺Open PHACTS(Open Pharmaceutical Triple Store)項目[30],是一個存儲和計算藥學(xué)概念三元組的倉儲。基于納米出版模型,建立試驗數(shù)據(jù)和科學(xué)結(jié)論的規(guī)范語義描述本體,并在大規(guī)模生物醫(yī)藥文獻(xiàn)集上構(gòu)建了藥學(xué)知識單元形成的網(wǎng)絡(luò),即知識圖譜。納米出版模型尚未在臨床醫(yī)學(xué)領(lǐng)域廣泛應(yīng)用,這也是我們計劃研究的主要內(nèi)容。

      如果以納米出版模型作為知識單元,構(gòu)建知識單元的引用關(guān)系反映的知識演化,那么需要解決的問題是如何像科學(xué)論文那樣,構(gòu)建納米出版物的引用格式。2019年,有學(xué)者提出了可對單個納米出版物進(jìn)行引用的納米引用格式(nanocitation),并設(shè)計了一個系統(tǒng)自動生成納米出版物的引文,解決了這一模型缺乏引文標(biāo)準(zhǔn)的問題,在此基礎(chǔ)上可以設(shè)計文獻(xiàn)計量學(xué)指標(biāo),開展知識單元這一細(xì)粒度層面的分析[31]。為了充分發(fā)揮并利用可計算醫(yī)學(xué)知識的優(yōu)勢,最終需要一種全新的方法讓所有知識在開始生成時便適合于計算[32]。例如,將傳統(tǒng)的人讀的科學(xué)出版物轉(zhuǎn)化為機器可讀的納米出版物,研究產(chǎn)出將不再僅僅是科學(xué)論文及相關(guān)的數(shù)據(jù)集,而是一組可計算格式的結(jié)果或主張,描述實驗過程和結(jié)果的自然語言文本(即學(xué)術(shù)論文)僅作為供人類可讀并參考的一種形式,對其進(jìn)行處理后可產(chǎn)生更高階的信息,如系統(tǒng)綜述和臨床實踐指南。

      3.5 knowlet模型:以知識子圖作為可編碼知識單元

      提出納米出版模型的Barend Mons教授及其團隊同時提出,把所有持相同論斷的納米出版物中共同出現(xiàn)的論斷聚合為一個“基本論斷”,以減少冗余[33]。將圍繞一個中心概念(central concept)、路徑長度為1的三元組之組合作為一個knowlet。我們認(rèn)為,knowlet是指知識圖譜中可以表示一個獨立知識單元的子圖,可將其譯為“知識子圖”。例如,圍繞“新冠”這一概念,作為起點或終點的所有關(guān)系,如癥狀、診斷、治療形成的三元組。隨著圍繞某一概念的論斷越來越多,與文本空間快速增長相比,知識子圖空間增長較小,例如,有大量的文本涉及的知識單元只有一個。知識子圖是一個獨立的數(shù)字對象和最小的知識單元,其本身可被發(fā)現(xiàn)、可訪問、可互操作以及可重用。

      在上述5種醫(yī)學(xué)知識表示模型中,醫(yī)學(xué)診斷規(guī)則和數(shù)據(jù)驅(qū)動的疾病預(yù)測模型主要涉及結(jié)構(gòu)化數(shù)據(jù),以三元組為基礎(chǔ)的表示模型主要適用于非結(jié)構(gòu)化文本。實際上,規(guī)則也可以表示為三元組,例如,“心率”-“正常值”-“60~100次/分”就是“實體-屬性-值”表示的三元組;基于醫(yī)學(xué)數(shù)據(jù)、通過機器學(xué)習(xí)產(chǎn)生的決策樹,可以轉(zhuǎn)化為一系列的醫(yī)學(xué)規(guī)則,亦可理解為三元組的邏輯組合。知識圖譜的本質(zhì)是三元組因果關(guān)系圖譜,由“實體-屬性-值”或“實體-關(guān)系-實體”構(gòu)成。每個屬性-值對應(yīng)刻畫了實體的內(nèi)在特性;關(guān)系則連接兩個實體,刻畫了實體之間的外部關(guān)聯(lián)。

      4 醫(yī)學(xué)知識“可執(zhí)行”的實現(xiàn)路徑

      本文第2節(jié)提出了可計算醫(yī)學(xué)知識的兩個要素:一是可計算化的表示形式,二是機器可執(zhí)行。第3節(jié)和第4節(jié)分就分為圍繞上述兩個要素展開,其中,第3節(jié)是側(cè)重于知識對象封裝成軟件代碼之前如何表示的問題;而第4節(jié)側(cè)重于知識對象封裝成軟件代碼之后,如何提供服務(wù)的整個流程以及尚需要解決的問題。

      北京大學(xué)健康醫(yī)療大數(shù)據(jù)國家研究院正在牽頭積極推動可計算醫(yī)學(xué)知識在中國的研究和實踐,并與該概念的提出者——密歇根大學(xué)學(xué)習(xí)型健康醫(yī)療體系研究中心Charles Friedman教授的團隊保持著密切合作。Charles Friedman教授團隊開發(fā)了一個用于可計算知識對象封裝、存儲、管理和調(diào)用的知識網(wǎng)格(knowledge grid,K-Grid)平臺①https://kgrid.org。目前已經(jīng)實現(xiàn)原型系統(tǒng),并在持續(xù)研發(fā)中。北京大學(xué)健康醫(yī)療大數(shù)據(jù)國家研究院、浙江省北大信息技術(shù)高等研究院智慧醫(yī)療研究中心正在中國進(jìn)行本地化開發(fā)與推廣。目前,該平臺中的知識對象主要來源于結(jié)構(gòu)化數(shù)據(jù),且以疾病預(yù)測模型為主。

      上文介紹了荷蘭萊頓大學(xué)Barend Mons教授團隊提出的納米出版模型與知識子圖模型,主要來源于非結(jié)構(gòu)化文本。我們嘗試將這類知識對象也能編程封裝之后,在K-Grid平臺上實現(xiàn)調(diào)用和執(zhí)行。因此,為了更充分和全面地在我國設(shè)計和發(fā)起可計算醫(yī)學(xué)知識的研發(fā)和實踐,我們整合了上述兩條路徑(圖1)。

      圖1 可計算醫(yī)學(xué)知識的兩條實現(xiàn)路徑(分別針對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化文本)

      知識生成與知識的可計算化處理是分開的、在不同階段進(jìn)行的。本文重點討論將生成后的知識(臨床指南、醫(yī)學(xué)文獻(xiàn)、本地實驗/試驗后的分析結(jié)果等)實現(xiàn)可計算化這階段。

      一是數(shù)據(jù)挖掘,形成計算機可直接調(diào)用和執(zhí)行(如直接計算出疾病風(fēng)險分值)的知識對象,用知識網(wǎng)格(K-Grid)管理,提供輔助診斷。例如,根據(jù)生化指標(biāo)判斷患者是否可診斷為慢性腎病合并貧血,根據(jù)若干指標(biāo)計算個人罹患肺癌風(fēng)險分值等。數(shù)據(jù)挖掘產(chǎn)生的規(guī)則或者模型屬于知識表示模型(如人工神經(jīng)網(wǎng)絡(luò)、決策樹等),還沒有形成可計算知識對象,需要K-Grid平臺上的工具對規(guī)則或者模型進(jìn)行編程封裝之后,才能形成可計算知識對象;多種計算機語言(R或者Python)可供選擇進(jìn)行預(yù)測模型的封裝。雖然R開發(fā)環(huán)境挖掘出來的模型本身就是可執(zhí)行的,但是如果想通過K-Grid平臺進(jìn)行管理的話,還需要進(jìn)一步編程封裝。這與文本挖掘產(chǎn)生知識三元組是一個平行的過程。

      二是文本挖掘,形成結(jié)構(gòu)化的三元組,并納入三元組背后的證據(jù)和數(shù)據(jù),計算出置信度,采用類似Neo4j圖數(shù)據(jù)庫來管理,實現(xiàn)知識單元的查詢和輸出。例如,根據(jù)目前最佳證據(jù),治療某種疾病的藥物清單,該藥物清單可按照置信度排序,提供治療方式的自動推薦。

      總之,無論是路徑一提供的輔助診斷,還是路徑二提供的輔助治療,均為臨床決策支持的范疇。下文分別介紹了在兩條實施路徑中,我們已完成的內(nèi)容以及需要繼續(xù)研發(fā)的內(nèi)容。

      4.1 路徑一:從結(jié)構(gòu)化數(shù)據(jù)中生成的可計算醫(yī)學(xué)知識

      當(dāng)前,作為中國首個“推動醫(yī)學(xué)知識可計算行動”的網(wǎng)站①https://www.kgrid-china.net/,已完成平臺的設(shè)計與研發(fā)(圖2)。選擇慢性疾病作為切入點,構(gòu)建了醫(yī)學(xué)知識模型與可計算編程規(guī)范。已建設(shè)醫(yī)學(xué)知識對象29個,多場景兼容應(yīng)用14個,全流程慢性腎臟疾?。╟hronic kidney disease,CKD)解決方案專題2個。為醫(yī)療機構(gòu)和醫(yī)學(xué)專家團隊提供創(chuàng)建并管理醫(yī)學(xué)知識模型的平臺,讓知識提供者能便捷分享最新研究成果;提供通用的模型API(application programming inter‐face,應(yīng)用程序接口)接口,軟件工程師不需要掌握醫(yī)學(xué)知識即可對模型進(jìn)行組合與部署,研發(fā)符合定制化業(yè)務(wù)流程的應(yīng)用;患者可通過已有應(yīng)用進(jìn)行健康狀況自評與疾病風(fēng)險預(yù)測,醫(yī)護人員可以使用應(yīng)用輔助診療與科研。通過與北京大學(xué)醫(yī)學(xué)部、北京大學(xué)第一醫(yī)院、密歇根大學(xué)等多家醫(yī)療機構(gòu)與國內(nèi)外院校開展深度合作,推動了學(xué)習(xí)型智慧健康體系在中國的落地發(fā)展。

      其主要功能是把原先需要醫(yī)護人員、醫(yī)療領(lǐng)域決策者或者醫(yī)學(xué)科研人員認(rèn)真閱讀、深入理解才能具體掌握的醫(yī)學(xué)知識,轉(zhuǎn)變?yōu)榭捎嬎愕尼t(yī)學(xué)知識對象,以供各類醫(yī)學(xué)應(yīng)用大規(guī)模、并行、且實時地調(diào)用運行。該平臺的核心組件主要包含知識對象、知識對象庫、知識對象激活器以及服務(wù)四個部分(圖2)。

      圖2 K-Grid-China可計算醫(yī)學(xué)知識智能應(yīng)用平臺示意圖

      (1)知識對象(knowledge objects)。知識對象是經(jīng)編程封裝的模塊化、計算機可識別、可處理執(zhí)行的知識模塊。其來源可以是臨床指南(guideline)、期刊文獻(xiàn)以及數(shù)據(jù)驅(qū)動的疾病預(yù)測模型等。知識對象包含程序語言所組成的核心知識載體(knowledge payload)、用于與外界溝通的知識對象元數(shù)據(jù)(meta‐data)、該知識對象部署及相關(guān)服務(wù)的詳細(xì)說明(spec‐ification)。

      (2)知識對象庫(digital library)。知識對象庫用來儲存與管理知識對象。一個知識網(wǎng)格平臺可以包含多個知識對象庫,知識對象庫之間相互關(guān)聯(lián),知識對象庫的基礎(chǔ)為一個網(wǎng)絡(luò)服務(wù)器(web server),加上對象檢索服務(wù)。

      (3)知識對象激活器(activators)。知識對象激活器是一個用來處理患者健康數(shù)據(jù)、激活并部署知識對象、利用知識對象來提供服務(wù)的工具。激活器提供可平行擴展的工具來讓知識對象基于真實世界的患者數(shù)據(jù)進(jìn)行計算推理,并給出運行結(jié)果。理想上激活器可以執(zhí)行以不同語言所編程封裝的知識載體,可將知識載體提供給其他應(yīng)用程序,也可讓某一知識載體本身提供服務(wù)。

      (4)服務(wù)(services)。核心功能在于鏈接醫(yī)學(xué)應(yīng)用與知識對象,利用外界應(yīng)用的輸入數(shù)據(jù)激活相關(guān)的知識對象,并把運行結(jié)果反饋給外界應(yīng)用。

      知識網(wǎng)格平臺與各個來源不同、類型相異的醫(yī)學(xué)知識相比較,就如共同的橋梁和獨立的小船,知識網(wǎng)格平臺為各種醫(yī)學(xué)知識提供了一個通用的平臺工具,讓各類醫(yī)學(xué)知識能夠通過該平臺以一個通用的標(biāo)準(zhǔn)和模式為各類醫(yī)學(xué)應(yīng)用所調(diào)用,以期為學(xué)習(xí)型智慧健康醫(yī)療體系中知識到實踐一環(huán)提供基礎(chǔ)架構(gòu)。

      在該路徑中,推進(jìn)可計算的醫(yī)學(xué)知識研發(fā)與應(yīng)用還面臨著若干挑戰(zhàn)。一是將可計算的知識對象,例如,疾病預(yù)測模型應(yīng)用于不同的電子病歷系統(tǒng)涉及的標(biāo)準(zhǔn)和互操作性問題;二是需要更好地追蹤和評估可計算醫(yī)學(xué)知識對患者診療結(jié)果的影響;三是如何將目前針對單一病種的可計算醫(yī)學(xué)知識實現(xiàn)方法和手段拓展到針對共病的醫(yī)學(xué)知識等[34]。

      4.2 路徑二:從非結(jié)構(gòu)化文本中生成的可計算醫(yī)學(xué)知識

      從文本信息中提取知識,開展知識計算一直是情報學(xué)的前沿問題,其核心在于找到合適的知識單元,即要解決什么是知識以及用什么來表示知識?,F(xiàn)有研究表明,受計算機科學(xué)領(lǐng)域啟發(fā),以“實體-關(guān)系-實體”和“概念-屬性-值”三元組作為知識計算單元,具有理論上的合理性以及數(shù)據(jù)實現(xiàn)的可行性[35]。數(shù)字時代,文本大數(shù)據(jù)中隱藏著大量醫(yī)學(xué)知識,去除醫(yī)學(xué)文本冗余部分并提取結(jié)構(gòu)化知識單元是解決信息超載問題、實現(xiàn)大規(guī)模知識計算的關(guān)鍵。但仍有兩個科學(xué)問題需要解決。一是如何既完整又最小化(不可再分)地表示一個獨立的醫(yī)學(xué)知識單元,即如何在三元組及其邏輯組合形成的知識圖譜中,找到一個最小子圖,作為可計算醫(yī)學(xué)知識的基本單元,對其利用計算機語言進(jìn)行編程實現(xiàn),通過計算機程序?qū)崿F(xiàn)與醫(yī)療數(shù)據(jù)之間的自動化對話;二是鑒于醫(yī)學(xué)知識的個體化和不確定性特征,需要明確醫(yī)學(xué)知識單元成立的依賴條件和證據(jù)來源,同時兼顧醫(yī)學(xué)知識表示的結(jié)構(gòu)化、完整性和不可再分性,才能將人讀的知識格式盡可能“無丟失”和“無冗余”地轉(zhuǎn)化為機器可讀且可執(zhí)行的知識格式。

      以美國密歇根大學(xué)K-Grid原型為基礎(chǔ),參考荷蘭萊頓大學(xué)納米出版模型和知識子圖(knowlet)模型,本文提出從非結(jié)構(gòu)化文本中生成可計算醫(yī)學(xué)知識的語義表示模型(圖3)和主要實現(xiàn)路徑(圖4)。該模型兼顧醫(yī)學(xué)知識結(jié)構(gòu)化和可執(zhí)行兩個核心要點,考慮將置信度作為醫(yī)學(xué)知識執(zhí)行和應(yīng)用的必要條件,以“可編碼知識單元+置信度+可追蹤的證據(jù)來源”為基本組件,每個組件均以資源描述框架(resource description framework,RDF)格式進(jìn)行描述。為實現(xiàn)知識之間的互操作,對每個可編碼知識單元分配一個可信任的統(tǒng)一資源標(biāo)識符。該模型將“知識單元”及其背后的數(shù)據(jù)和證據(jù)鏈接起來。

      圖3 從非結(jié)構(gòu)化文本中生成的可計算醫(yī)學(xué)知識的語義表示模型

      圖4 源于非結(jié)構(gòu)化文本的可計算醫(yī)學(xué)知識流程圖

      該模型的關(guān)鍵要素主要包括三個方面。

      (1)知識的結(jié)構(gòu)化問題。采用較為成熟的英文醫(yī)學(xué)自然語言處理工具和中英文醫(yī)學(xué)術(shù)語映射體系,解決中文醫(yī)學(xué)自然語言處理和三元組抽取問題,形成以主語-謂語-賓語三元組形式表示的結(jié)構(gòu)化主張。針對英文自然語言表述的醫(yī)學(xué)文獻(xiàn)、臨床指南、醫(yī)學(xué)百科和現(xiàn)有醫(yī)學(xué)知識庫等,利用一體化醫(yī)學(xué)語言系統(tǒng)(UMLS),優(yōu)化基于SemRep抽取的臨床相關(guān)“概念-關(guān)系-概念”三元組;對于召回率低的問題,考慮增加利用通用信息抽取工具,如OpenIE抽取“實體-屬性-值”三元組。同時,需要開展醫(yī)學(xué)證據(jù)、結(jié)局指標(biāo)與數(shù)值抽取,內(nèi)容包括臨床結(jié)局指標(biāo)(如有效率、應(yīng)答率等)、值及P-value。例如,從自然語言文本“2019年我國心血管疾病導(dǎo)致死亡人數(shù)約460萬,占全部死亡的43%”中可抽取出:①三元組:“心血管疾病-死亡占比-43%”;②依賴條件:中國人群;③證據(jù)來源:2019年全球疾病負(fù)擔(dān)報告(the global burden of disease study 2019,GBD 2019)。同時,探索基于臨床試驗注冊平臺數(shù)據(jù)開展證據(jù)合成的方法研究,以美國Clinicaltrials.gov、中國臨床試驗注冊平臺等為基礎(chǔ),利用其相對結(jié)構(gòu)化的數(shù)據(jù),自動生成“患者-干預(yù)-對照-結(jié)局”(popu‐lation-interventions-comparisons-outcomes,PICO),對于注冊平臺上未報告結(jié)果的試驗,通過計算機軟件工具獲取書目數(shù)據(jù)庫(如PubMed)或網(wǎng)絡(luò)(如權(quán)威會議報道)報告結(jié)果。

      (2)知識的置信度問題。針對現(xiàn)有的臨床治療類知識圖譜中三元組因缺乏置信度(confidence score)導(dǎo)致在真實世界臨床決策難以落地的瓶頸,需要對醫(yī)學(xué)知識三元組的置信度水平進(jìn)行計算,但總體的置信度水平離不開每個證據(jù)的臨床結(jié)局。根據(jù)證據(jù)推理(evidential reasoning)理論,把不同的臨床證據(jù)的置信度進(jìn)行合成,可計算得到該三元組的綜合置信度得分。通過舍棄置信度較低的知識,或找到置信度較低知識的條件來保障知識圖譜中三元組的質(zhì)量。

      (3)知識的臨床決策支持應(yīng)用?;谥形囊惑w化醫(yī)學(xué)語言系統(tǒng)(Chinese unified medical language system,CUMLS)[36]、國家衛(wèi)生健康委員會陸續(xù)發(fā)布的中文醫(yī)學(xué)術(shù)語表等,對構(gòu)建的醫(yī)學(xué)知識圖譜中各三元組中的概念和關(guān)系進(jìn)行中英文映射,轉(zhuǎn)化為中文醫(yī)學(xué)知識圖譜三元組。探索實現(xiàn)醫(yī)學(xué)知識“可執(zhí)行”的機制,將醫(yī)學(xué)知識圖譜的子圖作為知識單元進(jìn)行計算機語言編碼,并開發(fā)與真實世界電子病歷中數(shù)據(jù)對話的接口?;趲в兄眯哦鹊闹R三元組,通過計算機編程封裝轉(zhuǎn)化為可計算知識對象以輔助臨床決策,如診斷預(yù)測、治療推薦等。通過在臨床工作流程中嵌入可計算知識對象、開發(fā)可計算知識和患者數(shù)據(jù)之間的對話機制,解決從知識到實踐,從實踐再到數(shù)據(jù)的循環(huán)式學(xué)習(xí),解決醫(yī)學(xué)知識圖譜在真實場景中落地應(yīng)用問題。

      對于從非結(jié)構(gòu)化文本中抽取可計算醫(yī)學(xué)知識,結(jié)構(gòu)化和可執(zhí)行同樣是其兩個關(guān)鍵要素,也是兩個重要目標(biāo)。其中,結(jié)構(gòu)化是指從非結(jié)構(gòu)化醫(yī)學(xué)文本中生成結(jié)構(gòu)化的知識,并構(gòu)建適宜的表示和存儲模型,實現(xiàn)大規(guī)模存?。豢蓤?zhí)行是指能與電子病歷(EMR)數(shù)據(jù)進(jìn)行交互,并提供決策支持,實現(xiàn)大規(guī)模使用。在知識圖譜三元組的基礎(chǔ)上,提出增加通過證據(jù)推理融合計算總體置信度水平的思路,解決的知識應(yīng)用的關(guān)鍵瓶頸——不確定性。最終實現(xiàn)“從數(shù)據(jù)到知識、從知識到實踐、從實踐再到數(shù)據(jù)”的循環(huán)式學(xué)習(xí),促進(jìn)醫(yī)學(xué)知識快速服務(wù)于臨床實踐。

      5 討論

      5.1 可計算醫(yī)學(xué)知識的理論概念為深化情報學(xué)研究提供了新的范式

      本文所討論的“可計算醫(yī)學(xué)知識”,均來源于醫(yī)學(xué)文獻(xiàn)、臨床指南等科學(xué)出版物,其中既涉及邏輯化的知識對象,又涉及結(jié)構(gòu)化的知識單元。對科學(xué)出版物的分析挖掘本身就是情報學(xué)的“看家本領(lǐng)”。但本文的研究重點并非對科學(xué)出版物外部屬性特征的分析挖掘,而是對其中蘊含的知識單元或知識對象的分析挖掘,這也是促進(jìn)情報學(xué)向深層次發(fā)展的需要,正如我國情報學(xué)學(xué)者馬費成教授曾指出,從物理層次的文獻(xiàn)單元向認(rèn)知層次的知識單元轉(zhuǎn)換是情報學(xué)取得突破性發(fā)展需要解決的關(guān)鍵問題。本文所涉內(nèi)容是通過醫(yī)學(xué)信息學(xué)或循證醫(yī)學(xué)的智能化實現(xiàn)技術(shù)作為手段或途徑,來討論如何把科學(xué)出版物中的知識主張或知識對象,以合適的形式抽取出來,并通過編程封裝,形成可計算的知識,即計算機可直接執(zhí)行的知識,以促進(jìn)知識的大規(guī)模應(yīng)用,打通“data to knowledge”(D2K)和“knowledge to practice”(K2P)的鴻溝。

      從科學(xué)出版物中抽取出知識單元或知識對象的過程,本身也是一個信息處理和情報提取的過程。但是,到底什么是知識單元或知識對象,需要明確其定義并構(gòu)建合適的模型,即對“可計算化”進(jìn)行建模。本文提出的兩條實現(xiàn)路徑,實際上分別對應(yīng)了知識對象和知識單元。

      受OMAHA白皮書《促進(jìn)醫(yī)學(xué)知識價值開發(fā):臨床指南的計算機化》(2019)[37]的啟發(fā),本文認(rèn)為,知識對象的抽取和封裝過程是基于知識的建模;知識單元的抽取和封裝過程是基于文檔的建模。前者側(cè)重知識的內(nèi)在邏輯,后者側(cè)重知識的表示形式。

      (1)基于文檔的模型。以科學(xué)出版物文檔本身為中心,將其中以文本表示的知識主張(knowledge claims)轉(zhuǎn)換為計算機可以理解的文檔形式,例如,以三元組為主要形式的知識單元,強調(diào)知識主張的結(jié)構(gòu)化。這種模型結(jié)構(gòu)清晰、表示方法簡單易懂、不需要特殊執(zhí)行框架,可通過圖數(shù)據(jù)庫進(jìn)行存儲和查詢,即使不懂編程知識的用戶(如醫(yī)學(xué)研究者、醫(yī)生等)也可使用,其通用性較強。但由于其計算機化的程度只到文檔層面,就導(dǎo)致了其對科學(xué)出版物中知識主張及其背后的邏輯論證過程的解構(gòu)程度較淺,無法實現(xiàn)知識主張中復(fù)雜邏輯知識的表達(dá),因此,其在決策支持(如臨床輔助決策支持)層面的應(yīng)用較淺,復(fù)雜知識的表達(dá)還得依賴基于知識的模型。

      (2)基于知識的模型。以科學(xué)出版物中的知識為核心,將其中的知識對象以規(guī)則、決策樹或者任務(wù)網(wǎng)絡(luò)的形式進(jìn)行邏輯的呈現(xiàn),強調(diào)知識的邏輯表示形式,采用專門的格式將知識表示為一種形式化、計算機可讀的形式,并且將不同知識融合形成一套知識庫,用于臨床輔助決策系統(tǒng),并強調(diào)與電子病歷系統(tǒng)的結(jié)合。同時,強調(diào)在不同機構(gòu)和不同執(zhí)行平臺間的知識共享,故標(biāo)準(zhǔn)化的醫(yī)學(xué)術(shù)語,如SNOMED CT(systematized nomenclature of medicine clinical terms)、UMLS和MeSH(medical subject head‐ings)應(yīng)用非常普遍。由于對醫(yī)學(xué)知識的解構(gòu)較深,這類模型普遍需要臨床的醫(yī)務(wù)工作者或者指南的撰寫者與編程人員一起開發(fā),才能更好地理解和表達(dá)醫(yī)學(xué)文獻(xiàn)與臨床指南中所包含的知識對象。

      5.2 可計算醫(yī)學(xué)知識在促進(jìn)知識轉(zhuǎn)化、知識發(fā)現(xiàn)和循證決策中的應(yīng)用場景

      本文結(jié)合與情報學(xué)密切相關(guān)的科學(xué)哲學(xué)、決策科學(xué)等以“知識”為關(guān)注對象的領(lǐng)域的最新觀點和進(jìn)展,從學(xué)科交叉的角度,討論可計算醫(yī)學(xué)知識在促進(jìn)知識轉(zhuǎn)化、知識發(fā)現(xiàn)和循證決策的可靠性方面的具體應(yīng)用場景。

      (1)促進(jìn)從知識到實踐。目前,科學(xué)知識基本以文本格式發(fā)布,不利于用戶使用??茖W(xué)出版物是知識載體,從中抽取知識單元或知識對象,并封裝成軟件代碼,這是可計算知識的基本概念和路徑。與其他學(xué)科領(lǐng)域相比,醫(yī)學(xué)領(lǐng)域和信息學(xué)的交叉研究(如醫(yī)學(xué)信息學(xué)、健康信息學(xué))的技術(shù)進(jìn)展較快,需求也更為迫切,尤其是醫(yī)療實踐需要跟上醫(yī)學(xué)知識的快速增長和更新,需要將醫(yī)學(xué)知識快速轉(zhuǎn)化為醫(yī)療實踐,而將人讀的醫(yī)學(xué)知識轉(zhuǎn)化為機器可讀、可執(zhí)行的醫(yī)學(xué)知識是促進(jìn)“知識到實踐”的有效途徑。

      (2)面向知識發(fā)現(xiàn)的知識管理。將科學(xué)知識儲存在論文里,很難將所有的發(fā)現(xiàn)整合起來。學(xué)界認(rèn)為,以數(shù)據(jù)為中心的科學(xué)標(biāo)志著數(shù)據(jù)必須從論文限制中“解放”出來,并存儲在云端,以看到更大、更具全局性的畫面。理想情況下,所有的科學(xué)出版物都應(yīng)該是計算機可讀的,這樣計算機就可以檢測出人類無法識別的模式[38]。最近,挪威學(xué)者在《計算時代“可解釋的、可計算的、可管理的”的科學(xué)知識》一文中,提出將知識視為可計算對象的觀點[39],認(rèn)為計算賦能(可計算)的知識管理實踐提供了獲取新的一階科學(xué)知識的二階科學(xué)研究方法,并提出了兩個基本的知識概念:①知識被認(rèn)為是在已發(fā)表的科學(xué)文本中顯性表達(dá)的事實和信息;②知識被認(rèn)為是通過適當(dāng)?shù)呐缮鷶?shù)據(jù)(derived data)和元數(shù)據(jù)來實現(xiàn)計算的。他們將可計算的知識管理(computable knowledge management)定義為:在科學(xué)出版物(如PubMed)和知識庫(如GenBank)等一階知識的基礎(chǔ)上開展二階科學(xué)研究,生成新的一階知識的過程。本文認(rèn)為,這一概念與基于文獻(xiàn)的知識發(fā)現(xiàn)(literature-based discovery)是相似的,即把零散的、不相關(guān)的信息進(jìn)行整合,揭示出新的、有希望的、令人驚訝的研究方向,或者提供潛在的變革性或突破性的見解[40]。計算科學(xué)家以從文獻(xiàn)和數(shù)據(jù)庫中提取的知識為基礎(chǔ),對其進(jìn)行計算處理,從而挖掘出可以由實驗科學(xué)家在實驗中得到檢驗的新假設(shè)。實驗科學(xué)家和計算科學(xué)家之間的合作已成為科學(xué)知識發(fā)現(xiàn)的新趨勢。

      目前,知識管理主要依賴于客觀認(rèn)識論,即將知識視為客觀的、物理的、可完全可解釋的,而忽視了知識的不完整性、不確定性程度及其上下文背景,如其依賴的條件。要真正實現(xiàn)從現(xiàn)有知識大數(shù)據(jù)中再次發(fā)現(xiàn)新的知識,就不應(yīng)僅關(guān)注結(jié)構(gòu)化的知識單元(knowledge unit),還要關(guān)注知識背景(knowl‐edge context)。以實踐為基礎(chǔ)的認(rèn)識論挑戰(zhàn)了科學(xué)知識可以完全解釋和編碼的假設(shè),其認(rèn)為開發(fā)知識管理工具以及據(jù)此做出決策和判斷需要考慮科學(xué)知識固有的模糊性、不確定性;而且科學(xué)知識是多維的,既有具體性又有抽象性,既有隱性又有顯性,既有集體性又有個體性,既有發(fā)展性又有靜態(tài)性。認(rèn)識到知識表達(dá)的多樣性、模糊性、不確定性和不一致性,才能更高效地發(fā)現(xiàn)新的知識。將知識的動態(tài)性、不確定性、具象化和爭議性納入計算過程,是確保知識發(fā)現(xiàn)的有效性和可靠性的關(guān)鍵因素。因此,本文在知識圖譜三元組的基礎(chǔ)上,提出增加通過證據(jù)推理融合計算總體置信度水平的思路,解決的知識應(yīng)用的關(guān)鍵瓶頸——不確定性,以打通知識和實踐之間的橋梁。

      (3)循證決策。循證決策(evidence-based poli‐cy-making)是借鑒循證醫(yī)學(xué)而發(fā)展出來的一套決策理論,認(rèn)為政策和決策制定也應(yīng)吸收和使用最新的科學(xué)證據(jù),同時,將社會經(jīng)驗和價值判斷結(jié)合起來,尤其是在突發(fā)事件中,做出最佳決策,如新冠肺炎疫情的防控和治療[41]。但在政策和實踐中執(zhí)行循證決策時,需要克服以下障礙[42]:①錯失機會窗。如果在需要制定關(guān)鍵決策時沒有所需要的證據(jù)(或沒有資源/基礎(chǔ)設(shè)施),那么就會失去循證干預(yù)的機會。②知識缺口與不確定性。③有爭議、無關(guān)的和相互矛盾的證據(jù),這時不清楚遵循哪一條路徑,會增加制定不正確或非循證決策的風(fēng)險。而第二條和第三條障礙都涉及知識的不完備性和不確定性,促進(jìn)本文對DIKW(data,information,knowledge,wisdom)模型的再次理解,尤其是關(guān)于如何從知識到智慧這一環(huán)節(jié)。從數(shù)據(jù)到信息,再到知識,解釋的是“when/where/who/what”和“how/why”的問題。而從知識到智慧,解決的是“如何在不完備和不確定條件下中做出最佳決策”的問題。醫(yī)學(xué)知識的不完備性和不確定性是客觀存在的,是醫(yī)學(xué)決策經(jīng)常面臨的現(xiàn)實環(huán)境和需要考慮的重要因素。從情報學(xué)的角度對醫(yī)學(xué)知識不確定性進(jìn)行測度,通過可計算的知識實現(xiàn)路徑,及時挖掘出有爭議的和相互矛盾的科學(xué)證據(jù),可為循證決策提供重要的參考和依據(jù)。過去針對政府決策需求的情報學(xué)研究和服務(wù)可能多側(cè)重提供確定性的信息和知識,特別是已證實或證偽的并有大量依據(jù)來支持。而識別知識缺口并通過情報學(xué)研究,特別是基于文獻(xiàn)的知識發(fā)現(xiàn),彌補這些知識缺口,以及測度并甄別出不確定性的知識及其背后的原因和條件,對于循證決策至關(guān)重要。

      6 結(jié)論

      當(dāng)前,我國政府高度重視面向人民生命健康的科技創(chuàng)新,《健康中國2030規(guī)劃綱要》中提出,到2030年,大力加強國家臨床醫(yī)學(xué)研究中心和協(xié)同創(chuàng)新網(wǎng)絡(luò)建設(shè)。可以預(yù)計,與我國人民生命健康相關(guān)的本土醫(yī)學(xué)證據(jù)和知識將快速增長。目前,有關(guān)我國人群疾病與健康相關(guān)的醫(yī)學(xué)知識散落在電子病歷、電子健康檔案、醫(yī)學(xué)文獻(xiàn)報道、臨床實踐指南以及醫(yī)療機構(gòu)網(wǎng)站或自存儲庫中,需要人讀、人理解或人整合之后,才能形成臨床實踐中可直接大規(guī)模使用的知識。此外,我國為數(shù)不多的可計算知識生成和應(yīng)用實例(主要是臨床決策支持工具系統(tǒng))處于不同機構(gòu)各為所用、互不兼容、缺乏標(biāo)準(zhǔn)的狀態(tài),存在顯著的碎片化現(xiàn)象。同時,隨著我國對發(fā)展健康醫(yī)療大數(shù)據(jù)與醫(yī)療人工智能的重視和投入[43],以及公眾的健康意識逐步從單純的醫(yī)療服務(wù)提前到基于數(shù)字技術(shù)進(jìn)行個人健康管理,健康醫(yī)療數(shù)據(jù)在實踐中不斷積累。在海量知識和數(shù)據(jù)的背景下,通過可計算醫(yī)學(xué)知識的理念,將醫(yī)學(xué)研究產(chǎn)出的證據(jù)和知識及時轉(zhuǎn)化為臨床實踐,并搭建醫(yī)學(xué)知識和醫(yī)療實踐之間交互的“接口”和“橋梁”,形成“數(shù)據(jù)-知識-實踐-數(shù)據(jù)”的循環(huán)式學(xué)習(xí),從而提高醫(yī)學(xué)研究效率和醫(yī)療服務(wù)質(zhì)量,為我國建設(shè)學(xué)習(xí)型健康醫(yī)療體系提供方法學(xué)基礎(chǔ)和路徑參考。

      總之,可計算知識強調(diào)將人讀的知識格式通過抽取和編程轉(zhuǎn)化為機器可執(zhí)行的知識格式,其是促進(jìn)將知識大規(guī)模應(yīng)用到實踐的重要手段,不僅為情報學(xué)領(lǐng)域開展知識計算或知識計量學(xué)研究提供了新范式,也為數(shù)字圖書館存儲和管理數(shù)字化知識對象提出了新需求。本文以醫(yī)學(xué)為例,詳細(xì)地闡述了可計算醫(yī)學(xué)知識的基本概念,并提出從結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化文本中生成和共享可計算醫(yī)學(xué)知識的兩條實現(xiàn)路徑,以期為國內(nèi)學(xué)術(shù)界開展醫(yī)學(xué)知識計算引入跨學(xué)科研究思路,并拓展其應(yīng)用實踐。

      猜你喜歡
      醫(yī)學(xué)知識三元組結(jié)構(gòu)化
      基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
      特征標(biāo)三元組的本原誘導(dǎo)子
      促進(jìn)知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      計算機教育(2020年5期)2020-07-24 08:53:00
      關(guān)于余撓三元組的periodic-模
      思維導(dǎo)圖在醫(yī)學(xué)中的應(yīng)用
      加強班級凝聚力建設(shè),激發(fā)學(xué)生學(xué)習(xí)的積極性
      新環(huán)境下《解剖學(xué)》教學(xué)資源開發(fā)探討分析
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      衛(wèi)?;瘜W(xué)教學(xué)中滲透醫(yī)學(xué)知識的實踐
      甘谷县| 陆川县| 马边| 乐清市| 张北县| 高淳县| 澄迈县| 临泽县| 安溪县| 临桂县| 东港市| 开封市| 自治县| 南通市| 黔西| 汽车| 台山市| 铁力市| 房产| 通州市| 甘泉县| 沅江市| 兰溪市| 永济市| 榕江县| 安丘市| 临澧县| 乌苏市| 锦屏县| 海阳市| 个旧市| 柳河县| 汝城县| 周宁县| 和政县| 福建省| 齐河县| 孝义市| 瓦房店市| 沙雅县| 巴彦县|