張大政
(杭州慧康物聯(lián)網(wǎng)科技有限公司,浙江 杭州 310052)
當(dāng)前我們正處于一個(gè)數(shù)據(jù)爆炸性增長(zhǎng)的“大數(shù)據(jù)”時(shí)代,大數(shù)據(jù)在各行各業(yè)中都有寬廣的應(yīng)用前景。在醫(yī)療健康領(lǐng)域,數(shù)據(jù)已經(jīng)成為行業(yè)的核心資產(chǎn),基于大數(shù)據(jù)的研究應(yīng)用優(yōu)化了醫(yī)院業(yè)務(wù)流程、管理模式和決策方式,對(duì)醫(yī)療行業(yè)發(fā)展健康管理、精準(zhǔn)醫(yī)療、智慧運(yùn)營(yíng)管理等有深遠(yuǎn)意義。目前,針對(duì)健康醫(yī)療大數(shù)據(jù)的研究和各類(lèi)應(yīng)用正在如火如荼地探索中,總體而言主要包括:臨床業(yè)務(wù)、藥物研發(fā)、公眾健康、個(gè)性化醫(yī)療、醫(yī)療商業(yè)模式等方面。醫(yī)療衛(wèi)生行業(yè)的數(shù)據(jù)量極大且結(jié)構(gòu)多樣化,其復(fù)雜程度早已超過(guò)了傳統(tǒng)意義。采用更為合理的數(shù)據(jù)科學(xué)研究模型、更為高效的大數(shù)據(jù)分析技術(shù),建立適合醫(yī)療健康領(lǐng)域的大數(shù)據(jù)應(yīng)用平臺(tái)可以產(chǎn)出更為準(zhǔn)確的大數(shù)據(jù)分析結(jié)果和預(yù)測(cè)結(jié)論,同時(shí)也能更符合醫(yī)療衛(wèi)生行業(yè)較高的隱私安全標(biāo)準(zhǔn)。
傳統(tǒng)的數(shù)據(jù)分析方法在處理大數(shù)據(jù)時(shí)遇到了瓶頸。Hadoop是由業(yè)界主流的大數(shù)據(jù)分布式系統(tǒng)基礎(chǔ)架構(gòu),用戶(hù)可以在不了解分布式底層細(xì)節(jié)的情況下,輕松地在Hadoop 上開(kāi)發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序,使得醫(yī)院的所有海量歷史數(shù)據(jù)都可以容納在大數(shù)據(jù)庫(kù)中并進(jìn)行實(shí)時(shí)的海量數(shù)據(jù)檢索和計(jì)算。不但保證數(shù)據(jù)容量增加不影響性能,而且可以不宕機(jī)增加數(shù)據(jù)存儲(chǔ)和處理節(jié)點(diǎn)實(shí)現(xiàn)線性容量擴(kuò)展。
知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念。其中,每個(gè)實(shí)體或概念用一個(gè)全局唯一確定的ID 來(lái)標(biāo)識(shí),稱(chēng)為它們的標(biāo)識(shí)符。每個(gè)屬性-值對(duì)用來(lái)刻畫(huà)實(shí)體的內(nèi)在特性,而關(guān)系用來(lái)連接兩個(gè)實(shí)體,刻畫(huà)他們之間的關(guān)聯(lián)。知識(shí)圖譜亦可被看作是一張巨大的圖,圖中的節(jié)點(diǎn)表示實(shí)體或概念,而圖中的邊則由屬性或關(guān)系構(gòu)成。
醫(yī)療信息涵蓋了醫(yī)療過(guò)程和醫(yī)院活動(dòng)的全部數(shù)據(jù)資源,包括臨床醫(yī)療信息和醫(yī)院管理信息。目前醫(yī)學(xué)信息包括純數(shù)據(jù)(如體征參數(shù)、化驗(yàn)結(jié)果)、信號(hào)(如肌電信號(hào)、腦電信號(hào)等)、圖像(如B 超、CT 等醫(yī)學(xué)成像設(shè)備的檢測(cè)結(jié)果)、文字(如病人的身份記錄、癥狀描述、檢測(cè)和診斷結(jié)果的文字表述),以及用于科普、咨詢(xún)的動(dòng)畫(huà)、語(yǔ)音和視頻信息[1]。
隨著公眾對(duì)開(kāi)放醫(yī)療數(shù)據(jù)需求的提升,以及對(duì)隱私問(wèn)題的擔(dān)憂(yōu),加之物聯(lián)網(wǎng)技術(shù)、智能可穿戴設(shè)備的出現(xiàn)以及云服務(wù)的發(fā)展為醫(yī)療數(shù)據(jù)的安全性帶來(lái)新的考驗(yàn),其中最緊迫的莫過(guò)其安全性及健康數(shù)據(jù)的隱私性。具體醫(yī)療健康業(yè)務(wù)數(shù)據(jù)面臨的巨大挑戰(zhàn)在于如何對(duì)數(shù)據(jù)進(jìn)行匿名化——移除個(gè)人和私有信息,但要同時(shí)保證處理后的數(shù)據(jù)對(duì)于分析仍舊足夠有用。
在第二次人工智能浪潮時(shí)期,只要向計(jì)算機(jī)中輸入足夠多的知識(shí),計(jì)算機(jī)就能相應(yīng)地完成很多任務(wù),但是其能力也僅限于所輸入知識(shí)的范圍;如果想擴(kuò)充計(jì)算機(jī)的實(shí)用性及其應(yīng)對(duì)例外病例的能力,則需輸入海量知識(shí),永遠(yuǎn)輸不完。另外,從根本上講,輸入的符號(hào)與其所表示的意義往往脫節(jié),對(duì)計(jì)算機(jī)而言,掌握“語(yǔ)義”非常困難。有一項(xiàng)技術(shù)——機(jī)器學(xué)習(xí)得到了穩(wěn)步發(fā)展,即人工智能程序自身進(jìn)行學(xué)習(xí)。機(jī)器學(xué)習(xí)常用的原理包括最近鄰分類(lèi)算法、樸素貝葉斯算法、決策樹(shù)、支持向量機(jī)等,而其中最為著名的當(dāng)屬人工神經(jīng)網(wǎng)絡(luò)。ANN 是在第三次人工智能浪潮中興起的一門(mén)集腦科學(xué)、信息科學(xué)、計(jì)算機(jī)科學(xué)于一體的高度綜合的前沿、交叉學(xué)科,是一種通過(guò)模仿人類(lèi)腦神經(jīng)回路將生物神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)、功能等方面的理論高度抽象、概括、綜合而構(gòu)成的信息處理系統(tǒng),是當(dāng)代人工智能領(lǐng)域的重要分支。
深度學(xué)習(xí)是一種當(dāng)前人工智能算法里取得良好效果的一類(lèi),通過(guò)模擬人類(lèi)大腦分層認(rèn)知結(jié)構(gòu),模擬人腦對(duì)數(shù)據(jù)進(jìn)行分析??梢詰?yīng)用到醫(yī)療臨床檢測(cè)與診斷的各個(gè)環(huán)節(jié)中,從醫(yī)學(xué)檢測(cè)采集,到檢測(cè)結(jié)果的圖像處理分析,病變區(qū)域檢測(cè),輔助疾病診斷及治療與預(yù)后的整個(gè)過(guò)程當(dāng)中。各過(guò)程相輔相成。
醫(yī)療健康領(lǐng)域大數(shù)據(jù)應(yīng)用平臺(tái)的整體架構(gòu)設(shè)計(jì)上,需要充分考慮數(shù)據(jù)的獲取、數(shù)據(jù)的治理、數(shù)據(jù)的應(yīng)用三個(gè)層面,因此整個(gè)大數(shù)據(jù)應(yīng)用平臺(tái)的建設(shè)必須包括平臺(tái)基礎(chǔ)層、中臺(tái)軟件、業(yè)務(wù)前臺(tái)層三個(gè)方面。
平臺(tái)基礎(chǔ)層主要負(fù)責(zé)基礎(chǔ)服務(wù),這些平臺(tái)組件將提供包括基礎(chǔ)軟件(數(shù)據(jù)同步采集轉(zhuǎn)換與存儲(chǔ))、商業(yè)智能分析平臺(tái)與人工智能基礎(chǔ)軟件?;A(chǔ)軟件中的大數(shù)據(jù)實(shí)時(shí)同步轉(zhuǎn)換平臺(tái)是針對(duì)大數(shù)據(jù)場(chǎng)景下的數(shù)據(jù)采集、抽取、同步及轉(zhuǎn)換業(yè)務(wù),采用底層數(shù)據(jù)庫(kù)級(jí)別的數(shù)據(jù)同步鏡像技術(shù),實(shí)時(shí)地將業(yè)務(wù)庫(kù)中的數(shù)據(jù)同步到大數(shù)據(jù)庫(kù)中,保證挖掘分析數(shù)據(jù)和原始業(yè)務(wù)數(shù)據(jù)一比一鏡像,實(shí)現(xiàn)最高級(jí)別的數(shù)據(jù)質(zhì)量,保證數(shù)據(jù)完整性、真實(shí)性、防范各種假數(shù)據(jù)、不一致數(shù)據(jù)等,同時(shí)可以對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理,將轉(zhuǎn)換后的數(shù)據(jù)寫(xiě)入到專(zhuān)用的數(shù)據(jù)集市中。大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)計(jì)算平臺(tái)主要針對(duì)目前數(shù)據(jù)平臺(tái)中數(shù)據(jù)量太大、存儲(chǔ)模式不合理等因素造成的電子病歷數(shù)據(jù)查詢(xún)、更新操作非常慢、數(shù)據(jù)監(jiān)控困難、綜合管理系統(tǒng)決策支持滯后等等問(wèn)題,需要重新構(gòu)建一個(gè)安全、可靠、穩(wěn)定、能同時(shí)解決歷史數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)讀寫(xiě)速度快、響應(yīng)效率高的大數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)質(zhì)量監(jiān)控、決策支持、挖掘、分析的中心實(shí)施方案。大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)計(jì)算平臺(tái)應(yīng)包括數(shù)據(jù)分布式存儲(chǔ)、分布式消息隊(duì)列和分布式計(jì)算等功能組件。在分布式存儲(chǔ)方面,基于Hadoop 大數(shù)據(jù)分布式系統(tǒng)基礎(chǔ)架構(gòu),實(shí)現(xiàn)對(duì)存儲(chǔ)容量的線性擴(kuò)展,提供符合SQL92 規(guī)范的交互功能,使得傳統(tǒng)的數(shù)據(jù)開(kāi)發(fā)人員可以通過(guò)SQL 語(yǔ)句對(duì)大數(shù)據(jù)平臺(tái)中的數(shù)據(jù)進(jìn)行業(yè)務(wù)處理。在生產(chǎn)環(huán)境下,存儲(chǔ)平臺(tái)可實(shí)時(shí)備份,包括異地備份,在數(shù)據(jù)故障情況下,可實(shí)現(xiàn)數(shù)據(jù)的快速恢復(fù)。需要對(duì)整個(gè)存儲(chǔ)平臺(tái)實(shí)現(xiàn)良好的性能監(jiān)控和故障預(yù)警功能。在不影響現(xiàn)有服務(wù)的同時(shí),可以實(shí)現(xiàn)導(dǎo)向式的硬件橫向擴(kuò)展。對(duì)于平臺(tái)中所存儲(chǔ)的數(shù)據(jù)文件要進(jìn)行加密處理,而通過(guò)SQL 查詢(xún)的數(shù)據(jù),要實(shí)現(xiàn)動(dòng)態(tài)數(shù)據(jù)屏蔽。通過(guò)商業(yè)智能分析平臺(tái),建立支持多維模型的數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)對(duì)健康檔案及其衍生主題數(shù)據(jù)庫(kù)的深度挖掘、統(tǒng)計(jì)分析、綜合展示,智能分析、獲取數(shù)據(jù)的內(nèi)在價(jià)值,更好地滿(mǎn)足綜合管理、輔助決策的需求。人工智能基礎(chǔ)軟件面向AI 模型生產(chǎn)的生命周期,為模型的硬件加速、硬件適配、算子優(yōu)化、代碼編譯優(yōu)化、文件系統(tǒng)適配建立基礎(chǔ),方便用戶(hù)后續(xù)在人工智能中臺(tái)上進(jìn)行一站式構(gòu)建AI 算法。
數(shù)據(jù)治理體系建設(shè)的目的是建立數(shù)據(jù)擁有者、使用者、數(shù)據(jù)以及支撐系統(tǒng)之間的和諧互補(bǔ)關(guān)系,從全機(jī)構(gòu)視角協(xié)調(diào)、統(tǒng)領(lǐng)各個(gè)層面的數(shù)據(jù)管理工作,確保內(nèi)部各類(lèi)人員能夠得到及時(shí)、準(zhǔn)確的數(shù)據(jù)支持和服務(wù)。通常認(rèn)為,數(shù)據(jù)治理體系涵蓋如下功能域:數(shù)據(jù)資源目錄管理、主數(shù)據(jù)管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)標(biāo)準(zhǔn)管理以及數(shù)據(jù)生命周期管理。在數(shù)據(jù)治理的過(guò)程中,需要對(duì)數(shù)據(jù)架構(gòu),管控平臺(tái),治理工具三方面進(jìn)行投入,才能將數(shù)據(jù)治理工作事半功倍。
在醫(yī)療健康領(lǐng)域大數(shù)據(jù)應(yīng)用平臺(tái)的建設(shè)過(guò)程中,對(duì)于使用者來(lái)說(shuō)能體現(xiàn)大數(shù)據(jù)應(yīng)用平臺(tái)的效果,因此在平臺(tái)的建設(shè)過(guò)程中需要充分想明白對(duì)于數(shù)據(jù)的應(yīng)用,因此需要構(gòu)建一個(gè)統(tǒng)一的業(yè)務(wù)前臺(tái),業(yè)務(wù)前臺(tái)可在中臺(tái)基礎(chǔ)上開(kāi)展面向數(shù)據(jù)交換與交易、面向區(qū)域衛(wèi)生、面向醫(yī)院及面向居民的應(yīng)用。
在醫(yī)療健康領(lǐng)域可以充分利用大數(shù)據(jù)應(yīng)用平臺(tái)開(kāi)展疾病智能輔助診斷、慢病健康管理、區(qū)域衛(wèi)生監(jiān)管分析等應(yīng)用。
在疾病智能輔助診斷方面,基于大數(shù)據(jù)應(yīng)用平臺(tái),使用科學(xué)的知識(shí)抽取、推理、表示和NLP 電子病歷語(yǔ)義分析服務(wù)等技術(shù),對(duì)歷史病歷數(shù)據(jù)和文獻(xiàn)數(shù)據(jù)進(jìn)行學(xué)習(xí),將同種疾病不同患者的就診數(shù)據(jù)根據(jù)體征、環(huán)境因素、社會(huì)因素、經(jīng)濟(jì)因素等多個(gè)角度劃分為不同的亞組人群,以選擇適合不同亞群的檢查檢驗(yàn)類(lèi)型、治療方案等,通過(guò)大數(shù)據(jù)劃分形成臨床診療決策輔助系統(tǒng)。醫(yī)務(wù)人員在進(jìn)行臨床診斷時(shí),可以更加客觀準(zhǔn)確地診斷病情制定出周詳?shù)闹委熀捅=》桨?,進(jìn)而極大地降低了臨床診斷的誤診和漏診問(wèn)題幫助患者提高恢復(fù)健康的速度[2]。
在慢病健康管理方面,通過(guò)機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘技術(shù),對(duì)海量的患者和健康體檢者的常規(guī)體檢大數(shù)據(jù)進(jìn)行分析并建模,建立能夠區(qū)分健康人和重疾患者的分析預(yù)測(cè)模型,實(shí)現(xiàn)對(duì)慢病患者有效地健康指導(dǎo)。
在區(qū)域衛(wèi)生監(jiān)管分析應(yīng)用方面,如圖1 所示:基于大數(shù)據(jù)應(yīng)用平臺(tái)建立醫(yī)療衛(wèi)生管理監(jiān)測(cè)指標(biāo)體系數(shù)據(jù)模型,基于醫(yī)療衛(wèi)生管理監(jiān)測(cè)指標(biāo)體系開(kāi)展大數(shù)據(jù)挖掘分析和預(yù)警預(yù)測(cè),指導(dǎo)公立醫(yī)院醫(yī)改業(yè)務(wù)開(kāi)展。
圖1 區(qū)域衛(wèi)生監(jiān)管分析模型
實(shí)現(xiàn)公立醫(yī)院醫(yī)療衛(wèi)生管理監(jiān)測(cè)大數(shù)據(jù)挖掘分析,依據(jù)國(guó)家省市公立醫(yī)院醫(yī)改政策和醫(yī)療衛(wèi)生管理監(jiān)測(cè)指標(biāo),針對(duì)衛(wèi)生資源管理、醫(yī)改指標(biāo)統(tǒng)計(jì)、醫(yī)改成效監(jiān)測(cè)、醫(yī)藥監(jiān)測(cè)、醫(yī)療監(jiān)測(cè)、醫(yī)保監(jiān)測(cè)和財(cái)務(wù)監(jiān)測(cè)等重點(diǎn)指標(biāo)數(shù)據(jù)采用大數(shù)據(jù)智能挖掘技術(shù),進(jìn)行智能挖掘分析。利用大數(shù)據(jù)挖掘技術(shù),可以分析用戶(hù)對(duì)醫(yī)生的評(píng)價(jià)、用戶(hù)關(guān)鍵詞熱點(diǎn)話題查詢(xún)、對(duì)患者患病類(lèi)型進(jìn)行區(qū)分以及患者對(duì)醫(yī)藥投訴評(píng)價(jià)、患者診后跟蹤生存率統(tǒng)計(jì)等后臺(tái)APP 信息的手機(jī)與挖掘分析。為衛(wèi)計(jì)局管理者和公立醫(yī)院管理中心提供醫(yī)療服務(wù)水平、質(zhì)量提升和績(jī)效考核評(píng)價(jià),提供客觀真實(shí)的依據(jù)和數(shù)據(jù)基礎(chǔ)。
國(guó)外健康醫(yī)療大數(shù)據(jù)建設(shè)相對(duì)成熟,重點(diǎn)發(fā)展基于數(shù)據(jù)的服務(wù)。國(guó)外健康醫(yī)療大數(shù)據(jù)公司主要為醫(yī)療服務(wù)提供者提供平臺(tái)及服務(wù)。將大量數(shù)據(jù)變?yōu)榭捎眯詳?shù)據(jù)后利用人工智能或機(jī)器學(xué)習(xí)提供輔助決策支持。由于國(guó)內(nèi)醫(yī)療數(shù)字化起步較晚,在大數(shù)據(jù)應(yīng)用平臺(tái)建設(shè)方面處于探索與試驗(yàn)階段,構(gòu)建一個(gè)數(shù)據(jù)實(shí)時(shí)的、安全、可靠、穩(wěn)定的大數(shù)據(jù)應(yīng)用平臺(tái)有利于提升醫(yī)療衛(wèi)生服務(wù)效能,提升疾病防治能力,完善全民健康服務(wù)體系。