• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向機器學(xué)習(xí)的醫(yī)學(xué)檢驗大數(shù)據(jù)構(gòu)建與實踐

      2023-04-27 04:00:42王瑩周玉利顧大勇
      電腦知識與技術(shù) 2023年7期
      關(guān)鍵詞:檢驗醫(yī)學(xué)數(shù)據(jù)集成數(shù)據(jù)治理

      王瑩 周玉利 顧大勇

      關(guān)鍵詞:檢驗醫(yī)學(xué);大數(shù)據(jù);機器學(xué)習(xí);數(shù)據(jù)集成;數(shù)據(jù)治理;數(shù)據(jù)開發(fā)

      0 引言

      檢驗醫(yī)學(xué)作為醫(yī)學(xué)科學(xué)的重要支撐性技術(shù)學(xué)科,在疾病的早期診斷、病情監(jiān)測、預(yù)后判斷與風(fēng)險評估等方面發(fā)揮著重要作用。隨著醫(yī)學(xué)檢驗實驗室自動化、現(xiàn)代化技術(shù)水平的提升,醫(yī)學(xué)檢驗數(shù)據(jù)飛速增長,日積月累產(chǎn)生了海量數(shù)據(jù)資源,其中蘊藏著大量已知和未知的臨床相關(guān)規(guī)律??蒲腥藛T通過回顧性或前瞻性研究,重新解讀醫(yī)學(xué)檢驗數(shù)據(jù)將發(fā)揮其重要價值,不僅有助于進一步了解疾病的本質(zhì),確定疾病精準(zhǔn)診療的方法,而且有利于發(fā)現(xiàn)新型診斷標(biāo)志物和持續(xù)優(yōu)化醫(yī)學(xué)檢驗項目的參考區(qū)間[1]。據(jù)不完全統(tǒng)計,臨床決策所需信息的70%來自醫(yī)學(xué)檢驗,為臨床診斷提供強有力的數(shù)據(jù)支持[2-4] 。醫(yī)學(xué)檢驗數(shù)據(jù)不僅體量巨大、類型繁多,還有特征高維和冗余等特點,傳統(tǒng)的數(shù)據(jù)存儲和統(tǒng)計分析方法已難以處理愈加龐大的醫(yī)學(xué)檢驗數(shù)據(jù)[5-7]。

      目前,醫(yī)學(xué)檢驗數(shù)據(jù)主要作為一次性的臨床診斷參考以及小樣本量的研究分析,導(dǎo)致這種狀況的客觀原因,一方面是醫(yī)學(xué)檢驗數(shù)據(jù)量大、醫(yī)學(xué)檢驗項目參考區(qū)間相對固定的顯性信息明確,另一方面是醫(yī)學(xué)檢驗數(shù)據(jù)散落在實驗室信息管理系統(tǒng)(Laboratory Infor? mation System,LIS) 中,傳統(tǒng)的數(shù)理統(tǒng)計工具和小樣本量難以全面、系統(tǒng)地發(fā)掘海量醫(yī)學(xué)檢驗數(shù)據(jù)中蘊藏的信息。主觀原因,一方面是傳統(tǒng)科研的問題導(dǎo)向流程,采用“發(fā)現(xiàn)問題、形成假說、收集數(shù)據(jù)、分析數(shù)據(jù)”的模式,數(shù)據(jù)的作用是支持假說而不是用于發(fā)現(xiàn)問題或規(guī)律;另一方面是把大數(shù)據(jù)平臺或工具充當(dāng)計算能力更強、存儲空間更大的數(shù)據(jù)平臺[8-13]。這些原因?qū)е箩t(yī)學(xué)檢驗數(shù)據(jù)應(yīng)用方式不同程度存在四個方面的缺憾:①人為把“大數(shù)據(jù)”裁剪為“小數(shù)據(jù)”,方便使用傳統(tǒng)的統(tǒng)計分析工具,可能會錯失被裁剪掉數(shù)據(jù)所蘊含的有價值信息;②對大數(shù)據(jù)重點關(guān)注數(shù)據(jù)量的維度,卻忽略了大數(shù)據(jù)的另一重要特征——數(shù)據(jù)種類多;③數(shù)據(jù)收集僅用于一次性特定的研究目的,沒有考慮復(fù)用于其他研究,導(dǎo)致產(chǎn)生大量重復(fù)的數(shù)據(jù)收集、數(shù)據(jù)清洗等工作;④傾向選擇理想的數(shù)據(jù)集作為標(biāo)準(zhǔn)的機器學(xué)習(xí)數(shù)據(jù)源,這與真實世界的數(shù)據(jù)分布情況差異較大,生成的機器學(xué)習(xí)模型普適性存疑。

      傳統(tǒng)的數(shù)據(jù)收集、處理方式無法滿足機器學(xué)習(xí)和大數(shù)據(jù)對數(shù)據(jù)的需求,機器學(xué)習(xí)涵蓋了廣泛的方法,旨在為計算機提供學(xué)習(xí)任務(wù)的能力。這些方法依賴于從幾乎沒有人工輸入的數(shù)據(jù)中獲取模式的算法。這與嚴(yán)格依賴人類知識來驗證模型假設(shè)和變量選擇的統(tǒng)計技術(shù)形成鮮明對比。大數(shù)據(jù)方法通常不受經(jīng)驗知識的影響,無偏見地收集和分析數(shù)據(jù),并發(fā)現(xiàn)重要的模式,支持循證醫(yī)學(xué),通過構(gòu)建相關(guān)的預(yù)測模型,從而更準(zhǔn)確地評估疾病風(fēng)險以及改善預(yù)后[14-15]。現(xiàn)有各種醫(yī)院信息化系統(tǒng)的設(shè)計初衷主要是為了滿足醫(yī)療業(yè)務(wù)流程需要,因此,在后續(xù)數(shù)據(jù)分析與應(yīng)用的需求滿足上尚存在較大差距,數(shù)據(jù)的收集和管理方面缺乏結(jié)合人工智能等高價值的數(shù)據(jù)二次利用的設(shè)計考慮[16]。傳統(tǒng)科研模式中存在的“科研構(gòu)思難、數(shù)據(jù)獲取難、想法驗證難、數(shù)據(jù)處理難”等弊端,已嚴(yán)重阻礙臨床研究水平的進一步提升,亟待使用新的技術(shù)手段加以解決[17]。

      本研究針對醫(yī)學(xué)檢驗數(shù)據(jù)的大數(shù)據(jù)化進行創(chuàng)新,面向機器學(xué)習(xí)對數(shù)據(jù)質(zhì)量的要求,綜合考慮實驗成本和實驗?zāi)繕?biāo)需要,選擇近5年的全量醫(yī)學(xué)檢驗數(shù)據(jù),使用大數(shù)據(jù)技術(shù)把選定時間段的全量醫(yī)學(xué)檢驗數(shù)據(jù)系統(tǒng)化治理、開發(fā),形成時段性醫(yī)學(xué)檢驗大數(shù)據(jù),實現(xiàn)對醫(yī)學(xué)檢驗數(shù)據(jù)的高效率復(fù)用和可持續(xù)積累模式的探索與驗證。

      1 醫(yī)學(xué)檢驗大數(shù)據(jù)關(guān)鍵技術(shù)

      1.1 轉(zhuǎn)置數(shù)據(jù)結(jié)構(gòu)

      醫(yī)學(xué)檢驗數(shù)據(jù)采集、處理、存儲均依托LIS,LIS作為業(yè)務(wù)系統(tǒng)通常采用關(guān)系型數(shù)據(jù)庫,關(guān)系型數(shù)據(jù)庫具有強大的事務(wù)處理能力,盡可能降低數(shù)據(jù)冗余度,節(jié)約存儲空間,關(guān)系型數(shù)據(jù)庫的結(jié)構(gòu)特點決定了其只能做簡單的統(tǒng)計分析,不能做復(fù)雜的邏輯運算?;陉P(guān)系型數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)不能滿足復(fù)雜的數(shù)據(jù)分析需求。隨著計算、存儲技術(shù)的發(fā)展,計算和存儲資源的成本飛速下降,在數(shù)據(jù)結(jié)構(gòu)方面以空間換時間的數(shù)據(jù)寬表結(jié)構(gòu)應(yīng)運而生,數(shù)據(jù)寬表是一張把業(yè)務(wù)主題相關(guān)的指標(biāo)、維度、屬性關(guān)聯(lián)在一起的數(shù)據(jù)庫表,數(shù)據(jù)寬表具有降低數(shù)據(jù)復(fù)雜度、結(jié)構(gòu)簡單、數(shù)據(jù)完備度高、減少數(shù)據(jù)交互、數(shù)據(jù)訪問效率高和易于業(yè)務(wù)人員自主使用數(shù)據(jù)等優(yōu)點,廣泛應(yīng)用于數(shù)據(jù)挖掘模型訓(xùn)練前的數(shù)據(jù)準(zhǔn)備[18-20]。

      傳統(tǒng)的醫(yī)學(xué)檢驗數(shù)據(jù)結(jié)構(gòu)是以患者為中心,以提供患者個體的檢驗報告為目的,構(gòu)成醫(yī)學(xué)檢驗數(shù)據(jù)的醫(yī)學(xué)檢驗項目及結(jié)果以多行的形式存在,方便直觀展示患者個體各個醫(yī)學(xué)檢驗項目結(jié)果,不利于對不同患者同一個醫(yī)學(xué)檢驗項目結(jié)果做復(fù)雜邏輯運算。轉(zhuǎn)為數(shù)據(jù)寬表可以實現(xiàn)患者ID主關(guān)鍵字的所有醫(yī)學(xué)檢驗項目位于同一行,不同患者的同一醫(yī)學(xué)檢驗項目結(jié)果位于同一列??梢栽谝粡垟?shù)據(jù)表中直接對不同患者的同一醫(yī)學(xué)檢驗項目數(shù)據(jù)治理、數(shù)據(jù)開發(fā)后進行統(tǒng)計分析和復(fù)雜邏輯運算。

      1.2 建立數(shù)據(jù)治理標(biāo)準(zhǔn)

      數(shù)據(jù)質(zhì)量是數(shù)據(jù)發(fā)揮價值的關(guān)鍵,數(shù)據(jù)治理是提升數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)管理成本、保障數(shù)據(jù)安全和控制數(shù)據(jù)風(fēng)險的方法。醫(yī)學(xué)檢驗數(shù)據(jù)通常來自不同廠家的不同類型的設(shè)備,以實現(xiàn)醫(yī)學(xué)檢驗功能為目的,缺乏全局性的數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)類型和質(zhì)量參差不齊,主要存在非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)格式混亂、無效數(shù)據(jù)、重復(fù)數(shù)據(jù)、錯誤數(shù)據(jù)、數(shù)據(jù)缺失等問題。大部分的醫(yī)學(xué)檢驗數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),天然符合復(fù)雜邏輯運算需求,但數(shù)據(jù)的使用維度是面向檢驗報告,導(dǎo)致大量的非結(jié)構(gòu)化數(shù)據(jù)混雜其中,如定性的陰性、弱陽性和陽性等非結(jié)構(gòu)化文本。數(shù)據(jù)格式混亂包括定量的格式化數(shù)據(jù)中混雜“<”“>”“+”“.”“*”“中英文注解”和“NULL”等,錯誤數(shù)據(jù)包括人工錄入錯誤(如:1.00錄入1.0.0) 、年齡為負值、數(shù)據(jù)類型轉(zhuǎn)換錯誤(數(shù)值區(qū)間1~2轉(zhuǎn)為1月2日)等,無效數(shù)據(jù)包括定標(biāo)數(shù)據(jù)、測試數(shù)據(jù)、系統(tǒng)無法出具檢驗項目結(jié)果的默認數(shù)據(jù)等。

      醫(yī)學(xué)檢驗數(shù)據(jù)治理需要全面統(tǒng)計分析醫(yī)學(xué)檢驗數(shù)據(jù),在符合實際業(yè)務(wù)需求的前提下,建立數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換的標(biāo)準(zhǔn)。對于多值有序非結(jié)構(gòu)化數(shù)據(jù)按照業(yè)務(wù)要求的順序直接轉(zhuǎn)化為有序數(shù)值,對于多值無序非結(jié)構(gòu)化數(shù)據(jù),則留待后續(xù)實際使用時采用獨熱編碼(One-Hot Encoding)方式處理;對于格式化數(shù)據(jù)中混雜的非格式化符號一般采用針對性刪除的方式;對于錯誤數(shù)據(jù)根據(jù)實際業(yè)務(wù)情況核驗后的結(jié)果,采用正確的數(shù)據(jù)做替換;對于定標(biāo)數(shù)據(jù)、測試數(shù)據(jù)和系統(tǒng)無結(jié)果默認數(shù)據(jù)等采用針對性刪除的方式。對于診斷結(jié)果通過統(tǒng)計分析基于不同語言、縮略方式、命名習(xí)慣等方式帶來的同一疾病的重復(fù)情況,根據(jù)業(yè)務(wù)需求對其做標(biāo)準(zhǔn)化統(tǒng)一。

      2 醫(yī)學(xué)檢驗大數(shù)據(jù)實驗方案設(shè)計

      大數(shù)據(jù)的基礎(chǔ)是數(shù)據(jù)與應(yīng)用分離,把數(shù)據(jù)作為資源實現(xiàn)數(shù)據(jù)資產(chǎn)化,避免重復(fù)數(shù)據(jù)集成、數(shù)據(jù)治理和數(shù)據(jù)開發(fā),該理念貫穿數(shù)據(jù)的全生命周期。在方案設(shè)計時采用分層策略實現(xiàn)清晰數(shù)據(jù)結(jié)構(gòu)、減少重復(fù)開發(fā)、統(tǒng)一數(shù)據(jù)口徑和復(fù)雜問題簡單化。

      2.1 整體方案

      整體方案分為三層,分別為數(shù)據(jù)應(yīng)用層、數(shù)據(jù)操作層和數(shù)據(jù)來源層,如圖1所示。其中數(shù)據(jù)應(yīng)用層包括數(shù)據(jù)統(tǒng)計分析、機器學(xué)習(xí)和數(shù)據(jù)展示等應(yīng)用。數(shù)據(jù)操作層對數(shù)據(jù)來源首先進行數(shù)據(jù)集成,數(shù)據(jù)集成后的一個副本做行列轉(zhuǎn)置,實現(xiàn)數(shù)據(jù)結(jié)構(gòu)從關(guān)系型向數(shù)據(jù)寬表轉(zhuǎn)換。通過數(shù)據(jù)洞察全面分析數(shù)據(jù)質(zhì)量,根據(jù)分析結(jié)果制定數(shù)據(jù)標(biāo)準(zhǔn)。按照數(shù)據(jù)標(biāo)準(zhǔn)采用計算機程序做數(shù)據(jù)清洗和數(shù)字化轉(zhuǎn)換。根據(jù)需要做數(shù)據(jù)歸一化,通過數(shù)據(jù)服務(wù)的方式向數(shù)據(jù)應(yīng)用層提供數(shù)據(jù)調(diào)用查詢服務(wù)。數(shù)據(jù)來源層主要為LIS和醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)的關(guān)系型數(shù)據(jù)庫。

      2.2 方法設(shè)計

      在數(shù)據(jù)操作層采用整體分級模式和分段清洗模式的數(shù)據(jù)治理方法,實現(xiàn)關(guān)系型數(shù)據(jù)平滑向數(shù)據(jù)寬表轉(zhuǎn)化。

      整體分級模式:數(shù)據(jù)集成、數(shù)據(jù)治理和數(shù)據(jù)開發(fā)涉及多個環(huán)節(jié),產(chǎn)生錯誤則牽一發(fā)而動全身。采用分級處理的方法來實現(xiàn)功能分工、隔離穩(wěn)定和方便實現(xiàn)的原則。主要分為數(shù)據(jù)集成、行列轉(zhuǎn)置、數(shù)據(jù)清洗和數(shù)字化轉(zhuǎn)換,如圖2所示。每一級的輸入和輸出均有對應(yīng)的數(shù)據(jù)表,每一級產(chǎn)生的系統(tǒng)或人工操作錯誤不會波及上一級,從而實現(xiàn)錯誤的有效隔離。

      分段清洗:數(shù)據(jù)清洗需要統(tǒng)一的策略,避免數(shù)據(jù)被多次清洗[21]。數(shù)據(jù)清洗通常采用結(jié)構(gòu)化查詢語言(Structured Query Language,SQL) ,SQL功能豐富、應(yīng)用靈活,但在實際應(yīng)用中運行環(huán)境出于系統(tǒng)安全考慮會做相應(yīng)的資源限制,如果一次清洗的字段過多,會導(dǎo)致清洗語句的長度或者清洗程序占用空間超出資源限制,從而產(chǎn)生系統(tǒng)錯誤。如果將源數(shù)據(jù)表拆分為多個數(shù)據(jù)表再進行數(shù)據(jù)清洗,雖然可以避免該錯誤,但在數(shù)據(jù)量較大時,拆分過程的操作復(fù)雜,效率較低。采用分段清洗模式在保持整體一致性的基礎(chǔ)上,通過對字段的分段實施,靈活適應(yīng)運行環(huán)境可提供的資源。如圖3所示,S1、S2、……Sn為源數(shù)據(jù)表中的字段名稱,T1-1、T1-2、……T1-n為目標(biāo)數(shù)據(jù)表T1中的字段名稱,“as”代表字段對應(yīng)數(shù)值的簡單的復(fù)制賦值,“->”代表字段對應(yīng)數(shù)值經(jīng)過SQL語句(例如Case when條件語句)處理后的結(jié)果賦值。整體清洗程序在運行環(huán)境資源許可的情況下一次性完成,如果超出運行環(huán)境資源限制,可以針對一部分字段進行清洗處理,另外一部分保持簡單賦值模式。例如第一段清洗程序只對源數(shù)據(jù)表S 中的S1、S2和S3三個字段的數(shù)值進行清洗,清洗后的結(jié)果分別賦值到目標(biāo)數(shù)據(jù)表T1 中對應(yīng)的T1-1、T1-2、T1-3三個字段,源數(shù)據(jù)表S 中其余字段(S4至Sn)不做處理,直接賦值到目標(biāo)數(shù)據(jù)表T1中對應(yīng)的(T1-4至T1-n)。在第二段清洗中數(shù)據(jù)表T1為目標(biāo)數(shù)據(jù)表,已經(jīng)完成清洗的字段T1-1、T1-2、T1-3直接賦值新的目標(biāo)數(shù)據(jù)表T2對應(yīng)T2-1、T2-2、T2-3字段。T1-4、T1-5、T1-6三個字段的數(shù)值經(jīng)過清洗后賦值到目標(biāo)數(shù)據(jù)表T2的T2-4、T2-5、T2-6三個字段。源數(shù)據(jù)表T1的剩余字段(T1-7至T1-n) 不做處理直接賦值到目標(biāo)數(shù)據(jù)表T2中對應(yīng)的(T2-7至T2-n),后續(xù)分段依此類推,直至完成所有字段的清洗工作。

      3 實驗實施與分析

      3.1 實驗環(huán)境與實驗數(shù)據(jù)

      研究采用的實驗環(huán)境為商用公有云服務(wù)提供的大數(shù)據(jù)計算服務(wù)平臺Maxcomputer和大數(shù)據(jù)開發(fā)治理平臺Dataworks。數(shù)據(jù)清洗采用SQL腳本。數(shù)據(jù)為某醫(yī)院2016年10月1日至2021年09月30日的LIS和HIS中全量醫(yī)學(xué)檢驗數(shù)據(jù)及診斷結(jié)果。原始數(shù)據(jù)包括患者的ID、年齡、性別、部門(門診或住院)、檢驗日期、醫(yī)學(xué)檢驗項目編碼、檢驗結(jié)果、診斷結(jié)果共8個字段。醫(yī)學(xué)檢驗項目總計1 297項(包括部分來自不同儀器設(shè)備對相同檢驗項目的重復(fù)),醫(yī)學(xué)檢驗數(shù)據(jù)合計141 477 953條。在實驗中,把醫(yī)學(xué)檢驗數(shù)據(jù)轉(zhuǎn)化為醫(yī)學(xué)檢驗大數(shù)據(jù)。

      3.2 實驗實施過程

      數(shù)據(jù)集成:以年為單位,從LIS和HIS中抽取患者的全量醫(yī)學(xué)檢驗數(shù)據(jù)和診斷結(jié)果生成數(shù)據(jù)文件,刪除861 252條無效醫(yī)學(xué)檢驗數(shù)據(jù)后剩余140 616 701條醫(yī)學(xué)檢驗數(shù)據(jù)的數(shù)據(jù)文件依次導(dǎo)入大數(shù)據(jù)計算服務(wù)平臺Maxcomputer。并逐年核對數(shù)據(jù)總量,保證數(shù)據(jù)導(dǎo)入過程不存在遺漏或丟失。

      數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)置:以患者ID為主關(guān)鍵字、檢驗日期為次關(guān)鍵字,把對應(yīng)的醫(yī)學(xué)檢驗項目和結(jié)果從多行模式轉(zhuǎn)為多列模式,每位患者在確定的檢驗日期的所有醫(yī)學(xué)檢驗數(shù)據(jù)成為數(shù)據(jù)寬表的一條記錄,如圖4所示,140 616 701 行、8 列關(guān)系型數(shù)據(jù)表轉(zhuǎn)置為4 903 891 行、1 338列的數(shù)據(jù)寬表。

      數(shù)據(jù)清洗:對轉(zhuǎn)置后的數(shù)據(jù)寬表的每一列分別做不重復(fù)數(shù)據(jù)查詢,并統(tǒng)計相應(yīng)的數(shù)據(jù)類型、數(shù)值型數(shù)據(jù)數(shù)值區(qū)間、數(shù)據(jù)量、錯誤數(shù)據(jù)類型等。根據(jù)統(tǒng)計分析結(jié)果和對應(yīng)字段的醫(yī)學(xué)意義制定數(shù)據(jù)治理標(biāo)準(zhǔn)。按照數(shù)據(jù)治理標(biāo)準(zhǔn)針對每一列在SQL腳本中實現(xiàn)相應(yīng)的措施。例如對于簡單的“>”“<”和“*”等無效字符的清除,直接采用空字符替換方式,對于結(jié)構(gòu)混亂數(shù)據(jù),采用正則表達式去除非法字符,對于少量的人工錄入錯誤,采用正確數(shù)值替換的方式。

      數(shù)字化轉(zhuǎn)換:對于多值有序非結(jié)構(gòu)化數(shù)據(jù)第一項為0、公差為1,構(gòu)建數(shù)值列對多值有序非結(jié)構(gòu)化數(shù)據(jù)做相應(yīng)的字符替換。

      3.3 實驗結(jié)果

      經(jīng)過上述處理環(huán)節(jié),4 903 891行、1 338列的數(shù)據(jù)寬表中絕大數(shù)列已轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù),極少數(shù)因為源數(shù)據(jù)標(biāo)準(zhǔn)不一且數(shù)據(jù)量較少的醫(yī)學(xué)檢驗項目結(jié)果未做處理,數(shù)據(jù)寬表每一條記錄對應(yīng)的診斷結(jié)果未做處理,主要是為了保障按照疾病種類查詢的便利和靈活性。在研究思路產(chǎn)生階段快速查詢所關(guān)心疾病所對應(yīng)的數(shù)據(jù)量或若干項醫(yī)學(xué)檢驗項目的數(shù)據(jù)量來決定是否有必要進行研究。在數(shù)據(jù)應(yīng)用階段,可以根據(jù)研究需要,隨時檢索抽取其所包含的所有疾病類別對應(yīng)的全項醫(yī)學(xué)檢驗數(shù)據(jù),在數(shù)據(jù)挖掘分析階段,不但可以繼續(xù)使用傳統(tǒng)數(shù)理統(tǒng)計工具處理進行分析,而且可以直接被各種機器學(xué)習(xí)算法讀取,而無須重復(fù)為不同的機器學(xué)習(xí)算法或不同的疾病做煩瑣的數(shù)據(jù)處理工作。通過實驗不但可以全面掌握醫(yī)學(xué)檢驗項目實際覆蓋率,而且可以分鐘級快速驗證科研構(gòu)思的可行性,分鐘級完成機器學(xué)習(xí)數(shù)據(jù)源準(zhǔn)備。

      對4 903 891條記錄中每個醫(yī)學(xué)檢驗項目的檢驗數(shù)量做了統(tǒng)計,檢驗數(shù)量超過百萬的41項,其中最高項平均紅細胞體積為2 128 955,占記錄總數(shù)的43.41%,即43.41%的患者均做了平均紅細胞體積這個醫(yī)學(xué)檢驗項目。檢驗數(shù)量為50萬至100萬26項,檢驗數(shù)量為10萬至50萬142項,檢驗數(shù)量為1萬~10 萬439項,檢驗數(shù)量為1萬以內(nèi)651項。通過時段性全量檢驗數(shù)據(jù)統(tǒng)計,第一次全景展示選定時段的所有醫(yī)學(xué)檢驗項目的實際覆蓋率。

      大數(shù)據(jù)可以有效地節(jié)省臨床操作和研發(fā)兩個方面的投入,本研究成果帶來了直觀的科研高效率,通過幾分鐘的檢索驗證了B淋巴母細胞瘤白血病、慢性中性粒細胞白血病、毛細胞白血病等只有數(shù)十到數(shù)百不等病例的科研構(gòu)思的不可行性。只需要通過診斷結(jié)果的簡單篩選,用時幾分鐘即可具備一種疾病類型的機器學(xué)習(xí)業(yè)務(wù)流程所需的數(shù)據(jù)源。已經(jīng)生成了急性髓系白血病、慢性粒細胞白血病、甲狀腺疾病、乳腺惡性腫瘤等疾病的機器學(xué)習(xí)模型,機器學(xué)習(xí)模型不但具有較高的預(yù)測水平,預(yù)測評估結(jié)果的主要指標(biāo)受試者工作特征曲線下面積(Area Under Curve,AUC)、F1- Score大部分在0.9以上;而且發(fā)現(xiàn)了一些醫(yī)學(xué)檢驗項目和某些疾病存在常規(guī)研究無法察覺的相關(guān)性,例如淀粉酶與慢性粒細胞白血病密切相關(guān)。

      4 結(jié)束語

      在傳統(tǒng)的臨床研究模式下,數(shù)據(jù)采集和數(shù)據(jù)處理分析均是耗費大量人力、物力的工作,嚴(yán)重制約臨床科研成果的產(chǎn)出效率。據(jù)統(tǒng)計,在醫(yī)院采用傳統(tǒng)人工模式僅在數(shù)據(jù)處理階段就需要1~2個月、數(shù)據(jù)抽取耗時5個月、科學(xué)研究約需1個月,醫(yī)護科研人員的時間大量花費在數(shù)據(jù)的準(zhǔn)備階段[22]。有研究認為,臨床數(shù)據(jù)獲取困難且需要大量的手工處理,導(dǎo)致科研周期長、效率低下。合理的方式是科研人員將精力放在科研本身,節(jié)約科研人員的時間,提高科研產(chǎn)出[23]。大數(shù)據(jù)時代需要大數(shù)據(jù)思維,大數(shù)據(jù)思維強調(diào)整體性,要求用整體的眼光看待數(shù)據(jù),與個體化時代強調(diào)研究部分有代表性的數(shù)據(jù)大不相同[24]。

      本研究采用了離線方式抽取2016—2021年近5 年的某綜合性三甲醫(yī)院全量臨床檢驗數(shù)據(jù),沿用了現(xiàn)存業(yè)務(wù)部門與信息技術(shù)部門的合作模式和流程。使用了基于公有云服務(wù)的大數(shù)據(jù)平臺和機器學(xué)習(xí)平臺,大幅降低了試錯成本,提高了研究效率。對全項醫(yī)學(xué)檢驗數(shù)據(jù)不做p特定需求的處理并采用SQL腳本固化了數(shù)據(jù)治理、開發(fā)的方法和經(jīng)驗,可以平滑遷移到將來的自建醫(yī)療大數(shù)據(jù)平臺,既可對歷年醫(yī)學(xué)檢驗數(shù)據(jù)統(tǒng)一處理,又可以實時處理新增醫(yī)學(xué)檢驗數(shù)據(jù),彌補本研究僅離線處理時段性歷史數(shù)據(jù)的不足。

      猜你喜歡
      檢驗醫(yī)學(xué)數(shù)據(jù)集成數(shù)據(jù)治理
      論現(xiàn)代醫(yī)學(xué)模式下的檢驗醫(yī)學(xué)發(fā)展趨勢
      淺談檢驗醫(yī)學(xué)及檢驗實驗室的發(fā)展與未來展望
      麻疹病毒PCR檢驗的措施和效果探討
      檢驗醫(yī)學(xué)專業(yè)實習(xí)期間職業(yè)暴露及防護調(diào)查
      基于本體的企業(yè)運營數(shù)據(jù)治理
      云端數(shù)據(jù)治理初探
      成本與制造數(shù)據(jù)集成分析
      大數(shù)據(jù)治理模型與治理成熟度評估研究
      基于Biztalk的異構(gòu)醫(yī)療信息系統(tǒng)數(shù)據(jù)集成研究
      信息系統(tǒng)集成與數(shù)據(jù)集成策略研究
      金门县| 曲水县| 昌邑市| 龙州县| 冀州市| 天等县| 汾西县| 常山县| 怀仁县| 昭通市| 元江| 北碚区| 秭归县| 垫江县| 松溪县| 延吉市| 区。| 青河县| 阿克苏市| 松桃| 麻江县| 昌都县| 米易县| 商洛市| 建德市| 汾阳市| 西丰县| 乐都县| 奉贤区| 邵东县| 赤城县| 庆云县| 浙江省| 昭通市| 科技| 盐亭县| 辽源市| 抚宁县| 随州市| 沙坪坝区| 黄龙县|