• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于檢驗(yàn)大數(shù)據(jù)的多尺度肺惡性腫瘤預(yù)測模型研究

      2023-08-26 04:13:24王瑩顧大勇
      電腦知識與技術(shù) 2023年20期
      關(guān)鍵詞:醫(yī)學(xué)檢驗(yàn)機(jī)器學(xué)習(xí)大數(shù)據(jù)

      王瑩 顧大勇

      關(guān)鍵詞:肺惡性腫瘤;醫(yī)學(xué)檢驗(yàn);大數(shù)據(jù);機(jī)器學(xué)習(xí)

      中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A

      文章編號:1009-3044(2023)20-0040-03

      0 引言

      肺惡性腫瘤常稱為肺癌(Lung Cancer,LCA) ,LCA 在我國是最常見的高發(fā)惡性腫瘤, 發(fā)病率和死亡率均位列惡性腫瘤首位,全球近40%的LCA患者來自我國[1]。LCA在發(fā)病早期無典型或特殊臨床表現(xiàn),容易被忽視,多數(shù)LCA患者就診時已進(jìn)入中、晚期,治療效果不佳。因此,LCA的早期診斷對于患者能否及時接受治療顯得十分重要。隨著科技的進(jìn)步,人工智能、生物標(biāo)志物和影像學(xué)相結(jié)合為LCA篩查開辟了新途徑[2],如血清學(xué)指標(biāo)聯(lián)合多層螺旋CT可提高LCA檢出率,并且能夠準(zhǔn)確區(qū)分疾病類型[3]。血液檢驗(yàn)具有近似無創(chuàng)、安全性高、操作簡單易獲取以及價格低廉等優(yōu)點(diǎn),LCA相關(guān)血清學(xué)腫瘤標(biāo)志物的檢測推薦為疑似LCA患者的必檢項(xiàng)目之一,但單獨(dú)檢測的這些標(biāo)志物的特異性、靈敏度不高,聯(lián)合檢測多項(xiàng)腫瘤標(biāo)志物已逐漸成為LCA診斷的重要輔助手段[4]。研究表明,應(yīng)盡可能擴(kuò)大生物標(biāo)志物的篩選范圍[5]。異常增殖的腫瘤細(xì)胞隨著血液進(jìn)入各個組織器官,在全身各部位會有不同的表現(xiàn),分泌的細(xì)胞因子及各種功能蛋白會造成各項(xiàng)檢驗(yàn)指標(biāo)發(fā)生變化,即使檢驗(yàn)指標(biāo)處于正常參考值范圍,但指標(biāo)間相互的關(guān)系也可能發(fā)生了改變,只是普通人工篩查模式無法發(fā)現(xiàn),通過人工智能技術(shù)對人體一系列代謝指標(biāo)進(jìn)行數(shù)據(jù)挖掘,可以發(fā)現(xiàn)很多潛在的變化[6]。研究表明,采用隨機(jī)森林機(jī)器學(xué)習(xí)算法挖掘277例患者的19項(xiàng)血液常規(guī)檢驗(yàn)項(xiàng)目形成的預(yù)測模型能夠識別LCA患者[7],其泛化能力有待進(jìn)一步驗(yàn)證。目前缺乏采用多種機(jī)器學(xué)習(xí)算法對包括血液、體液、免疫等全量檢驗(yàn)項(xiàng)目構(gòu)建LCA預(yù)測模型的進(jìn)一步研究。

      本研究基于多尺度檢驗(yàn)項(xiàng)目采用4種機(jī)器學(xué)習(xí)算法分別構(gòu)建LCA預(yù)測模型,并研究檢驗(yàn)項(xiàng)目在LCA預(yù)測模型中的價值以及不同尺度對預(yù)測能力的影響。

      1 研究材料與方法

      1.1 研究材料

      本研究的原始數(shù)據(jù)來源于深圳市某綜合性三甲醫(yī)院2016年10月1日—2021年09月30日的全量檢驗(yàn)數(shù)據(jù)及相應(yīng)診斷結(jié)果。在大數(shù)據(jù)平臺通過數(shù)據(jù)集成、數(shù)據(jù)治理和數(shù)據(jù)開發(fā)形成檢驗(yàn)大數(shù)據(jù)。檢驗(yàn)項(xiàng)目總計(jì)1 297項(xiàng)(包括少量來自不同儀器設(shè)備重復(fù)的相同檢驗(yàn)項(xiàng)目)。根據(jù)LCA相關(guān)診斷結(jié)果檢索的21 270 例LCA 患者和混合19 841 例健康體檢人員合計(jì)41111例人員對應(yīng)的LCA檢驗(yàn)大數(shù)據(jù)。經(jīng)過數(shù)據(jù)類型轉(zhuǎn)換、歸一化成為機(jī)器學(xué)習(xí)數(shù)據(jù)源。

      1.2 方法

      采用邏輯回歸二分類(Logistic Regression,LR) 、支持向量機(jī)(Support Vector Machine,SVM) 、K 近鄰(KNearestNeighbor,KNN) 和服務(wù)器參數(shù)可伸縮多元決策回歸樹(Parameter Server-Scalable Multiple AdditiveRegression Tree,PS-SMART) 4 種機(jī)器學(xué)習(xí)算法挖掘全維度檢驗(yàn)項(xiàng)目與診斷結(jié)果的關(guān)系。其中LR 的可解釋性強(qiáng),訓(xùn)練的參數(shù)即為每個特征(檢驗(yàn)項(xiàng)目)的權(quán)重且輸出為概率值,非常適合二分類場景。SVM基于統(tǒng)計(jì)學(xué)習(xí)理論的一種機(jī)器學(xué)習(xí)方法,通過尋求結(jié)構(gòu)風(fēng)險(xiǎn)最小化,提高學(xué)習(xí)機(jī)泛化能力,從而實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍最小化。SVM屬于強(qiáng)分類器,準(zhǔn)確度較高。KNN算法簡單易用,根據(jù)距離新的對象最近的K個點(diǎn)的類別預(yù)測新的對象對應(yīng)的類別。GBDT(GradientBoosting Decision Tree) 二分類算法的原理是設(shè)置閾值,如果特征值大于閾值,則為正例,反之為負(fù)例。PS-SMART是GBDT基于PS實(shí)現(xiàn)的迭代算法。4種機(jī)器學(xué)習(xí)算法的原理機(jī)制不同,有利于互相佐證。

      機(jī)器學(xué)習(xí)業(yè)務(wù)流程包括數(shù)據(jù)拆分、模型訓(xùn)練、模型預(yù)測和預(yù)測結(jié)果評估,同一機(jī)器學(xué)習(xí)數(shù)據(jù)源被不同機(jī)器學(xué)習(xí)算法對應(yīng)的數(shù)據(jù)拆分模塊分別隨機(jī)拆分為兩類(本研究采用80%為訓(xùn)練數(shù)據(jù)和20%為測試數(shù)據(jù)的拆分比例),隨機(jī)拆分是數(shù)據(jù)分類差異的唯一因素。機(jī)器學(xué)習(xí)訓(xùn)練模塊使用機(jī)器學(xué)習(xí)算法基于訓(xùn)練數(shù)據(jù)生成預(yù)測模型,預(yù)測模型對測試數(shù)據(jù)計(jì)算得出預(yù)測結(jié)果,預(yù)測結(jié)果分別導(dǎo)入相應(yīng)的混淆矩陣模塊和二分類評估模塊,對4種預(yù)測模型分別進(jìn)行評估。業(yè)務(wù)流程如圖1所示,為了有效對比預(yù)測模型,所有實(shí)驗(yàn)步驟的設(shè)定與實(shí)施完全一致。

      1.3 預(yù)測水平評估指標(biāo)

      評估采用混淆矩陣和二分類評估兩種方法。

      混淆矩陣每一列代表一個類的預(yù)測情況,每一行表示一個類的實(shí)際樣本情況?;煜仃嚥捎脺?zhǔn)確率、精確率、召回率和F1 Score合計(jì)4個評估指標(biāo)[8]。其中F1 Score是為了均衡地評估精確率和召回率而設(shè)計(jì)的綜合評估指標(biāo)。

      二分類評估主要采用F1 Score和受試者工作特征曲線(Receiver Operating characteristic Curve,ROC) 下面積(Area Under Curve,AUC) 兩個指標(biāo),AUC數(shù)值為[0,1]區(qū)間,越接近1區(qū)分能力越高。

      2 實(shí)驗(yàn)與分析

      2.1 全量檢驗(yàn)項(xiàng)目預(yù)測模型

      2.1.1 二分類評估結(jié)果

      4 種機(jī)器學(xué)習(xí)預(yù)測模型的AUC和F1 Score均高于0.980和0.940,如表1所示。表1表明4種機(jī)器學(xué)習(xí)預(yù)測模型均有較高的預(yù)測能力。

      2.1.2 混淆矩陣評估結(jié)果

      4 種機(jī)器學(xué)習(xí)模型的正樣本的準(zhǔn)確率、精確率、召回率和F1 Score共計(jì)16項(xiàng),其中14項(xiàng)高于0.900,剩余2項(xiàng)均高于0.850,如表2所示。

      2.1.3 LR 二分類預(yù)測模型

      LR二分類預(yù)測模型由患者年齡、性別、就診類別和1 297項(xiàng)檢驗(yàn)項(xiàng)目合計(jì)1 300項(xiàng)組成,其中權(quán)重前20 項(xiàng)如表3所示。

      權(quán)重為該檢驗(yàn)項(xiàng)目在LR二分類模型中的系數(shù),權(quán)重?cái)?shù)值越大,該檢驗(yàn)項(xiàng)目與目標(biāo)列對應(yīng)診斷結(jié)果的相關(guān)性越大。由于項(xiàng)目編碼缺乏統(tǒng)一規(guī)劃的歷史原因,存在項(xiàng)目編碼6465和5316為來自不同儀器設(shè)備的相同檢驗(yàn)項(xiàng)目的情況。缺失率指未做該檢驗(yàn)項(xiàng)目的患者數(shù)量與總計(jì)21 270例患者的比率,20項(xiàng)特征列中缺失率大于30%的高達(dá)18項(xiàng),只有年齡和就診類別(住院或門診)兩項(xiàng)缺失率小于30%。

      2.2 多尺度預(yù)測模型對比分析

      將原1 300項(xiàng)特征列分為兩部分:20項(xiàng)權(quán)重大的特征列和剩余1 280項(xiàng)特征列,采用4種機(jī)器學(xué)習(xí)算法分別對20項(xiàng)特征列和1 280項(xiàng)特征列訓(xùn)練生成預(yù)測模型,通過混淆矩陣和二分類評估兩種方法評估預(yù)測水平。基于全量、20項(xiàng)、1 280項(xiàng)檢驗(yàn)項(xiàng)目數(shù)量形成三種不同尺度的預(yù)測模型。

      結(jié)果表明,全量模型的整體預(yù)測水平優(yōu)于20項(xiàng)特征列模型,20項(xiàng)特征列模型優(yōu)于1 280項(xiàng)特征列模型。相對整體預(yù)測水平,SVM算法生成的預(yù)測模型各項(xiàng)指標(biāo)對比結(jié)果完全一致(圖3) ,LR二分類模型的精確率和召回率(圖2) ,PS-SMART 模型的精確率(圖4) ,KNN模型的精確率(圖5) 對比結(jié)果略有反差。圖中標(biāo)注數(shù)據(jù)均為預(yù)測水平相對較低的1 280項(xiàng)預(yù)測模型的預(yù)測結(jié)果。

      3 討論

      本研究采用4種機(jī)器學(xué)習(xí)算法并行生成的預(yù)測模型均具有較高的預(yù)測水平,表明預(yù)測模型的穩(wěn)定性和可靠性。以直觀輸出參數(shù)、可解釋性強(qiáng)的LR預(yù)測模型為例,其中權(quán)重較大檢驗(yàn)項(xiàng)目與診斷結(jié)果相關(guān)性較大可分為三種情況,第一種是已經(jīng)具有大量臨床研究,包括年齡、神經(jīng)元特異性烯醇化酶(Neuron-Specific Enolase,NSE)、紅細(xì)胞體積分布寬度、超敏C 反應(yīng)蛋白、尿蛋白、腫瘤相關(guān)物質(zhì)綜合檢測等18項(xiàng)。研究表明,年齡是LCA發(fā)病的重要因素,經(jīng)過統(tǒng)計(jì)21270 例LCA患者中年齡大于40歲為20 529例,大于60歲為12 005例(占比56.4%) 與中國國家癌癥中心調(diào)查結(jié)果(2005—2014年的10年間,年齡≥60歲肺癌患者比例從41.2%增至56.2%) [9]基本相符。LCA患者年齡分段統(tǒng)計(jì)與深圳市LCA發(fā)病率在0~29歲年齡段極低,30~49歲年齡段出現(xiàn)緩慢增長,50歲之后發(fā)病率隨著年齡增長而迅速上升,在75~84歲年齡段發(fā)病率達(dá)到最高峰[10]基本相符。Cai-Ming Xu等人[11]研究認(rèn)為神經(jīng)元特異性烯醇化酶NSE在各種肺部疾病的診斷、治療監(jiān)測和預(yù)后評估中可以發(fā)揮重要作用。第二種數(shù)學(xué)意義上的相關(guān)性,例如21 270例LCA患者其中16 349例為住院患者,4 921例為門診患者。住院患者約占總數(shù)的77%,特征相對明顯,故表現(xiàn)出相關(guān)性強(qiáng),也符合多數(shù)LCA患者就診時已進(jìn)入中、晚期的狀況。第三種是有待進(jìn)一步研究的檢驗(yàn)項(xiàng)目,例如,目前尚未有二氧化碳結(jié)合力與LCA的關(guān)系研究,推測LCA患者呼吸功能障礙導(dǎo)致二氧化碳結(jié)合力增高,從而表現(xiàn)為二氧化碳結(jié)合力與LCA診斷結(jié)果強(qiáng)相關(guān)。

      機(jī)器學(xué)習(xí)預(yù)測模型的水平取決于訓(xùn)練數(shù)據(jù)的質(zhì)量,訓(xùn)練數(shù)據(jù)盡可能全面覆蓋所代表的真實(shí)的數(shù)據(jù)類型,人為甄選數(shù)據(jù)會錯失發(fā)掘數(shù)據(jù)潛在價值的機(jī)會。例如在數(shù)據(jù)準(zhǔn)備階段,所有檢驗(yàn)項(xiàng)目中,僅入選缺失值<30%的變量[12-13] ,若參照該標(biāo)準(zhǔn),則本研究中全量LR二分類模型中的權(quán)重前20項(xiàng)特征列中18項(xiàng)檢驗(yàn)項(xiàng)目均不符合要求而被排除。通過多尺度預(yù)測模型的對比,直觀展示了基于全量檢驗(yàn)項(xiàng)目預(yù)測模型的優(yōu)勢。

      4 總結(jié)

      本研究通過預(yù)測模型一方面定量展示了檢驗(yàn)項(xiàng)目在LCA診斷中的價值,另一方面通過多尺度預(yù)測模型的對比分析佐證了基于全量檢驗(yàn)項(xiàng)目構(gòu)建預(yù)測模型的必要性。本研究使用了近5年的全量檢驗(yàn)數(shù)據(jù)作為樣本,采用3種檢驗(yàn)項(xiàng)目數(shù)量尺度,存在一定的局限性。混合對照的健康體檢人員不排除存在LCA患者的可能性,從而導(dǎo)致預(yù)測模型存在較小的偏差。后續(xù)可以納入多中心的檢驗(yàn)數(shù)據(jù),并結(jié)合臨床診斷進(jìn)一步挖掘檢驗(yàn)項(xiàng)目與疾病診斷相關(guān)的信息。

      猜你喜歡
      醫(yī)學(xué)檢驗(yàn)機(jī)器學(xué)習(xí)大數(shù)據(jù)
      生物防護(hù)在中小學(xué)實(shí)驗(yàn)教學(xué)中的作用
      東方教育(2016年7期)2017-01-17 19:57:33
      法治背景下醫(yī)學(xué)檢驗(yàn)的規(guī)范化
      青年時代(2016年27期)2016-12-08 22:27:25
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      新臨床檢驗(yàn)基礎(chǔ)能力考評機(jī)制的建立與探索
      考試周刊(2016年32期)2016-05-28 21:05:04
      四年制本科醫(yī)學(xué)檢驗(yàn)畢業(yè)論文必要性探討
      考試周刊(2016年5期)2016-03-11 09:44:59
      德昌县| 井冈山市| 望谟县| 霸州市| 阿城市| 镇平县| 津市市| 敦化市| 铜陵市| 靖安县| 许昌市| 潢川县| 涟源市| 平江县| 霍州市| 锡林郭勒盟| 樟树市| 大化| 合阳县| 项城市| 永修县| 建阳市| 宿迁市| 明光市| 盖州市| 囊谦县| 奉节县| 唐河县| 类乌齐县| 甘孜县| 仙居县| 买车| 田林县| 锡林郭勒盟| 辰溪县| 高邑县| 宣汉县| 卓资县| 崇州市| 东丰县| 炎陵县|