• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Relief-F算法的心血管介入患者術(shù)后死亡風(fēng)險預(yù)測

      2024-01-01 00:00:00楊健斌李詠夏淑東齊鵬嘉戴燕云童基均
      浙江理工大學(xué)學(xué)報 2024年5期
      關(guān)鍵詞:隨機森林機器學(xué)習(xí)特征提取

      摘 要: 針對心血管介入患者全周期病理數(shù)據(jù)普遍存在缺失、不連續(xù)、非結(jié)構(gòu)化等問題,建立了心血管介入專病數(shù)據(jù)庫,并采用基于Relief-F算法的預(yù)測方法,對心血管介入患者術(shù)后死亡風(fēng)險進行預(yù)測。首先參照HL7、CDISC等國際心血管疾病統(tǒng)一標準對各數(shù)據(jù)源進行標準化處理,建立研究數(shù)據(jù)集,并對數(shù)據(jù)進行清洗和預(yù)處理;其次采用Relief-F算法對特征進行選擇,最終保留30個特征變量;再次選擇邏輯回歸、支持向量機、隨機森林等3種機器學(xué)習(xí)方法進行建模分析,并采用10折交叉驗證方法對分類器進行訓(xùn)練;最后引入準確率等模型評價指標來評估各算法在數(shù)據(jù)集上的分類預(yù)測效果。實驗結(jié)果表明:隨機森林的分類效果在該研究數(shù)據(jù)集上的表現(xiàn)最佳,準確率達到81.97%,精確率為86.90%,召回率為82.14%,F(xiàn)1值為0.8441。該研究提出的方法能夠客觀反映患者術(shù)后死亡風(fēng)險,為心血管介入患者術(shù)后死亡風(fēng)險預(yù)測提供了一種有效的解決方案。

      關(guān)鍵詞: 心血管介入;術(shù)后死亡風(fēng)險預(yù)測;Relief-F算法;特征提取;機器學(xué)習(xí);隨機森林

      中圖分類號: TP391.4

      文獻標志碼: A

      文章編號: 1673-3851 (2024) 05-0378-11

      引文格式:楊健斌,李詠,夏淑東,等. 基于Relief-F算法的心血管介入患者術(shù)后死亡風(fēng)險預(yù)測[J]. 浙江理工大學(xué)學(xué)報(自然科學(xué)),2024,51(3):378-388.

      Reference Format: YANG Jianbin, LI Yong, XIA Shudong, et al. Prediction of postoperative death risk in patients with cardiovascular intervention based on the Relief-F algorithm[J]. Journal of Zhejiang Sci-Tech University,2024,51(3):378-388.

      Prediction of postoperative death risk in patients with cardiovascular intervention based on the Relief-F algorithm

      YANG Jianbin1, LI Yong1, XIA Shudong2, QI Pengjia1, DAI Yanyun1, TONG Jijun1

      (1.School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China;

      2.The Fourth Affiliated Hospital, Zhejiang University School of Medicine, Yiwu 322000, China)

      Abstract:" In view of the common problems such as missing, discontinuous and unstructured pathological data of patients with cardiovascular intervention throughout the whole cycle, a cardiovascular interventional disease database was established, and the prediction method based on the Relief-F algorithm was adopted to effectively predict the risk of postoperative death of patients with cardiovascular intervention. Firstly, all data sources were standardized according to HL7, CDISC and other international cardiovascular disease standards to obtain research data sets, and the data sets were cleaned and preprocessed. Secondly, the Relief-F algorithm was used to select the features, and 30 feature variables were retained in the end. Thirdly, logistic regression, support vector machine and random forest were selected for modeling and analysis, and the 10-fold cross-validation method was used to train the classifier. Finally, model evaluation indexes such as accuracy rate were introduced to evaluate the classification prediction effect of each algorithm on the data set. The experimental results show that the classification effect of random forest has the best performance on the research data set, its accuracy rate is 81.97%, the accuracy rate is 86.90%, the recall rate is 82.14%, and the F1 value is 0.8441. This study can objectively reflect the postoperative death risk of patients, and provides an effective solution for predicting the postoperative death risk of patients with cardiovascular intervention.

      Key words: cardiovascular intervention; postoperative death risk prediction; Relief-F algorithm; feature extraction; machine learning; random forest

      0 引 言

      心血管介入治療是指在醫(yī)學(xué)影像設(shè)備引導(dǎo)下,經(jīng)皮穿刺,將穿刺針、特制導(dǎo)管、導(dǎo)絲等精密器械引入體內(nèi)血管,對心血管疾病進行微創(chuàng)診斷和治療[1]。據(jù)國家心血管病中心發(fā)布的《中國心血管健康與疾病報告2022》[2]顯示,2022年國內(nèi)心血管病患者總?cè)藬?shù)已高達3.3億,隨著人口老齡化加速,心血管病患病率、死亡率仍在上升,疾病負擔(dān)下降的拐點尚未出現(xiàn)。據(jù)《中國介入醫(yī)學(xué)白皮書》2019版[3]顯示,心血管介入患者死亡率在眾多介入治療類型的患者中居于首位,較神經(jīng)介入治療、肝膽胰腺介入治療、腫瘤介入治療等其他類型平均高出12.7%。因此,在眾多心血管介入患者術(shù)后評價指標中,能夠反映介入治療質(zhì)量、術(shù)后生存狀況以及醫(yī)療干預(yù)效果的術(shù)后死亡風(fēng)險,一直都是醫(yī)生和患者關(guān)注的重要指標。然而,當(dāng)前絕大數(shù)醫(yī)院并未構(gòu)建心血管介入專病數(shù)據(jù)庫,患者全周期病理數(shù)據(jù)普遍存在缺失、不連續(xù)、非結(jié)構(gòu)化等問題,導(dǎo)致醫(yī)生對患者術(shù)后死亡風(fēng)險的預(yù)測大多是基于醫(yī)護人員的個人臨床經(jīng)驗或相關(guān)統(tǒng)計學(xué)方法,預(yù)測準確率較低。隨著醫(yī)療信息化建設(shè)的快速發(fā)展,上述方法已不適應(yīng)當(dāng)前的發(fā)展需求。因此,構(gòu)建心血管介入專病數(shù)據(jù)庫[4],通過信息技術(shù)幫助醫(yī)生進行全周期記錄,建立患者術(shù)后死亡風(fēng)險預(yù)測模型,不僅有助于輔助醫(yī)生發(fā)現(xiàn)患者數(shù)據(jù)的內(nèi)在關(guān)聯(lián),對患者術(shù)后健康狀況進行跟蹤治療,還能提醒醫(yī)生對高死亡風(fēng)險病人及時做出醫(yī)療干預(yù),進而降低患者死亡率,具有重要的醫(yī)療研究意義和實際應(yīng)用價值。

      國內(nèi)關(guān)于疾病專病數(shù)據(jù)庫的建設(shè)起步較晚,直到20世紀80年代后期,中國逐步建立了醫(yī)學(xué)注冊系統(tǒng)[5-9],開始全面收集和管理疾病數(shù)據(jù)。在《“健康中國2030”規(guī)劃綱要》政策的指導(dǎo)下,國內(nèi)的一些醫(yī)院也開始著手建設(shè)針對特定病種的專病數(shù)據(jù)庫。例如,2021年,上海交通大學(xué)附屬胸科醫(yī)院袁駿毅等[10]以上海胸科醫(yī)院冠心病專病數(shù)據(jù)為研究對象,基于臨床數(shù)據(jù)中心的多源異構(gòu)系統(tǒng)構(gòu)建了冠心病專病數(shù)據(jù)庫,為該院的冠心病臨床科研提供了有力的數(shù)據(jù)支撐。2022年,廣東省第二人民醫(yī)院的龍思哲等[11]借助雙向語言模型從院內(nèi)其他數(shù)據(jù)平臺篩選出腦血管患者病理數(shù)據(jù),構(gòu)建了腦血管專病數(shù)據(jù)庫,為建立腦血管科研學(xué)習(xí)平臺提供數(shù)據(jù)支撐。同年,中國人民解放軍總醫(yī)院的趙前前等[12]以醫(yī)院信息管理系統(tǒng)(Hospital information system,HIS)、實驗室信息管理系統(tǒng)(Hospital information system,LIS)、電子病歷(Electronic medical record,EMR)等臨床業(yè)務(wù)信息系統(tǒng)中的數(shù)據(jù)和整合后的臨床數(shù)據(jù)庫為數(shù)據(jù)源,經(jīng)抽取、轉(zhuǎn)換、加載后形成疾病科研數(shù)據(jù)庫,大大減輕了科研工作前期數(shù)據(jù)處理工作量,提高了科研效率??v觀國內(nèi)專病數(shù)據(jù)庫的構(gòu)建與應(yīng)用,由于腫瘤疾病、肝臟疾病等傳統(tǒng)疾病類型有長期的數(shù)據(jù)支撐和科研基礎(chǔ),相關(guān)專病數(shù)據(jù)庫的建設(shè)已經(jīng)較為完善。但對于需要介入治療的相關(guān)疾病,一方面由于介入治療在我國起步較晚,醫(yī)院在此方面的信息化建設(shè)尚未完善,導(dǎo)致很多患者病理數(shù)據(jù)難以統(tǒng)一;另一方面,介入治療近年來受政策影響和需求驅(qū)動剛開始發(fā)展,醫(yī)院對日益增長的數(shù)據(jù)尚未及時收集與整理,致使很多數(shù)據(jù)遺漏或殘缺。因此,搭建一套心血管介入專病數(shù)據(jù)庫,并結(jié)合信息技術(shù)對患者病情進行預(yù)測和危險因素分析,不僅可以幫助醫(yī)生研究該類型疾病,還能輔助醫(yī)生對高風(fēng)險患者進行及時的醫(yī)療干預(yù),降低死亡風(fēng)險。

      近年來,隨著信息技術(shù)的快速發(fā)展,利用人工智能相關(guān)理論方法對患者病情進行預(yù)測和危險因素分析已成為當(dāng)下醫(yī)療領(lǐng)域的研究熱點。例如,Behera等[13]采用支持向量機和改進的粒子群優(yōu)化模型創(chuàng)建了一個混合模型,對患有心臟病和肝臟疾病的患者進行死亡風(fēng)險因素分析。Theerthagiri等[14]基于遞歸特征消除的梯度提升方法,通過評估患者的健康記錄來避免心血管疾病的病發(fā)或降低心血管疾病的嚴重程度。Singh等[15]基于支持向量機模型探討了藥物靶點預(yù)測降低背后的常見因素,進而預(yù)測腫瘤的發(fā)生率。Islam等[16]在監(jiān)督學(xué)習(xí)環(huán)境中,選擇了12種不同的機器學(xué)習(xí)分類器來對慢性腎臟病進行研究分析,得出在XGBoost分類器的準確率最高可達0.983。Annamalai等[17]借助基于最優(yōu)拍賣機制的卷積神經(jīng)網(wǎng)絡(luò)對肺部疾病進行預(yù)測,發(fā)現(xiàn)所提出的方法可以從X射線圖像中提取特征,并對肺部疾病進行準確預(yù)測。Sudha等[18]使用混合CNN-LSTM模型對心臟病進行預(yù)測分析,并使用K折交叉驗證技術(shù)進行驗證,最終混合模型的準確度達到89%。Liang等[19]提出了一種基于具有注意力機制的時序雙向神經(jīng)網(wǎng)絡(luò)模型tBNA-PR,選擇患者的電子健康檔案數(shù)據(jù)進行心力衰竭疾病預(yù)測和分層。Hao等[20]利用多策略優(yōu)化核極限學(xué)習(xí)機對心臟病和肝病的死亡率進行研究,在臨床應(yīng)用中取得良好的預(yù)測效果。路曉云等[21]基于機器學(xué)習(xí)預(yù)測算法對慢阻肺患者院后再入院風(fēng)險進行預(yù)測,選擇了5種預(yù)測模型進行對比分析,并基于K均值聚類算法對患者再入院風(fēng)險等級進行評估和分類。趙明誠等[22]以社區(qū)獲得性肺炎患者為研究對象,基于長短期記憶網(wǎng)絡(luò)對患者30 d的死亡率進行了預(yù)測,預(yù)測精確度達到77.51%,能夠幫助醫(yī)生對社區(qū)獲得性肺炎患者進行跟蹤觀察。

      以上研究表明,建立專病數(shù)據(jù)庫和預(yù)測模型,對患者病情進行預(yù)測是可行的。但是,目前關(guān)于心血管介入患者的相關(guān)預(yù)測研究仍是基于醫(yī)生個人臨床經(jīng)驗或者相關(guān)統(tǒng)計學(xué)方法,且研究所用的數(shù)據(jù)集仍停留在患者在院期間的記錄數(shù)據(jù),未覆蓋到患者治療全周期,具有一定的局限性。因此,本研究構(gòu)建了心血管介入專病數(shù)據(jù)庫,并針對難以區(qū)分重要特征和噪聲特征等問題,采用改進的Relief-F算法選擇預(yù)測特征變量;選擇邏輯回歸(Logistic regression,LR)、支持向量機(Support vector machine,SVM)、隨機森林(Random forest,RF)等3種機器學(xué)習(xí)方法進行建模研究,并采用10折交叉驗證方法對分類器進行訓(xùn)練;最終引入準確率等模型評價指標來評估各算法在本研究數(shù)據(jù)集上的分類預(yù)測效果,為心血管介入患者術(shù)后死亡風(fēng)險預(yù)測提供一種有效的解決方案。

      1 數(shù)據(jù)采集與處理

      1.1 數(shù)據(jù)集

      本研究的實驗數(shù)據(jù)采集于浙江省某三甲醫(yī)院,共獲得728例心血管介入患者全周期病理數(shù)據(jù),建立了心血管介入專病數(shù)據(jù)庫。采集數(shù)據(jù)源包括醫(yī)院的各業(yè)務(wù)系統(tǒng)(HIS、LIS、EMR等)、各醫(yī)療表單(門診病歷、門診醫(yī)囑、檢驗報告等)及醫(yī)院的數(shù)據(jù)平臺(人口學(xué)資料、就診資料及隨訪資料)。具體信息包括患者基線信息(個人信息、病史信息、主訴和癥狀信息、生活方式信息等)、術(shù)前檢查信息(臨床評估、實驗室檢查、血管造影或介入性檢查等)、術(shù)中手術(shù)信息(手術(shù)類型與時間、手術(shù)操作過程、手術(shù)過程中的觀察和事件、手術(shù)結(jié)束情況和結(jié)論等)及術(shù)后隨訪信息(術(shù)后病情觀察、生命體征監(jiān)測、藥物治療等)。為了保證數(shù)據(jù)的一致性和互操作性,本研究在醫(yī)生的建議下采用了中華醫(yī)學(xué)會心血管病學(xué)分會牽頭制定的《中國心血管病一級預(yù)防指南》[23]、HL7衛(wèi)生信息交換標準(Health level seven)和臨床數(shù)據(jù)交換標準協(xié)會(Clinical data interchange standards consortium,CDISC)制定的全球臨床研究的數(shù)據(jù)標準對各類數(shù)據(jù)源進行數(shù)據(jù)標準化處理。此外,鑒于各心血管介入患者之間存在較大差異,在醫(yī)生的建議下還對心血管介入專病數(shù)據(jù)庫中收錄的患者數(shù)據(jù)制定了篩選標準,具體包括:a)患者年齡不低于18歲;b)患者在院建檔入庫,并完成了心血管介入手術(shù)治療;c)患者術(shù)前、術(shù)中及院后隨訪信息連續(xù)無中斷,不存在信息錯誤錄入;d)各項病理數(shù)據(jù)結(jié)構(gòu)化完整,且在院后隨訪生理體征數(shù)據(jù)記錄完善;e)收集的患者個人信息符合隱私條例保護。

      本研究與大多數(shù)研究類似,研究起點始于患者入院建立個人信息檔案。然而,由于不同研究者根據(jù)其數(shù)據(jù)集實際情況或研究側(cè)重點不同,所選擇的研究終點也不盡相同,但均集中在術(shù)后到院后一年以內(nèi)。雖然,在本研究數(shù)據(jù)集中存在個別患者入院后三年的隨訪信息,但是,由于時間跨度較長,部分記錄信息出現(xiàn)缺漏或提前終止的現(xiàn)象,并不利于統(tǒng)計分析。而且,由于院后隨訪具有周期性,醫(yī)院難以第一時間掌握到患者的死亡情況。因此,根據(jù)醫(yī)生的建議,結(jié)合患者隨訪的實際情況,本研究選定術(shù)后六個月隨訪期間內(nèi)發(fā)生死亡或未死亡為研究終點。基于以上標準和醫(yī)生建議,本研究從心血管介入專病數(shù)據(jù)庫中嚴格篩選了638例符合標準的患者全周期病例數(shù)據(jù),共計42746條數(shù)據(jù)小項,其中:術(shù)后六個月死亡41例,未死亡597例。

      1.2 數(shù)據(jù)清洗與處理

      1.2.1 缺失值和異常值處理

      缺失值與異常值的處理是數(shù)據(jù)預(yù)處理過程中的關(guān)鍵步驟,具體處理方法需要根據(jù)實際情況進行確定。常見的缺失值處理方法包括:刪除缺失值較多的特征、采用眾數(shù)填充文本類數(shù)據(jù)、采用均值或中位數(shù)填充連續(xù)型數(shù)據(jù)以及利用線性或指數(shù)插值法填充缺失值[24]。合理處理缺失值可以保持數(shù)據(jù)的連續(xù)性,并減少噪音特征對模型的干擾,從而提高計算效率。針對異常值,可以選擇直接刪除或?qū)⑵湟暈槿笔е堤幚?,或者采用平均值修正等方法。雖然選擇直接刪除會減少數(shù)據(jù)量,但是可以有效避免異常值對模型的干擾。

      對于少量缺失率較高的數(shù)據(jù)本研究選擇直接刪除,如基線信息中缺失率達87.4%的左室后壁厚度。對于一些記錄信息的缺失本研究采用眾數(shù)來填充缺失值,如患者住院方式變量中,“門診”方式占總樣本的比例達到96.23%,所以對于此類缺失值可直接將其填充為“門診”。對于連續(xù)型變量,如主動脈舒張壓、白細胞、血紅蛋白等,其數(shù)據(jù)連續(xù)且完整性完好,缺失率極低,則直接使用該變量的平均值來填充。對于一些變量的極值或者離群值,當(dāng)數(shù)據(jù)量較少時本研究選擇直接刪除,較多時則選擇離異常值最近的正常范圍來填充數(shù)據(jù)。為了能夠快速、直觀地了解數(shù)據(jù)集的完整性,本研究采用缺失值可視化工具庫Missingno得到了特征缺失值矩陣圖,結(jié)果如圖1所示;圖中左側(cè)1~638為病人數(shù),右側(cè)為數(shù)據(jù)熱力值,白色部分代表數(shù)據(jù)缺失值所在位置,且白色部分越多代表缺失情況越嚴重。

      1.2.2 特征向量化

      由于大多數(shù)機器學(xué)習(xí)算法只能處理數(shù)值型數(shù)據(jù),不能處理文字。所以,在訓(xùn)練和預(yù)測機器學(xué)習(xí)模型時,需要把這些特征進行編碼,將字符型數(shù)據(jù)轉(zhuǎn)換成數(shù)值型,這個過程可以讓計算機更好地處理數(shù)據(jù)。合適的編碼和量化方法,不僅可以提高模型的準確性和效率,還可以避免數(shù)據(jù)丟失或歪曲的情況。

      本研究采用獨熱編碼(One-Hot編碼)將離散型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。例如,對于二類問題均采用01編碼方式:男性患者編碼為1,女性患者編碼為0;患有糖尿病編碼為1,未患有編碼為0;術(shù)中出血編碼為1,未出血編碼為0;吸煙編碼為1,不吸煙編碼為0等。此外,病例中的等級評分按英文等級劃分。例如,患者的日常生活活動能力測定評分,可分A~G 6個等級來衡量。主要分類變量數(shù)值映射表如表1所示。

      1.2.3 合并癥特征處理

      通過分析心血管介入患者基線信息可以發(fā)現(xiàn),大部分患者患有多種慢性疾病或基礎(chǔ)疾病,如糖尿病、高血壓等。如果對這些病癥不做合并處理,直接作為待預(yù)測的特征使用,可能會造成數(shù)據(jù)維度過高和部分特征稀疏等問題,影響研究的科學(xué)性和準確性。查爾森合并癥指數(shù) (Charlson comorbidity index,CCI)是由查爾森等在1987年提出的是一種評估患者合并癥負擔(dān)的指數(shù)。近年來,CCI在臨床實踐中被廣泛應(yīng)用于預(yù)測患者的死亡風(fēng)險、評估治療效果、制定護理計劃和手術(shù)決策等方面[25]。本研究按照CCI評價標準[25]對每名心血管介入患者是否患有對應(yīng)合并癥進行評分,并逐項相加,具體查爾森合并癥指數(shù)評分表見表2。

      2 實驗與分析

      2.1 基于Relief-F算法的特征選擇

      經(jīng)過預(yù)處理后,數(shù)據(jù)集中仍包含冗余或無關(guān)變量,如果將這些特征變量直接輸入分類器進行訓(xùn)練學(xué)習(xí),則會對模型的訓(xùn)練結(jié)果造成較大影響。例如,術(shù)中信息中的“是否預(yù)擴張”和“預(yù)擴張次數(shù)”只需保留后者即可。對預(yù)處理后的數(shù)據(jù)進行降維處理,篩選出主要特征,去除冗余特征,減少數(shù)據(jù)噪聲,降低模型學(xué)習(xí)難度,可以有效提高算法的準確度。常用的特征選擇方法有過濾法、包裹法和嵌入法[26]。其中:過濾法是根據(jù)特征與目標變量之間的統(tǒng)計關(guān)系進行選擇,篩選出與預(yù)測變量相關(guān)度較高的特征;其優(yōu)點在于運算速度快,不需要進行模型訓(xùn)練,但無法考慮特征之間的關(guān)系。包裹法是通過窮舉搜索或啟發(fā)式搜索來選擇最佳特征子集;其優(yōu)點是考慮了特征之間的關(guān)系,但運算速度慢,可能出現(xiàn)過擬合等現(xiàn)象。嵌入法則是將特征選擇作為學(xué)習(xí)模型訓(xùn)練的一部分,通過優(yōu)化算法來選擇最佳特征子集;其優(yōu)點在于減少了特征選擇和模型訓(xùn)練的時間,但可能會丟失有用特征。

      與傳統(tǒng)方法相比,相關(guān)特征(Relevant features,Relief)算法[27]是通過評估特征之間的關(guān)聯(lián)程度來確定特征的重要性,不僅簡單易實現(xiàn)、不依賴數(shù)據(jù)分布假設(shè)、適用于離散和連續(xù)特征,還對噪聲和冗余特征具有一定的魯棒性。但是,Relief算法最初局限于解決二分類問題,無法有效去除高維數(shù)據(jù)的冗余特征。所以,本研究采用改進的Relief-F算法[28]來進行預(yù)測特征變量的選擇。相對于傳統(tǒng)的Relief算法,Relief-F算法在計算特征權(quán)重和評估分數(shù)時引入了權(quán)重方差,能夠更準確地估計特征的重要性,并對特征權(quán)重的穩(wěn)定性進行評估,從而更好地區(qū)分重要特征和噪聲特征。

      Relief-F算法每次從訓(xùn)練樣本集中隨機取出一個樣本R,然后從與R同類的樣本集中找出R的k個近鄰樣本(Near Hits),從每個R的不同類的樣本集中均找出k個近鄰樣本(Near Misses),最后更新每個特征的權(quán)重;重復(fù)抽取m次,其中單次權(quán)重迭代可用式(1)表示:

      W(A)=W(A)-∑kj=1diff(A,R,Hj)/(mk)+∑Cclass(R)p(C)1-p(class(R))∑kj=1diff(A,R,Mj(C))/(mk)(1)

      其中:A為特征變量的個數(shù);Hj為樣本R的k個最近鄰?fù)慄c;diff(A,R,Hj)為在特征A上樣本R和Hj的差;Mj(C)為異類樣本點;class(R)為樣本R的類別;p為概率。diff(A,R1,R2)用式(2)算:

      diff(A,R1,R2)=|R1[A]-R2[A]|max(A)-min(A),A為連續(xù)值;

      0,A為離散值且R1[A]=R2[A];

      1,A為離散值且R1[A]≠R2[A](2)

      本研究在Python3.9環(huán)境下進行,通過Relief-F算法進行特征選擇。以患者基線信息為例,特征權(quán)重曲線如圖2所示,本研究選擇了特征權(quán)重前10的特征變量作為患者基線信息。

      經(jīng)過數(shù)據(jù)預(yù)處理和Relief-F算法篩選,并結(jié)合醫(yī)生建議,本研究最終保留了30個特征變量,其中:患者基線信息保留了10個特征變量,術(shù)前檢查信息保留了7個特征變量,術(shù)中手術(shù)信息保留了5個特征變量,術(shù)后隨訪信息保留了8個特征變量?;颊咛卣髯兞空f明見表3。

      2.2 模型構(gòu)建與訓(xùn)練

      本研究模型訓(xùn)練流程如圖3所示。首先,將數(shù)據(jù)集按照訓(xùn)練集(70%)和測試集(30%)進行劃分,其中訓(xùn)練集共13398條數(shù)據(jù),測試集5742條數(shù)據(jù)。然后,先對訓(xùn)練集進行不同模型訓(xùn)練,為了評估不同模型在訓(xùn)練集上的表現(xiàn),在訓(xùn)練過程中使用10折交叉驗證方法和網(wǎng)格搜索方法來進行參數(shù)選擇和參數(shù)優(yōu)化,得到該模型下的最佳參數(shù)和訓(xùn)練效果。最后,利用測試集進行驗證,得到不同模型的預(yù)測效果。基于處理后的數(shù)據(jù)集,本研究選擇了3種在疾病預(yù)測研究中表現(xiàn)較佳的機器學(xué)習(xí)方法進行建模研究。

      2.2.1 邏輯回歸

      LR是一種用于分析因變量與一個或多個自變量之間的關(guān)系的統(tǒng)計方法。在疾病自動診斷領(lǐng)域,邏輯回歸常被用于探討引發(fā)某種疾病的危險因素,并基于這些因素預(yù)測疾病的發(fā)生概率。在本研究中,每個心血管介入患者yi術(shù)后六個月內(nèi)發(fā)生死亡(記為1)的概率可用式(3)表示:

      P(yi=1)=exp(β0+β1x1+…+βkxk+ε)1+exp(β0+β1x1+…+βkxk+ε)(3)

      其中:β0~βk表示模型的估計參數(shù),x1~xk表示模型的變量,ε為隨機誤差。

      同時有:

      lnP(yi=1)1-P(yi=1)=β0+β1·xAge+β2·xSex+β3·xBMI+…+ε(4)

      其中:xAge、xSex及xBMI均為本研究中的特征變量。

      本研究選擇Sklearn庫中的Logistic regression包來構(gòu)建邏輯回歸的分類器。在模型訓(xùn)練過程中,需要根據(jù)訓(xùn)練效果對模型的配置參數(shù)進行選擇,采用網(wǎng)格搜索算法對LR的主要參數(shù)調(diào)優(yōu),LR參數(shù)選擇情況見表4。

      2.2.2 支持向量機

      SVM是一種通過最大間隔化思想來實現(xiàn)分類或回歸問題的方法。對于二分類問題,SVM的目標是找到一個超平面,使得兩個類別的數(shù)據(jù)點都能夠被正確地分開。如果數(shù)據(jù)集中有多個超平面可以完全分開兩個類別,那么SVM會選擇具有最大間隔的超平面作為最終分類器。本研究使用的是單核RBF的SVM模型。同時,為了避免過擬合現(xiàn)象,需要對SVM的參數(shù)進行優(yōu)化選擇,其中懲罰系數(shù)C和控制高斯核寬度參數(shù)gamma的選擇可以通過網(wǎng)格搜索來實現(xiàn)。本研究選擇Sklearn庫中的SVC包來構(gòu)建SVM的分類器。采用網(wǎng)格搜索算法對SVM的主要參數(shù)選取。SVM參數(shù)選擇情況見表5。

      2.2.3 隨機森林

      RF作為一種經(jīng)典的集成學(xué)習(xí)方法,具有訓(xùn)練速度快、實現(xiàn)簡單和泛化性能強等優(yōu)點。RF參數(shù)一般分為兩類,一類是模型框架參數(shù),如元分類器的個數(shù)等;另一類是決策樹的參數(shù),如樹的深度等。本研究調(diào)用Sklearn庫中的Random Forest Classifier包來構(gòu)建隨機森林的分類器。使用網(wǎng)格搜索算法對隨機森林模型參數(shù)進行優(yōu)化選擇。隨機森林n_estimators參數(shù)與模型準確率之間的關(guān)系如圖4所示。當(dāng)參數(shù)n_estimators在[20, 25]之間時,模型的準確率在[0.80, 0.82]范圍內(nèi),當(dāng)n_estimators超過30時,準確率趨于穩(wěn)定。因此,選擇n_estimators為21,此時模型的準確率最高。RF參數(shù)選擇情況見表6。

      2.3 結(jié)果分析與討論

      算法模型的評估是驗證模型構(gòu)建效果的重要指標,用于確定模型的性能和可靠性。心血管介入患者術(shù)后死亡風(fēng)險的預(yù)測研究實質(zhì)上可映射成一種二分類問題進行研究,即將患者院后六個月隨訪期內(nèi)發(fā)生死亡與否作為預(yù)測目標。對于二分類問題,可將預(yù)測樣本劃分為真正例(True positives)、假正例(False positives)、真反例(True negatives)、假反例(False negatives),分類結(jié)果可用混淆矩陣表示,混淆矩陣見表7,其中:TP表示真正例數(shù);FP表示假正例數(shù);TN表示真反例數(shù);FN表示假反例數(shù)。

      本研究從準確率(Accuracy)、精確率(Precision)、召回率(Recall rate)、F1(F1 score)、AUC (Area under curve)等5個評價指標對建立的預(yù)測模型進行評估分析,具體公式如式(5)—(8)所示:

      aCC=TP+TNTP+FP+TN+FN(5)

      P=TPTP+FP(6)

      RR=TPTP+FN(7)

      F1=2·P·RRP+RR(8)

      其中:aCC表示準確率;P表示精確率;RR表示召回率;aUC表示AUC值。

      受試者工作特征曲線(Receiver operating characteristic curve,ROC)曲線[29]表示在不同的分類閾值下,真陽性率與假陽性率之間的關(guān)系,其中真陽率為ROC曲線的y軸,假陽率為x軸。

      aUC可以理解為ROC曲線下的面積,取值范圍在0到1之間,用式(9)計算:

      aUC=12∑m-1i=1(xi+1-xi)(yi+yi+1)(9)

      具體來說,aUC=1表示模型完美地對正負樣本進行了區(qū)分,aUC=0.5表示模型的預(yù)測性能與隨機猜測相當(dāng),而aUClt;0.5則表示模型的預(yù)測性能不佳。RF、SVM和LR三種機器學(xué)習(xí)算法模型的各項評價指標對比見表8。

      從表8中可得出,針對本研究的數(shù)據(jù)集而言,RF在3種傳統(tǒng)機器學(xué)習(xí)預(yù)測算法中表現(xiàn)最佳,其準確率達到81.97%,精確率為86.90%,召回率為82.14%,F(xiàn)1值為0.8441,而LR的準確度最低,未能達到75%。其主要原因在于,LR是3種機器算法中唯一使用線性模型的,而SVM和RF均使用非線性模型,后者可以利用更復(fù)雜的數(shù)據(jù),從而提高過采樣數(shù)據(jù)的準確性。另外,由于RF采用了決策樹的集成方式,每棵決策樹都可以學(xué)習(xí)不同的特征和決策規(guī)則,并根據(jù)所有決策樹的預(yù)測結(jié)果進行投票。所以,RF能夠更有效地捕捉特征之間的非線性關(guān)系,相比于SVM在本研究數(shù)據(jù)集上的表現(xiàn)效果更佳。

      ROC曲線下的面積aUC從大到小依次是RF(0.8292)、SVM(0.7743)和LR(0.7576),3種機器學(xué)習(xí)算法的ROC曲線如圖5所示。

      3 結(jié) 論

      本研究建立了心血管介入患者專病數(shù)據(jù)庫,并利用改進的Relief-F算法對心血管介入患者術(shù)后死亡風(fēng)險進行了預(yù)測研究。本研究在計算特征權(quán)重和評估分數(shù)時引入了權(quán)重方差,能夠更準確地對特征重要性進行評估,通過數(shù)據(jù)預(yù)處理、Relief-F算法篩選和醫(yī)生標注,最終保留了30個特征變量,并對所有特征變量進行了分析解釋,最后使用LR、SVM和RF三種機器學(xué)習(xí)算法訓(xùn)練得到預(yù)測結(jié)果。本研究采用的方法能夠高效、準確地預(yù)測出具有高死亡風(fēng)險的介入患者,輔助醫(yī)生及時做出醫(yī)療干預(yù),從而提高介入治療質(zhì)量并降低死亡率,具有較高的應(yīng)用價值。

      參考文獻:

      [1]于波. 中國血管內(nèi)影像學(xué)研究的進展與展望[J]. 中華心血管病雜志, 2019, 47(9): 722-725.

      [2]中國心血管健康與疾病報告編寫組. 中國心血管健康與疾病報告2022概要[J]. 中國循環(huán)雜志, 2023, 38(6): 583-612.

      [3]中國醫(yī)院協(xié)會介入醫(yī)學(xué)中心分會. 《中國介入醫(yī)學(xué)白皮書》2019版[J]. 中華介入放射學(xué)電子雜志, 2020, 8(1): 6-10.

      [4]李雪迎. 重視臨床研究數(shù)據(jù)收集過程[J]. 中國介入心臟病學(xué)雜志, 2012, 20(5): 244.

      [5]吳燕秋, 黃偉, 劉慧鑫, 等. 醫(yī)院創(chuàng)傷專病數(shù)據(jù)庫建設(shè)與實踐[J]. 醫(yī)院管理論壇, 2021, 38(5): 79-82.

      [6]劉迷迷, 杜國霞, 周毅, 等.專病數(shù)據(jù)庫建設(shè)與應(yīng)用研究[J]. 醫(yī)學(xué)信息學(xué)雜志, 2021, 42(11): 81-86.

      [7]齊霜, 毛智, 胡新,等. 基于??菩畔⑾到y(tǒng)建立的重癥醫(yī)學(xué)數(shù)據(jù)庫: 大型三甲醫(yī)院重癥醫(yī)學(xué)數(shù)據(jù)庫的模式[J]. 中華危重病急救醫(yī)學(xué), 2020, 32(6): 743-749.

      [8]Ruamtawee W, Tipayamongkholgul M, Aimyong N, et al. Prevalence and risk factors of cardiovascular disease among people living with HIV in the Asia-Pacific region: A systematic review[J]. BMC Public Health, 2023, 23(1): 477.

      [9]金濤, 王愷. 我國疾病數(shù)據(jù)庫的建設(shè)情況概述[J]. 現(xiàn)代預(yù)防醫(yī)學(xué), 2018, 45(6): 1114-1117.

      [10]袁駿毅, 潘常青, 李榕, 等. 基于臨床數(shù)據(jù)中心的冠心病專病數(shù)據(jù)庫的構(gòu)建與實現(xiàn)[J]. 中國衛(wèi)生信息管理雜志, 2022, 19(5): 707-712.

      [11]龍思哲, 吳震天, 黎鵬安, 等. 基于數(shù)據(jù)治理的專病數(shù)據(jù)庫建設(shè)實踐[J]. 醫(yī)學(xué)信息學(xué)雜志, 2022, 43(7): 20-25.

      [12]趙前前. 基于大數(shù)據(jù)科研平臺的專病數(shù)據(jù)庫建設(shè)及應(yīng)用[J]. 中國數(shù)字醫(yī)學(xué), 2020, 15(12): 89-92.

      [13]Behera M P, Sarangi A, Mishra D, et al. A hybrid machine learning algorithm for heart and liver disease prediction using modified particle swarm optimization with support vector machine[J]. Procedia Computer Science, 2023, 218(C): 818-827.

      [14]Theerthagiri P, Ruby A U, Vidya J. Diagnosis and classification of the diabetes using machine learning algorithms[J]. SN Computer Science, 2022, 4(1): 72.

      [15]Singh D P, Kaushik B. Machine learning concepts and its applications for prediction of diseases based on drug behaviour: An extensive review[J]. Chemometrics and Intelligent Laboratory Systems, 2022, 229: 104637.

      [16]Islam M A, Majumder M Z H, Hussein M A. Chronic kidney disease prediction based on machine learning algorithms[J]. Journal of Pathology Informatics, 2023, 14: 100189.

      [17]Annamalai B, Saravanan P, Varadharajan I. ABOA-CNN: auction-based optimization algorithm with convolutional neural network for pulmonary disease prediction[J]. Neural Computing and Applications, 2023, 35(10): 7463-7474.

      [18]Sudha V K, Kumar D. Hybrid CNN and LSTM network for heart disease prediction[J]. SN Computer Science, 2023, 4(2): 172.

      [19]Liang Y, Guo C H. Heart failure disease prediction and stratification with temporal electronic health records data using patient representation[J]. Biocybernetics and Biomedical Engineering, 2023, 43(1): 124-141.

      [20]Hao Z Y, Ma J, Sun W J. The technology-oriented pathway for auxiliary diagnosis in the digital health age: A self-adaptive disease prediction model[J]. International Journal of Environmental Research and Public Health, 2022, 19(19): 12509.

      [21]路曉云. 基于機器學(xué)習(xí)的慢阻肺患者再入院預(yù)測和風(fēng)險分類[D]. 廣州: 廣東工業(yè)大學(xué), 2022: 41-54.

      [22]趙明誠. 基于長短期記憶網(wǎng)絡(luò)的社區(qū)獲得性肺炎死亡率預(yù)測模型研究[D]. 合肥: 安徽大學(xué), 2021: 42-64.

      [23]劉靜, 孫藝紅, 彭道泉, 等. 中國心血管病一級預(yù)防指南[J]. 中華心血管病雜志, 2020, 48(12): 1000-1038.

      [24]劉曉玉, 李燈熬, 趙菊敏. 基于多核SVM的AdaBoost心力衰竭死亡率評估模型[J]. 太原理工大學(xué)學(xué)報, 2023, 54(5): 804-811.

      [25]繆慧, 吳震, 崔文佳. 查爾森合并癥指數(shù)與中重度老年阻塞性睡眠呼吸暫停綜合征患者全因死亡風(fēng)險的相關(guān)性及性別差異分析[J]. 中國耳鼻咽喉頭頸外科, 2023, 30(1): 45-50.

      [26]Ben Jabeur S, Stef N, Carmona P. Bankruptcy prediction using the XGBoost algorithm and variable importance feature engineering[J]. Computational Economics, 2023, 61(2): 715-741.

      [27]Kushwaha N L, Rajput J, Suna T, et al. Metaheuristic approaches for prediction of water quality indices with relief algorithm-based feature selection[J]. Ecological Informatics, 2023, 75: 102122.

      [28]Li L J, Xuan M L, Lin Q Z, et al. An evolutionary multitasking algorithm with multiple filtering for high-dimensional feature selection[J]. IEEE Transactions on Evolutionary Computation, 2023, 27(4): 802-816.

      [29]Tatliparmak A C, Yilmaz S, Ak R. Importance of receiver operating characteristic curve and decision curve analysis methods in clinical studies[J]. The American Journal of Emergency Medicine, 2023, 70: 196-197.

      (責(zé)任編輯:康 鋒)

      猜你喜歡
      隨機森林機器學(xué)習(xí)特征提取
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      Bagging RCSP腦電特征提取算法
      隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
      基于二次隨機森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
      基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
      基于支持向量機的金融數(shù)據(jù)分析研究
      开阳县| 绥中县| 广平县| 鄂托克旗| 凌云县| 瓦房店市| 文昌市| 安多县| 南安市| 孙吴县| 盐源县| 吉木乃县| 婺源县| 长阳| 秦皇岛市| 民和| 迭部县| 巴东县| 凌海市| 长春市| 海城市| 石楼县| 石林| 那曲县| 咸宁市| 阳山县| 黄平县| 长沙市| 桂林市| 西林县| 桃园县| 华蓥市| 泰顺县| 新宾| 成武县| 仙居县| 华阴市| 龙泉市| 孝昌县| 鄱阳县| 红安县|