• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      APSO_LightGBM模型在高血壓風險預測中的應用

      2021-08-24 08:04:16胡逾航
      湖北工業(yè)大學學報 2021年4期
      關鍵詞:特征選擇粒子網(wǎng)格

      鄭 列,胡逾航

      (湖北工業(yè)大學理學院, 湖北 武漢 430068)

      我國心血管疾病患者絕大多數(shù)也是高血壓患者[1]。高血壓早期可能無癥狀,容易被患者所忽視,因此其早期排查與及時干預有著重要意義。譚恒[2]使用決策樹算法對高血壓發(fā)病風險進行預測;Pei[3]構建了基于支持向量機的高血壓預測模型,討論了環(huán)境因素和遺傳因素對患原發(fā)性高血壓的影響,并使用Laplace核函數(shù)對模型進行改進;趙書穎[4]探討了中醫(yī)癥候和高血壓之間的聯(lián)系;Ren[5]使用雙向長期短期記憶模型(BiLSTM)捕獲電子病歷中的文本信息,探討高血壓疾病對腎臟疾病的影響。龔軍等[6]使用logistic、隨機森林、神經(jīng)網(wǎng)絡等多種算法構建高血壓風險分類模型,發(fā)現(xiàn)XGBoost模型的診斷精度最高。支持向量機和神經(jīng)網(wǎng)絡在處理非線性問題上都有其獨特優(yōu)勢,然而支持向量機算法會隨著數(shù)據(jù)規(guī)模的增大而計算變得低效。神經(jīng)網(wǎng)絡在建立模型時需要大量的參數(shù),其輸出結(jié)果通常難以解釋,更適合對非結(jié)構化數(shù)據(jù)進行建模。本文使用LightGBM集成算法構建高血壓風險預測模型。為了進一步提升模型性能,利用自適應粒子群算法對LightGBM算法進行優(yōu)化,以精準定位高血壓的致病因素,輔助醫(yī)療人員通過早期干預降低其發(fā)病率。

      1 APSO_LightGBM模型

      1.1 LightGBM模型

      1.1.1梯度提升決策樹梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)是一種以回歸樹為基學習器的集成算法。同時,它也是一個加法模型,即所有基學習器的線性組合作為其最終的結(jié)果。該算法可以用于解決回歸問題與分類問題,其思想是在每次迭代中通過擬合負梯度作為殘差的近似值來學習一個基學習器。GBDT的主要計算成本在于學習決策樹。由于決策樹在計算分割節(jié)點的信息增益時會對每個特征遍歷所有數(shù)據(jù)點,隨著樣本量與特征維度的增大,其計算代價也會成比例上升。

      1.1.2LightGBM算法LightGBM是一種基于GBDT的算法,由微軟團隊于2017年提出[7]。為了解決GBDT在計算復雜度上的問題,可以從兩個角度進行改進——減少特征數(shù)和減少訓練樣本數(shù)。基于這個思想,LightGBM提出了單邊梯度采樣(GOSS)和互斥特征捆綁(EFB)兩種策略,在保證模型精度的同時,提升了模型的計算速度。

      GOSS算法保留所有梯度較大的樣本,并對剩下梯度樣本進行隨機采樣,這樣可以在不改變數(shù)據(jù)分布的同時,使得訓練誤差大的樣本得到更大的關注。在GBDT算法中,信息增益通常是通過分裂后的方差來度量的,假設O為單棵決策樹一個固定節(jié)點內(nèi)的數(shù)據(jù)集,此節(jié)點處特征j在分割點d的信息增益定義為:

      (1)

      (2)

      EFB算法的思想是將很多互斥特征捆綁成少量的稠密特征?;コ馓卣髦傅氖遣煌瑫r取非零值的特征。高維數(shù)據(jù)通常具有稀疏的特點,并且在稀疏特征空間中,許多特征是互斥的,通過EFB算法可以減少很多針對特征取值為0的多余運算。

      1.2 APSO_LightGBM模型

      1.2.1自適應粒子群優(yōu)化算法粒子群優(yōu)化算法(Adaptive Partical Swarm Optimization, APSO)是一種生物啟發(fā)式算法,它被通常認為是群集智能算法的一種,其思想是通過模擬鳥群捕食的行為——即模擬其集體協(xié)作的方式——尋找最優(yōu)解[8]。在搜尋食物的過程中,食物附近的鳥會向其他的鳥傳遞位置信息,使得整個鳥群都能聚集到食物附近。該算法中,鳥被抽象為沒有質(zhì)量的粒子,且僅具有速度和位置兩個屬性。

      PSO算法先隨機地初始化一群粒子,即事先給定這群粒子的初始速度與初始位置,并定義適應度函數(shù)。粒子在搜索空間中運動受到其自身過去最佳位置的影響以及整個群體過去最佳位置的影響,在兩個最佳位置的引導下,種群逐漸收斂,慢慢靠近最優(yōu)解。粒子i在n維空間中的速度和位置:

      (3)

      式中:k表示當前迭代次數(shù);c1和c2稱為學習因子,是兩個正數(shù);r1與r2是[0,1]范圍內(nèi)生成的兩個隨機數(shù);vij表示粒子i在維度j上的速度;xij表示粒子i在維度j上的位置。粒子i到達過的最佳位置表示為pi=(pi1,pi2,…,pin)T,整個群體所有粒子達到的最佳位置表示為pg=(pg1,pg2,…,pgn)T。

      PSO算法參數(shù)少并且操作簡單,是目前較為實用的優(yōu)化算法之一,但是其存在收斂速度慢且容易陷入局部極值等缺點。針對上述問題,Shi[9]引入了慣性權重的概念,將之作為一個平衡因子。當慣性權重的值較大時,粒子有更好的全局搜索能力;其值較小時,粒子有更好的局部搜索能力。慣性權重因子記為ω,速度

      (4)

      為了進一步提升PSO的性能,本文提出一種自適應粒子群優(yōu)化算法,自適應主要體現(xiàn)在尋找合適的慣性權重因子,改進策略如下。

      1)先對第t次迭代的所有粒子求其適應值。若適應度函數(shù)期望取得最大值,就將所有粒子適應值按大小降序排序;若適應度函數(shù)期望取得最小值,就將粒子按適應值升序排序。隨后將所有粒子分成兩半,并計算每一部分的平均值,分別記為favg1,favg2。

      2)將每一個粒子適應值與favg1、favg2進行比較。若優(yōu)于favg1,則認為粒子已趨近全局最優(yōu),此時慣性權重ω取0.2;若次于favg2,則認為該粒子仍離全局最優(yōu)值較遠,此時慣性權重ω取0.9,利于其進行全局搜索;若在兩者之間,則ω在[0.4,0.6]之間隨機取值。

      1.3 APSO_LightGBM模型

      LightGBM算法超參數(shù)較多,選取不同的超參數(shù)會直接影響最后的模型預測結(jié)果。目前常見的超參數(shù)優(yōu)化方法包括網(wǎng)格搜索法與隨機搜索法。

      網(wǎng)格搜索是目前最普遍的超參數(shù)優(yōu)化算法,通過對各種需要優(yōu)化的超參數(shù)組合空間進行暴力搜索來尋找使得目標函數(shù)達到最佳的那組超參數(shù)。然而,網(wǎng)格搜索法并不適用于連續(xù)參數(shù)空間,并且隨著超參數(shù)的增多,其搜索空間大小會呈指數(shù)型增長,相當耗費時間。

      與網(wǎng)格搜索相比,隨機搜索并未嘗試所有參數(shù)值,而是通過對搜索范圍的隨機取樣選取超參數(shù),因此隨機搜索一般會比網(wǎng)格搜索要快一些,但是它高度依賴初始值。Bergstra[10]在實驗中證明了參數(shù)優(yōu)化時隨機搜索比網(wǎng)格搜索更有效。

      APSO_LightGBM可以很好地解決上述問題,其偽代碼如圖1所示。其中M為種群數(shù)量,K為迭代次數(shù),c1與c2為學習因子,需要優(yōu)化的參數(shù)個數(shù)為N。

      圖 1 APSO_LightGBM偽代碼

      2 實證分析

      為了驗證APSO_LightGBM在高血壓風險預測上的性能,使用美年大健康有限公司2018年公開的體檢數(shù)據(jù)集進行研究。數(shù)據(jù)集提供收縮壓、舒張壓的值作為高血壓患病的評估標準。對數(shù)據(jù)進行統(tǒng)計,共計有47749條數(shù)據(jù),2800個變量,每個變量代表一個體檢項目。

      2.1 數(shù)據(jù)預處理

      首先對數(shù)據(jù)進行初步篩選,將缺失值達到95%的特征刪除,并且刪除僅有單一值的特征。完成初步篩選后,特征數(shù)從2800減到了378。

      因為數(shù)據(jù)中存在著較多的文本特征,而文本特征與數(shù)值類特征需要進行不同的處理,因此需要先對特征進行分離,分離的過程如圖2所示。對于數(shù)值型特征,先進行異常值處理,超過上四分位1.5倍IQR距離的樣本點為異常值,對其進行刪除,并將缺失值用均值填充;對于文本類特征,短文本提取關鍵字并直接進行編碼,長文本使用Doc2Vec方法進行處理,并設置其向量維度為5,缺失值使用null字符進行填充。最后對數(shù)據(jù)進行整理,預處理之后的數(shù)據(jù)一共包含38191條數(shù)據(jù),790個特征。

      圖 2 特征分離流程

      2.2 特征選擇

      在機器學習中,訓練數(shù)據(jù)的維度并不是越高越好,高維度必然伴隨著高計算復雜度,且并不是所有的特征都與預測結(jié)果相關,一些不相關的變量會對模型預測效果起到負面影響[11],適當?shù)奶卣鬟x擇會提高模型的效率與精度。采用了遞歸特征消除(RFE)[12]與交叉驗證結(jié)合的方式(RFECV)進行特征選擇。遞歸特征消除的思想是使用一個基模型來進行多輪訓練,每輪訓練后,移除特征重要性較低的一部分特征,再基于新的特征集進行下一輪訓練。由于每一輪去除的特征中可能保留部分有效信息,所以模型在特征選擇后的數(shù)據(jù)集上的表現(xiàn)可能會差于原數(shù)據(jù)集。對收縮壓與舒張壓建立預測模型,并分別對兩個模型進行特征選擇,選擇使得得分最高的一些特征。表1為各預測模型對應的特征數(shù)。

      表1 各預測模型對應的特征數(shù)

      2.3 超參數(shù)優(yōu)化

      LightGBM有較多的超參數(shù),不同的超參數(shù)對模型起到不同的作用。本文選取LightGBM模型的6項主要參數(shù)。對于傳統(tǒng)尋參方法存在的缺陷,本文提出自適應粒子群優(yōu)化算法尋找其最佳參數(shù)。

      根據(jù)粒子群優(yōu)化算法的特點以及數(shù)據(jù)集的大小,設置初始種群數(shù)為100,每個個體包含6個參數(shù),參數(shù)在所給范圍內(nèi)隨機生成;設置進化次數(shù)為50,以均方誤差作為適應度函數(shù),設置學習因子c1與c2的值為1.5。優(yōu)化過程如圖3所示??梢园l(fā)現(xiàn),相比原始的PSO優(yōu)化算法,APSO算法收斂得更快,并且表現(xiàn)出更好的全局搜索能力。

      (a)收縮壓模型參數(shù)優(yōu)化過程

      (b)舒張壓模型參數(shù)優(yōu)化過程圖 3 粒子群優(yōu)化算法尋找超參數(shù)

      2.4 實驗結(jié)果及分析

      采用python語言對數(shù)據(jù)進行分析,以收縮壓、舒張壓為預測指標分別建立對應的預測模型。

      2.4.1驗證RFECV合理性體檢數(shù)據(jù)是一個高維數(shù)據(jù)。為了降低其維度,使用RFECV進行特征選擇。為了驗證該算法的有效性,實驗使用經(jīng)過RFECV算法選擇后的特征進行模型訓練,并將其與原始特征訓練的模型進行對比。模型均使用默認超參數(shù),并以5折交叉驗證的方式進行訓練。兩者在時間與精度上的對比如表2所示,表格中的平均均方誤差指的是兩個模型均方誤差的平均值,運行時間指的是兩個模型訓練的總時間。實驗分析可得,使用RFECV降維后,模型在時間效率上提高了31.8%,而在評估指標上只下降了0.37%,所以使用RFECV方法進行特征選擇是合理的。

      表2 RFECV特征選擇前后性能對比

      2.4.2驗證APSO算法的優(yōu)越性由于特征選擇后可以大大降低計算成本,且對模型的精度不會有太大的影響,所以超參數(shù)的優(yōu)化實驗都是基于RFECV選擇后的特征。為了驗證自適應粒子群優(yōu)化算法的優(yōu)越性,實驗同時使用網(wǎng)格搜索與隨機搜索兩種傳統(tǒng)方式對超參數(shù)進行優(yōu)化,最后將三者的結(jié)果進行對比。由于網(wǎng)格搜索會消耗大量的時間成本,所以本次對比實驗只選用了收縮壓預測模型,實驗中優(yōu)化的參數(shù)空間如表3所示。

      表3 參數(shù)空間

      將APSO_LightGBM與網(wǎng)格搜索、隨機搜索以及LightGBM的默認參數(shù)進行對比,不同的優(yōu)化方法選擇相同范圍的參數(shù)空間,并使用運行時間與均方誤差MSE作為評估指標。由于APSO算法設置了種群大小為100,50次的進化,即相當于5000次迭代,故將隨機搜索的迭代次數(shù)也設置為5000以方便對比。實驗結(jié)果如表4所示,表中網(wǎng)格搜索的運行時間為其搜索完待選參數(shù)空間所需的時間,隨機搜索的運行時間為其迭代5000輪的時間,APSO的運行時間為其精度不再變化后的時間,即完成收斂所需的時間。參數(shù)列表的順序為learning_rate、feature_fraction、bagging_fraction、bagging_freq、num_leaves和min_data_in_leaf。

      從表4中的數(shù)據(jù)看出,網(wǎng)格搜索雖然有精度上的提升,但是會花費大量的時間成本;隨機搜索的運行時間相比網(wǎng)格搜索大大減少了,而且在精度上也比網(wǎng)格搜索略好一些;自適應粒子群優(yōu)化算法相比網(wǎng)格搜索與隨機搜索,在精度上有顯著的提升,而且運行時間遠遠小于網(wǎng)格搜索與隨機搜索,所以使用自適應粒子群優(yōu)化算法尋找超參數(shù)是有效的。

      2.4.3驗證APSO_LightGBM算法的有效性為了驗證APSO_LightGBM模型對高血壓風險預測的有效性,選擇線性回歸、決策樹、支持向量機以及LightGBM與其進行對比分析。采用MAE(平均絕對誤差)、MSE(均方誤差)和R-squared(決定系數(shù))作為模型的評價指標,其中MAE與MSE兩個評價指標用于評估真實值與預測值之間的差異,數(shù)值越小代表預測越準確,R-squared用于評估模型的解釋度,數(shù)值越大,說明模型解釋性越強。實驗結(jié)果如表5所示,其中的數(shù)值為兩個預測模型對應指標的平均值。可以發(fā)現(xiàn)APSO_LightGBM的預測精度優(yōu)于其他模型,并且在解釋性上也得到了增強。

      表5 算法對比

      3 結(jié)果與分析

      通過驗證,APSO_LightGBM算法性能最優(yōu)。圖4給出了基于該算法的兩個預測模型最相關的15項文本特征。結(jié)果顯示,收縮壓、舒張壓與心率、是否具有病史、肝功能、甲狀腺、子宮以及前列腺等的健康程度呈高度相關。有研究表明,高血壓與血清甲狀腺激素有著密切的關系[13];對前列腺增生實施藥物或者手術干預能在一定程度上降低血壓[14];子宮內(nèi)膜異??赡軐е禄几哐獕旱娘L險增高[15]。從本文研究結(jié)果可以看出,模型得到的重要性特征與醫(yī)學結(jié)果大部分契合。因此心率不齊、甲狀腺功能低下、子宮或是前列腺異常、肝膽疾病的患者或曾有類似病史的人群通過早期檢測這些強重要性特征,可以實現(xiàn)高血壓的精準預防。

      (a)收縮壓

      (b)舒張壓圖 4 收縮壓與舒張壓模型特征重要性排名

      4 結(jié)論

      本文提出一種基于集成算法LightGBM的高血壓風險預測模型,并根據(jù)體檢數(shù)據(jù)指標冗余的問題,引入RFECV算法進行特征選擇,實驗表明其在降低維度的同時保證了模型的精度。此外,為了提升模型的性能,引入自適應粒子群優(yōu)化算法尋找最優(yōu)超參數(shù)。結(jié)果表明,改進的模型相比傳統(tǒng)的超參數(shù)優(yōu)化算法性能有很大的提升,并且比常用的線性回歸、決策樹和SVM方法有更好的預測精度。APSO_LightGBM模型結(jié)合了自適應粒子群算法的全局搜索能力和LightGBM算法的高效性與廣泛性,除了本文的應用場景外,該模型還可以應用于其他疾病的預測問題。但在實驗過程中,模型的運行時間比較長,降低自適應粒子群優(yōu)化算法的計算復雜度有待進一步研究。接下來的工也會考慮優(yōu)化LightGBM算法的損失函數(shù),進一步提升模型精度。

      猜你喜歡
      特征選擇粒子網(wǎng)格
      用全等三角形破解網(wǎng)格題
      反射的橢圓隨機偏微分方程的網(wǎng)格逼近
      基于粒子群優(yōu)化的橋式起重機模糊PID控制
      測控技術(2018年10期)2018-11-25 09:35:54
      基于粒子群優(yōu)化極點配置的空燃比輸出反饋控制
      重疊網(wǎng)格裝配中的一種改進ADT搜索方法
      Kmeans 應用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      基于曲面展開的自由曲面網(wǎng)格劃分
      聯(lián)合互信息水下目標特征選擇算法
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      計算機工程(2014年6期)2014-02-28 01:26:36
      朝阳县| 平武县| 磐石市| 循化| 清新县| 大庆市| 九寨沟县| 广饶县| 静安区| 六安市| 绥宁县| 富源县| 中牟县| 凭祥市| 新安县| 石渠县| 襄城县| 房山区| 临泉县| 台中市| 石家庄市| 于都县| 龙陵县| 舟曲县| 嘉祥县| 内江市| 兴海县| 安图县| 任丘市| 甘孜| 永和县| 荣昌县| 平山县| 明溪县| 门头沟区| 南城县| 蒙山县| 全椒县| 皋兰县| 马鞍山市| 墨脱县|