彭 俊 項(xiàng) 薇,2* 謝 勇,3 黃益槐 韓樂(lè)奇 吳成宇
1(寧波大學(xué)機(jī)械工程與力學(xué)學(xué)院 浙江 寧波 315211) 2(寧波大學(xué)先進(jìn)儲(chǔ)能技術(shù)與裝備研究院 浙江 寧波 315211) 3(撫州幼兒師范高等??茖W(xué)校 江西 撫州 344099)
我國(guó)三甲醫(yī)院門(mén)診就診中普遍存在“三長(zhǎng)一短”的問(wèn)題,即“掛號(hào)排隊(duì)時(shí)間長(zhǎng)、看病等候時(shí)間長(zhǎng)、取藥排隊(duì)時(shí)間長(zhǎng)、醫(yī)生問(wèn)診時(shí)間短”。有學(xué)者統(tǒng)計(jì)研究表明門(mén)診患者的醫(yī)療診治時(shí)間僅占有門(mén)診總時(shí)間的10%~15%[1]。這其中的“三長(zhǎng)”極大影響患者對(duì)醫(yī)院醫(yī)療服務(wù)滿意度,也直接造成患者就診過(guò)程排隊(duì)擁堵現(xiàn)象,影響醫(yī)療機(jī)構(gòu)的正常運(yùn)作管理。
基于不斷增長(zhǎng)的醫(yī)療需求的影響,就診排隊(duì)等待現(xiàn)象似乎不可避免。目前,患者和醫(yī)院依然存在信息不對(duì)稱的情況,特別是當(dāng)患者需要進(jìn)行多項(xiàng)檢查及診治服務(wù)時(shí),患者無(wú)法獲得各科室實(shí)時(shí)就診信息,僅依靠經(jīng)驗(yàn)選擇就診項(xiàng)目進(jìn)行排隊(duì)等待。應(yīng)用預(yù)測(cè)分析技術(shù)可以為醫(yī)院過(guò)度擁擠提供一個(gè)解決方案[2-3],把預(yù)測(cè)出的等待時(shí)間等信息通過(guò)電子屏幕等移動(dòng)設(shè)備發(fā)布給患者,增強(qiáng)患者就診體驗(yàn),緩解患者因?yàn)榻辜碑a(chǎn)生等待的焦慮,從而提高其滿意度。
針對(duì)醫(yī)療服務(wù)等待時(shí)間預(yù)測(cè)問(wèn)題,依據(jù)其復(fù)雜性,可提煉成單一服務(wù)階段等待時(shí)間預(yù)測(cè)與多階段服務(wù)等待時(shí)間預(yù)測(cè)這兩類問(wèn)題。單階段等待時(shí)間預(yù)測(cè)是指這類患者需要知道當(dāng)前所在科室的實(shí)時(shí)等待信息,該患者已經(jīng)在該科室的隊(duì)列中,我們需要預(yù)測(cè)該患者所在科室隊(duì)列的實(shí)時(shí)等待時(shí)間;多階段服務(wù)等待時(shí)間預(yù)測(cè)是指這類患者需要接受系列的就診服務(wù),過(guò)程中有多重排隊(duì)隊(duì)列選擇,不僅需要知道當(dāng)前所在科室的實(shí)時(shí)等待信息,還需要獲取下一流程所在科室的等待信息乃至在醫(yī)院的總逗留時(shí)長(zhǎng)。通過(guò)文獻(xiàn)綜述發(fā)現(xiàn),現(xiàn)有的服務(wù)等待時(shí)間預(yù)測(cè)研究主要為單階段等待時(shí)間預(yù)測(cè),少有針對(duì)多階段服務(wù)等待時(shí)間預(yù)測(cè)的相關(guān)文獻(xiàn)。
國(guó)內(nèi)學(xué)者朱啟東[4]基于科室、掛號(hào)時(shí)間、是否為工作日、月份、醫(yī)生、同科室候診人數(shù)、當(dāng)天本科室掛號(hào)總?cè)藬?shù)和是否為節(jié)假日8個(gè)變量建立BP神經(jīng)網(wǎng)絡(luò)患者候診時(shí)間預(yù)測(cè)模型。張會(huì)會(huì)[5]基于醫(yī)療信息系統(tǒng)數(shù)據(jù)將星期、是否周末、科室、卡號(hào)類型、卡號(hào)類型、預(yù)約時(shí)段等變量提取出來(lái),分別利用線性回歸、Lasso回歸、隨機(jī)森林回歸、K最近鄰回歸四種方法建立患者等待時(shí)間預(yù)測(cè)模型,隨機(jī)森林和K最近鄰回歸精度最高,平均絕對(duì)誤差低至13分鐘左右。何躍等[6]將患者掛號(hào)月份、時(shí)間段、科室隊(duì)列人數(shù)和科室隊(duì)列流速作為預(yù)測(cè)模型的自變量,建立基于BP神經(jīng)網(wǎng)絡(luò)急診科室患者等待時(shí)間預(yù)測(cè)模型,其研究顯示隊(duì)列流速對(duì)患者等待時(shí)間影響較小。
國(guó)外研究主要側(cè)重于急診科室患者等待時(shí)間的預(yù)測(cè),與之相關(guān)的文獻(xiàn)采用了大量的統(tǒng)計(jì)方法。Austin等[7]基于患者年齡、性別、患者緊急情況、病情程度、是否為工作日等15個(gè)變量使用分位數(shù)回歸模型預(yù)測(cè)患者在請(qǐng)求急診服務(wù)科多久到達(dá)醫(yī)院。Poole等[8]使用正則化模型(Ridge and Lasso)和隨機(jī)森林回歸預(yù)測(cè)患者急診候診時(shí)間。Champion等[9]通過(guò)使用簡(jiǎn)單的移動(dòng)平均、滾動(dòng)平均方法計(jì)算出等待時(shí)間的算術(shù)平均值來(lái)構(gòu)建預(yù)測(cè)模型。Pianykh等[10]將科室隊(duì)列人數(shù)、最近的3位病人平均等待時(shí)間、隊(duì)列流速等作為輸入變量,建立線性回歸模型預(yù)測(cè)患者等待時(shí)間。Ang等[11]使用正則化回歸模型預(yù)測(cè)病情較輕患者等待時(shí)間。Arha[12]基于時(shí)間類變量(如這一天是星期幾、患者幾點(diǎn)到達(dá)等)、急診科室快速通道的狀態(tài)、患者類型、患者地點(diǎn)位置等變量,構(gòu)建基于正則化回歸方法(Lasso、Ridge、Elastic Net、SCAD和MCP)和隨機(jī)森林的患者等待時(shí)間預(yù)測(cè)模型。
綜上所述,總結(jié)對(duì)患者等待時(shí)間統(tǒng)計(jì)建模輸入的變量:主要可分為時(shí)間類、患者類型、科室類型、掛號(hào)方式、地點(diǎn)位置5類變量,具體如表1所示。現(xiàn)有的研究主要采用移動(dòng)平均、回歸分析和神經(jīng)網(wǎng)絡(luò)三類算法,具體如圖1所示。移動(dòng)平均模型僅利用本身的歷史數(shù)據(jù)進(jìn)行預(yù)測(cè),數(shù)據(jù)需求簡(jiǎn)單,但也因此忽略了其他因素的影響;神經(jīng)網(wǎng)絡(luò)算法可解釋性較差同時(shí)需要大量的歷史數(shù)據(jù);而經(jīng)典的回歸分析方法如正則化方法、分位數(shù)回歸、K最近鄰、決策樹(shù)等預(yù)測(cè)技術(shù)由于欠擬合導(dǎo)致預(yù)測(cè)性能欠佳,同時(shí)也不適用在大數(shù)據(jù)樣本的預(yù)測(cè)。本文將選取醫(yī)療服務(wù)等待時(shí)間的預(yù)測(cè)問(wèn)題為研究對(duì)象,引入基于LightGBM算法實(shí)現(xiàn)多階段服務(wù)等待時(shí)間的預(yù)測(cè)。
表1 統(tǒng)計(jì)預(yù)測(cè)建模輸入變量
圖1 統(tǒng)計(jì)學(xué)習(xí)預(yù)測(cè)方法
LightGBM算法屬于Boosting集成算法中的一種,Boosting是機(jī)器學(xué)習(xí)中集成學(xué)習(xí)算法的一個(gè)分支,是目前經(jīng)典的用于預(yù)測(cè)的機(jī)器學(xué)習(xí)算法,由Schapire[13]提出,其主要思想是將多個(gè)弱監(jiān)督學(xué)習(xí)模型進(jìn)行有機(jī)組合得到一個(gè)性能更好更全面強(qiáng)監(jiān)督學(xué)習(xí)模型,即便是某一個(gè)弱學(xué)習(xí)器得到了錯(cuò)誤的預(yù)測(cè),其他的弱學(xué)習(xí)器也可以將錯(cuò)誤糾正。常見(jiàn)的機(jī)器學(xué)習(xí)Boosting集成算法有Adaboost、GBDT、XGBoost和LightGBM。Adaboost和GBDT都是經(jīng)典的Boosting決策樹(shù)算法,XGBoost在GBDT基礎(chǔ)上進(jìn)行了一定改進(jìn),使其性能得到提升。XGBoost算法雖然強(qiáng)大,但是由于XGBoost算法迭代次數(shù)和特征維度有很大關(guān)系,當(dāng)樣本數(shù)據(jù)維度增加,每次迭代需要遍歷全部的數(shù)據(jù)樣本,在這種情況下XGBoost算法效率顯著降低。為了應(yīng)對(duì)大數(shù)據(jù)樣本的挑戰(zhàn),還需要對(duì)XGBoost進(jìn)行優(yōu)化。LightGBM是微軟2017年提出的新的Boosting框架模型[14],LightGBM算法在XGBoost基礎(chǔ)上進(jìn)一步進(jìn)行了以下改進(jìn):
(1) 梯度單邊采樣技術(shù):梯度單邊采樣技術(shù)(Gradient-based One-Side Sampling,GOSS)可以剔除很大一部分梯度很小的數(shù)據(jù),只使用剩余的數(shù)據(jù)來(lái)估計(jì)信息增益,從而避免低梯度長(zhǎng)尾部分的影響。由于梯度大的數(shù)據(jù)對(duì)信息增益更加重要,所以GOSS技術(shù)在較之傳統(tǒng)GBDT少很多的數(shù)據(jù)前提下仍然可以取得相當(dāng)高的預(yù)測(cè)精度[15]。
(2) 獨(dú)立特征合并技術(shù)和直方圖算法:獨(dú)立特征合并技術(shù)(Exclusive Feature Bundling,EFB)實(shí)現(xiàn)互斥特征的捆綁,以減少特征的數(shù)量,因?yàn)樵诟呔S特征的數(shù)據(jù)樣本中,很多樣本的特征存在互斥的情況,EFB技術(shù)識(shí)別并對(duì)這些特征進(jìn)行捆綁。另外,在GBDT和XGBoost算法中,最耗時(shí)的步驟是利用預(yù)排序(Pre-Sorted)的方式在排好序的特征值上枚舉所有可能的特征點(diǎn),然后找到最優(yōu)劃分點(diǎn),而LightGBM中使用直方圖算法替換了傳統(tǒng)的Pre-Sorted以減少對(duì)內(nèi)存的消耗,直方圖算法的思路是將連續(xù)的特征值進(jìn)行裝箱處理,裝箱處理其實(shí)就是離散化連續(xù)的特征值,而對(duì)于類別特征,一種取值就是一個(gè)箱,這樣處理的好處是在節(jié)點(diǎn)分裂時(shí),XGBoost和GBDT中需要遍歷所有離散化的值,而在LightGBM中只要遍歷箱。因此LightGBM更加高效,占用內(nèi)存更低。
(3) 不同于XGBoost和GBDT采用基于按層生長(zhǎng)的決策樹(shù)成長(zhǎng)方式,又叫做level-wise策略。LightGBM算法中單個(gè)決策樹(shù)的節(jié)點(diǎn)分離方法是基于葉子分裂的,又叫l(wèi)eaf-wise策略,這樣的好處是不會(huì)對(duì)許多分裂增益過(guò)低的節(jié)點(diǎn)進(jìn)行遍歷搜索,降低了對(duì)計(jì)算資源的消耗。
本文預(yù)測(cè)分析過(guò)程如圖2所示,首先基于SIMIO獲取相關(guān)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行獨(dú)熱編碼及標(biāo)準(zhǔn)化預(yù)處理后使用Lasso、Ridge、GBDT、XGBoost和LightGBM算法建立預(yù)測(cè)模型,使用隨機(jī)搜索選擇參數(shù),最后通過(guò)對(duì)比選出最佳模型。
圖2 預(yù)測(cè)分析過(guò)程
將患者服務(wù)等待時(shí)間定義為患者在醫(yī)院接受服務(wù)時(shí)間以及等待時(shí)間之和。醫(yī)院各科室隊(duì)列人數(shù)的實(shí)時(shí)狀態(tài)S、患者診療流程中的科室構(gòu)成O是影響患者服務(wù)等待時(shí)間的主要因素。
(1)
所以,多階段患者服務(wù)等待時(shí)間可用式(2)表示,因?yàn)闊o(wú)法知道公式的具體形式,因此采用LightGBM算法建立回歸模型預(yù)測(cè)患者服務(wù)等待時(shí)間。
F=f(k1,k2,…,kn,p11,p12,…,p1n,…,pMnM)
(2)
對(duì)寧波某婦幼保健院以及寧波多家醫(yī)院的調(diào)研發(fā)現(xiàn),目前醫(yī)院的HIS系統(tǒng)與排隊(duì)系統(tǒng)獨(dú)立運(yùn)作,無(wú)法直接獲取多階段的原始數(shù)據(jù),本文采用SIMIO軟件進(jìn)行仿真,獲取模型訓(xùn)練集和驗(yàn)證集數(shù)據(jù)。
仿真首先需要仿真目標(biāo),本文基于文獻(xiàn)[16]建立仿真模型獲取相關(guān)實(shí)驗(yàn)數(shù)據(jù)。論文中以大連某體檢中心實(shí)際工作流程為基礎(chǔ),對(duì)于患者的就診流程、患者到達(dá)分布、人員設(shè)備配置、各科室服務(wù)時(shí)間、排隊(duì)過(guò)程均有詳細(xì)說(shuō)明。
對(duì)于建模輸入變量,本文主要考慮患者和醫(yī)務(wù)人員兩方面的影響,主要包括時(shí)間類(患者到達(dá)時(shí)間)、科室類(各科室隊(duì)列人數(shù)類、患者檢查項(xiàng)目)這2大類變量對(duì)患者等待時(shí)間的影響,具體變量和變量類型如表2所示,通過(guò)SIMIO中添加觸發(fā)器并加入write step模塊將實(shí)驗(yàn)相關(guān)數(shù)據(jù)輸出成.csv文件格式。對(duì)于上述共17類數(shù)據(jù),服務(wù)等待時(shí)間是我們的預(yù)測(cè)目標(biāo),進(jìn)入隊(duì)列時(shí)間既可獲取進(jìn)入隊(duì)列時(shí)刻,也可與完成時(shí)間計(jì)算得到患者的服務(wù)等待時(shí)間,其他14個(gè)變量為輸入模型中的因變量,將仿真模型運(yùn)行60天后匯總得到樣本共計(jì)8 110條。
表2 變量類別及類型
(1) 標(biāo)準(zhǔn)化。對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理可以排除不同變量值域量綱差異過(guò)大的影響,有利于算法模型的收斂。通過(guò)式(3)進(jìn)行轉(zhuǎn)換,假設(shè)原始變量集合為X={X1,X2,…,Xn},標(biāo)準(zhǔn)化處理后的變量集合為Z={Z1,Z2,…,Zn},使用sklearn.preprocessing中StandardScaler模塊可以快速進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。本文對(duì)檢查科室總數(shù)、采血科隊(duì)列人數(shù)、一般檢查科隊(duì)列人數(shù)、眼耳口鼻科隊(duì)列人數(shù)、內(nèi)科隊(duì)列人數(shù)、外科隊(duì)列人數(shù)和彩超科隊(duì)列人數(shù)進(jìn)行標(biāo)準(zhǔn)化處理。
(3)
式中:μ是該變量的均值;s為該變量的標(biāo)準(zhǔn)差。
(2) 獨(dú)熱編碼。獨(dú)熱編碼即一位有效編碼,其方法是使用N位狀態(tài)寄存器來(lái)對(duì)N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都有它獨(dú)立的寄存器位,并且在任意時(shí)候,其中只有一位有效。如對(duì)0和1進(jìn)行編碼,首先只有兩個(gè)狀態(tài)就是需要兩個(gè)狀態(tài)寄存器,將其編碼為00和01。獨(dú)熱編碼使得特征間的距離度量合理,不過(guò)會(huì)增加特征維度。本文使用Python的第三方庫(kù)pandas中g(shù)et_dummies()方法對(duì)進(jìn)入隊(duì)列時(shí)刻、采血科是否檢查、一般檢查科是否檢查、眼耳口鼻科是否檢查、內(nèi)科是否檢查、外科是否檢查和彩超科是否檢查共7個(gè)離散特征進(jìn)行獨(dú)熱編碼。
為評(píng)估模型的泛化性能,將實(shí)驗(yàn)源數(shù)據(jù)集,共計(jì)8 110條實(shí)驗(yàn)源數(shù)據(jù),隨機(jī)選取80%的數(shù)據(jù)(6 488個(gè)樣本)作為訓(xùn)練集,20%的數(shù)據(jù)(1 622個(gè)樣本)作為測(cè)試集。
表3 數(shù)據(jù)集大小
使用兩個(gè)指標(biāo)MAE和MAPE度量Lasso、Ridge、GBDT、XGBoost、LightGBM模型的預(yù)測(cè)精度。
(1) 平均絕對(duì)誤差(MAE)。平均絕對(duì)誤差可以直接衡量預(yù)測(cè)值與真實(shí)值的差值大小,具體MAE計(jì)算方式見(jiàn)式(4)。
(4)
式中:n為樣本個(gè)數(shù);yobs,i為第i個(gè)實(shí)驗(yàn)數(shù)據(jù)的真實(shí)值;ymodel,i為第i個(gè)實(shí)驗(yàn)數(shù)據(jù)的預(yù)測(cè)值。MAE值越小說(shuō)明算法預(yù)測(cè)精度越高。
(2) 平均絕對(duì)百分比誤差(MAPE)。平均絕對(duì)百分比誤差不僅僅考慮預(yù)測(cè)值與真實(shí)值的誤差,還考慮了誤差與真實(shí)值間的比例。MAPE計(jì)算方式見(jiàn)式(5),MAPE值越小說(shuō)明算法預(yù)測(cè)精度越高,由式(5)可知當(dāng)實(shí)際值為0時(shí)公式將不適用,因此在計(jì)算MAPE時(shí)將實(shí)際值為0的樣本刪除。
(5)
式中:n為樣本個(gè)數(shù);yobs,i為第i個(gè)觀測(cè)樣本的實(shí)際值;ymodel,i為第i個(gè)樣本的預(yù)測(cè)值。
模型驗(yàn)證實(shí)驗(yàn)電腦配置為64位Window 10操作系統(tǒng),8 GB運(yùn)行內(nèi)存,Intel Core i5- 8250U處理器。使用Python3.5編程語(yǔ)言進(jìn)行分析建模,建模過(guò)程主要使用到的包和機(jī)器學(xué)習(xí)庫(kù)有pandas、numpy、matplotlib、seaborn、sklearn。
使用機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測(cè)模型時(shí),參數(shù)對(duì)模型的預(yù)測(cè)結(jié)果影響較大。對(duì)于Lasso模型,選取alpha和max_iter進(jìn)行尋優(yōu);對(duì)于Ridge模型,選取alpha進(jìn)行尋優(yōu);對(duì)于GBDT模型,選取learning_rate、n_estimators、max_depth和subsample這4個(gè)主要參數(shù)進(jìn)行調(diào)優(yōu);對(duì)于XGBoost模型,選取learning_rate、n_estimators和max_depth這3個(gè)參數(shù)進(jìn)行尋優(yōu);對(duì)于LightGBM模型,選取learning_rate、n_estimators、max_depth、num_leaves、min_data_in_leaf、feature_fraction和bagging_fraction共7個(gè)主要參數(shù)進(jìn)行調(diào)優(yōu)。使用隨機(jī)搜索自動(dòng)選取參數(shù)。具體步驟如下:(1) 確定參數(shù)的尋優(yōu)區(qū)間;(2) 為每個(gè)超參數(shù)定義成均勻分布;(3) 根據(jù)給定的分布進(jìn)行隨機(jī)采樣,然后根據(jù)得到的采樣結(jié)果進(jìn)行遍歷。使用sklearn中RandomizedSearchCV模塊可快速進(jìn)行隨機(jī)搜索。使用5折交叉驗(yàn)證選擇參數(shù),超參數(shù)尋優(yōu)時(shí)采用MAE為評(píng)分函數(shù)。確定參數(shù)后分別評(píng)估各模型在測(cè)試集上的預(yù)測(cè)性能,并整理實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同模型尋優(yōu)耗時(shí)與MAE值對(duì)比
可以發(fā)現(xiàn)Ridge尋優(yōu)時(shí)間最短,預(yù)測(cè)性能較差,在測(cè)試集上MAE僅為9.140 8。GBDT、XGBoost、LightGBM都可以取得較好的預(yù)測(cè)精度,MAE約為3分鐘左右,但是LightGBM模型可大幅降低尋優(yōu)時(shí)間,其尋優(yōu)時(shí)長(zhǎng)僅為GBDT模型的3.3%,XGBoost模型的22.4%。因此,綜合尋優(yōu)時(shí)間和預(yù)測(cè)精度來(lái)看,確定LightGBM為最佳模型。
使用MAPE評(píng)估各模型的預(yù)測(cè)精度在測(cè)試集上預(yù)測(cè)精度,通常我們認(rèn)為模型MAPE小于10%說(shuō)明預(yù)測(cè)模型精度較高。如表5為各個(gè)模型的MAPE值??梢园l(fā)現(xiàn)GBDT、XGBoost、LightGBM算法遠(yuǎn)高于Lasso和Ridge模型預(yù)測(cè)精度,預(yù)測(cè)精度分別為8.62%和8.23%和8.52%,滿足實(shí)際應(yīng)用需求。
表5 各算法MAPE值對(duì)比(%)
LightGBM建模可使用模型內(nèi)置函數(shù)plot_importance提取特征對(duì)于模型的重要度,表6為各特征對(duì)模型重要度所占百分比,可以看出各科室隊(duì)列人數(shù)和檢查科室總數(shù)占比最高,計(jì)算可得這些特征占比總計(jì)達(dá)84.77%。這些特征是影響患者等待時(shí)間的關(guān)鍵。
表6 LightGBM模型特征重要度(%)
結(jié)合醫(yī)療工作,根據(jù)預(yù)測(cè)分析結(jié)果給出如下應(yīng)用討論:
(1) 體檢流程作為典型的多階段服務(wù)流程,患者往往處在焦急的等待之中,在我們的實(shí)際應(yīng)用中,可在預(yù)測(cè)出的等待時(shí)間的基礎(chǔ)上加上一段時(shí)間,使得患者實(shí)際感知的等待時(shí)間減少,提高病人滿意度。
(2) 對(duì)于多階段服務(wù)等待時(shí)間預(yù)測(cè)來(lái)說(shuō),獲取各科室信息是預(yù)測(cè)的基礎(chǔ),因此建立統(tǒng)一的醫(yī)療信息系統(tǒng)尤為關(guān)鍵,結(jié)合文獻(xiàn)調(diào)研分析和本文的研究,采集患者的掛號(hào)科室數(shù)、各科室的隊(duì)列人數(shù)等信息對(duì)預(yù)測(cè)等待時(shí)間尤為關(guān)鍵。
(3) 多階段服務(wù)等待時(shí)間預(yù)測(cè)有助于優(yōu)化序列預(yù)約,減少不必要的過(guò)號(hào)浪費(fèi)現(xiàn)象發(fā)生,因?yàn)槟壳暗那闆r是每個(gè)環(huán)節(jié)都需要排隊(duì)取號(hào),存在大量過(guò)號(hào),無(wú)法了解排隊(duì)情況,有了患者服務(wù)等待時(shí)間,可用于最優(yōu)化序列預(yù)約。
本文基于Lasso、Ridge、GBDT、XGBoost、LightGBM建立多階段服務(wù)等待時(shí)間預(yù)測(cè)模型,預(yù)測(cè)結(jié)果顯示LightGBM取得預(yù)測(cè)性能最好,平均絕對(duì)誤差分別為3.439 1,平均百分比誤差為8.52%。本文的不足之處在于LightGBM雖然可以提高預(yù)測(cè)精度,但與Ridge算法相比,其算法運(yùn)行時(shí)間較長(zhǎng),特別是在醫(yī)療大數(shù)據(jù)的背景下如何在獲得較高預(yù)測(cè)精度的同時(shí)降低算法尋優(yōu)時(shí)長(zhǎng)是以后研究主要內(nèi)容之一。