摘" 要:本研究針對大范圍物種潛在分布預測問題,選取了隨機森林模型(random forest,RF)、支持向量機(support vector machine,SVM)、極限梯度提升模型(eXtreme gradient boosting,XGBoost)作為核心算法,并借助圖形處理單元(graphics processing unit,GPU)設計并行計算策略,提出階段式CUDA加速計算方法,以期在保證預測精度的同時,顯著降低計算時間。以北大西洋Desmophyllum pertusum冷水珊瑚為研究對象,本研究運用十折交叉驗證以及多種評價方法對模型性能進行了全面評估。實驗結果表明,3種模型在合理的精度范圍內(nèi)均顯著提升了計算性能。其中,SVM的性能提升效果最為顯著,速度提升了88.48%,而RF和XGBoost速度提升分別為88.41%和16.54%。綜合來看,XGBoost模型在性能和預測精度方面表現(xiàn)最佳。同時,本研究所提出的階段式CUDA加速計算方法對隨機森林和支持向量機都展現(xiàn)出顯著的性能提升效果。
關鍵詞:GPU;高性能計算;機器學習;物種潛在分布預測;冷水珊瑚;北大西洋
中圖分類號:P237;Q14
文獻標志碼:A
文章編號" 1000-5269(2025)01-0034-08
DOI:10.15958/j.cnki.gdxbzrb.2025.01.06
收稿日期:2023-12-06
基金項目:國家重點研發(fā)計劃項目(2019YFE0127100)
作者簡介:羅" 帥(1996—),男,在讀碩士,研究方向:GPU加速物種預測方法,E-mail:mygoodwell@163.com.
*通訊作者:余勁松弟,E-mail:yyx350@126.com.
物種潛在分布預測[1-2] 研究基于物種已知分布點位數(shù)據(jù)及環(huán)境因子數(shù)據(jù),預測物種在特定時空條件下的地理分布,是當前生物地理學研究的熱點領域,也是保護生物學的一個重要問題。物種分布模型(species distribution models,SDMs)[3-4] 基于物種分布預測條件,將不同的模型算法投影到特定的景觀中,以預測物種的潛在分布區(qū)和物種的豐富度等。物種分布模型已經(jīng)成為保護生態(tài)學以及入侵生物學的重要工具[5] 。
物種分布模型應用廣泛,包含機器學習算法如最大熵模型(maximum entropy,MaxEnt)、隨機森林模型(random forest,RF)、支持向量機(support vector machine,SVM)、極限梯度提升模型(eXtreme gradient boosting,XGBoost)等。最大熵模型利用物種存在與否的觀測數(shù)據(jù)和環(huán)境因子數(shù)據(jù),通過選擇合適的特征訓練MaxEnt模型,從而得到物種的潛在分布[6] 。朱耿平等[7] 以茶翅蝽為例,分析了MaxEnt模型參數(shù)對預測物種分布和生態(tài)位可能造成的影響。RF模型是基于決策樹來提高預測的準確率和穩(wěn)定性。MARTELLOS等[8] 通過RF模型進行空間分布建模,得到了物種對象的適宜性分布圖,從而區(qū)分出外觀上難以辨識的同種物種的不同亞種。支持向量機模型是一種二類分類模型[9] ,在物種分布預測研究中,常同MaxEnt、RF、人工神經(jīng)網(wǎng)絡等算法一起作為參照模型。在選擇預測模型時,通常根據(jù)分辨率、受試者特征曲線(receiver operating characteristic curve,ROC)和混淆矩陣等指標進行模型校準[10] 。此外,由于XGBoost模型在機器學習領域具備強大的數(shù)據(jù)擬合能力[11] ,能夠有效地捕捉大量非線性關系的特征要素,并以高效的速度進行運算,因此在大規(guī)模物種分布預測計算中表現(xiàn)出色[12] 。LIU等[13] 發(fā)表的一項關于物種分布模型空間遷移能力的評估研究,揭示了這些模型能夠更為精確地預測物種擴散的概率,從而為生態(tài)管理和保護策略的制定提供了強大的支持。
通常情況下,小范圍物種分布預測研究不存在計算資源不足的問題。但隨著柵格數(shù)據(jù)分辨率的提升和空間信息量的增加,大范圍高分辨率的物種分布預測的建模和投影速度受到中央處理器(central processing unit,CPU)的計算效率制約,可能出現(xiàn)內(nèi)存溢出邊界,數(shù)據(jù)傳輸鏈瓶頸判定等問題。因此,學者們嘗試將高性能計算和地理空間大數(shù)據(jù)處理相結合,引入了分布式計算、圖形處理單元(graphics processing unit,GPU)硬件加速等方法,構建了空間大數(shù)據(jù)分布式系統(tǒng)[14-15] 。例如,胡曉東等[16] 基于數(shù)據(jù)并行的遙感影像分割來解決分割結果合并的問題;楊靖宇[17] 結合GPU強大的并行處理能力,提出了基于GPU的遙感影像并行化處理的新思路等。
本研究旨在構建一種基于GPU加速的物種潛在分布預測模型,并探尋相關的地理科學計算方法。通過具體案例的實驗結果,評估預測精度和計算效率,并驗證研究方法的可行性和科學性,以應對大范圍物種分布預測的大數(shù)據(jù)計算挑戰(zhàn)。
1" 數(shù)據(jù)與特征選擇
1.1" 實驗環(huán)境及數(shù)據(jù)來源
本研究以北大西洋海域冷水珊瑚Desmophyllum pertusum潛在分布預測為案例,研究區(qū)域覆蓋西經(jīng)96°至東經(jīng)36°,北緯4°至64°。實驗所用的冷水珊瑚已知存在數(shù)據(jù)集是從公共數(shù)據(jù)庫中獲取,包括OBIS、NOAA Deep-Sea Coral Research and Technology Program、ICES Vulnerable Marine Ecosystems Database存儲的冷水珊瑚數(shù)據(jù)。共34個環(huán)境變量,這些環(huán)境變量可歸納為4個生態(tài)相關分組,包括10個地形變量和海深變量、15個化學變量、7個生物變量和2個水文變量[18] 。
實驗使用的操作系統(tǒng)為Ubuntu 18.04 LTS。GPU硬件配置基于NVIDIA GeForce GTX 1050顯卡, 配有2 GB GDDR5顯存。
1.2" 特征選擇
1.2.1" 冷水珊瑚已知分布點數(shù)據(jù)處理及背景點選取
如圖1所示,本研究對Desmophyllum pertusum冷水珊瑚的存在點數(shù)據(jù)進行了一系列處理,以限制已知分布點的點位誤差。首先,剔除沒有位置精度和深度信息的記錄。其次,篩選出位置精度小于1 000 m的記錄;對于只有深度或深度范圍信息而無點位精度信息的記錄,將其與海洋DEM網(wǎng)格中獲取的深度值進行比較,保留深度差異小于50 m的記錄。最后,根據(jù)提取的深度值,剔除深度小于40 m的記錄點。為了減小采樣偏差的影響,對篩選出的分布點數(shù)據(jù)進行去重處理,即刪除每個柵格中多次出現(xiàn)的點,只保留1個分布點。提取后的冷水珊瑚分布點數(shù)據(jù)共8 276個,其分布如圖2。由于機器學習物種分布建模通常需要物種非分布點數(shù)據(jù),本研究采用隨機生成方法生成背景點共7 089個,用于替代非分布點。最終保留的冷水珊瑚分布點和背景點構成了冷水珊瑚的分布數(shù)據(jù)集。
1.2.2" 方差膨脹因子方法
方差膨脹因子V(variance inflation factor,VIF)是一種用于評估多重共線性的統(tǒng)計指標[19] ,通過計算每個自變量與其他自變量之間的相關性,來衡量共線性的程度。計算公式如下:
V=11-R2(1)
其中,R2作為決定系數(shù),反映了解釋變量對因變量的解釋程度[20] 。經(jīng)驗證明,V≥10時,解釋變量與其余解釋變量之間有嚴重的多重共線性。
1.2.3" 海洋環(huán)境變量特征篩選
在物種潛在分布預測過程中,包含高度相關的環(huán)境變量,可能會降低模型的預測性能,并對預測結果的解釋產(chǎn)生一定的影響。因此,本研究采用方差膨脹因子分析方法,通過計算VIF,得到參與北大西洋Desmophyllum pertusum冷水珊瑚潛在分布預測的環(huán)境變量。將VIF值小于5的海洋環(huán)境和碳酸鹽、碳酸鈣、海表葉綠素等具有較強生態(tài)相關性的環(huán)境變量納入建模,投影后的VIF計算結果如表1所示。
2" 研究方法
2.1" 階段式CUDA加速計算方法
2.1.1" RAPIDS框架
為實現(xiàn)機器學習算法的GPU加速計算,NIVIDA公司開發(fā)推出了RAPIDS AI平臺。該平臺由cuML、cuDF、cuGraphs組成:cuML是一個集成了機器學習算法的算法庫;cuDF負責對計算數(shù)據(jù)進行預處理;cuGraphs是一個加速圖形分析庫[21] 。其中,cuML作為平臺核心庫將機器學習算法進行了集成,用戶則通過Python語言實現(xiàn)對方法接口的調用執(zhí)行。
2.1.2" 階段式CUDA加速計算方法構建
本模型中,冷水珊瑚分布預測過程被劃分為5個階段:分別是樣本制作、柵格數(shù)據(jù)分塊、模型訓練、投影預測與影像合并。其構建與處理過程如圖3所示:1)搭建CUDA編程環(huán)境?;诶渌汉鞣植紨?shù)據(jù)集與海洋環(huán)境變量柵格數(shù)據(jù)集,進行初始化處理得到樣本數(shù)據(jù)集,從中隨機選取80%作為訓練集,20%用作測試集進行模型評估。2)將多個海洋環(huán)境變量合成為變量柵格數(shù)據(jù),使用GDAL按行分割該數(shù)據(jù),確保其在顯卡上的高效計算處理。3)基于RAPIDS平臺調用GPU進行樣本訓練。4)調度分塊數(shù)據(jù)到GPU顯存中進行投影預測,得到各數(shù)據(jù)塊的預測結果。5)合并各分塊預測結果,得到全局預測結果。其中,模型訓練、投影預測兩階段分別調用cuML和cuDF算法庫進行CUDA核心調度與分配,是本研究GPU加速計算的核心部分。
本研究綜合考慮了數(shù)據(jù)大小、算法需求、GPU的光柵單元數(shù)量以及內(nèi)存限制等因素,通過多次等比例分塊和計算測試,最終確定將環(huán)境變量柵格統(tǒng)一劃定為32塊作為待預測子塊的方案。在這種劃分條件下,計算時間的消耗逐漸趨于穩(wěn)定,為實驗提供了穩(wěn)定的加速計算環(huán)境。
2.2" 模型評價方法
2.2.1" 預測精度評估
文中對RF、SVM與XGBoost進行GPU加速前后的性能對比。評估采用了十折交叉驗證方法和3種評價指標:Kappa、真實技能統(tǒng)計(true skill statistics,TSS)、受試者工作特征曲線下面積(area under the curve,AUC)。在物種分布預測中,Kappa系數(shù)可以用來評估預測結果與實際觀測結果的一致性[22] 。TSS用來評估模型對物種存在和不存在的預測能力[23] 。ROC曲線通過繪制真陽性率與假陽性率之間的關系,用于評估物種分布模型的性能[24] 。AUC是ROC曲線下的面積,在物種分布預測中,用來評估模型在不同閾值下的預測性能[25] 。
2.2.2" 計算性能評估
為了對本研究所提出的階段式CUDA加速計算方法進行性能評估,在預測過程中的每一個階段加入計時腳本,用于統(tǒng)計各階段運行所消耗的時間。為減少硬件發(fā)熱可能導致性能降低等偶然因素的干擾以及程序預加載各種依賴項的時間損失,所有實驗均在同一運行環(huán)境下進行,取第2次運行時間作為首次記錄,并間隔10 min依次運行10次,分別記錄每一次運行的模型訓練時間tm、預測投影時間tp以及分塊結果合并時間tw,并計算總時間T,表達式見式(2)。取10次計算所消耗的平均時間Ta作為最終評價依據(jù)。
T=tm+tp+tw(2)
通過統(tǒng)計物種分布模型GPU加速前后各階段的時間消耗,計算出各模型計算性能的提升比例,由此評估GPU加速模型對不同模型計算性能的影響。
3" 結果與分析
3.1" 模型精度分析
采用Kappa、TSS、AUC 3種評價指標,對RF、SVM和XGBoost在GPU加速前的性能進行了深入評估,如表2所示。通過比較模型評價結果,可以看出:XGBoost的預測性能最優(yōu),其次是RF,而SVM的表現(xiàn)相對較差。
在執(zhí)行階段式CUDA加速計算方法改進的同時保持模型參數(shù)不變,并對相同數(shù)據(jù)集進行評估。表3展示了GPU并行框架下各模型的精度評價結果??梢钥闯觯?GPU并行框架下的模型在個別評估指標中出現(xiàn)小幅下降。由于這些差異在合理范圍之內(nèi),可以忽略它們的影響。綜合來看,XGBoost和RF仍然比SVM表現(xiàn)更好。
3.2" 計算性能分析
表4展示了各模型tm、tp、tw三階段的平均計算時間和總體平均時間Ta。從結果中可以看到,不論是在模型訓練階段還是在模型投影預測階段,SVM所需要的時間成本都明顯高于其他對比模型。相對地,RF作為一種基于決策樹的集成算法,在構建決策樹的過程中支持并行處理,因此在處理大規(guī)模數(shù)據(jù)集時更快。類似地,XGBoost也是基于決策樹的集成算法,支持并行計算,相比SVM具有性能優(yōu)勢。
綜合來看,XGBoost在我們比較的3種模型中具有最優(yōu)的計算性能,其次是RF。值得注意的是,盡管前兩個階段的計算性能存在差距,但在預測子集的合并效率上,各模型表現(xiàn)相當,差異僅在0.1~0.2 s的范圍內(nèi),這部分的差異可以忽略不計。
表5展示了加速后各模型三階段的平均計算時間和總體平均時間Ta。從結果中可以看出,經(jīng)過GPU加速后的模型訓練階段和模型預測階段的計算性能獲得了顯著提升。
圖4是3種模型在模型訓練、分布預測和影像合并三個階段的性能提升比率。結果顯示,在模型訓練階段,SVM表現(xiàn)出了顯著的性能提升,而RF和XGBoost則出現(xiàn)了性能下降。因為SVM是基于串行計算的模型,經(jīng)過并行處理后,其復雜的計算過程得到了顯著優(yōu)化,從而降低了計算復雜度。相反,RF和XGBoost作為基于決策樹的模型,自身支持并行計算,所以與串行計算相比,它們具備計算速度的優(yōu)勢。但在cuML庫的支持下,因為模型訓練階段在整體運行時間中所占的比例相對較小,其預處理時間成本被放大,導致并行化后性能并未提高,反而出現(xiàn)了下降。但是,隨著數(shù)據(jù)樣本量的增長及建模時間的延長,這種預處理的時間成本占比會逐漸減少,直至忽略不計。在分布預測階段,RF和SVM的性能分別提高了85.30%和88.49%,證明GPU加速在這一階段能夠帶來顯著的效益。最后的影像合并階段,3種模型都呈現(xiàn)出穩(wěn)定的性能提升。
improvements in the model training stage(train),
model prediction stage(predict), and image
merging stage(warp)
最終,根據(jù)加速后的各個階段時間成本占總時間的比例,計算出總體加速率。其中,SVM加速率為88.48%,RF為84.41%,XGBoost為16.54%。表明本研究提出的GPU并行化方案在3種機器學習方法中都能提升計算性能,特別是在串行計算時,該方案的提升效果尤為明顯。此外,使用分塊投影時的并行化處理也能顯著提高單幅影像投影預測的效率。
3.3" 物種分布預測結果分析
圖5是各模型對北大西洋冷水珊瑚潛在分布的預測結果。從空間分布的角度來看, RF、SVM、XGBoost與其GPU加速版本的預測結果基本一致,這與模型精度評估結果所顯示的微小差異相吻合。不同模型間的比較中,預測精度較好且相近的RF和XGBoost具有類似的空間分布特征,而預測精度較低的SVM則與實際分布點位存在一定差距。根據(jù)圖2所示的冷水珊瑚實際點位的分布趨勢可以推斷,RF和XGBoost模型及其GPU加速版本的空間預測結果更具可靠性。據(jù)該結果可知,適宜Desmophyllum pertusum冷水珊瑚生存的棲息地主要集中在大陸架邊緣,尤其是東北大西洋和美國東南陸架邊緣。此外,部分大型海山、山脊和峽谷也具有較高的生境適宜性。
4" 結論與展望
1)本研究設計了一種階段式的CUDA加速計算方法,將物種潛在分布預測過程劃分為5個階段。特別地,基于RAPIDS框架,在模型訓練和投影預測階段引入了GPU加速方案,在保證了預測精度的同時,顯著提高了計算效率,節(jié)約了時間成本。
2)基于本研究提出的加速方法,以北大西洋Desmophyllum pertusum冷水珊瑚的潛在分布預測作為研究案例,分別對RF、SVM和XGBoost模型加速前后的性能進行了比較。在預測精度和計算性能方面,XGBoost和RF表現(xiàn)優(yōu)于SVM。XGBoost雖然在速度提升率上表現(xiàn)不如其他模型,僅為16.54%,但仍然是在預測精度和運算速度兩方面最佳的模型,AUC為0.994;其次是RF模型,其預測精度和計算效率也較高,速度提升率為88.41%,AUC為0.990;SVM模型的預測精度雖然不如其他模型,但在GPU加速下的速度提升率最高,達到了88.48%,AUC為0.903。
本文僅針對單GPU節(jié)點對機器學習模型進行了加速,還存在一定的提升空間,需要在后續(xù)研究中進一步完善和補足。未來研究將集中于引入多節(jié)點多GPU并行策略,通過不同節(jié)點GPU的分布式協(xié)同運算,以期獲得更大規(guī)模數(shù)據(jù)的加速效果。另一方面,本文未將環(huán)境變量剖分納入計算時間消耗統(tǒng)計中,未來擬將影像切塊納入階段式CUDA加速計算范疇,結合多節(jié)點分布式協(xié)同計算,優(yōu)化影像分塊效率,提升整體計算效率。
參考文獻:
WIENBERG C, TITSCHACK J, FREIWALD A, et al. The giant Mauritanian cold-water coral mound province: oxygen control on coral mound formation[J]. Quaternary Science Reviews, 2018, 185: 135-152.
[2] 解鵬飛, 顧炎斌, 隋偉娜, 等. 物種分布模型在海洋物種潛在分布預測中面臨的大數(shù)據(jù)挑戰(zhàn)[J]. 海洋信息, 2019, 34(1): 51-61.
[3] 許仲林, 彭煥華, 彭守璋. 物種分布模型的發(fā)展及評價方法[J]. 生態(tài)學報, 2015, 35(2): 557-567.
[4] 李國慶, 劉長成, 劉玉國, 等. 物種分布模型理論研究進展[J]. 生態(tài)學報, 2013, 33(16): 4827-4835.
[5] TAVIANI M, ANGELETTI L, CANESE S, et al. The “Sardinian cold-water coral province” in the context of the Mediterranean coral ecosystems [J]. Deep Sea Research Part II: Topical Studies in Oceanography, 2017, 145: 61-78.
[6] 朱耿平, 喬慧捷. Maxent模型復雜度對物種潛在分布區(qū)預測的影響[J]. 生物多樣性, 2016, 24(10): 1189-1196.
[7] 朱耿平, 原雪姣, 范靖宇, 等. MaxEnt模型參數(shù)設置對其所模擬物種地理分布和生態(tài)位的影響:以茶翅蝽為例[J]. 生物安全學報, 2018, 27(2): 118-123.
[8] MARTELLOS S, ATTORRE F, FARCOMENI A, et al. Species distribution models backing taxa delimitation: the case of the lichen Squamarina cartilaginea in Italy[J]. Flora-Morphology, Distribution, Functional Ecology of Plants, 2014, 209(12): 698-703.
[9] 丁世飛, 齊丙娟, 譚紅艷. 支持向量機理論與算法研究綜述[J]. 電子科技大學學報, 2011, 40(1): 1-10.
[10]BEDIA J, BUSQU J, GUTIRREZ J M. Predicting plant species distribution across an alpine rangeland in northern Spain: a comparison of probabilistic methods[J]. Applied Vegetation Science, 2011, 14(3): 415-432.
[11]龐吉玉, 張安兵, 王賀封, 等. 基于無人機多光譜影像和XGBoost模型的城市河流水質參數(shù)反演[J]. 中國農(nóng)村水利水電, 2023(3): 111-119.
[12]賴祥源, 朱勤東, 陳火榮, 等. 基于RF特征選擇和XGBoost模型的赤潮等級預測[J]. 漁業(yè)研究, 2021, 43(1): 1-12.
[13]LIU C L, WOLTER C, XIAN W W, et al. Species distribution models have limited spatial transferability for invasive species[J]. Ecology Letters, 2020, 23(11): 1682-1692.
[14]CANDELA L, CASTELLI D, CORO G, et al. Species distribution modeling in the cloud[J]. Concurrency and Computation: Practice and Experience, 2016, 28(4): 1056-1079.
[15]和樹繁. 遙感大數(shù)據(jù)自動分析與數(shù)據(jù)挖掘研究[J]. 科技經(jīng)濟市場, 2018(9): 3-4.
[16]胡曉東, 駱劍承, 沈占鋒, 等. 高分辨率遙感影像并行分割結果縫合算法[J]. 遙感學報, 2010, 14(5): 917-927.
[17]楊靖宇. 遙感影像GPU并行化處理技術與實現(xiàn)方法[D].鄭州: 解放軍信息工程大學, 2008.
[18]DAVIES A J, GUINOTTE J M. Global habitat suitability for framework-forming cold-water corals[J]. PLoS ONE, 2011, 6(4): e18483.
[19]SALMERN G R, RODRGUEZ S A, GARCA C G, et al. The VIF and MSE in raise regression[J]. Mathematics, 2020, 8(4): 605.
[20]RANJITKAR S, XU J, SHRESTHA K K, et al. Ensemble forecast of climate suitability for the Trans-Himalayan Nyctaginaceae species[J]. Ecological Modelling, 2014, 282: 18-24.
[21]盧建云, 邵俊明, 張蔚. 基于RAPIDS的無參DBSCAN算法[J]. 數(shù)據(jù)采集與處理, 2023, 38(2): 426-438.
[22]TANG W, HU J, ZHANG H, et al. Kappa coefficient: a popular measure of rater agreement[J]. Shanghai Archives of Psychiatry, 2015, 27(1): 62-67.
[23]ALLOUCHE O, TSOAR A, KADMON R. Assessing the accuracy of species distribution models: prevalence, Kappa and the true skill statistic (TSS)[J]. Journal of Applied Ecology, 2006, 43(6): 1223-1232.
[24]王運生, 謝丙炎, 萬方浩, 等. ROC曲線分析在評價入侵物種分布模型中的應用[J]. 生物多樣性, 2007, 15(4): 365-372.
[25]LI W, GUO Q. How to assess the prediction accuracy of species presence-absence models without absence data?[J]. Ecography, 2013, 36(7): 788-799.
(責任編輯:曾" 晶)
Research on Accelerated Geospatial Computing Methods for
Species Distribution Prediction
——A Case Study of Cold-Water Corals
LUO Shuai1,2, YU Jinsongdi*1,2, TONG Ruiju3
(1.Key Lab of Spatial Data Mining and Information Sharing of Ministry of Education, Fuzhou University, Fuzhou 350116, China;
2.The Academy of Digital China (Fujian), Fuzhou University, Fuzhou 350116, China;
3.School of Transportation, Fujian University of Technology, Fuzhou 350118, China)
Abstract:
Aiming at the problem of predicting the potential distribution of species in a large range, this study selected the random forest model (RF), support vector machine(SVM), and extreme gradient boosting model as the core algorithms, and used the graphics processing unit to design a parallel computing strategy, finally proposed a staged CUDA accelerated computing method to ensure prediction accuracy while significantly reducing calculation time. Taking the cold-water coral (i.e. Desmophyllum pertusum) in the North Atlantic as the research object, this study used ten-fold cross-validation and multiple evaluation methods to comprehensively evaluate the model performance. Experimental results show that all three models significantly improve computing performance within a reasonable accuracy range. Among them, SVM has the most significant performance improvement effect, with a speed increase of 88.48%, while RF and XGBoost speed increases are 88.41% and 16.54% respectively. Taken together, the XGBoost model performs best in terms of performance and prediction accuracy. At the same time, the staged CUDA accelerated computing method proposed in this study has shown significant performance improvement effects on both RF and SVM.
Key words:
GPU; high-performance computing; machine learning; species potential distribution prediction; cold water coral; North Atlantic