摘? 要:基于R語言進行統(tǒng)計分析、回歸建模,結(jié)合變量重要性排序、相關(guān)性分析等多種方法,分析了武漢市市內(nèi)流域(長江、漢江)面積變化的影響因素,建立了流域面積監(jiān)測隨機森林回歸模型。與多元線性回歸模型、支持向量回歸模型的對比結(jié)果表明,隨機森林回歸模型擬合優(yōu)度更高,平均絕對誤差更低,這說明隨機森林算法在流域面積監(jiān)測研究中具有較高的適用性。
關(guān)鍵詞:隨機森林;流域監(jiān)測;多元線性回歸;支持向量機
中圖分類號:TP181 文獻標識碼:A? 文章編號:2096-4706(2023)12-0074-04
Research on the Applicability of Random Forest Algorithm to Watershed Area Monitoring
LIU Xiaoyu1,2
(1.Three Gorges Smart Water Technology Co., Ltd., Shanghai? 200335, China;
2.Shanghai Investigation, Design & Research Institute Co., Ltd., Shanghai? 200335, China)
Abstract: Statistical analysis and regression modeling is carried out based on R language, combined with variable importance ranking, correlation analysis and other methods, this paper analyzes the influencing factors of the area change of the urban watershed (Yangtze River, Hanjiang River) in Wuhan, and establishes a random forest regression model for watershed area monitoring. The comparison results with multiple linear regression model and support vector regression model show that the random forest regression model has higher Goodness of fit and lower average absolute error, which indicates that random forest algorithm has higher applicability in watershed area monitoring research.
Keywords: Random Forest; watershed monitoring; multiple linear regression; Support Vector Machine
0? 引? 言
近年來,隨著3S技術(shù)的快速發(fā)展,3S動態(tài)監(jiān)測流域變化為流域土地利用監(jiān)測工作提供了新的思路,國內(nèi)一些學(xué)者也進行了相關(guān)的研究工作。鄭義、王發(fā)良等通過對不同分辨率的遙感影像依次抽樣,分別計算各樣本的河流面積調(diào)整系數(shù),探索不同月份河流覆蓋面積之間的關(guān)系,從而提出將不同時相影像中提取出的河流面積修正成統(tǒng)一時點的方法[1]。李石華、周峻松等以撫仙湖流域為例,通過遙感影像提取流域土地利用信息,結(jié)合社會經(jīng)濟數(shù)據(jù),采用多元回歸和主成分分析等方法探索流域土地利用時空變化的驅(qū)動機制[2]。胡義濤、朱穎等以天目湖流域遙感、土地利用及DEM數(shù)據(jù)為基礎(chǔ),對天目湖流域林地的動態(tài)變化進行了定量分析[3]。
隨機森林算法是一種近些年逐漸被諸多學(xué)者關(guān)注的機器學(xué)習(xí)算法,因其準確率較高,對誤差值有一定的包容性,在高光譜遙感訓(xùn)練學(xué)習(xí)方面表現(xiàn)優(yōu)異,所以常被研究人員應(yīng)用到地學(xué)相關(guān)領(lǐng)域的研究中。崔東文以萬元GDP用水量及萬元工業(yè)增加值用水量為自變量,建立了基于隨機內(nèi)插構(gòu)造樣本的隨機森林回歸年污水排放量預(yù)測模型[4]。梁慧玲、林玉蕊等以大興安嶺塔河地區(qū)森林火災(zāi)發(fā)生數(shù)據(jù)為基礎(chǔ),采用二項邏輯斯蒂回歸模型和隨機森林算法分析了塔河地區(qū)森林火災(zāi)與氣象因子之間的關(guān)系,證明了隨機森林算法在林火預(yù)測中具有更高的預(yù)測精度[5]。這說明,隨機森林算法對變量共線性不敏感和預(yù)測精度高等優(yōu)勢讓它逐漸成為機器學(xué)習(xí)算法中的一種熱門算法。
總體而言,有關(guān)流域面積變化驅(qū)動因素的研究比較少,隨機森林算法在同類研究中的適用性值得探討。因此,本研究對于流域大尺度監(jiān)測及機器學(xué)習(xí)算法在流域影響因素分析研究中的可行性判定具有一定的價值。
1? 研究方法
本研究以隨機森林算法為核心,以武漢市15年各項水文及經(jīng)濟數(shù)據(jù)為基礎(chǔ),通過相關(guān)性分析、隨機森林特征重要性檢測等方法探究武漢市內(nèi)長江、漢江流域面積年際變化的影響因素,結(jié)合對各項因素的定量分析,建立具有普適性的隨機森林回歸流域面積預(yù)測模型,并通過與多元線性回歸模型和支持向量回歸模型的誤差比較,探究隨機森林算法在流域預(yù)測工作中的可行性,具體的技術(shù)路線如圖1所示。首先,通過監(jiān)督分類、緩沖區(qū)分析等方法獲取影響因素數(shù)據(jù);其次,對影響因素數(shù)據(jù)進行正態(tài)性檢驗、相關(guān)分析、重要性排序和多重共線性檢查,從而確定回歸模型的輸入變量;最后,使用隨機森林算法建立預(yù)測模型,并與其他算法模型做以對比和驗證,比較各算法的優(yōu)劣。
2? 研究過程
2.1? 數(shù)據(jù)收集
2.1.1? 流域面積數(shù)據(jù)
選取武漢市2002—2016年Landsat系列遙感影像(非汛期數(shù)據(jù)),通過矢量化方法從中提取長江、漢江流域范圍,計算兩江為期15年的流域面積數(shù)據(jù)。
2.1.2? 影響因素數(shù)據(jù)
影響流域變化的因素大致可以分為自然因素和人為因素兩類:自然因素是指地理、氣候等導(dǎo)致流域面積變化的因素;人為因素是指人類各項活動間接導(dǎo)致流域面積變化的因素,包括社會經(jīng)濟、土地利用和水資源利用等。
本研究從《武漢水資源公報》以及《武漢市統(tǒng)計年鑒》中獲取武漢市15年來年降水量數(shù)據(jù),作為氣候影響因素參考;采用監(jiān)督分類和緩沖區(qū)分析兩種方法提取流域土地利用數(shù)據(jù),作為土地利用因素參考;選取綠地、居民用地、水域以及其他用地四類樣本,對影像數(shù)據(jù)進行監(jiān)督分類,以長江、漢江流域為中心建立7級緩沖區(qū),統(tǒng)計每一級緩沖區(qū)范圍內(nèi)各類用地的面積總和;從社會經(jīng)濟、人口增長、社會生產(chǎn)等多方面考慮,選取產(chǎn)值、人口、年末耕地面積等多種統(tǒng)計年鑒指標作文影響經(jīng)濟的基礎(chǔ)數(shù)據(jù);選取年地表水資源量、總水資源量、總用水量、人均用水量、萬元GDP用水量五個指標來反映武漢市水資源總量和利用保護情況。
2.2? 流域面積預(yù)測模型構(gòu)建
2.2.1? 流域面積影響因素分析
首先,探討土地利用因素對流域面積的影響,計算各緩沖區(qū)級別土地利用面積變量和流域面積之間的相關(guān)性,如表1所示,從表1中可知水域面積與流域面積的相關(guān)性較強,其中5級緩沖區(qū)水域面積與流域面積的相關(guān)性最大。從各類用地相關(guān)性的絕對值總和來看,同樣也是5級緩沖區(qū)(20 km)的絕對值總和最大,其次是1級、6級、7級緩沖區(qū)。
其次,分別使用隨機森林算法、多元線性回歸算法和支持向量機算法對數(shù)據(jù)進行擬合,通過自變量對因變量的解釋度或模型的擬合優(yōu)度來篩選適宜的緩沖區(qū)數(shù)據(jù)級別,如表2所示。對于隨機森林回歸模型,5級緩沖區(qū)(25 km)范圍土地利用變量對因變量的解釋程度最高(72.11%);對于另外兩種模型,7級緩沖區(qū)(全區(qū))土地利用變量的擬合優(yōu)度均為最高,分別為91.82%和92.01%。因此,使用5級緩沖區(qū)數(shù)據(jù)作為隨機森林回歸的建模數(shù)據(jù),使用7級緩沖區(qū)土地利用數(shù)據(jù)作為多元線性回歸和支持向量回歸的建模數(shù)據(jù)。
再次,探討16個與社會經(jīng)濟和水資源利用相關(guān)的因素對流域面積的影響,采用Pearson相關(guān)系數(shù)分別計算各變量(土地利用變量除外)與流域面積的相關(guān)性,結(jié)果如表3所示。選取Pearson相關(guān)系數(shù)排名前七的變量作為回歸模型待選自變量(不含未通過正態(tài)性檢驗的變量)。而總用水量、水產(chǎn)品產(chǎn)量、糧食產(chǎn)量和人均用水量四個變量與流域面積的相關(guān)性較小,在回歸模型構(gòu)建中可以不予考慮。
此外,隨機森林算法有其獨特的度量變量重要性的方法,參數(shù)“誤差增加比例/ %”越大說明變量重要性越大,為0說明沒有影響,為負說明可能對因變量有誤導(dǎo);參數(shù)“節(jié)點純度增長值”越大說明變量重要性越大,為0說明對因變量沒有影響。對所有變量進行多次擬合并計算出兩種參數(shù)的平均值,部分數(shù)值如表4所示。除排名前四位的變量以外,年降水量和人均生產(chǎn)總值的排名也比較靠前,其他變量排序差異較大,可能是由重要性計算結(jié)果相近導(dǎo)致的,說明它們對模型的貢獻度相當?shù)遣桓?,在后續(xù)建模中可不予考慮。
綜合以上分析,初步得出水域面積、其他用地面積、總水資源量、年地表水資源量、年降水量和人均生產(chǎn)總值為影響流域面積變化的主要因素,在隨機森林回歸分析時作為輸入變量參與建模。
2.2.2? 隨機森林回歸流域預(yù)測模型建立
隨機森林回歸模型的建立主要包括變量確定、參數(shù)確定、模型建立和模型檢驗評價幾個部分。
隨機森林是由多棵決策樹組合而成的,通過每棵樹生成的結(jié)果投票表決得到最后結(jié)果。首先確定構(gòu)建決策樹時向下分支隨機抽樣的變量數(shù)目,通常選為建模輸入變量數(shù)目的1/3[6]。上文共選擇6個變量,則該參數(shù)為2。用前文選擇的輸入變量建立隨機森林回歸模型,得到模型誤差和決策樹數(shù)目的關(guān)系,發(fā)現(xiàn)當決策樹數(shù)目大于600之后,模型的誤差開始趨于穩(wěn)定,因此將決策樹數(shù)目參數(shù)確定為600。
再次檢測變量重要性,發(fā)現(xiàn)變量重要性排序基本保持在穩(wěn)定狀態(tài),此時得到的隨機森林回歸模型對因變量的解釋度約為62.94%,模型的擬合優(yōu)度為91.32%。為了進一步優(yōu)化模型,去掉貢獻度最小的變量即人均生產(chǎn)總值重新建模,發(fā)現(xiàn)余下5個變量對因變量的解釋度為70.41%,模型擬合優(yōu)度為94.38%??紤]到隨機森林算法對于變量和數(shù)據(jù)量的基本要求,不再對模型做進一步的變量刪除。
2.3? 對比驗證
2.3.1? 多元線性回歸流域面積預(yù)測模型構(gòu)建
在多元線性回歸模型中,具有共線性的變量會影響模型的預(yù)測結(jié)果,需要對用于建模的自變量進行共線性診斷。計算變量方差膨脹因子(VIF值)發(fā)現(xiàn),年地表水資源量和總水資源量均存在嚴重的多重共線性。因此后期在進行回歸分析前必須先降低變量之間的共線性。
使用逐步回歸的方法對自變量進行篩選,經(jīng)過多輪的逐步回歸及共線性檢查,發(fā)現(xiàn)在僅保留其他用地面積和水域面積兩個變量時,模型和自變量的顯著性最佳,且不再存在多重共線性,如表5所示,模型在0.05的置信水平上具有顯著性,變量在0.05的置信水平上都通過了顯著性檢驗,且擬合優(yōu)度達到了91.53%。
2.3.2? 支持向量回歸流域面積預(yù)測模型構(gòu)建
在進行支持向量回歸分析之前,須采用多次建模計算擬合優(yōu)度的方法來選擇回歸模型類別和核函數(shù)組合,發(fā)現(xiàn)當參數(shù)組合為“nu-regression”和“l(fā)inear”時,擬合優(yōu)度最高。
綜上,水域面積、總水資源量、年地表水資源量、年降水量和其他用地面積是排名最靠前的5個自變量。建模時,逐漸去掉相關(guān)性最小的自變量,計算不同變量數(shù)目下模型的擬合優(yōu)度,結(jié)果如表6所示,從表7中可知使用水域面積、年地表水資源量和總水資源量建立回歸模型[7]時,模型的誤差和擬合優(yōu)度達到最優(yōu),約為90.49%。
2.3.3? 模型對比分析
本研究使用全部數(shù)據(jù)來訓(xùn)練和驗證模型,使模型最大限度地獲取數(shù)據(jù)變化信息,從而使模型擁有更高的精度和適應(yīng)性。為比較三種算法的優(yōu)劣,將三種模型的樣本擬合值與樣本觀測值(影像流域面積數(shù)值)進行比較,如圖2、圖3所示。
在折線圖中,散點為樣本觀測值,擬合線上的點為模型預(yù)測值,三個模型的擬合度相當,擬合效果不好的點在數(shù)目和距離上相差不大。
在散點圖中,橫坐標為樣本觀測值,縱坐標為模型預(yù)測值,添加45度傾斜參考線比較,發(fā)現(xiàn)支持向量回歸模型偏離參考線的點在距離和數(shù)目上最大,其他兩種模型相差不大,說明支持向量回歸模型的擬合效果最差,其他兩種模型的擬合效果相近。
使用四個指標參數(shù)MAE(平均絕對誤差)、RMSE(均方根誤差)、RSE(相對平方誤差)和R2(擬合優(yōu)度)來評價回歸模型的預(yù)測能力。MAE、RSE、RMSE三個參數(shù)的值越小說明模型的預(yù)測誤差越小,R2越大說明模型擬合效果越好,計算結(jié)果如表7所示。
比較四個參數(shù)的大小可知,隨機森林回歸模型相比于多元線性回歸模型和支持向量回歸模型誤差更小,預(yù)測精度和擬合優(yōu)度更高。
綜合來看,三種回歸模型在流域面積預(yù)測問題上表現(xiàn)出來的適用性都不錯,但隨機森林回歸模型略占優(yōu)勢,更適用于流域面積預(yù)測及相關(guān)研究。
3? 結(jié)? 論
本文對影響武漢市主要流域(長江、漢江)覆蓋面積的各項因素進行了分析討論,選取了年地表水資源量、總水資源量、年降水量、水域面積等5個變量,作為隨機森林回歸模型的輸入變量,建立了最優(yōu)隨機森林回歸流域面積預(yù)測模型。主要結(jié)論為:
1)土地利用類型變化一定程度上影響了流域面積變化,其中水域面積和其他用地(耕地、未利用地等)面積變化對流域面積的影響最大;此外,與水資源密切相關(guān)的因素(年降水量、年地表水資源量、總水資源量等)對流域面積的影響較大。
2)使用隨機森林算法擬合輸入變量時,可以得到準確度較高的流域面積預(yù)測模型,說明隨機森林算法在流域面積預(yù)測研究中具有可行性。
3)通過與多元線性回歸模型和支持向量回歸模型的比較分析,發(fā)現(xiàn)隨機森林回歸模型表現(xiàn)突出,誤差率最小,擬合度最高,說明隨機森林算法相比于線性回歸算法和SVM算法更適用于流域面積預(yù)測。
上述結(jié)論充分說明隨機森林算法在一定程度上適用于地學(xué)問題,但仍存在局限性,值得我們做進一步的研究和探討。其一,機器學(xué)習(xí)算法普遍需要大量數(shù)據(jù)來學(xué)習(xí)建模才能體現(xiàn)其最優(yōu)擬合效果,但本研究中數(shù)據(jù)量有限,即使已使用一些手段來降低誤差,但模型穩(wěn)定度仍待提升;其二,流域面積變化與河流汛期密切相關(guān),但遙感影像的采集時段并不統(tǒng)一,導(dǎo)致模型可信度有限。
參考文獻:
[1] 鄭義,王發(fā)良,李廣泳,等.面向地理國情監(jiān)測的河流面積調(diào)整系數(shù)研究 [J].遙感信息,2014,29(4):26-30+36.
[2] 李石華,周峻松,王金亮.1974—2014年撫仙湖流域土地利用/覆蓋時空變化與驅(qū)動力分析 [J].國土資源遙感,2017,29(4):132-139.
[3] 胡義濤,朱穎,趙越,等.基于DEM高程的天目湖流域林地動態(tài)變化研究 [J].蘇州科技大學(xué)學(xué)報:工程技術(shù)版,2017,30(4):57-61.
[4] 崔東文.隨機森林回歸模型及其在污水排放量預(yù)測中的應(yīng)用 [J].供水技術(shù),2014,8(1):31-36.
[5] 梁慧玲,林玉蕊,楊光,等.基于氣象因子的隨機森林算法在塔河地區(qū)林火預(yù)測中的應(yīng)用 [J].林業(yè)科學(xué),2016,52(1):89-98.
[6] 李欣海.隨機森林模型在分類與回歸分析中的應(yīng)用 [J].應(yīng)用昆蟲學(xué)報,2013,50(4):1190-1197.
[7] 趙北庚.基于R語言randomForest包的隨機森林建模研究 [J].計算機光盤軟件與應(yīng)用,2015,18(2):152-153.
作者簡介:劉曉宇(1996.05—),女,漢族,湖北天門人,助理工程師,工學(xué)碩士,研究方向:智慧水務(wù)GIS應(yīng)用。