余 成,唐 毅,潘 楊,易虹辰,谷一平,褚 峰,施驕陽
基于無人機遙感和集成學(xué)習(xí)的蘇州市河流懸浮物濃度反演
余 成1,唐 毅2*,潘 楊2,易虹辰2,谷一平2,褚 峰2,施驕陽2
(1.蘇州科技大學(xué)地理科學(xué)與測繪工程學(xué)院,江蘇 蘇州 215009;2.蘇州科技大學(xué)環(huán)境科學(xué)與工程學(xué)院,江蘇 蘇州 215009)
針對單一模型容易過擬合的缺陷,通過4種不同的集成學(xué)習(xí)策略實現(xiàn)多種機器學(xué)習(xí)方法之間的優(yōu)勢互補,從而提升模型的精度和泛化性,并以蘇州市為研究區(qū),無人機采集的多光譜遙感影像和實地測量的懸浮物濃度數(shù)據(jù)為基礎(chǔ)建立集成學(xué)習(xí)反演模型.同時,4種常用的回歸分析方法和3種經(jīng)典的機器學(xué)習(xí)方法被作為對比方法以探究集成學(xué)習(xí)策略的有效性.結(jié)果表明,集成學(xué)習(xí)策略能夠克服單一模型各自的缺陷,顯著提升遙感反演的精度和泛化性,其中表現(xiàn)最優(yōu)的集成學(xué)習(xí)反演模型的驗證集決定系數(shù)達到0.821,相比回歸分析方法提升38.21%,相比單一機器學(xué)習(xí)方法提升16.79%.此外,集成學(xué)習(xí)方法反演的絕對誤差集中于較小值,其絕對誤差均值和中值均優(yōu)于傳統(tǒng)方法,以期提高城市懸浮物濃度反演精度,為無人機遙感河流懸浮物濃度反演提供指導(dǎo).
河流懸浮物濃度;無人機遙感;多光譜;集成學(xué)習(xí);機器學(xué)習(xí)
在經(jīng)濟高速增長、城市化進程快速發(fā)展以及人口持續(xù)上升的局勢下,城市內(nèi)部的生活廢水、工業(yè)污水排放加劇,沖破了河流納污能力極限,城市河流水質(zhì)惡化日趨嚴重.其中,河流中的懸浮物濃度(SSC)嚴重威脅到了水體透明度、水下光場分布以及河流生態(tài)系統(tǒng)的平衡性,及時有效地對城市河流中的懸浮物濃度進行定量監(jiān)測,對于挖掘其時空變化規(guī)律,做到精準有效的防護治理有重要的現(xiàn)實意義[1].傳統(tǒng)的水體懸浮物濃度監(jiān)測手段需要實地采集水體樣本,存在技術(shù)耗時長、工作量大、經(jīng)濟成本高等問題[2].遙感技術(shù)具有時效性強、宏觀性強、經(jīng)濟成本低、人力成本低等優(yōu)點,能夠從全局反映研究區(qū)水體水質(zhì)狀況及空間分布特征[3].其中,無人機遙感憑借短時間快速獲取、高分辨率精細覆蓋、長時序動態(tài)追蹤等優(yōu)勢成為水體懸浮物濃度監(jiān)測的可靠方法[4-5].
當前,基于遙感的懸浮物濃度反演算法多采用經(jīng)驗/半經(jīng)驗?zāi)P蚚6-8],然而,由于城市河流所處的環(huán)境條件具有多樣性,水體的光學(xué)特征表現(xiàn)出復(fù)雜性,以經(jīng)驗/半經(jīng)驗?zāi)P蛯Τ鞘泻恿鏖_展懸浮物濃度反演工作,難以準確地反映河流光譜特性與懸浮物濃度之間的復(fù)雜關(guān)系.得利于計算機科學(xué)與技術(shù)的發(fā)展,機器學(xué)習(xí)方法被引入懸浮物濃度反演領(lǐng)域. Silveira等[9]采用Sentinel-2和多種機器學(xué)習(xí)方法實現(xiàn)了密蘇里河與密西西比河的SSC反演.Peterson等[10]基于Landsat多光譜影像數(shù)據(jù),利用極限學(xué)習(xí)機反演密蘇里河1982年至2018年SSC,平均2達到0.91.Nazeer等[11]采用神經(jīng)網(wǎng)絡(luò)反演香港沿海的懸浮物濃度,精度相比傳統(tǒng)經(jīng)驗?zāi)P吞嵘?0%.基于更高效的數(shù)學(xué)方法與數(shù)據(jù)處理方式,機器學(xué)習(xí)方法具備更高維度的數(shù)據(jù)處理能力,能夠更好地兼顧懸浮物濃度與河流光學(xué)特征之間的非線性關(guān)系,更適合用于遙感影像與懸浮物濃度間的復(fù)雜關(guān)系模擬工作[12-14].然而,單一機器學(xué)習(xí)方法存在過參數(shù)化問題,對反演結(jié)果的負面影響不可忽視.
集成學(xué)習(xí)通過集成多個不同模型的反演結(jié)果,采用特定規(guī)則將這些結(jié)果組合,產(chǎn)生更加穩(wěn)健的反演結(jié)果,提高模型的泛化能力和精度[15-17].已有學(xué)者采用集成學(xué)習(xí)方法開展懸浮物濃度反演工作.陳點點等[18]采用多種機器學(xué)習(xí)方法對閩江下游懸浮物進行反演,發(fā)現(xiàn)其懸浮物濃度分布存在“西低東高”特征.DeLuca等[19]利用MODIS影像數(shù)據(jù)和RF方法反演切薩皮克灣懸浮物濃度,Dehkordi等[20]分別采用RF和SVR對密蘇里河SSC進行反演,實驗證明RF反演的2相比SVR提升14%.Kwon等[21]在考慮光譜變異性的情況下聯(lián)合高斯混合模型與RF開發(fā)了SSC反演模型,相比傳統(tǒng)RF模型精度提升10.81%.這些研究證明了集成學(xué)習(xí)在SSC反演方面的優(yōu)越性,但現(xiàn)有研究多基于星載衛(wèi)星數(shù)據(jù)開展粗分辨率反演,在基于無人機遙感的懸浮物濃度精細反演方面研究有所欠缺.同時,研究多集中于單一集成學(xué)習(xí)策略,而缺乏對不同集成學(xué)習(xí)策略的對比和分析.
基于此,本文以蘇州市為研究區(qū),探究無人機遙感技術(shù)和集成學(xué)習(xí)策略在城市河流SSC監(jiān)測方面的潛力.首先,本文分別通過無人機遙感和實地測量的方式獲取研究區(qū)的多光譜遙感影像和SSC監(jiān)測數(shù)據(jù).其后,以多種常用的機器學(xué)習(xí)方法為基模型,分別利用引導(dǎo)聚集(Bagging)、提升(Boosting)、堆疊(Stacking)和投票(Voting)等4種集成學(xué)習(xí)策略建立了多種SSC集成學(xué)習(xí)反演模型.與此同時,為了探究集成學(xué)習(xí)策略的有效性,4種常用的回歸分析方法和3種經(jīng)典的機器學(xué)習(xí)方法也被用于建立無人機遙感SSC反演模型,以期找到適用于城市河流SSC反演的最優(yōu)模型.本文研究成果有望提高城市河流SSC反演精度,為無人機遙感SSC反演提供指導(dǎo).
蘇州市位于中國江蘇省東南部,處于長江中下游,城市地形平坦,內(nèi)部河港交錯,有“一江、百湖、萬河”的獨特水網(wǎng),且經(jīng)濟發(fā)達,人口眾多.在經(jīng)濟快速發(fā)展、城市化進程不斷深化的過程中,生活廢水與工業(yè)污水的排放使得城市河流水質(zhì)惡化,對蘇州市的城市河流生態(tài)造成了巨大威脅.盡管近年來蘇州市積極推動城市河流污染治理工程,河流污染形勢得到較大改觀,但城市河流水質(zhì)問題仍存在超標、難以徹底根除的問題.本文著眼于蘇州市內(nèi)部與生活區(qū)、工業(yè)區(qū)緊密相連的河流,設(shè)置兩個研究區(qū),其中,樣區(qū)1為工業(yè)區(qū),周圍分布著諸多的工業(yè)廠房,有大量的工業(yè)廢水排放;樣區(qū)2為生活區(qū),該區(qū)域分布著住宅樓、學(xué)校及醫(yī)院等建筑,污水排放以生活廢水為主,研究區(qū)位置如圖1所示.
圖1 研究區(qū)示意
本文的無人機多光譜影像數(shù)據(jù)由大疆多旋翼無人機搭載的MicaSense RedEdge相機拍攝.該傳感器以輕便、小體積的優(yōu)勢成為中小型無人機遙感的常用傳感器,能同時提供5個波段的影像,其主要波段信息及參數(shù)信息見表1.
表1 MicaSense RedEdge相機參數(shù)
分別于2022年2月和4月對兩個樣區(qū)附近的河流進行無人機多光譜影像獲取、水質(zhì)采樣及采樣點坐標記錄工作,數(shù)據(jù)采集時航高與航速分別設(shè)置為200m與5m/s.為了保證遙感影像與水體采樣結(jié)果的匹配關(guān)系,水體樣本數(shù)據(jù)采集與遙感影像數(shù)據(jù)獲取同步進行,二者時間差不超過2h.最終在工業(yè)樣區(qū)和生活樣區(qū)共獲取了90組實地采樣數(shù)據(jù),獲取到的無人機多光譜影像數(shù)據(jù)及SSC實地采樣點如圖2所示.由圖可知,所獲取的無人機影像覆蓋了兩個樣區(qū)內(nèi)主要的細小水體,且SSC采樣點在樣區(qū)內(nèi)均勻分布,數(shù)據(jù)具有代表性.對實地采樣獲取的懸浮物濃度進行統(tǒng)計,結(jié)果如表2所示.由表可知,工業(yè)樣區(qū)內(nèi)河流的SSC(平均值為52.7mg/L)顯著高于生活樣區(qū)(平均值為41.4mg/L),且工業(yè)樣區(qū)內(nèi)河流的SSC變化也較生活樣區(qū)明顯(標準差為18.0mg/L).
圖2 無人機影像及采樣點位示意
表2 野外實地采樣SSC濃度
為探究集成學(xué)習(xí)在城市河流SSC反演中的作用,本文以多種機器學(xué)習(xí)方法為基模型,采用Bagging、Boosting、Stacking和Voting等4種策略建立集成學(xué)習(xí)模型.同時,4種回歸分析方法和3種傳統(tǒng)的單模型機器學(xué)習(xí)方法也被分別用于SSC反演模型的建立,以對比分析集成學(xué)習(xí)策略的有效性.
回歸分析是探索變量之間關(guān)系最常使用的方法,通常具有原理簡單,結(jié)果易于解釋等優(yōu)勢.因此,多元線性回歸(MLR)、偏最小二乘回歸(PLS)、嶺回歸(Ridge)和套索回歸(LASSO)等4種常用的回歸分析方法被用于城市河流SSC反演模型的建立.PLS是一種常用的線性回歸方法,它通過將原始自變量轉(zhuǎn)換為一組新的綜合變量,并利用這些變量建立預(yù)測模型[22].PLS相較于傳統(tǒng)MLR具有適用性廣、對噪聲和冗余信息適應(yīng)性高和能夠處理自變量共線性等優(yōu)勢[23].Ridge回歸通過對系數(shù)正則化以削弱過擬合問題,具有過擬合概率低、能夠處理高維數(shù)據(jù)、穩(wěn)定性強等優(yōu)勢[24-25].LASSO與Ridge回歸類似,同樣加入正則化項以約束模型復(fù)雜度,但二者的正則化項和懲罰系數(shù)并不相同[26].總的來說,Ridge回歸更適用于存在顯著多元共線性的數(shù)據(jù),而LASSO則更適用于具有稀疏性的數(shù)據(jù)[27].
隨著計算機技術(shù)的發(fā)展,各種機器學(xué)習(xí)方法被提出,以最大化地挖掘數(shù)據(jù)中的潛在信息,并在各種反演任務(wù)上表現(xiàn)出強大的性能.因此,SVR、決策樹(DT)和K鄰近(KNN)等3種經(jīng)典的機器學(xué)習(xí)方法被用于SSC反演模型的建立.SVR具有適用于非線性回歸和可以處理高維數(shù)據(jù)等優(yōu)勢,是最常使用的機器學(xué)習(xí)回歸方法之一[28-29].DT類似二叉樹,其核心原理是基于信息增益或基尼系數(shù)等指標來選擇最佳的劃分節(jié)點[30].KNN模型將來自所有數(shù)據(jù)點的特征值(目標值)存儲在輸入數(shù)據(jù)集中,并使用訓(xùn)練數(shù)據(jù)集和預(yù)測數(shù)據(jù)集之間的特征相似性來查找相似的數(shù)據(jù)點(目標值)并預(yù)測數(shù)據(jù)集的目標值,具有非參數(shù)化、魯棒性強和高可擴展性等優(yōu)勢,被廣泛應(yīng)用于回歸和分類任務(wù)[31].
集成學(xué)習(xí)通過構(gòu)建多個單模型機器學(xué)習(xí)方法組合策略的方式完成數(shù)據(jù)集的學(xué)習(xí)任務(wù),實現(xiàn)單模型機器學(xué)習(xí)方法之間的優(yōu)勢互補,從而提高模型的精度及泛化能力,還在一定程度上減少了模型對數(shù)據(jù)集的依賴程度.本文選用Bagging、Boosting、Stacking和Voting等4種不同的集成學(xué)習(xí)策略進行研究工作.各方法原理如下.
(1)Bagging
Bagging法通過對原始數(shù)據(jù)集進行自助采樣(Bootstrap)隨機采集與訓(xùn)練樣本集個數(shù)相同的子樣本集,然后在每個子樣本集上訓(xùn)練獨立的回歸器,最終通過投票或求概率均值的方式集成這些回歸器來得到最終的回歸器[32].該方法通過隨機采樣來降低方差,從而提高模型的泛化性和準確性,具有穩(wěn)定性強、適用性廣等特征.隨機森林(RF)是最為典型的Bagging方法,它通過在原始數(shù)據(jù)集的隨機子集上構(gòu)建多棵決策樹,并使用投票或平均值等方式集成這些決策樹的結(jié)果,得到最終的分類或回歸結(jié)果[33].該方法具有魯棒性強、高維數(shù)據(jù)適應(yīng)性強和可擴展性強等優(yōu)勢,是最常用的機器學(xué)習(xí)方法之一[34].
(2)Boosting
Boosting的基本思想是通過加權(quán)迭代訓(xùn)練多個回歸器,使得每個回歸器都能夠?qū)η耙粋€回歸器的錯誤糾正,最終通過集成這些回歸器的結(jié)果來得到最終的回歸器.自適應(yīng)提升算法(AdaBoost)是Boosting策略的代表算法之一,它采用錯誤加權(quán)的策略來訓(xùn)練基回歸器,并根據(jù)其在訓(xùn)練集上的表現(xiàn)來動態(tài)調(diào)整樣本權(quán)重,使得下一個基回歸器更加關(guān)注錯誤的樣本[35].GBDT是Boosting策略的另一個代表,它主要使用梯度提升技術(shù)來構(gòu)建一個強大的回歸器[36].GBDT能夠很好處理特征因子間的關(guān)系,提高模型泛化能力,并且對數(shù)據(jù)缺失敏感較弱,可以有效降低偏差,提高模型整體精確度.
(3)Stacking
Stacking是由Wolpert提出的一種基于模型組合的集成學(xué)習(xí)策略,它的核心思想是將多個不同模型的預(yù)測結(jié)果作為新特征輸入到一個元模型中,用于最終的預(yù)測[37].Stacking相比于Bagging和Boosting等其他集成學(xué)習(xí)策略可以在不同的數(shù)據(jù)空間角度和數(shù)據(jù)結(jié)構(gòu)角度來觀測數(shù)據(jù),可以利用不同模型之間的優(yōu)勢,提高預(yù)測性能[38].此外,由于Stacking集成學(xué)習(xí)過程中將數(shù)據(jù)集劃分為多個子集,并使用不同的訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集來訓(xùn)練和驗證模型,可以有效降低過擬合的概率.
(4)Voting
Voting是一種簡單但有效的集成學(xué)習(xí)策略,它通過對多個模型的預(yù)測結(jié)果進行投票來得出最終的預(yù)測結(jié)果[39].Voting策略具有簡單易實現(xiàn)、魯棒性強等優(yōu)勢,但其效果取決于所集成的基模型之間的差異性.若基模型之間的相似度較高,則集成效果會受到影響.
為了確定最適用于SSC反演的模型,采用平均絕對值誤差(MAE)、均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)、決定系數(shù)(2)等4種指標對各反演模型的精度進行定量評價.MAE表征了反演值和實測值之間的絕對誤差的平均值,RMSE則對異常值具有高敏感性,能直觀地反映反演值和實測值的偏差.此外,為了削弱數(shù)據(jù)范圍的影響,引入MAPE作為定量指標以分析誤差與實測值之間的百分比關(guān)系.2則表征反演值與預(yù)測值之間的擬合優(yōu)度,其值越大,說明模型的擬合度越高.各指標的計算公式如下:
地表反射率是遙感影像最重要的特征,水體及其中的懸浮物對不同波長輻射的響應(yīng)是遙感SSC反演的基礎(chǔ).由圖3可見一些典型水體樣本的遙感反射光譜曲線,SSC與近紅外波段反射率呈現(xiàn)出典型的正相關(guān),近紅外波段反射率越高,SSC通常越高.水體通常在綠光波段和紅邊波段存在反射峰,尤其以紅邊波段最為顯著,這可能與水中的藻類有關(guān).
圖3 典型水體樣本的反射光譜曲線
為了進一步探究無人機多光譜影像與懸浮物濃度之間的關(guān)系,使用Pearsonr相關(guān)系數(shù)、Spearmanr相關(guān)系數(shù)和互信息指數(shù)(MI)等方法分析影像波段與懸浮物濃度之間的相關(guān)性.由表3可知,近紅外波段與懸浮物濃度相關(guān)性最高(Pearsonr=0.940, Spearmanr=0.942, MI=1.025),紅光波段次之(Pearsonr=0.793, Spearmanr=0.792, MI=0.564),而紅邊波段相關(guān)性最低(Pearsonr=0.433).所有波段的Pearsonr和Spearmanr相關(guān)系數(shù)均非常顯著(<0.001),且三種相關(guān)性評價方法結(jié)果吻合.
綜上,無人機多光譜影像與懸浮物濃度之間存在顯著的相關(guān)性,使用無人機遙感影像反演河流懸浮物濃度具有理論依據(jù)和可行性.
表3 影像各波段與懸浮物濃度的相關(guān)性
接下來,分別使用2.1節(jié)所述的4種回歸分析方法建立SSC反演模型.無人機多光譜遙感影像的5個波段全部被作為特征,實地采集的SSC值被作為標簽.其中,采集的SSC測量數(shù)據(jù)中的70%被作為訓(xùn)練集,剩余的30%數(shù)據(jù)被作為驗證集.最終得到4種方法在驗證集上的反演結(jié)果及其誤差(圖4).由圖可知,LASSO回歸方法取得了4種回歸分析方法中最優(yōu)的精度(RMSE=10.623mg/L, MAPE=18.987%,2=0.594),Ridge回歸的精度次之(RMSE= 23.776mg/L, MAPE=23.776%,2=0.525),而MLR方法精度最低(RMSE=12.540mg/L, MAPE=20.515%,2=0.434).值得注意的是,Ridge回歸方法雖然取得了次優(yōu)的2,但其實測-反演擬合曲線與對角線的吻合程度較低,且MAPE指標也顯著地高于其他方法.
其后,采用同樣的策略,基于2.1節(jié)所述的3種傳統(tǒng)的機器學(xué)習(xí)方法建立SSC反演模型.3種方法在驗證集上的反演結(jié)果及其誤差如圖5所示.由圖可知,SVR方法反演精度最低,其驗證集2僅為0.488,略次于回歸分析方法中的Lasso回歸,且實測-反演擬合曲線與對角線差異巨大,顯示出該方法在遙感SSC反演方面的適應(yīng)性較低.DT方法精度次之,其RMSE和2分別達到10.559mg/L 和0.599.KNN方法的RMSE和2分別達到9.086mg/L 和0.703,其反演精度不僅優(yōu)于4種回歸分析方法,也顯著地優(yōu)于其他兩種機器學(xué)習(xí)方法.
圖4 回歸分析方法反演結(jié)果
圖5 經(jīng)典機器學(xué)習(xí)方法反演結(jié)果
綜上,遙感影像與城市河流SSC之間存在著顯著的相關(guān)性,回歸分析方法能夠在一定程度上捕獲SSC與遙感影像的關(guān)系,4種回歸方法建模的2平均值和最大值分別達到0.504及0.594.而機器學(xué)習(xí)方法則能夠提升反演模型的擬合能力,其平均2為0.597,高出回歸分析方法對應(yīng)值17.86%;2最高值為0.703,高出回歸分析方法對應(yīng)值18.35%,相比回歸分析方法精度提升顯著.
3.1節(jié)的實驗證明了機器學(xué)習(xí)方法在遙感信息獲取和反演方面的強大能力.然而,單一的機器學(xué)習(xí)模型具有各自的缺陷,在復(fù)雜的現(xiàn)實場景下容易出現(xiàn)欠擬合和過擬合等問題.因此,采用2.2節(jié)介紹的集成學(xué)習(xí)策略,以多種回歸分析和機器學(xué)習(xí)方法為基模型,建立多個集成學(xué)習(xí)SSC反演模型,以期克服單一模型各自的缺陷,達到最佳反演效果.
四種集成學(xué)習(xí)策略實現(xiàn)方式及其對應(yīng)的反演精度如表4所示,各策略最優(yōu)方法的反演結(jié)果如圖6所示.由表和圖可知,Bagging和Boosting策略的最優(yōu)方法分別為RF和GBDT,其2分別達到0.778和0.787,優(yōu)于前述最優(yōu)的回歸分析方法和單一機器學(xué)習(xí)方法.Stacking策略的最優(yōu)方法為SVR、MLR、DT和KNN模型的組合,其RMSE和2分別達到7.239mg/L和0.811.Voting策略的最優(yōu)方法為MLR、SR、DT和KNN模型的組合,其RMSE和2分別達到7.046mg/L和0.821.
由以上統(tǒng)計結(jié)果可知,集成學(xué)習(xí)策略在單模型機器學(xué)習(xí)方法的基礎(chǔ)上進一步提升了擬合能力,其最差的RMSE和2分別為8.073mg/L和0.765,優(yōu)于前述所有的回歸分析方法和單一機器學(xué)習(xí)方法的結(jié)果(最優(yōu)RMSE和2分別為9.086mg/L和0.703).集成學(xué)習(xí)策略反演的平均2為0.799,最高值為0.821,平均2高于單模型機器學(xué)習(xí)方法34.512%.
表4 集成學(xué)習(xí)方法反演精度
圖6 集成學(xué)習(xí)方法典型模型反演結(jié)果
特別地,基于Voting策略組合的MLR、SR、DT和KNN模型雖然取得了最低的RMSE和最高的2,然而其MAPE卻高于基于Stacking策略組合的SVR、MLR、DT和KNN模型(16.332%),這可能是由于基于Voting的方法更好地擬合了全體SSC,而基于Stacking策略的方法更好地擬合了SSC低值,因此基于Voting策略的方法在MAPE上表現(xiàn)次于基于Stacking策略的方法.這表明對于SSC反演不僅需要關(guān)注各種精度指標,還需要考慮各種方法的誤差分布情況.因此,使用箱形圖進一步分析SSC反演的誤差分布,結(jié)果如圖8所示.由圖可知,三種方法中,集成學(xué)習(xí)方法的誤差整體較小,其絕對誤差均值和中值分別為6.521mg/L和5.410mg/L,低于回歸分析方法和單一機器學(xué)習(xí)方法的對應(yīng)誤差.同時,無論是單一機器學(xué)習(xí)方法還是集成學(xué)習(xí)方案,其絕對誤差的最大異常值均相對較小(低于30mg/L),而回歸分析方法絕對誤差的最大異常值則高于50mg/L.
進一步地,使用小提琴圖分析四種集成學(xué)習(xí)策略中各自最優(yōu)的兩種方法的反演誤差分布,結(jié)果如圖8所示.由圖可知,基于Bagging和Boosting策略的方案絕對誤差集中于5mg/L附近.基于Voting策略對應(yīng)的誤差分布小提琴呈葫蘆型,其絕對誤差集中于2mg/L和8mg/L附近.相比之下,基于Stacking策略的誤差分布小提琴呈梭形,其絕對誤差集中于較小值(2mg/L附近).
圖7 各建模策略誤差分布
綜上,基于集成學(xué)習(xí)的方法相比回歸分析方法和傳統(tǒng)的單一機器學(xué)習(xí)方法在無人機多光譜遙感城市河流SSC反演方面具有顯著的優(yōu)勢,其中最為突出的是基于Stacking策略的方法,該方法不僅具有相對最優(yōu)的精度,而且絕對誤差多集中于較小值,相比其他集成學(xué)習(xí)方法具有更穩(wěn)定的性能,是理想的SSC反演方法.
3.1節(jié)和3.2節(jié)的實驗證明了集成學(xué)習(xí)方法相比回歸分析方法和單一機器學(xué)習(xí)方法在SSC反演方面的顯著優(yōu)勢.因此,本節(jié)以3.2節(jié)中表現(xiàn)最優(yōu)的基于Stacking策略組合的SVR、MLR、DT和KNN模型為反演模型,對蘇州市生活區(qū)部分水體的SSC進行反演,結(jié)果如圖9所示.由圖9(a)可知,蘇州生活區(qū)SSC呈現(xiàn)典型的東高西低,細小水體SSC較低、而河流主干SSC較高的趨勢.圖9(b)顯示生活區(qū)左下部,即蘇州市學(xué)府路、科技路附近部分河段和蘇州科技大學(xué)內(nèi)湖SSC較低,而臨近石湖的部分河段SSC相對較高.圖9(c)顯示楊素路、友新路等部分路段附近的細小水體SSC較低,而生活區(qū)中部和南部京杭運河河段SSC顯著高于其他河段.
同樣地,使用基于Stacking策略組合的SVR、MLR、DT和KNN模型為反演模型,對蘇州市工業(yè)區(qū)部分水體的SSC進行反演,結(jié)果如圖10所示.由圖10(a)可知,工業(yè)區(qū)SSC整體也呈現(xiàn)東高西低的趨勢.以長江路為界,長江路東側(cè)馬運河部分河段SSC較高,而長江路西側(cè)馬運河部分河段以及前橋港、珠江路附近河段SSC相對較低,但工業(yè)區(qū)整體SSC仍顯著高于生活區(qū).特別地,圖10(c)中佳能(蘇州)有限公司工業(yè)園區(qū)左側(cè)部分河段SSC呈現(xiàn)出典型的分布不均的情況.河道右側(cè)靠近佳能(蘇州)有限公司工業(yè)園區(qū)的部分河段SSC呈現(xiàn)低值,而該部分河段中部靠近橋梁部分河段SSC相對較高,反映了本文反演方法對懸浮物濃度變化的敏感性.
圖9 生活區(qū)河流懸浮物濃度
圖10 工業(yè)區(qū)河流懸浮物濃度
近年來,無人機遙感憑借著其空間分辨率高、數(shù)據(jù)實時性強、成本低廉且靈活性高等優(yōu)勢,被廣泛應(yīng)用于各種地表監(jiān)測和傾斜、正射影像采集任務(wù)[40–43].回歸分析是探索變量間關(guān)系最常使用的方法,具有原理簡單、結(jié)果易于解釋等優(yōu)勢[44–46],但在模型擬合能力上卻所有欠缺,導(dǎo)致其反演精度相對較低.機器學(xué)習(xí)方法在各種遙感反演任務(wù)上表現(xiàn)出遠超回歸分析方法的性能[47].3.2節(jié)實驗結(jié)果也證明了聯(lián)合無人機遙感技術(shù)和機器學(xué)習(xí)方法在SSC反演方面的潛力(最優(yōu)RMSE=9.086mg/L,最優(yōu)2=0.703,分別優(yōu)于回歸分析方法最優(yōu)精度16.92%和18.35%).
然而,現(xiàn)有的基于機器學(xué)習(xí)方法反演SSC的研究主要使用單一模型,而機器學(xué)習(xí)方法的解空間維度通常較高,各方法具有較強的擬合能力,卻由于方法各自的缺陷容易陷入局部最優(yōu)解(即“過擬合”)[48–53].同時,由于遙感輻射傳輸?shù)臋C理復(fù)雜,單一機器學(xué)習(xí)模型難以應(yīng)對復(fù)雜的現(xiàn)實場景,也加劇了單一機器學(xué)習(xí)模型的過擬合問題,限制了機器學(xué)習(xí)方法在遙感SSC反演方面的能力.
集成學(xué)習(xí)以多個單一機器學(xué)習(xí)模型作為基模型,采用不同的策略將各個基模型進行組合以實現(xiàn)基模型方法之間的優(yōu)勢互補,最大程度地發(fā)揮機器學(xué)習(xí)方法的潛力[54],從而提升模型在SSC反演方面的精度和泛化性.本文以MLR、SVR、DT和KNN等方法為基模型,分別使用4種集成學(xué)習(xí)策略對這些基模型進行組合.3.1和3.2節(jié)實驗顯示基于集成學(xué)習(xí)的方法在無人機遙感SSC反演方面顯著優(yōu)于回歸分析方法和傳統(tǒng)單一機器學(xué)習(xí)方法,其中基于Stacking策略組合的SVR、MLR、DT和KNN模型取得了最優(yōu)的反演效果,其驗證集RMSE為7.046mg/L,相比回歸分析方法最優(yōu)RMSE提升50.76%,相比單一機器學(xué)習(xí)方案最優(yōu)RMSE提升28.95%;其驗證集最優(yōu)2為0.821,相比回歸分析方法最優(yōu)2提升38.21%,相比單一機器學(xué)習(xí)方法最優(yōu)2提升16.79%.此外,集成學(xué)習(xí)方法反演的絕對誤差集中于較小值,其絕對誤差均值和中值分別為6.521mg/L和5.410mg/L,低于回歸分析方法和單一機器學(xué)習(xí)方法的對應(yīng)誤差,說明了集成學(xué)習(xí)方案在總體精度和誤差分布兩方面均優(yōu)于傳統(tǒng)單一模型.
由于輻射傳輸?shù)膹?fù)雜性,無人機影像采集時間、氣象條件和反演河流特性等會對SSC反演造成影響[55].本研究在數(shù)據(jù)獲取過程中盡量保持了數(shù)據(jù)采集時間和氣象條件的一致性,但不同河段的河流特性仍存在較大差異.同時,樣本數(shù)量顯著影響著遙感反演精度,尤其是機器學(xué)習(xí)遙感反演精度.集成學(xué)習(xí)策略能夠克服各種單一模型的缺陷,顯著提升了遙感SSC反演精度和泛化性,在遙感地表監(jiān)測和信息提取方面表現(xiàn)出巨大的潛力.然而,受限于天氣和數(shù)據(jù)采集成本等主客觀條件,本文所采集的無人機影像數(shù)據(jù)和SSC實地監(jiān)測數(shù)據(jù)量相對較小,所建立的反演模型僅適用于春季時蘇州市部分水體.后續(xù)的研究將重點考慮獲取更長時間尺度和更大空間范圍的數(shù)據(jù),以提升反演模型的適用性.同時,考慮將河流流速、深度等信息加入反演模型,以削弱河流特性對反演的影響,進一步提升反演精度.
5.1 無人機遙感技術(shù)在城市河流SSC反演方面具有巨大的潛力,無人機遙感影像各波段與SSC實測值具有顯著的高相關(guān)性,使用無人機遙感技術(shù)反演城市河流SSC具有理論基礎(chǔ)和可行性.
5.2 機器學(xué)習(xí)方法相比回歸分析方法在遙感SSC反演方面具有更強的擬合能力和更高的反演精度,而集成學(xué)習(xí)策略通過聯(lián)合多種模型,有效地克服了單一機器學(xué)習(xí)方法容易“過擬合”的缺陷,其反演精度相比單一機器學(xué)習(xí)方法具有顯著提升.
5.3 基于Stacking的集成學(xué)習(xí)模型在SSC反演的多種精度指標和誤差分布兩方面均取得了最優(yōu)的結(jié)果,其中最為典型的是基于Stacking策略組合的SVR、MLR、DT和KNN模型,其驗證集2相比回歸分析方法提升近1/3,相比單一機器學(xué)習(xí)方法提升近1/6,且反演絕對誤差多集中于較小值,是蘇州市城市河流SSC反演的最優(yōu)方法.
[1] 盧世軍.Ⅱ類水體懸浮物遙感研究進展[J]. 現(xiàn)代計算機(專業(yè)版), 2016,(32):34-39. Lu S J. Research progress on the retrieval of suspended sediment from II water [J]. Modern Computers, 2016,(32):34-39.
[2] 王 波,黃津輝,郭宏偉,等.基于遙感的內(nèi)陸水體水質(zhì)監(jiān)測研究進展[J]. 水資源保護, 2022,38(3):117-124. Wang B, Huang J H, Guo H W, et al. Progress in research on inland water quality monitoring based on remote sensing [J]. Water Resources Protection, 2022,38(3):117-124.
[3] Hong S M, Cho K H, Park S, et al. Estimation of cyanobacteria pigments in the main rivers of South Korea using spatial attention convolutional neural network with hyperspectral imagery [J]. GIScience & Remote Sensing, 2022,59(1):547-567.
[4] 楊 振,盧小平,武永斌,等.無人機高光譜遙感的水質(zhì)參數(shù)反演與模型構(gòu)建[J]. 測繪科學(xué), 2020,45(9):60-64,95. Yang Z, Lu X P, Wu Y B, et al. Retrieval and model construction of water quality parameters for UAV hyperspectral remote sensing [J]. 2020,45(9):60-64,95.
[5] 臧傳凱,沈 芳,楊正東.基于無人機高光譜遙感的河湖水環(huán)境探測[J]. 自然資源遙感, 2021,33(3):45-53. Zang C K, Shen F, Yang Z D. Aquatic environmental monitoring of inland waters based on UAV hyperspectral remote sensing [J]. Remote Sensing for Natural Resources, 2021,33(3):45-53.
[6] 丁 波,李 偉,胡 克.基于同期光學(xué)與微波遙感的茅尾海及其入海口水體懸浮物反演[J]. 自然資源遙感, 2022,34(1):10-17. Ding B, Li W, Hu K. Inversion of total suspended matter concentration in Maowei Sea and its estuary, Southwest China using contemporaneous optical data and GF SAR data [J]. Remote Sensing for Natural Resources, 2022,34(1):10-17.
[7] 蓋穎穎,王章軍,楊 雷,等.金沙灘近岸水體葉綠素a和懸浮物遙感反演研究[J]. 國土資源遙感, 2020,32(3):129-135. Gai Y Y, Wang Z J, Yang L, et al. Remote sensing retrieval of chlorophyll - a and suspended matter in coastal waters of Golden Beach [J]. Remote Sensing for Land and Resources, 2020,32(3):129- 135.
[8] 禹定峰,周 燕,馬萬棟,等.基于HICO模擬數(shù)據(jù)的杭州灣水體懸浮物濃度遙感反演[J]. 國土資源遙感, 2018,30(4):171-175. Yu D F, Zhou Y, Ma W D, et al. Retrieval of total suspended matter concentration in Hangzhou Bay based on simulated HICO from in situ hyperspectral data [J]. Remote Sensing for Land and Resources, 2018, 30(4):171-175.
[9] Silveira Kupssinskü L, Thomassim Guimar?es T, Menezes de Souza E, et al. A method for chlorophyll-a and suspended solids prediction through remote sensing and machine learning [J]. Sensors, 2020,20(7): 2125.
[10] Peterson K T, Sagan V, Sidike P, et al. Suspended sediment concentration estimation from Landsat imagery along the Lower Missouri and Middle Mississippi Rivers using an extreme learning machine [J]. Remote Sensing, 2018,10(10):1503.
[11] Nazeer M, Bilal M, Alsahli M M M, et al. Evaluation of empirical and machine learning algorithms for estimation of coastal water quality parameters [J]. ISPRS International Journal of Geo-Information, 2017,6(11):360.
[12] 王思夢,秦伯強.湖泊水質(zhì)參數(shù)遙感監(jiān)測研究進展[J]. 環(huán)境科學(xué), 2023,44(3):1228-1243. Wang S M, Qin B Q. Research progress on remote sensing monitoring of lake water quality parameters [J]. Environmental Science, 2023,44 (3):1228-1243.
[13] 楊宇鋒,武 暕,王 璐,等.基于隨機森林模型的遼河高時間分辨率氮、磷濃度模擬與預(yù)測[J]. 環(huán)境科學(xué)學(xué)報, 2022,42(12):384-391. Yang Y F, Wu J, Wang L, et al. Simulation and prediction of nitrogen and phosphorus concentrations with high time resolution in Liao River using random forest model [J]. Acta Scientiae Circumstantiae, 2022, 42(12):384-391.
[14] Pahlevan N, Smith B, Alikas K, et al. Simultaneous retrieval of selected optical water quality indicators from Landsat-8, Sentinel-2, and Sentinel-3 [J]. Remote Sensing of Environment, 2022,270: 112860.
[15] 嵇曉燕,楊 凱,陳亞男,等.基于ARIMA和Prophet的水質(zhì)預(yù)測集成學(xué)習(xí)模型[J]. 水資源保護, 2022,38(6):111-115. Ji X Y, Yang K, Chen Y N, et al. An ensemble learning model for water quality forecast based on ARIMA and Prophet. Water Resources Protection, 2022,38(6):111-115.
[16] 王成賀,宋 寧,王京禹,等.基于時空演變多重特性建模的近海葉綠素濃度時序預(yù)測[J]. 信號處理, 2022,38(6):1232-1239. Wang C H, Song N, Wang J Y, et al. Temporal prediction of chlorophyll concentration in coastal waters based on multi- characteristics modeling of spatio-temporal evolution [J]. Journal of Signal Processing, 2022,38(6):1232-1239.
[17] 李雪清,鄭 航,劉悅憶,等.基于多源數(shù)據(jù)機器學(xué)習(xí)的區(qū)域水質(zhì)預(yù)測方法研究[J]. 水利水電技術(shù)(中英文), 2021,52(11):152-163. Li X Q, Zheng H, Liu Y Y, et al. Multi-source data machine learning-based study on method for regional water quality prediction [J]. Water Resources and Hydropower Engineering, 2021,52(11):152- 163.
[18] 陳點點,陳蕓芝,馮險峰,等.基于超參數(shù)優(yōu)化CatBoost算法的河流懸浮物濃度遙感反演[J]. 地球信息科學(xué)學(xué)報, 2022,24(4):780-791. Chen D D, Chen Y Z, Feng X F, et al. Retrieving suspended matter concentration in rivers based on hyperparameter optimized CatBoost algorithm [J]. Journal of Geo-information Science, 2022,24(4):780- 791.
[19] DeLuca N M, Zaitchik B F, Curriero F C. Can multispectral information improve remotely sensed estimates of total suspended solids? A statistical study in Chesapeake Bay [J]. Remote Sensing, 2018,10(9):1393.
[20] Dehkordi A T, Ghasemi H, Zoej M J V. Machine learning-based estimation of suspended sediment concentration along Missouri River using remote sensing imageries in Google Earth Engine [C]// 2021 7th International Conference on Signal Processing and Intelligent Systems (ICSPIS). IEEE, 2021:1-5.
[21] Kwon S, Seo I W, Noh H, et al. Hyperspectral retrievals of suspended sediment using cluster-based machine learning regression in shallow waters [J]. Science of The Total Environment, 2022,833:155168.
[22] Abdi H. Partial least squares regression and projection on latent structure regression (PLS Regression) [J]. WIREs Computational Statistics, 2010,2(1):97-106.
[23] Wold S, Sj?str?m M, Eriksson L. PLS-regression: A basic tool of chemometrics [J]. Chemometrics and Intelligent Laboratory Systems, 2001,58(2):109-130.
[24] Hoerl A E, Kennard R W. Ridge regression: Biased estimation for nonorthogonal problems [J]. Technometrics, 1970,12(1):55-67.
[25] Hoerl A E, Kennard R W. Ridge regression: applications to nonorthogonal problems [J]. Technometrics, 1970,12(1):69-82.
[26] Tibshirani R. Regression shrinkage and selection via the lasso [J]. Journal of the Royal Statistical Society. Series B (Methodological), 1996,58(1):267-288.
[27] Tibshirani R. The lasso method for variable selection in the Cox model [J]. Statistics in Medicine, 1997,16(4):385-395.
[28] Drucker H, Burges C J C, Kaufman L, et al. Support vector regression machines [C]//Advances in Neural Information Processing Systems. MIT Press, 1996.
[29] Suykens J A K, Vandewalle J, De Moor B. Optimal control by least squares support vector machines [J]. Neural Networks, 2001,14(1): 23-35.
[30] Kamiński B, Jakubczyk M, Szufel P. A framework for sensitivity analysis of decision trees [J]. Central European Journal of Operations Research, 2018,26(1):135-159.
[31] Cover T, Hart P. Nearest neighbor pattern classification [J]. IEEE Transactions on Information Theory, 1967,13(1):21-27.
[32] Breiman L. Bagging predictors [J]. Machine Learning, 1996,24:123- 140.
[33] Breiman L. Random forests [J]. Machine Learning, 2001,45(1):5-32.
[34] Painsky A, Rosset S. Cross-validated variable selection in tree-based methods improves predictive performance [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(11):2142-2153.
[35] Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting [C]//Vitányi P, ed.// Computational Learning Theory. Berlin, Heidelberg: Springer, 1995: 23-37.
[36] Piryonesi S M, El-Diraby T E. Data analytics in asset management: Cost-effective prediction of the pavement condition index [J]. Journal of Infrastructure Systems, 2020,26(1):04019036.
[37] Wolpert D H. Stacked generalization [J]. Neural Networks, 1992,5(2): 241-259.
[38] Breiman L. Stacked regressions [J]. Machine Learning, 1996,24(1): 49-64.
[39] Littlestone N, Warmuth M K. The weighted majority algorithm [J]. Information and Computation, 1994,108(2):212-261.
[40] 周志偉,鄧 化,施華宏.基于無人機遙感與機器學(xué)習(xí)的岸灘大型塑料垃圾監(jiān)測方法[J]. 海洋環(huán)境科學(xué), 2023,42(1):141-150. Zhou Z W, Deng H, Shi H H. Monitoring of marine macro-plastic litter in the coastal zone based on UAV remote sensing and machine learning. Marine Environmental Science, 2023,42(1):141-150.
[41] 毛正君,石碩杰,王貴榮,等.基于無人機遙感的區(qū)域黃土滑坡識別及發(fā)育特征分析[J]. 災(zāi)害學(xué), 2023,38(1):63-71. Mao Z J, Shi S J, Wang G R, et al. Identification and development characteristics analysis of loess landslide based on UAV remote sensing [J]. Journal of Catastrophology, 2022,38(1):63-71.
[42] 申華磊,蘇歆琪,趙巧麗,等.基于深度學(xué)習(xí)的無人機遙感小麥倒伏面積提取方法[J]. 農(nóng)業(yè)機械學(xué)報, 2022,53(9):252-260,341. Shen H L, Shu X Q, Zhao Q L, et al. Extraction of lodging area of wheat varieties by unman [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022,53(9):252-260,341.
[43] 謝運鴻,荊雪慧,孫 釗,等.基于實例分割的高郁閉度林分單木樹冠無人機遙感提取[J]. 林業(yè)科學(xué)研究, 2022,35(5):14-21. Xie Y H, Jing X H, Sun Z, et al. Tree crown extraction of UAV remote sensing high canopy density stand based on instance segmentation. Forest Research, 2022,35(5):14-21.
[44] Dethier E N, Renshaw C E, Magilligan F J. Rapid changes to global river suspended sediment flux by humans [J]. Science, 2022,376(6600): 1447-1452.
[45] Overeem I, Hudson B D, Syvitski J P M, et al. Substantial export of suspended sediment to the global oceans from glacial erosion in Greenland [J]. Nature Geoscience, 2017,10(11):859-863.
[46] Park E, Latrubesse E M. Modeling suspended sediment distribution patterns of the Amazon River using MODIS data [J]. Remote Sensing of Environment, 2014,147:232-242.
[47] Umar M, Rhoads B L, Greenberg J A. Use of multispectral satellite remote sensing to assess mixing of suspended sediment downstream of large river confluences [J]. Journal of Hydrology, 2018,556:325-338.
[48] Sabzekar M, Hasheminejad S M H. Robust regression using support vector regressions [J]. Chaos, Solitons & Fractals, 2021,144:110738.
[49] Yu Q, Liu Y, Rao F. Parameter selection of support vector regression machine based on differential evolution algorithm[C]//2009Sixth International Conference on Fuzzy Systems and Knowledge Discovery. Tianjin, China: IEEE, 2009:596-598.
[50] Moses D, Deepa B, Patri T, et al. A review of decision tree algorithms for predictive analysis in data mining [J]. Journal on Software Engineering, 2017,12(1).
[51] Alsagheer R H, Alharan A F, Al-Haboobi A S. Popular decision tree algorithms of data mining techniques: a review [J]. International Journal of Computer Science and Mobile Computing, 2017,6(6):133- 142.
[52] Losing V, Hammer B, Wersing H. KNN classifier with self adjusting memory for heterogeneous concept drift [C]//2016IEEE 16th International Conference on Data Mining (ICDM). IEEE, 2016:291- 300.
[53] Bagnall A, Lines J, Bostrom A, et al. The great time series classification bake off: a review and experimental evaluation of recent algorithmic advances [J]. Data Mining and Knowledge Discovery, 2017,31(3):606-660.
[54] Zhou Z-H. Ensemble methods: foundations and algorithms [M]. CRC press, 2012.
[55] Romero-Trigueros C, Nortes P A, Alarcón J J, et al. Effects of saline reclaimed waters and deficit irrigation on Citrus physiology assessed by UAV remote sensing [J]. Agricultural Water Management, 2017, 183:60-69.
Inversion of suspended sediment concentration in rivers of Suzhou based on UAV remote sensing and ensemble learning.
YU Cheng1, TANG Yi2*, PAN Yang2, YI Hong-chen2, GU Yi-ping2, ZHU Feng2, SHI Jiao-yang2
(1.School of Geography Science and Geomatics Engineering, Suzhou University of Science and Technology, Suzhou 215009, China;2.School of Environmental Science and Engineering, Suzhou University of Science and Technology, Suzhou 215009, China)., 2023,43(10):5235~5246
The inversion of suspended sediment concentrations of urban rivers by remote sensing has important practical significance for water environmental management. To address the problem of overfitting in individual models, this study attempts to improve the accuracy and generalizability of the inversion model by realizing the complementary advantages among four different ensemble learning strategies. Ensemble learning inversion models were established based on multispectral remote sensing images collected by unmanned aerial vehicles and field-measured suspended sediment concentrations of Suzhou in this study. Four commonly used regression methods and three classic machine learning methods were used to validate the effectiveness of the ensemble learning strategies. The results demonstrate that the ensemble learning strategies effectively mitigate the limitations of individual models, substantially improving the accuracy and generalizability of the remote sensing inversions. The stacking strategy achieves the best performance with a validation set’s coefficient of determination of 0.821, show casing a 38.21% enhancement compared with the regression methods and a 16.79% improvement compared to the individual machine learning methods. The absolute error of the ensemble learning method is concentrated on small values, with its mean and median absolute errors surpassing the traditional methods. This study can improve the accuracy of urban suspended sediment concentration inversion and provide guidance for unmanned aerial vehicle remote sensing of river suspended sediment concentration inversion.
river suspended sediment concentration;unmanned aerial vehicle remote sensing;multispectral;ensemble learning;machine learning
X87
A
1000-6923(2023)10-5235-12
2023-03-01
國家自然科學(xué)基金資助項目(41801148)
* 責(zé)任作者, 高級工程師, tangyi4k3@163.com
余 成(1987-),女,湖北仙桃人,講師,博士,主要從事土地利用變化的水環(huán)境效應(yīng).發(fā)表論文10篇.yucheng823@126.com.
余 成,唐 毅,潘 楊,等.基于無人機遙感和集成學(xué)習(xí)的蘇州市河流懸浮物濃度反演 [J]. 中國環(huán)境科學(xué), 2023,43(10):5235-5246.
Yu C, Tang Y, Pan Y, et al. Inversion of suspended sediment concentration in rivers of Suzhou based on UAV remote sensing and ensemble learning [J]. China Environmental Science, 2023,43(10):5235-5246.