• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      優(yōu)化隨機森林算法的城市湖泊DOC質(zhì)量濃度遙感反演

      2022-10-06 09:26:10李愛民王海隆許有成
      關(guān)鍵詞:貝葉斯波段反演

      李愛民, 王海隆, 許有成

      (1.鄭州大學(xué) 地球科學(xué)與技術(shù)學(xué)院,河南 鄭州 450001;2.鄭州大學(xué) 水利科學(xué)與工程學(xué)院,河南 鄭州 450001)

      0 引言

      可溶性有機碳(dissolved organic carbon,DOC)是水質(zhì)評價的重要指標(biāo),是指可以通過0.45 μm濾膜的所有有機碳[1]。DOC質(zhì)量濃度的增加,會導(dǎo)致水體有機酸含量提高、水體透明度降低、水下光場發(fā)生變化,直接或間接地影響水體中各種生物的生存和發(fā)展, 進而影響到整個水體的生態(tài)系統(tǒng)[2]。獲取城市湖泊的有機碳含量,對城市水質(zhì)監(jiān)測具有重要意義。

      目前,城市湖泊的水質(zhì)監(jiān)測主要通過實地采樣結(jié)合實驗室分析來獲取水質(zhì)信息[3]。這種方法雖然準(zhǔn)確度較高,但需耗費大量的人力和成本,且只能獲得各采樣點數(shù)據(jù)。遙感反演技術(shù)具備區(qū)域化監(jiān)測能力,可以高效地獲取水質(zhì)情況,而且成本低,在水質(zhì)監(jiān)測領(lǐng)域表現(xiàn)突出[4]。衛(wèi)星遙感用于DOC質(zhì)量濃度的反演已取得一定成果,主要方法有兩類。一類方法是先反演有色可溶性有機物(colored dissolved organic matter,CDOM)濃度,再根據(jù)DOC與CDOM的關(guān)系計算DOC質(zhì)量濃度[5]。第二類方法是直接利用遙感波段反射率與水體DOC質(zhì)量濃度之間的關(guān)系進行反演[6]。DOC質(zhì)量濃度的遙感反演研究雖然取得一定進展,但大多采用統(tǒng)計回歸的方法構(gòu)建反演模型。實驗發(fā)現(xiàn),統(tǒng)計回歸模型難以很好地描述水質(zhì)參數(shù)與遙感數(shù)據(jù)之間復(fù)雜的非線性關(guān)系[7],穩(wěn)定準(zhǔn)確的反演模型仍是研究的重點。隨著信息時代的到來,機器學(xué)習(xí)開始應(yīng)用于各種類型的計算[8]。憑借其自身優(yōu)勢,機器學(xué)習(xí)在水質(zhì)遙感反演領(lǐng)域發(fā)展迅速,許多研究使用神經(jīng)網(wǎng)絡(luò)[9]和支持向量機[10]等方法構(gòu)建反演模型。神經(jīng)網(wǎng)絡(luò)雖然具有較好的魯棒性和非線性逼近能力,但存在參數(shù)較多、學(xué)習(xí)時間長等缺點[11]。支持向量機同樣具備非線性擬合能力,但面臨參數(shù)選取困難和易陷入局部極值的問題[12]。作為機器學(xué)習(xí)的主流算法之一,隨機森林(random forest,RF)算法近年來逐漸被學(xué)者發(fā)掘并應(yīng)用于遙感反演。隨機森林是決策樹的集合,依靠多個決策樹預(yù)測組合成一個模型,不易過擬合,抗干擾性強。貝葉斯優(yōu)化(Bayesian optimization,BO)算法是一種全局優(yōu)化算法,基于貝葉斯優(yōu)化框架只需經(jīng)過少數(shù)次的目標(biāo)函數(shù)評估即可獲得理想解,對于求解目標(biāo)函數(shù)表達式未知、非凸的復(fù)雜優(yōu)化問題,貝葉斯優(yōu)化是一種有效方法[13]。

      由于傳統(tǒng)回歸模型不能很好地描述水質(zhì)參數(shù)與遙感數(shù)據(jù)之間的非線性關(guān)系,難以獲得滿足精度要求的模型,限制了水質(zhì)反演結(jié)果的準(zhǔn)確性。常用的神經(jīng)網(wǎng)絡(luò)和支持向量機等模型具有較好的非線性逼近能力,但是存在參數(shù)選取困難、模型穩(wěn)健性不足等問題。為了構(gòu)建精度高、穩(wěn)健性好的反演模型,本研究利用貝葉斯優(yōu)化算法對隨機森林模型進行優(yōu)化,提出了一種貝葉斯優(yōu)化隨機森林模型(BO-RF)的城市湖泊DOC質(zhì)量濃度反演方法。應(yīng)用于Planet衛(wèi)星影像反演天德湖的DOC質(zhì)量濃度并分析DOC空間分布情況,探討適用于城市湖泊的DOC遙感反演模型,為城市水體的DOC質(zhì)量濃度遙感監(jiān)測提供技術(shù)支持。

      1 研究區(qū)域與數(shù)據(jù)

      1.1 研究區(qū)域

      天德湖(34°48′~34°49′N,113°29′~113°30′E)為須水河干流上的一個湖泊,水域面積約為0.306 km2,如圖1所示。隨著城市發(fā)展,工業(yè)集聚,人類活動加劇,城市湖泊的水質(zhì)狀況備受關(guān)注。

      圖1 研究區(qū)采樣點位置Figure 1 Location of sampling points in the study area

      1.2 實驗數(shù)據(jù)

      1.2.1 水質(zhì)數(shù)據(jù)

      2019年4月16日和2019年5月22日兩次進入湖區(qū)采樣得到水質(zhì)數(shù)據(jù)。采樣點按照均勻分散、特征區(qū)域增設(shè)的原則布置,采樣點位置如圖1所示。利用專用采水器采集水面下30~50 cm深處的水樣,共40個樣本,對水樣編號并記錄采樣點的GPS位置坐標(biāo)。樣品采集后馬上送至實驗室測定DOC質(zhì)量濃度,得到采樣點水質(zhì)參數(shù)DOC實測數(shù)據(jù)。

      1.2.2 Planet衛(wèi)星影像數(shù)據(jù)

      對于城市湖泊DOC的監(jiān)測常常需要多時段,所以具有高時間分辨率、空間分辨率為3 m的Planet衛(wèi)星影像是個很好的選擇。Planet擁有170余顆Dove小衛(wèi)星,是世界上唯一全球高分辨率、高頻次的遙感衛(wèi)星,影像信噪比高[14]。本文選用Planet衛(wèi)星2019年4月16日和2019年5月22日兩期影像數(shù)據(jù)作為遙感數(shù)據(jù)源,傳感器為Bayer濾鏡CCD相機,成像范圍覆蓋研究水域,提取出兩期影像對應(yīng)采樣點的反射率數(shù)據(jù)。Planet衛(wèi)星基本參數(shù)如表1所示。

      表1 Planet衛(wèi)星基本參數(shù)Table 1 Basic parameters of Planet

      L1B級別產(chǎn)品數(shù)據(jù)已經(jīng)過幾何校正和輻射校正,本研究主要利用ENVI軟件對Planet影像進行大氣校正、圖像鑲嵌和剪裁等預(yù)處理。為提高水體識別的準(zhǔn)確性,使用基于綠波段與近紅外波段的歸一化比值指數(shù)NDWI對水體進行提取,計算式為

      NDWI=(Green-NIR)/(Green+NIR)。

      (1)

      式中:Green為綠波段反射率;NIR為近紅外波段反射率。

      2 研究方法

      2.1 波段選取

      在建模前先對實測DOC數(shù)據(jù)與影像提取的反射率進行PEARSON相關(guān)性分析,選擇敏感波段,相關(guān)系數(shù)R為

      (2)

      通過計算發(fā)現(xiàn)單波段與DOC質(zhì)量濃度值的相關(guān)性較低,不適合直接建模。對各種波段組合進行比較,結(jié)果表明部分波段進行組合可以得到高于單波段的相關(guān)系數(shù),統(tǒng)計各組合相關(guān)系數(shù)如圖2所示。

      圖2 波段組合與DOC質(zhì)量濃度相關(guān)系數(shù)Figure 2 Correlation coefficient between band combination and DOC concentration

      根據(jù)圖2中PEARSON相關(guān)性分析,選取相關(guān)系數(shù)較高的波段組合作為輸入因子。本文選取波段組合B2/B4作為DOC質(zhì)量濃度反演的遙感數(shù)據(jù)。

      2.2 常用模型構(gòu)建

      2.2.1 傳統(tǒng)回歸模型

      目前,有不少利用傳統(tǒng)回歸方法進行DOC等水質(zhì)參數(shù)遙感反演的研究,其中波段比值模型較為常見[15]。根據(jù)PEARSON相關(guān)性分析結(jié)果,本研究選用波段組合B2/B4構(gòu)建回歸模型,通過計算發(fā)現(xiàn)利用波段組合B2/B4構(gòu)建的三次方程回歸模型:Y=22.884X3-47.444X2+29.043X+1.419 5效果最好,但擬合度不高。

      2.2.2 BP神經(jīng)網(wǎng)絡(luò)模型

      本文以選定的波段組合作為輸入數(shù)據(jù),DOC實測濃度作為輸出數(shù)據(jù),使用python構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型。其中,輸入數(shù)據(jù)的80%用于訓(xùn)練網(wǎng)絡(luò),20%用來測試。利用損失函數(shù)二階導(dǎo)數(shù)矩陣即海森矩陣來迭代優(yōu)化損失函數(shù)。對包含不同隱藏層節(jié)點數(shù)的神經(jīng)網(wǎng)絡(luò)模型的測試結(jié)果進行比較,從而選出最佳節(jié)點數(shù)。通過多次實驗,發(fā)現(xiàn)隱藏層節(jié)點數(shù)為8時效果最好,定為最終模型。BP神經(jīng)網(wǎng)絡(luò)中激活函數(shù)為Relu函數(shù),學(xué)習(xí)函數(shù)為梯度下降權(quán)重函數(shù),其他參數(shù)設(shè)置如表2所示。

      表2 BP神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置Table 2 BP neural network parameter setting

      2.2.3 支持向量機回歸模型

      以選定的遙感波段組合作為輸入數(shù)據(jù),實測DOC質(zhì)量濃度為輸出變量,在python 的scikit learn開源機器學(xué)習(xí)庫中構(gòu)建支持向量機。以80%的數(shù)據(jù)為訓(xùn)練集,20%的數(shù)據(jù)作為測試集,采用徑向基函數(shù)(RBF)作為核函數(shù)構(gòu)建支持向量機模型。調(diào)用GridSearchCV尋找SVR的最佳參數(shù)C(懲罰系數(shù))和gamma。全局搜索計算得出C=15、gamma=1時擬合效果最佳。

      2.3 隨機森林及優(yōu)化算法模型構(gòu)建

      2.3.1 隨機森林RF模型

      隨機森林算法通過隨機取樣生成多個決策樹,綜合各決策樹得出最終結(jié)果,能很好地解決單一決策樹過擬合的問題[16]。與人工神經(jīng)網(wǎng)絡(luò)相比,隨機森林簡單高效,在參數(shù)優(yōu)化和變量分析上優(yōu)勢突出[17]。

      基于bagging框架建立隨機森林的步驟如下:

      步驟1 隨機有放回地抽樣,選出N個訓(xùn)練集作為每棵回歸樹的根節(jié)點樣本;

      步驟2 用子訓(xùn)練集訓(xùn)練一個CART回歸樹(決策樹);

      步驟3N棵決策樹得到N個結(jié)果;

      步驟4 對N個結(jié)果取平均值作為隨機森林最終結(jié)果。

      模型測試結(jié)果為

      (3)

      式中:Xi為隨機可放回抽樣的子數(shù)據(jù)集的變量,i=1,2,…,N。

      使用選定的反射率波段組合作為輸入數(shù)據(jù),實測的DOC質(zhì)量濃度作為輸出數(shù)據(jù),其中,數(shù)據(jù)的 80%作為訓(xùn)練數(shù)據(jù),20%作為驗證數(shù)據(jù)。在python 的scikit learn開源機器學(xué)習(xí)庫利用隨機森林算法構(gòu)建模型。在隨機森林回歸器中,RF框架特征有n_estimators、oob_score、criterion。RF決策樹參數(shù)有max_features、max_depth、min_samples_split、min_samples_leaf、random_state。各參數(shù)設(shè)置如表3所示。

      表3 隨機森林算法參數(shù)設(shè)置Table 3 Random forest algorithm parameters setting

      2.3.2 貝葉斯優(yōu)化的隨機森林BO-RF模型

      在隨機森林模型中,n_estimators、min_samples_split、max_features、max_depth等超參數(shù)全部使用

      默認(rèn)值。為了提高模型精度,引入貝葉斯優(yōu)化算法對隨機森林進行優(yōu)化,優(yōu)化過程采用貝葉斯定理:

      (4)

      式中:f表示參數(shù)模型中的參數(shù);Dt={(a1,b1),(a2,b2),…,(at,bt)}表示已觀測集合,at表示決策向量,bt=f(at)+t表示觀測值,t表示觀測誤差;P(Dt∣f) 表示y的似然分布;P(f)表示f的先驗概率分布;P(Dt)表示f的邊際似然分布;P(f∣Dt)表示f的后驗概率分布,后驗概率分布描述通過已觀測數(shù)據(jù)集對先驗進行修正后未知目標(biāo)函數(shù)的置信度。

      貝葉斯優(yōu)化的兩個核心過程是先驗函數(shù)(prior function,PF)和采集函數(shù)(acquisition function,AC)。本文基于高斯過程,初始化替代函數(shù)的先驗分布,根據(jù)替代函數(shù)的先驗分布,采樣若干個數(shù)據(jù)點,再使用采樣的值得到目標(biāo)函數(shù)的新值。然后根據(jù)新的數(shù)據(jù),更新替代函數(shù)的先驗分布,并開始重復(fù)迭代。迭代之后,根據(jù)當(dāng)前的高斯過程找到全局最優(yōu)解。

      貝葉斯優(yōu)化的主要步驟如圖3所示。在python中導(dǎo)入貝葉斯優(yōu)化算法,利用貝葉斯優(yōu)化調(diào)節(jié)n_estimators、min_samples_split、max_features、max_depth等對隨機森林模型性能和速度影響較大的超參數(shù)。具體過程如下:定義目標(biāo)函數(shù),函數(shù)輸入為調(diào)優(yōu)的幾個參數(shù),輸出為模型交叉驗證5次的R2均值;設(shè)置超參數(shù)搜索空間pbounds如表4所示;構(gòu)建貝葉斯優(yōu)化器,設(shè)置n_iter=25,init_points=5。通過實驗得出最優(yōu)參數(shù):max_features=0.817、min_samples_split=2、max_depth=8、n_estimators=669,并使用最優(yōu)參數(shù)構(gòu)建模型。

      圖3 貝葉斯優(yōu)化流程Figure 3 Bayesian optimization process

      表4 超參數(shù)搜索空間Table 4 Hyperparameter search space

      3 分析與討論

      3.1 模型精度分析

      本文構(gòu)建的模型均使用回歸模型常用的評估指標(biāo)決定系數(shù)R2和均方根誤差RMSE來評價模型精度。其中決定系數(shù)R2越大表示模型擬合效果越好;RMSE是預(yù)測值與真實值的誤差平方根的均值,值越小模型精度越高。計算式如下:

      (5)

      (6)

      對各模型結(jié)果進行對比分析,結(jié)果如圖4所示。由圖4可以看出,三次方程回歸模型的點相對分散,擬合線偏移角度較大,預(yù)測效果較差。支持向量機模型(SVR)和BP神經(jīng)網(wǎng)絡(luò)模型有所提高,但在低濃度區(qū)域均有部分點偏離1∶1線較多,說明SVR和BP雖然能處理復(fù)雜非線性問題,但是存在過擬合的情況,模型穩(wěn)健性不足。BO-RF模型樣點基本在1∶1線附近,雖略有偏差,但從R2和RMSE來看,BO-RF模型優(yōu)勢還是比較明顯的。由此也驗證了貝葉斯優(yōu)化算法的優(yōu)越性,說明該方法可以用于DOC質(zhì)量濃度反演。

      圖4 模型精度對比Figure 4 Model accuracy comparison

      3.2 DOC質(zhì)量濃度空間分布分析

      將BO-RF模型應(yīng)用于Planet遙感影像反演DOC質(zhì)量濃度,得到天德湖DOC質(zhì)量濃度的空間分布圖,總體反演結(jié)果與實測情況對比分析,匹配度良好,結(jié)果如圖5所示。

      由圖5可以看出,天德湖水域的DOC質(zhì)量濃度集中在4.0~8.0 mg/L之間,總體分布大致呈現(xiàn)西高東低,湖泊中部低于沿岸,且隨離岸距離增加而降低的空間特征。其中東北方向入水口DOC質(zhì)量濃度較低,這一區(qū)域水體流動性大,DOC質(zhì)量濃度受來水的影響較大,且水面沒有漂浮物和浮萍等水生植物,產(chǎn)生的內(nèi)源有機碳較少。北部束窄口DOC質(zhì)量濃度處于高位,結(jié)合調(diào)查發(fā)現(xiàn),該處水面有較多浮游植物,且湖心島此處地勢低,排水相對較多,受陸源輸入影響。水體生物產(chǎn)生的內(nèi)源有機碳、土壤侵蝕等陸源碳輸入是造成湖泊有機碳質(zhì)量濃度差異的關(guān)鍵因素,對碳來源進行分析有利于進一步發(fā)掘DOC的分布特征。

      圖5 天德湖水域DOC質(zhì)量濃度空間分布Figure 5 Spatial distribution of DOC concentration in Tiande lake waters

      4 結(jié)論

      為解決統(tǒng)計回歸反演模型擬合度低的問題,本研究基于遙感反射率和實測水質(zhì)數(shù)據(jù),構(gòu)建了BP神經(jīng)網(wǎng)絡(luò)、支持向量機和貝葉斯優(yōu)化隨機森林BO-RF等多個機器學(xué)習(xí)模型,通過實驗得出BO-RF模型效果最好,將實驗結(jié)果應(yīng)用于Planet衛(wèi)星影像反演鄭州天德湖DOC質(zhì)量濃度。主要結(jié)論如下:

      (1)通過對Planet影像各波段及波段組合進行相關(guān)性分析,得出綠波段B2與近紅外波段B4的波段組合B2/B4的遙感反射率與天德湖水域的DOC水質(zhì)數(shù)據(jù)相關(guān)性最高。

      (2)引入貝葉斯優(yōu)化對隨機森林RF模型進行優(yōu)化,解決了局部最優(yōu)的問題,模型的反演精度高于其他模型。將BO-RF模型應(yīng)用于Planet衛(wèi)星數(shù)據(jù)反演DOC質(zhì)量濃度,效果良好,表明利用貝葉斯優(yōu)化隨機森林的優(yōu)越性,同時也說明了基于實測數(shù)據(jù)和衛(wèi)星影像數(shù)據(jù)的水質(zhì)參數(shù)反演方法具有良好的應(yīng)用前景和推廣價值。

      (3)從反演的DOC質(zhì)量濃度分布情況來看,整體效果良好,其中東北部入水口濃度較低,湖中心向周圍濃度逐漸升高,符合湖泊水質(zhì)的分布特點,也體現(xiàn)了反演結(jié)果與實際情況的符合程度。

      此外,雖然BO-RF模型在天德湖區(qū)域性能良好,但影響城市水體DOC質(zhì)量濃度的因素復(fù)雜多樣,今后將結(jié)合水體固有光學(xué)量、表觀光學(xué)量和其他水質(zhì)組分的影響,進一步探討水體DOC的光學(xué)遙感機理,提高反演精度。

      猜你喜歡
      貝葉斯波段反演
      春日暖陽
      反演對稱變換在解決平面幾何問題中的應(yīng)用
      基于低頻軟約束的疊前AVA稀疏層反演
      基于自適應(yīng)遺傳算法的CSAMT一維反演
      貝葉斯公式及其應(yīng)用
      M87的多波段輻射過程及其能譜擬合
      基于貝葉斯估計的軌道占用識別方法
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      日常維護對L 波段雷達的重要性
      西藏科技(2015年4期)2015-09-26 12:12:58
      疊前同步反演在港中油田的應(yīng)用
      蓝山县| 积石山| 林周县| 阳原县| 永福县| 新乡市| 额尔古纳市| 深泽县| 剑川县| 大田县| 汉川市| 福鼎市| 铜川市| 新巴尔虎右旗| 霞浦县| 集贤县| 项城市| 黄浦区| 永善县| 托克逊县| 卢湾区| 赞皇县| 克拉玛依市| 洞头县| 渝北区| 雅安市| 镇远县| 晋宁县| 揭东县| 万宁市| 广饶县| 马边| 南丰县| 高唐县| 四会市| 麻栗坡县| 海门市| 石景山区| 兴隆县| 拜城县| 新郑市|