• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于隨機森林和支持向量機的森林健康情況分析

      2023-01-14 09:52:10岳麗婭鄧潔瑩梁霄
      計算機應用文摘·觸控 2023年1期
      關鍵詞:隨機森林支持向量機數據挖掘

      岳麗婭 鄧潔瑩 梁霄

      關鍵詞:數據挖掘;患病樹木檢測;隨機森林;支持向量機

      1引言

      如今,林木健康問題已得到社會各界前所未有的關注,而中國傳統(tǒng)的樣地檢測和受控實驗等方法需要耗費大量人力物力,且得出具體結論所需時間往往較長,使林業(yè)健康檢測喪失時效性。故傳統(tǒng)手段具有一定局限性。而遙感是避免接觸,目標距離較遠的一種探測技術,其能夠為研究人員提供更高緯度的視野,可以有效收集并且處理復雜時空維度下的海量信息。本項目基于高分辨率遙感數據,結合統(tǒng)計學相關理論知識以及新興的數據挖掘技術,對健康樹木和患病樹木的遙感圖像數據進行分析研究和區(qū)別分類,旨在實現樹木患病的檢測與預防,且有效提升森林蟲害防治的研究效率[1]。

      2研究意義

      理論意義:引人數據挖掘技術,豐富森林健康管理研究方法。

      目前,關于林木健康的研究雖已取得豐碩成果,但森林健康相關的數據挖掘作為現實問題研究還較少。因此,本項目引入數據挖掘技術,構建科學有效的模型和算法,從而豐富森林健康管理的研究方法,為其提供一種新的研究視角。

      現實意義:為相關部門對樹木健康的檢測監(jiān)控提供參考。

      基于高分辨率遙感數據,利用統(tǒng)計學相關理論知識以及數據挖掘技術,對健康樹木和患病樹木的遙感圖像數據進行分析研究和區(qū)別分類,在對森林健康的保護方面有著極其重要的現實意義。

      3數據導入與預處理

      3.1數據集加載

      本文所使用的原數來源于機器學習的加州大學數據庫UCI,本文使用的則是其中一組病樹研究數據。該數據集是來自Johnson等遙感研究的一些訓練和測試數據的集合。該數據集由Quickbird衛(wèi)星遙感圖像分割組成,這些分割是通過分割全銳化圖像生成的,這些數據中含有快鳥衛(wèi)星遙感數據中的紋理信息以及數據的光譜信息,其數據屬性信息如表1所列。

      該數據集來自Quickbird衛(wèi)星遙感圖像。數據集中的原數據為計算過后的R,G和NIR波段的平均光譜值以及兩個常用的紋理度量,標準差和灰度共生矩陣(GLCM)表示所有方向上的信息。而B波段再次被排除在分析外,因為它與綠色波段中信息高度相關,而全色波段被用作兩種紋理計算,因為它包含最詳細的空間信息。實驗區(qū)域為約為3.0kmx2.5km,主要由落葉闊葉林和常綠針葉林組成,有較小面積的砍伐林、住宅和農業(yè)用地。又因為這個位置有許多患病的松樹和一些其他樹種,而且該地區(qū)有許多其他類型的土地利用和土地覆蓋,從而有利于我們實驗的對比分析。

      3.2本文進行的數據預處理

      數據處理指的是在提取數據、模型、研究和分析原始數據集的其他活動前需要進行的一些處理過程。我們獲得的數據源一般都是不適合用來挖掘的。所以需要通過數據預處理使數據集變成進行數據挖掘合適的數據[2]。

      原數據集劃分為95%的訓練集以及5%測試集,按照習慣總數據集將按照比例6:2:2劃分為三類,分別是訓練集、測試集、驗證集。但在一些情況下,驗證集并不是必要的,所以本文將原數據集合并后按照比例劃分為75%的訓練集以及25%測試集,用于病樹檢測模型的擬合和評估檢測。

      4病樹檢測模型的建立與求解

      4.1隨機森林分類方法

      4.1.1隨機森林基本原理

      隨機森林是用于回歸與分類的一種主流集成學習方法,也是一種常見的機器學習模型。它的實質是建立在決策樹基礎上的分類器集成算法,屬于Bagging類型[3]。隨機森林中單棵樹的信息增益率公式如下:

      4.1.2基于隨機森林的病樹分類

      首先,對數據集進行一下處理,將類別變量轉換為因子型,以便接下來的分類建模工作。然后,查看自變量的重要性程度。如圖1所示。

      兩種測算方式下分別代表換掉變量后準確率的降低程度和換掉變量后信息增益率的降低程度。而這兩個的數值大小,決定了變量的重要性,值越大,則表示變量越重要[4]。從圖2可以看出,Mean_Red對分類結果影響最大,是所有變量中對分類問題最重要的變量。

      在使用函數randimForest()時,函數會存在默認mtry(單棵樹的特征數量)與ntree(森林中樹的棵數)。但是,現實中這個默認值一般情況下都不是分類效果最好的,所以我們在構建模型時,應該想辦法去確定最優(yōu)的參數值。

      基于逐一增加變量的方法,從輸出結果可以觀察到,當mtry為5時,模型的誤判率均值是最低的。

      在確定了最優(yōu)的mtry后,還需要進一步確定模型中的最優(yōu)ntree。在確定該參數時,我們將應用模型的可視化分析。在之前的分析中發(fā)現,mtry為5時模型最佳,所以接下來將建立相應的模型,并對其進行可視化分析。具體結果如圖3所示。

      從圖3可以得出,當ntree大概大于450后,模型誤差便會趨于穩(wěn)定,所以我們可以將模型中的ntree大致確定為450,以此來達到最優(yōu)模型。

      綜上,在建立模型時,本文嘗試了當mtry=5,ntree=500; mtry=5,ntree=450; mtry=3,ntree=450,三種不同情況下模型建立效果。發(fā)現這兩個參數對分類結果影響較小。這里展示其中效果最好的mtry=5,ntree=450時的模型結果。

      如表2所列,其中預測錯誤的僅有12個實例個數,而針對患病樹木檢測正確的卻有52個,正確率為99 .Ogo-/o,預測結果良好,適合作為病樹檢測分類的建模方法。接下來繪制用于評價模型優(yōu)劣的ROC曲線圖[5],如圖4所示,圖中的AUC值為0.946。

      其余兩個模型的AUC值為0.945和0.937,相對來說,模型效果區(qū)別并不大。

      4.2支持向量機分類方法

      4.2.1支持向量機基本原理

      支持向量機通常用來進行分類,回歸分析及模式識別。自支持向量機算法大概原理提出后,20世紀90年代Vapnik等的研究成果又使得該法快速發(fā)展。由于其較高的正確率已成為解決多維數據預測的一種較受歡迎的工具,支持向量機種類不同可解決不同類型的問題。其基本原理是將分類點正確區(qū)分,使分隔的距離最大化,可以轉化為凸二次規(guī)劃問題來求解[6]。

      4.2.2基于支持向量機的病樹分類

      在使用R語言對支持向量機算法建模的過程中,參數type是指建立模型的類別,它可以取的值有五種,分別為:C-classification,nu-classification,one-classification,eps-regression和nu-regression。其中,前3個針對的分類方式都是字符型結果變量,而且第3種方式同時還是邏輯判別:后兩種則是針對數量型結果變量的分類方式。故根據用途的差異,我們選擇type的取值為C-classification。

      為了選擇模型最優(yōu)的核函數,采用了逐一實驗不同核函數的建模效果的方法,并進行了比較結果,最后看預測結果最好的模型,它用什么核函數,我們就用它所使用的核函數。

      觀察各種分類方式的模型預測結果,所得齊次多項式核函數的建模正確率為0.9669,非齊次多項式核函數的建模正確率為0.9521,高斯核函數的建模正確率為0.9901,雙曲正切核函數的正確率為0.9083。由此,故選擇高斯核函數作為建模核函數。最終,我們將利用C-classification與高斯核函數結合的模型作為最優(yōu)模型。并根據該模型預測,得到混淆矩陣如表3所列。

      由表3可知,其中預測錯誤的僅有12個實例個數,而針對患病樹木檢測正確的卻有48個,正確率為99.01%,預測結果良好,十分適合作為病樹檢測分類的建模方法。接下來繪制用于評價模型優(yōu)劣的ROC曲線圖,結果如圖5所示,AUC值為0.913。

      5病樹檢測方法結果分析對比

      將本文所研究的兩種模型算法進行結果對比,繪制算法結果對比表如表4所列。

      由表4可以看出,兩種算法模型結果均較好,但隨機森林算法比支持向量機算法的結果更好一點,正確率和作為模型的評價標準的AUC值均是更優(yōu)秀的。

      猜你喜歡
      隨機森林支持向量機數據挖掘
      探討人工智能與數據挖掘發(fā)展趨勢
      基于并行計算的大數據挖掘在電網中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      隨機森林在棉蚜蟲害等級預測中的應用
      基于二次隨機森林的不平衡數據分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預報的隨機森林模型及應用
      動態(tài)場景中的視覺目標識別方法分析
      論提高裝備故障預測準確度的方法途徑
      價值工程(2016年32期)2016-12-20 20:36:43
      基于熵技術的公共事業(yè)費最優(yōu)組合預測
      價值工程(2016年29期)2016-11-14 00:13:35
      基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
      基于支持向量機的金融數據分析研究
      青铜峡市| 龙口市| 渭南市| 横山县| 犍为县| 尼玛县| 哈巴河县| 鹤山市| 盘锦市| 蒙山县| 虎林市| 香港 | 高碑店市| 蒙自县| 凤翔县| 屏山县| 高州市| 友谊县| 郧西县| 西和县| 沙湾县| 茌平县| 双峰县| 大名县| 临泉县| 隆安县| 普定县| 武夷山市| 吐鲁番市| 广饶县| 忻城县| 新晃| 故城县| 江源县| 五指山市| 武乡县| 绥江县| 夏河县| 扎赉特旗| 大名县| 海伦市|