• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于卷積降噪自編碼器的蘋果樹種鑒別模型研究

      2022-05-27 04:42:04羅佳杰王寶張馨嫣蔡耀儀吳浩粼陽波
      計算機時代 2022年5期
      關(guān)鍵詞:近紅外光譜可見

      羅佳杰 王寶  張馨嫣 蔡耀儀 吳浩粼 陽波

      摘? 要: 結(jié)合卷積降噪自編碼器與隨機森林算法,提出一種新型的卷積降噪自編碼器-隨機森林(CDAE-RF)模型,并基于可見-近紅外光譜數(shù)據(jù)集來識別蘋果樹種。首先,通過網(wǎng)格式搜索、平行實驗的方法優(yōu)化了L1范數(shù)等參數(shù),提高了模型的魯棒性;然后,對比實驗分析了CDAE-RF、主成分分析-隨機森林模型(PCA-RF)、K最近鄰分類算法等方法在不同噪聲水平下光譜識別的準確性和魯棒性。實驗結(jié)果表明,相對于傳統(tǒng)算法,新提出的CDAE-RF模型識別準確率達97.92%,在加噪情況下具有更高的魯棒性。CDAE-RF模型降低了隨機森林算法對噪聲的敏感性,提高了噪聲光譜圖像識別的準確性,為地物波譜識別提供了一種新的方法。

      關(guān)鍵詞: 可見-近紅外光譜; 蘋果果樹品種鑒別; 卷積降噪自編碼器; 隨機森林算法

      中圖分類號:TP391.4? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2022)05-01-05

      A study on identification model of apple tree varieties based on

      convolutional denoising autoencoder

      Luo Jiajie Wang Bao Zhang Xinyan Cai Yaoyi Wu Haolin ?Yang Bo

      Abstract: Combining the convolutional denoising autoencoder and random forest algorithm, a new convolutional denoising autoencoder-random forest (CDAE-RF) model is proposed to identify apple varieties based on the VIS-NIR spectrum data. Firstly, the L1 norm and other parameters are optimized through grid search or parallel experiments in order to improve the robustness of the model; then, under different noise level, the accuracy and robustness of the proposed CDAE-RF model, principal component analysis-random forest model (PCA-RF) and K-nearest neighbor classification algorithm are analyzed by comparative experiments. Experimental results show that compared with traditional algorithm, the accuracy of the proposed CDAE-RF model is as high as 97.92%, and has higher robustness when noise increases. The CDAE-RF model reduces the sensitivity of random forests algorithm to noise, improves the accuracy of noise spectral identification, and provides a new method for feature spectral identification.

      Key words: VIS-NIR spectrum; identification of apple tree varieties; convolutional denoising autoencoder; random forest algorithm

      引言

      在農(nóng)業(yè)管理和資源勘探等活動中,常常需要使用遙感技術(shù)對蘋果樹種進行識別。例如,李子藝[1]運用地物波譜儀采集到的可見-近紅外光譜數(shù)據(jù)結(jié)合遙感研究了對南疆蘋果和梨等常見果樹蘋果進行分類,檀博軒[2]研究了運用遙感影像對阿克蘇地區(qū)果樹果林進行面積測算,姬興輝[3]使用遙感技術(shù)研究了贛南油茶種植區(qū)域適宜性。他們的研究重點是光譜成像技術(shù),沒有對光譜分析技術(shù)做系統(tǒng)研究,其算法簡單,魯棒性差。

      將隨機森林算法與降噪自編碼器結(jié)合起來,可成為改善光譜分析魯棒性的一種方法。自編碼器是一種基于神經(jīng)網(wǎng)絡的無監(jiān)督學習模型,具有良好的非線性特征提取能力[4]。隨機森林是一種基于集成學習,包含多個決策樹的機器學習分類器,其對特征值的縮放和各種變換具有更穩(wěn)定的表現(xiàn),對無關(guān)特征是魯棒的[5]。鄭淋文[6]等人將深度稀疏自編碼器結(jié)合支持向量機用于ECG特征提取;宋輝[6]等人將卷積降噪自編碼器用于地震數(shù)據(jù)去噪,優(yōu)化模型魯棒性;武崢[7]等人證明了將稀疏降噪自編碼器用于特征提取結(jié)合隨機森林算法能夠進一步提高隨機森林算法的分類性能。

      為了提高地物波譜識別模型的準確率和魯棒性,本文改進了原有的經(jīng)典自編碼器,設計出一種卷積降噪自編碼器,并與隨機森林算法結(jié)合提出了一種基于可見-近紅外光譜(地物波譜)的蘋果果樹種分類模型。本文可分為兩大部分,即改進模型的設計與實驗驗證部分。實驗驗證部分主要是進行了模型優(yōu)化和模型評價。首先,將數(shù)據(jù)分別進行五種常見的光譜預處理,并采用CDAE-RF模型進行訓練,選出了準確率最高的光譜處理方式;然后,通過網(wǎng)格式參數(shù)搜索,平行實驗的方式優(yōu)化了CDAE-RF模型;最后,將不同強度的噪聲引入數(shù)據(jù)集,用CDAE-RF模型對其進行訓練,并與傳統(tǒng)的卷積自編碼器、PCA-RF模型、K最近鄰分類算法、支持向量機和隨機森林算法進行對比,得出CDAE-RF模型特征提取性能好,魯棒性強的結(jié)論。

      1 算法設計

      1.1 卷積降噪自編碼器

      傳統(tǒng)的自編碼器采用密集連接的人工神經(jīng)網(wǎng)絡來進行特征提取。為了能高效提取序列信息,本文使用了改進的自編碼器做特征提取。采用深度可分離卷積[8]提取特征,相較于普通的一維卷積,能反映空間軸與軸之間的特征信息,更好地提取序列特征;引入批處理標準化層[9],可以很好的解決梯度消失或梯度爆炸問題,使訓練能夠更好的收斂;采用堆棧式自編碼器[10]結(jié)構(gòu),使提取的特征表達能力更強。借鑒降噪自編碼器[11]的設計思想,在每一個深度可分離一維卷積模塊的末尾加入了Dropout[12]層,降低缺失值等異常數(shù)據(jù)對其的影響;在訓練過程中引入一定范圍的高斯噪聲,降低模型對噪聲的敏感性。

      本文提出的CDAE-RF模型由卷積降噪自編碼器與隨機森林算法構(gòu)成,數(shù)據(jù)首先經(jīng)過卷積降噪自編碼器進行特征提取,從2151維降到231維。然后將特征數(shù)據(jù)輸入隨機森林算法進行分類處理。其中卷積降噪自編碼器部分(以下簡稱CDAE)結(jié)構(gòu)如圖1所示。

      CDAE由編碼器網(wǎng)絡和解碼器網(wǎng)絡組成。編碼器網(wǎng)絡由兩個深度可分離卷積(Depthwise separable convolution)模塊組成,接受形狀為(batchsize,2151,1)的三維張量作為輸入。每個深度可分離卷積模塊有4層。首先,數(shù)據(jù)經(jīng)過采用tanh函數(shù)作為激活函數(shù),使用0.0001的L1范數(shù)進行正則化的一維深度可分離卷積層進行數(shù)據(jù)蒸餾,同時填充到輸入數(shù)據(jù)大小;然后,經(jīng)過批處理標準化層進行批處理標準化(Batch Normalization);其次,進入最大池化層進行三倍下采樣操作;最后,在訓練過程中隨機斷開25%的與下一卷積層的連接。按照數(shù)據(jù)處理的順序,兩個模塊的過濾器個數(shù)和卷積窗口大小分別是32,5和64,5。從數(shù)據(jù)輸入,到兩個卷積模塊數(shù)據(jù)處理結(jié)束,數(shù)據(jù)維度呈2151-717-239變化,深度加深到64層。

      在編碼器完成編碼之后,中間由一個一維卷積層對數(shù)據(jù)深度進行降維,最后得到(batchsize,239,1)的中間隱層數(shù)據(jù),完成降維操作,隨后數(shù)據(jù)接入解碼器。解碼器和編碼器的結(jié)構(gòu)基本對稱,每個模塊中只是最大池化層換為了上采樣層,對數(shù)據(jù)進行兩次三倍上采樣,數(shù)據(jù)維度由239-717-2151變化,最后連接一個一維卷積層將深度降到1,獲得與輸入數(shù)據(jù)維度大小相同的輸出數(shù)據(jù)。通過定義合適的誤差函數(shù),使數(shù)據(jù)經(jīng)過CDAE網(wǎng)絡前后信息損失最小,而其中的編碼器尾部輸出的壓縮數(shù)據(jù)則包含了濃縮后數(shù)據(jù)的豐富特征。

      1.2 算法流程

      本文提出的CDAE-RF模型由卷積降噪自編碼器與隨機森林算法構(gòu)成。類比經(jīng)典的降維+機器學習模型的結(jié)構(gòu),CDAE可以理解成一種改進的數(shù)據(jù)降維方式。數(shù)據(jù)首先經(jīng)過卷積降噪自編碼器進行特征提取,從2151維降到231維,然后將特征數(shù)據(jù)輸入隨機森林算法進行分類處理。具體步驟如下。

      步驟一 對輸入的光譜數(shù)據(jù)進行數(shù)據(jù)預處理,盡量消除基線漂移等情況。以預處理后的數(shù)據(jù)作為訓練集。

      步驟二 訓練卷積降噪自編碼器網(wǎng)絡,實現(xiàn)一個近似恒等的映射,使得輸入輸出數(shù)據(jù)之間的差別盡可能小,此時神經(jīng)網(wǎng)絡中保留了盡可能多的關(guān)于數(shù)據(jù)的信息。

      步驟三 凍結(jié)編碼器權(quán)重,讓訓練數(shù)據(jù)通過編碼器從2151維降到231維。

      步驟四 將編碼器處理后的數(shù)據(jù)輸入隨機森林進行訓練。至此,CDAE-RF模型訓練完畢。

      步驟五 對于測試數(shù)據(jù),依次經(jīng)過數(shù)據(jù)預處理,訓練好凍結(jié)權(quán)重的編碼器,隨機森林得到最終結(jié)果。

      2 實驗方法

      2.1 數(shù)據(jù)集

      本次實驗采用中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所于2015年采集的“蘋果品種標準葉片圖像和光譜數(shù)據(jù)集”[13](以下簡稱數(shù)據(jù)集)。數(shù)據(jù)集的采集地點是隸屬中國農(nóng)業(yè)科學院果樹研究所的果樹種質(zhì)資源圃,共采集了174種蘋果品種的葉片數(shù)據(jù),能夠代表國內(nèi)種植蘋果的絕大多數(shù)品種。

      數(shù)據(jù)集由蘋果葉片的圖像數(shù)據(jù)和可見-近紅外光譜數(shù)據(jù)兩部分數(shù)據(jù)組成,本次實驗采用其可見-近紅外光譜數(shù)據(jù)進行研究。其可見-近紅外光譜數(shù)據(jù)的采集儀器是美國ASD公司生產(chǎn)的ASD FieldSpec3系列地物波譜儀。原始數(shù)據(jù)經(jīng)其配套軟件粗處理導出后,每個樣本共有350nm~2500nm波段的2151個透射率數(shù)據(jù)。

      通常,受光程差異、漫反射和光散射、樣本顆粒的大小等噪聲信息的影響,采集的光譜往往會有一定的基線漂移和傾斜等,需要進行矯正。在數(shù)據(jù)使用前,依次進行Savitzky-Golay卷積平滑與最大最小歸一化兩種數(shù)據(jù)預處理[14]。

      2.2 模型調(diào)參

      模型調(diào)參包括CDAE模型調(diào)參與隨機森林調(diào)參兩個部分。

      首先是CDAE模型的調(diào)參。L1懲罰項系數(shù)以及神經(jīng)網(wǎng)絡層與層之間連接隨機斷開的概率(即Dropout比率)是CDAE-RF模型的重要參數(shù)。它們相互影響,共同控制著模型的容差能力和魯棒性,但是與模型的容差能力和魯棒性之間又非簡單線性關(guān)系。為優(yōu)化模型,在L1懲罰項系數(shù)1e-5~0.1,dropout比率為0~0.5的范圍內(nèi),以網(wǎng)格參數(shù)搜索的方法確定最佳參數(shù)。

      然后是隨機森林模型的調(diào)參。在隨機森林算法中,子樹數(shù)量的多少將影響模型的計算復雜度及準確率。顯然,隨著子樹數(shù)量的增加,隨機森林算法的分類性能也隨之提高。 但增加到一定程度后,會趨于穩(wěn)定。 在性能相差不大的情況下,應該用盡可能少的子樹,因為子樹越多,算法運行的時間就越長,模型的泛化能力也會有所降低。為了確定CDAE-RF模型最佳的子樹個數(shù),取子樹為1~100,其他參數(shù)相同的CDAE-RF模型進行對比測試,確定最佳子樹數(shù)量。

      2.3 模型評估

      為了比較CDAE-RF模型及其他模型的特征提取能力及進行分類的準確率,選取CAE-RF,PCA-RF,隨機森林算法,支持向量機和K最近鄰分類算法與之進行對比。其中CAE-RF即卷積自編碼器-隨機森林模型,其結(jié)構(gòu)與CDAE-RF類似,不同之處在于其前端特征提取結(jié)構(gòu)為卷積自編碼器。卷積自編碼器是在卷積降噪自編碼器的基礎上去掉Dropout層和設計公式中L1范數(shù)懲罰項的自編碼器,相比CDAE模型結(jié)構(gòu)更簡單。以此類推,PCA-RF模型即將主成分分析作為前端特征提取。其結(jié)構(gòu)也與CDAE-RF模型類似,不同之處在于將主成分分析用于特征提取后,再將數(shù)據(jù)輸入隨機森林算法。CAE-RF,CDAE-RF,PCA-RF,隨機森林算法四者相互對比,可以探究CDAE作為前端特征提取的能力;CDAE-RF,隨機森林算法,支持向量機和K最近鄰分類算法四者相互對比,可以探究CDAE-RF相對于傳統(tǒng)機器學習模型進行學習的能力。在模型的評價指標上,由于該數(shù)據(jù)集為一個平衡的數(shù)據(jù)集,每一類的數(shù)據(jù)相差不大。因此,準確率(Accuracy)即衡量的正確分類的比例將被用于模型的對比評價。

      2.4 魯棒性測試

      在實際光譜的測量時,經(jīng)常會有大量的噪聲干擾,而隨機森林算法對噪聲非常敏感。為了降低隨機森林算法對輸入數(shù)據(jù)噪聲的敏感性,可以在數(shù)據(jù)輸入隨機森林分類器前加上卷積降噪自編碼器先對數(shù)據(jù)進行降噪和降維處理。為了探究CDAE-RF模型在不同噪聲條件下的魯棒性,先給數(shù)據(jù)分別加上40db,35db,30db,25db,20db,15db,10db,7db,5db的高斯分布的白噪聲,然后在加噪的情況下,與隨機森林算法、PCA-RF模型和CAE-RF模型三個類似模型進行對比。通過隨機森林算法、PCA-RF模型、CAE-RF模型與CDAE-RF模型的對比,可以探究在加噪情況下卷積降噪自編碼器和其他幾種經(jīng)典特征提取方法在降低隨機森林敏感性的效果。

      3 結(jié)果與討論

      3.1 模型調(diào)參

      為了確定CDAE模型L1范數(shù)和Dropout比率的最佳參數(shù),采用網(wǎng)格式搜索的方式在Dropout率為0-40%,L1范數(shù)為1e-5~0.1的范圍內(nèi)進行模型優(yōu)化,相關(guān)結(jié)果可見圖2。其中橫坐標表示L1的值,縱坐標表示Dropout的值,黑點表示數(shù)據(jù)點,顏色表示準確率。顏色越白,準確率越高。當L1范數(shù)為0.003,Dropout比率為30%時,模型準確率最高,確定其為最佳參數(shù)。

      為了確定最佳的子樹個數(shù),設計99個子實驗,選取隨機森林子樹個數(shù)從1到100的不同CDAE-RF模型進行對比,在相同光譜數(shù)據(jù)集上訓練并測試,相關(guān)結(jié)果可見圖3。用光滑的曲線擬合實驗所得準確率數(shù)據(jù),圖3中實心點為實際準確率數(shù)據(jù),虛線為擬合的趨勢線。當子樹數(shù)量為29時,曲線趨于與x軸平直,認為此時模型性能隨著子樹數(shù)量增多而無顯著變化,確定最佳子樹數(shù)量為29。

      3.2 模型評估

      為了比較CDAE-RF模型及其他模型的特征提取能力及進行分類的準確率,在同一光譜數(shù)據(jù)集上訓練并測試,相關(guān)實驗結(jié)果可見圖4。對比CAE-RF,CDAE-RF,PCA-RF和隨機森林算法四種模型的準確率,自編碼器類模型(即CDAE-RF和CAE-RF)明顯好于其他模型,能夠有效濃縮數(shù)據(jù)集中的數(shù)據(jù)特征。PCA-RF模型沒有能有效的提取特征,還對數(shù)據(jù)特征造成了損傷,其準確率低于隨機森林算法。引入L1范數(shù)及Dropout層的CDAE-RF模型提取特征能力優(yōu)于普通的CAE-RF模型,準確率最佳。對比CDAE-RF,隨機森林算法,支持向量機和K最近鄰分類算法四種模型的準確率,隨機森林算法在2151維的高維度地物波譜數(shù)據(jù)上,相較于支持向量機和K最近鄰分類算法準確率更高。在數(shù)據(jù)特征進一步濃縮之后,CDAE-RF模型的準確率要比隨機森林算法更高。

      3.3 魯棒性測試

      在加噪情況下對比卷積降噪自編碼器和其他幾種經(jīng)典特征提取方法在降低隨機森林敏感性方面的效果,相關(guān)結(jié)果可見圖5。在無噪聲加入的情況下,隨機森林算法、PCA-RF模型、CAE-RF模型與CDAE-RF模型初始準確率都相差不大,但是在噪聲加入后,其魯棒性各不相同。隨機森林模型對噪聲非常敏感,在噪聲下下降速度最快。傳統(tǒng)的主成分分析只能實現(xiàn)降維,不能抗噪,隨著噪聲強度的增強,準確率同隨機森林一樣下降速度很快。引入L1范數(shù)及Dropout層,經(jīng)過抗噪設計的CDAE-RF模型比普通的CAE-RF模型具有更好的魯棒性,在不同噪聲下準確率始終比其高3%-5%。實驗結(jié)果表明,CDAE-RF模型明顯有著更高的魯棒性,在隨機森林前加入卷積降噪自編碼器能夠顯著降低隨機森林對噪聲的敏感性。

      4 結(jié)束語

      本文將卷積降噪自編碼器引入光譜分析中,結(jié)合隨機森林提出了一種CADE-RF模型用于地物波譜分類,實現(xiàn)了蘋果果樹樹種識別。研究結(jié)果表明,該模型具有優(yōu)秀的特征提取能力,能夠有效濃縮數(shù)據(jù)集中的數(shù)據(jù)特征,提取非線性特征,相較于卷積自編碼器-隨機森林模型,主成分分析-隨機森林模型和隨機森林算法具有更佳的性能;具有更強的學習能力,相較于隨機森林算法,支持向量機和K最近鄰分類算法準確率更高;具有更好的魯棒性,能夠使抑制輸入的數(shù)據(jù)在各個方向上的擾動,降低隨機森林模型對噪聲的敏感性。CDAE-RF模型提高了對噪聲光譜圖像識別的準確性,為地物波譜識別提供了一種新的方法,同時也為降低隨機森林算法對噪聲的敏感性提供了一種思路。

      參考文獻(References):

      [1] 李子藝.基于冠層光譜數(shù)據(jù)的南疆盆地主栽果樹樹種遙感

      分類研究[D].新疆農(nóng)業(yè)大學,2015

      [2] 檀博軒.基于遙感影像的阿克蘇地區(qū)林果種植面積測算

      方法研究與實現(xiàn)[D].塔里木大學,2020

      [3] 姬興輝.基于遙感的贛南油茶種植區(qū)域適宜性評價研究[D].

      江西理工大學,2015

      [4] Friedman J, Hastie T, Tibshirani R. The elements of

      statistical learning[M]. New York: Springer series in statistics,2001

      [5] 鄭淋文,周金治,黃靜.深度稀疏自編碼器在ECG特征提取中的

      應用[J].計算機工程與應用,2021:1-13

      [6] 宋輝,高洋,陳偉,張翔.基于卷積降噪自編碼器的地震數(shù)據(jù)

      去噪[J].石油地球物理勘探,2020,55(6):1210-1219,1160-1161

      [7] 武崢,丁沖,景英川.基于稀疏降噪自編碼器的隨機森林模型[J].

      統(tǒng)計與信息論壇,2019,34(8):27-33

      [8] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the

      inception architecture for computer vision[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2016:2818-2826

      [9] Ioffe S, Szegedy C. Batch normalization: Accelerating deep

      network training by reducing internal covariate shift[C]//International conference on machine learning. PMLR,2015:448-456

      [10] Zabalza J, Ren J, Zheng J, et al. Novel segmented stacked

      autoencoder for effective dimensionality reduction and feature extraction in hyperspectral imaging[J].Neurocomputing,2016,185:1-10

      [11] Vincent P, Larochelle H, Lajoie I, et al. Stacked

      denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. Journal of machine learning research,2010,11(12)

      [12] Baldi P, Sadowski P J. Understanding dropout[J].

      Advances in neural information processing systems,2013,26:2814-2822

      [13] 夏雪,李壯,吳定峰,等.蘋果品種標準葉片圖像和光譜數(shù)據(jù)

      集[J].中國科學數(shù)據(jù)(中英文網(wǎng)絡版),2016(1):43-48

      [14] 第五鵬瑤,卞?;郏踝朔?,等.光譜預處理方法選擇研究[J].

      光譜學與光譜分析,2019,39(9):2800-2806

      收稿日期:2021-10-20

      基金項目:國家自然科學基金青年基金(No.61903138); 湖南省自然科學基金青年基金(No.2020JJ5366); 湖南省大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目(No.S202010542084)

      作者簡介:羅佳杰(2001-),男,湖南衡陽人,本科生,主要研究方向:機器學習,人工智能。

      通訊作者:陽波(1976-),男,湖南婁底人,博士,教授,主要研究方向:傳感器、機器人、人工智能。

      猜你喜歡
      近紅外光譜可見
      讓數(shù)學教與學可見的發(fā)生
      基于便攜式光譜儀的水產(chǎn)品孔雀石綠殘留檢測模擬實驗研究
      內(nèi)置可見核心屬性 培育學生核心素養(yǎng)
      讓“數(shù)學思想”的種子在學生的心田生根發(fā)芽
      基于近紅外光譜法的藜麥脂肪含量快速檢測
      洛伐他汀膠囊近紅外一致性檢驗模型的建立
      小麥子粒粗蛋白FT—NIRS分析模型建立的初步研究
      近紅外光譜分析技術(shù)快速檢測冰溫貯藏牛肉品質(zhì)
      肉類研究(2015年3期)2015-06-16 12:41:35
      利用油水穩(wěn)定化和支持向量回歸增強近紅外光譜測定油中水分的方法
      分析化學(2014年9期)2014-09-26 21:32:38
      基于一元線性回歸的近紅外光譜模型傳遞研究
      分析化學(2014年9期)2014-09-26 09:21:01
      吉林市| 晋州市| 浮山县| 霞浦县| 抚顺县| 城口县| 崇阳县| 雷波县| 吴忠市| 林甸县| 泽州县| 岳阳县| 全南县| 茂名市| 海门市| 诸城市| 遵化市| 曲阜市| 宝丰县| 常山县| 东安县| 调兵山市| 博乐市| 天气| 辽源市| 洛阳市| 屏东市| 江城| 开封市| 青铜峡市| 延津县| 深水埗区| 屯留县| 泰顺县| 太谷县| 维西| 上饶县| 清苑县| 会宁县| 平山县| 巴南区|