朱淑鑫 楊宸 顧興健 張永春 艾玉春 徐煥良
摘要:為解決在土壤速效鉀含量的高光譜定量預(yù)測分析過程中,光譜數(shù)據(jù)維數(shù)高、冗余度較大等問題,提出了一種結(jié)合K均值算法(K-means)和連續(xù)投影算法(SPA)的高光譜特征波段選擇方法。該算法首先將全波段數(shù)據(jù)分別根據(jù)不同的距離度量進(jìn)行K-means聚類分析,之后對聚類后的每個波段簇分別使用SPA法提取其中的特征波段。對全波段組合、傳統(tǒng)SPA法提取的特征波段組合以及結(jié)合K-means聚類與SPA法提取的特征波段組合分別建立土壤速效鉀含量的BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,通過對比模型預(yù)測效果來比較特征波段選擇方法的性能。以鹽城市348份土壤樣品進(jìn)行試驗,結(jié)果表明,結(jié)合K均值算法與連續(xù)投影算法的特征波段選擇方法可以有效地解決光譜預(yù)測分析過程中的數(shù)據(jù)冗余問題,實現(xiàn)對土壤速效鉀含量快速精確預(yù)測分析。
關(guān)鍵詞:土壤;高光譜;連續(xù)投影法(SPA);K-means聚類分析法;BP神經(jīng)網(wǎng)絡(luò)模型
中圖分類號:S127文獻(xiàn)標(biāo)識碼:A文章編號:1000-4440(2020)02-0358-08
Abstract:In order to solve the problems of high dimensionality and redundancy of hyperspectral spectral data in hyperspectral quantitative prediction and analysis of soil available potassium content, a hyperspectral band selection method based on K-means algorithm and successive projection algorithm(SPA) was proposed. Firstly, the full-band data were clustered by K-means based on different distance measures, and then the characteristic bands were extracted by SPA method for each band cluster after clustering. BP neural network prediction models of soil available potassium content were established for full-band combination, combination of characteristic bands extracted by traditional SPA method and combination of characteristic bands extracted by K-means clustering and SPA, respectively. The performance of characteristic band selection methods was evaluated by comparing the prediction effects of the models. The 348 soil samples from Yancheng City were experimented. The characteristic band selection method based on K-means algorithm and successive projection algorithm can effectively solve the problem of data redundancy in the process of spectral prediction and analysis, and achieve the rapid and accurate prediction and analysis of soil available potassium content.
Key words:soil;hyper-spectrum;successive projection algorithm(SPA);K-means clustering analysis;BP neural network prediction models
土壤中速效鉀含量作為表征土壤中鉀元素供應(yīng)狀況的重要指標(biāo)之一,對農(nóng)作物的質(zhì)量和產(chǎn)量具有重要影響[1]。傳統(tǒng)的土壤速效鉀含量測定是在實驗室中通過化學(xué)方法完成的,操作復(fù)雜且耗時費力。高光譜遙感技術(shù)具有光譜分辨率極高、波段多等優(yōu)點[2],能夠獲得連續(xù)的光譜信息,可作為土壤速效鉀含量測定的一種有效技術(shù)方法,實現(xiàn)更為準(zhǔn)確的監(jiān)測或反演[3]。在實際運用光譜數(shù)據(jù)建立模型的過程中,光譜數(shù)據(jù)往往由于其維度過高、信息冗余度大等特點,而造成模型建立過程復(fù)雜度較高、耗時較長等問題。因此,應(yīng)當(dāng)選取適合的光譜特征波段提取方法來剔除光譜數(shù)據(jù)中的無效信息,簡化預(yù)測模型的建立。
目前國內(nèi)外學(xué)者研究光譜特征波段選取的主要方法有逐步回歸法、遺傳算法、無信息變量消除法、連續(xù)投影法等。連續(xù)投影法作為一種使矢量空間共線性最小化的前向變量選取算法,可有效去除眾多波段之間共線性影響,極大地減少數(shù)據(jù)量,有效地提高運算效率和模型精度,具有簡便、快速等優(yōu)點。劉明博等[3]通過對水稻葉片氮含量光譜檢測的研究,討論了使用連續(xù)投影算法選取有效波長的可行性。王武等[4]采用連續(xù)投影法對勾兌梨汁中原汁含量的近紅外光譜進(jìn)行了特征波段提取,并建立定量分析模型。陳定星[5]采用連續(xù)投影法對土壤有機(jī)質(zhì)NIR光譜數(shù)據(jù)進(jìn)行特征波段選擇,建立了土壤有機(jī)質(zhì)快速分析的回歸模型。但是傳統(tǒng)的連續(xù)投影算法往往由于選取初始波段的隨機(jī)性,造成所提取的特征波段可能為無效信息波段或仍舊攜帶較多冗余信息,大大降低了預(yù)測精度。針對這一問題,本研究采用K-means聚類算法和連續(xù)投影算法相結(jié)合的特征波段選擇方法,解決在土壤速效鉀含量高光譜定量預(yù)測過程中光譜數(shù)據(jù)冗余信息較多等問題,簡化預(yù)測模型的復(fù)雜度,提升預(yù)測精度。
1材料與方法
1.1土樣采集與制備
采集江蘇省鹽城市8個不同地區(qū)的348份土壤樣品。土壤樣品經(jīng)過風(fēng)干、碾磨及2 mm篩選處理后,分別進(jìn)行化學(xué)分析和光譜數(shù)據(jù)測定。土樣的化學(xué)分析在江蘇省農(nóng)業(yè)科學(xué)院化學(xué)實驗室中完成,348份土壤樣品速效鉀含量測定分析結(jié)果為:極大值504.00 mg/kg,極小值81.00 mg/kg,均值293.79 mg/kg,標(biāo)準(zhǔn)差89.71 mg/kg。對348份土壤樣品速效鉀含量的化學(xué)分析結(jié)果進(jìn)行分布統(tǒng)計,繪制對應(yīng)的分布直方圖(圖1)。
采用型號為ImspectorV10E的高光譜圖像采集系統(tǒng)測定土壤樣本的光譜數(shù)據(jù),該系統(tǒng)包括高感度EMCCD相機(jī)(RaptorEMCCD,鏡頭為f/1.4,17 mm)、150 W鹵素光源,配有暗箱、散熱風(fēng)扇、穿透及發(fā)射光源固定開關(guān)、20 cm×20 cm載物移動臺及裝有Spectral-Image取像軟件、HISAnalyzer分析軟件的聯(lián)想工作站。光譜波段測定范圍為400~1 000 nm,采樣間隔1.1 nm,共546個波段。在光譜數(shù)據(jù)獲取過程中,每一份土壤樣品選取5個50×50像素區(qū)域作為實際取樣點,取5個區(qū)域的平均值作為每份土樣的光譜點數(shù)據(jù),共得到348份有效土壤樣品光譜數(shù)據(jù)。
1.2K均值聚類算法
K均值聚類算法(K-means)是一種廣泛應(yīng)用于聚類問題的無監(jiān)督算法[6],它首先在變量矩陣中隨機(jī)選取K個變量作為初始聚類中心,然后通過迭代計算的過程確定其余每個變量與聚類中心的相似程度,根據(jù)相似度的大小將該對象分配給不同的聚類中心,形成不同的聚類簇。更新后的聚類簇以簇內(nèi)所有變量的平均值作為新的聚類中心,再次計算每個變量與新確定的聚類中心的相似度并進(jìn)行再次分配,重復(fù)此過程直到聚類中心不再發(fā)生變化或誤差平方和最小為止[7]。本研究K-means算法的實現(xiàn)流程為:(1)輸入348×546的光譜反射率矩陣,348為樣品數(shù)量,546為光譜波段數(shù)量;(2)從546個波段列向量中隨機(jī)選取k個波段作為起始聚類中心;(3)根據(jù)相似度衡量指標(biāo),依次計算其余波段向量與每個聚類中心的相似度,并根據(jù)相似度的大小將其分配給不同的聚類中心;(4)根據(jù)分配后的聚類簇計算每個簇內(nèi)的波段向量平均值作為新一輪的聚類中心;(5)重復(fù)第3、4步驟直到聚類中心收斂;(6)輸出k個聚類簇下的波段組合。
由K均值聚類算法原理可知,在分配列向量時,不同的相似度度量標(biāo)準(zhǔn)會得到不一樣的聚類結(jié)果。傳統(tǒng)的K-means算法通常采用歐式距離作為相似度度量標(biāo)準(zhǔn),對于光譜數(shù)據(jù)而言,由于波段之間的相關(guān)性影響,簡單地采用歐式距離作為相似度指標(biāo)很難得到最佳的聚類效果。本研究在傳統(tǒng)歐式距離標(biāo)準(zhǔn)的基礎(chǔ)上,采用加權(quán)歐式距離(Sqeuclidean)、絕對值距離(Cityblock)、余弦相似度(Cosine)和相關(guān)距離(Correlation)4種不同的相似度度量指標(biāo)分別進(jìn)行聚類,其計算公式[8]如下:
1.3連續(xù)投影算法
連續(xù)投影算法[9](Successive projections algorithm,SPA)是一種使矢量空間共線性最小化的前向變量選取算法,可有效去除眾多波段之間共線性影響,極大地減少數(shù)據(jù)量,有效提高運算效率和模型精度,縮減數(shù)據(jù)建模時間,具有簡便、快速等優(yōu)點。其算法基本原理[10-11]如下:首先以一個波段為起點,逐次循環(huán),計算它在其他未選入波段上的投影,并將投影向量最大時對應(yīng)的波段增加到選取的波段組合中,算法循環(huán)N次結(jié)束,N為需要提取的波長數(shù)量。這樣可以確保每個新選入的波段都與前一個具有最小的線性關(guān)系。SPA算法的具體流程如下:(1)初始化,n=1(第1次迭代),在光譜矩陣中任選一列向量;(2)集合S定義為未被選入波段組合的列向量,分別計算所選的列向量在S向量上的投影向量;(3)記錄最大投影的序號;(4)將最大投影序號對應(yīng)的向量作為下輪的投影向量;(5)n=n+1,如果n 1.4模型建立 在模型的建立過程中,如果僅使用1個樣本集,則會導(dǎo)致信息交叉,使得所建立的模型存在說服力不夠等問題。本研究采用Kennard-Stone法劃分建模集與驗證集[12]。Kennard-Stone法的基本原理是:通過計算樣本不同光譜數(shù)據(jù)間的差異性,將差異較大的劃分為建模集,剩余的樣本劃分為驗證集。這樣可以保證建模集中所有樣本的覆蓋范圍最廣,避免分布不均的問題,提高模型的穩(wěn)定性。將高光譜測得的348份樣品數(shù)據(jù)進(jìn)行Kennard-Stone法劃分,共得到278份建模集樣本,70份驗證集樣本。 對于劃分后的土壤高光譜反射率數(shù)據(jù),采用經(jīng)典的三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練最優(yōu)BP神經(jīng)網(wǎng)絡(luò)模型對土壤速效鉀含量進(jìn)行預(yù)測[13]。在MATLAB 2018b軟件中實現(xiàn),神經(jīng)網(wǎng)絡(luò)輸入層和隱藏層采用的激活函數(shù)為tansig函數(shù),設(shè)置10個隱藏層神經(jīng)元,輸出層的激活函數(shù)采用purelin函數(shù),學(xué)習(xí)率設(shè)定為0.01,誤差設(shè)定為0.001。 2結(jié)果與分析 2.1原始土壤光譜數(shù)據(jù)預(yù)處理 測得的348份原始土壤光譜數(shù)據(jù)如圖2所示。由于測量過程中,高光譜儀受到自身構(gòu)造、環(huán)境因素、人為因素、電子干擾及樣品顆粒大小不同等因素的影響,導(dǎo)致獲得的光譜數(shù)據(jù)存在大量噪聲、基線偏移等不穩(wěn)定現(xiàn)象。因此,對光譜數(shù)據(jù)進(jìn)行預(yù)處理,消除光譜中的噪聲影響。采用9點Savitzky-Golay(SG)卷積平滑法[14]對光譜數(shù)據(jù)進(jìn)行平滑預(yù)處理,平滑處理后的光譜曲線如圖3所示。 2.2預(yù)處理后的光譜數(shù)據(jù)K-means算法聚類 對預(yù)處理后的光譜數(shù)據(jù)進(jìn)行K-means聚類。為研究不同聚類相似度對聚類效果的影響,根據(jù)波段向量數(shù)量,結(jié)合文獻(xiàn)[15]中的手肘法確定聚類k值為5,將原始復(fù)雜度較高的光譜數(shù)據(jù)分為5個聚類簇,每個簇內(nèi)的波段列向量間有較高的相似度。分別采用加權(quán)歐式距離、絕對值距離、余弦相似度和相關(guān)距離作為相似度度量指標(biāo),對預(yù)處理后的光譜數(shù)據(jù)進(jìn)行聚類分析,結(jié)果如表1所示。其中基于加權(quán)歐式距離、絕對值距離、余弦相似度和相關(guān)距離這4種度量指標(biāo)下的K-means聚類分別簡稱為Sqe-kmeans、Cit-kmeans、Cos-kmeans和Cor-kmeans。 2.3基于連續(xù)投影算法的波段選擇 聚類后的光譜數(shù)據(jù)每個簇內(nèi)都由若干個相似度較高的波段組成,此時,對每個簇分別進(jìn)行連續(xù)投影算法選取簇內(nèi)最優(yōu)波段組合,對波段進(jìn)行進(jìn)一步優(yōu)選。在使用連續(xù)投影算法選擇特征波長時,一般認(rèn)為特征波長選取應(yīng)為5~10個為佳,這樣既能使特征波段反映整體信息,又能避免過擬合,故本研究設(shè)置特征波段選取數(shù)量(N)為10。雖然連續(xù)投影算法的初始波段仍具有隨機(jī)性,但通過與聚類算法的結(jié)合,可將隨機(jī)初始波段的范圍限制在相應(yīng)的聚類簇內(nèi),大大降低了最終SPA選取結(jié)果為無效信息波段的可能。對全波段以及4種不同相似度度量下的波段組合應(yīng)用連續(xù)投影算法優(yōu)選結(jié)果如表2所示。 2.4土壤速效鉀含量BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型 分別將全波段光譜數(shù)據(jù)、全波段下直接使用連續(xù)投影算法的優(yōu)選波段和本研究提出的4種相似度度量聚類結(jié)合連續(xù)投影算法的優(yōu)選波段作為BP神經(jīng)網(wǎng)絡(luò)的輸入,將土壤速效鉀含量的預(yù)測值作為模型的輸出。以劃分后的278份建模樣本作為建模數(shù)據(jù),70份驗證樣本數(shù)據(jù)作為模型精度的驗證數(shù)據(jù),建立BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,將得到的預(yù)測值和實際值進(jìn)行比較(圖4)。圖4中每個圓點代表一份土壤樣品,直線為預(yù)測值和實測值1∶1直線,圓點與直線距離越近,則表明模型的預(yù)測值越接近實測值,預(yù)測精度越高。 分別采用決定系數(shù)(R2)、預(yù)測均方根誤差(RMSEP)以及相對分析誤差(RPD)作為模型評價標(biāo)準(zhǔn),其中R2反映預(yù)測值對實際值變化的解釋程度,R2值越接近1,模型預(yù)測精度越高。RMSEP驗證預(yù)測值和實際值之間的吻合度,RMSEP越小,表明模型越穩(wěn)定,預(yù)測越準(zhǔn)確。RPD為驗證集的標(biāo)準(zhǔn)差和均方根誤差的比值,RPD越大,模型的預(yù)測能力越強(qiáng)[16-21]。不同波段組合下土壤速效鉀含量BP神經(jīng)網(wǎng)絡(luò)模型的檢驗結(jié)果如表3所示。 由表3可以看出,使用高光譜全部波段數(shù)據(jù)建立土壤速效鉀含量光譜預(yù)測模型時,驗證集的R2、RMSEP以及RPD分別達(dá)到0.910 3、33.57和3.23,模型預(yù)測效果在所有建模波段組合中最優(yōu),能夠?qū)ν寥浪傩р浐窟M(jìn)行定量預(yù)測,但由于全波段光譜數(shù)據(jù)量龐大,模型建立過程較為復(fù)雜,建模所需時間達(dá)到了14.42 s,時耗較長。使用對高光譜全波段數(shù)據(jù)直接應(yīng)用SPA 法篩選出的特征波段組合建立預(yù)測模型時,預(yù)測模型建立所需時間在所有波段組合中最短,僅需要0.44 s,但模型預(yù)測效果不佳,驗證集的R2、RMSEP以及RPD分別僅為0.645 7、65.11以及1.67,只可對土壤速效鉀含量進(jìn)行粗略估測。使用對高光譜全波段數(shù)據(jù)先進(jìn)行K-means聚類分析再結(jié)合SPA法篩選特征波段后的波段組合建立預(yù)測模型時,4種不同聚類方式對應(yīng)4種不同的波段組合,所建立的預(yù)測模型在預(yù)測精準(zhǔn)度上都達(dá)到了近似于全波段組合下的模型預(yù)測精度,相對于直接運用SPA法有了大幅提升,并且在模型建立所需時間上,相對于全波段模型建立時有了顯著改善。 分別對Sqe-kmeans+SPA、Cit-kmeans+SPA、Cos-kmeans+SPA、Cor-kmeans+SPA波段組合建立預(yù)測模型后所得到的土壤速效鉀含量預(yù)測值進(jìn)行α=0.05下的單因素方差檢驗,統(tǒng)計描述如表4所示,方差檢驗結(jié)果如表5所示。 由表6可知,方差檢驗顯著性水平大于α,即4種不同聚類方式對應(yīng)的不同波段組合預(yù)測模型預(yù)測的土壤速效鉀含量差異并不顯著。結(jié)合文獻(xiàn)[22]的研究結(jié)果,說明在K-means聚類過程中,不同的相似度度量得到的聚類結(jié)果往往差異度較小,在不同的聚類對象中,通常很難確定最優(yōu)的相似度度量指標(biāo)。綜合考慮本研究預(yù)測模型的評價指標(biāo)和模型建立的時間代價,Cos-kmeans+SPA法波段組合建立的模型驗證集的R2、RMSEP以及RPD分別達(dá)到了0.901 1、34.64和3.13,且建模所需時間僅為1.25 s,可在較短的時間內(nèi)實現(xiàn)對土壤速效鉀含量的定量預(yù)測,更適合作為預(yù)測模型的特征波段。 3討論 本研究分析了在對江蘇省鹽城市348份土壤樣品速效鉀含量高光譜預(yù)測模型建立過程中,不同特征波段選擇方法所得到的不同建模波段組合下BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型的效果。結(jié)果表明: (1)使用高光譜全部波段數(shù)據(jù)建立的土壤速效鉀預(yù)測模型有著最優(yōu)的模型預(yù)測效果,但耗時較長;使用連續(xù)投影法對全波段優(yōu)選后的波段組合所建立的預(yù)測模型耗時最短,但模型預(yù)測效果一般。(2)使用本研究提出的結(jié)合K-means聚類法和SPA法所得到的波段組合建立的土壤速效鉀預(yù)測模型分別改善了全波段下模型建立耗時較長和直接應(yīng)用SPA法優(yōu)選波段組合時模型精度較差的缺點,在較短的時間內(nèi)取得了較優(yōu)的預(yù)測效果。結(jié)合預(yù)測評價指標(biāo)和方差分析結(jié)果,Cos-kmeans+SPA法所選波段組合更適合作為土壤速效鉀含量預(yù)測模型的輸入波段。 在利用高光譜數(shù)據(jù)建立土壤速效鉀含量的預(yù)測模型過程中,主要分析了不同特征波段組合對預(yù)測模型的影響,實際應(yīng)用過程中,光譜數(shù)據(jù)的去噪效果、預(yù)測模型種類等因素都會對模型預(yù)測精度產(chǎn)生一定影響。在K-means聚類過程中,重點分析了不同相似度度量對聚類效果的影響,但對于聚類過程中聚類簇數(shù)量對特征波段選取的影響還有待進(jìn)一步研究。 參考文獻(xiàn): [1]祁亞琴,呂新,邵玉林,等. 基于高光譜數(shù)據(jù)提取土壤養(yǎng)分信息的研究進(jìn)展[J]. 中國農(nóng)學(xué)通報, 2014, 30(12):28-31. [2]王躍明,賈建鑫,何志平,等. 若干高光譜成像新技術(shù)及其應(yīng)用研究[J]. 遙感學(xué)報, 2016, 20(5):850-857. [3]劉明博,唐延林,李曉利,等. 水稻葉片氮含量光譜監(jiān)測中使用連續(xù)投影算法的可行性[J].紅外與激光工程,2014,43(4):1265-1271. [4]王武,王建明,李穎,等. 近紅外特征波長篩選在勾兌梨汁中原汁含量的快速檢測中的應(yīng)用[J].光譜學(xué)與光譜分析,2017,37(10):3058-3062. [5]陳定星. 連續(xù)投影法應(yīng)用于土壤有機(jī)質(zhì)NIR光譜分析的波長選擇[D].廣州:暨南大學(xué),2013. [6]林濱. K-means聚類的多種距離計算方法的文本實驗比較[J].福建工程學(xué)院學(xué)報,2016,14(1):80-85. [7]周本金,陶以政,紀(jì)斌,等. 最小化誤差平方和K-means初始聚類中心優(yōu)化方法[J].計算機(jī)工程與應(yīng)用,2018,54(15):48-52. [8]陳磊磊. 不同距離測度的K-means文本聚類研究[J].軟件,2015,36(1):56-61. [9]王瑛瑛,宋良圖. 土壤有機(jī)質(zhì)近紅外光譜分析的波段優(yōu)選[J].儀表技術(shù),2014(5):4-6. [10]郝勇,孫旭東,王豪. 基于改進(jìn)連續(xù)投影算法的光譜定量模型優(yōu)化[J].江蘇大學(xué)學(xué)報,2013,34(1):49-53. [11]LIU K, CHEN X J, LI L M, et al. A consensus successive projections algorithm-multiple linear regression method for analyzing near infrared spectra[J]. Analytica Chimica Acta,2015,858:16-23. [12]陳思明,毛艷玲,鄒小興,等. 基于不同建模方法的濕地土壤有機(jī)質(zhì)含量多光譜反演[J].土壤通報,2018,49(1):16-22. [13]楊紅飛,鄭黎明,郜中要,等. 砂姜黑土土壤有機(jī)碳高光譜特征與定量估算模型的研究[J].安徽農(nóng)業(yè)大學(xué)學(xué)報,2018,45(1):101-109. [14]喬星星,馮美臣,楊武德,等. SG平滑處理對冬小麥地上干生物量光譜監(jiān)測的影響[J].山西農(nóng)業(yè)科學(xué),2016,44(10):1450-1454. [15]王建仁,馬鑫,段剛龍. 改進(jìn)的K-means聚類k值選擇算法[J].計算機(jī)工程與應(yīng)用,2019,55(8):27-33. [16]曹文濤,康日斐,王集寧,等. 基于高光譜遙感的土壤氯化鈉含量監(jiān)測[J].江蘇農(nóng)業(yè)學(xué)報,2016,32(4):817-823. [17]葛亮,王斌,張立明. 基于波段聚類的高光譜圖像波段選擇[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2012,24(11):1447-1454. [18]張悅,官云蘭. 聚類與自適應(yīng)波段選擇結(jié)合的高光譜圖像降維[J].遙感信息,2018,33(2):66-70. [19]紀(jì)文君,李曦,李成學(xué),等. 基于全譜數(shù)據(jù)挖掘技術(shù)的土壤有機(jī)質(zhì)高光譜預(yù)測建模研究[J].光譜學(xué)與光譜分析,2012,32(9):2393-2398. [20]李冠穩(wěn),高小紅,肖能文,等. 特征變量選擇和回歸方法相結(jié)合的土壤有機(jī)質(zhì)含量估算[J].光學(xué)學(xué)報,2019,39(9):361-371. [21]GRIGORIOS T,ARISTIDIS L. The MinMax K-means clustering algorithm[J]. Pattern Recognition,2014,47(7): 2505-2516. [22]喬天,呂成文,肖文憑,等. 基于遺傳算法的土壤質(zhì)地高光譜預(yù)測模型研究[J].土壤通報,2018,49(4):773-778. (責(zé)任編輯:張震林)