陳杰,姚娜,武寧,呂海芳
(塔里木大學(xué)信息工程學(xué)院,新疆 阿拉爾 843300)
新疆阿克蘇地區(qū)紅旗坡農(nóng)場地處天山托木爾峰南麓和塔里木盆地北緣,氣候干燥少雨,日照強(qiáng)且冷暖變化劇烈。這里盛產(chǎn)的‘冰糖心’蘋果果核部分呈現(xiàn)如蜂蜜般的結(jié)晶體,果皮色澤光亮平滑,果肉質(zhì)地較密、味甜汁多,含糖量是所有蘋果中最高的[1]。糖度作為蘋果的品質(zhì)參數(shù)之一,是果品無損檢測中常用的指標(biāo)。高光譜成像技術(shù)是把二維圖像和光譜融為一體,圖像反映蘋果的大小、形狀以及缺陷等外部品質(zhì)特征,樣本成分的不同造成了對光譜吸收的不同,因而提取的光譜曲線不同。因此,根據(jù)光譜信息可以預(yù)測樣品內(nèi)部化學(xué)成分[2-4]。近年來國內(nèi)外一些學(xué)者廣泛將高光譜成像技術(shù)應(yīng)用于蘋果糖度的無損檢測研究中,取得了一定進(jìn)展。郭志明等[5]研究感興趣區(qū)域的平均光譜并采用最小二乘法建立蘋果的糖度預(yù)測模型,預(yù)測均方根誤差RMSEP為0.456 8;馮迪等[6]使用高光譜圖像的洛倫茲參數(shù)建立了蘋果的硬度和糖度含量的預(yù)測模型,相關(guān)系數(shù)r達(dá)到0.828;CHEN J等[7]采集高光譜蘋果圖像,采用連續(xù)投影算法和GA提取特征波長建立模型對蘋果糖度進(jìn)行檢測,取得了較好的效果。但上述均采用全局變量和特征波長結(jié)合的方式來進(jìn)行無損檢測,會存在一定的非線性響應(yīng),從而給模型造成一系列影響。而局部回歸方法(local regression method)是根據(jù)一定的相似性來選取訓(xùn)練集中與測試集性質(zhì)相近的部分作為訓(xùn)練子集建立模型,以此來解決由于樣本間差異過大而引起的非線性響應(yīng)[8]。
在局部建模中,性質(zhì)相近常采用“距離”進(jìn)行衡量。常用的距離有歐氏距離和馬氏距離等。歐氏距離是空間中兩個點(diǎn)之間的真實(shí)距離,是向量的自然長度;馬氏距離是一種有效的計算兩個未知樣本集相似度的方法,與歐氏距離不同的是它考慮到各種特性之間的聯(lián)系,這兩個距離常被用來降低模型的相似度[9]。
特征變量的數(shù)量會影響數(shù)據(jù)規(guī)律的查找和建立,因此需要找到一個合理的方法,在減少需要分析的變量的同時,盡量減少原變量所包含信息的損失,以達(dá)到對所收集的數(shù)據(jù)進(jìn)行全面分析的目的。主成分分析算法(principal components analysis,PCA)是最常用的線性降維方法,它是通過某種線性投影,將高維的數(shù)據(jù)映射到低維的空間中,使得在所投影的維度上數(shù)據(jù)的信息量最大,以此保留住較多原數(shù)據(jù)的信息[10]。
反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。它在一定程度上可以模擬人大腦神經(jīng)系統(tǒng)的活動過程,具有自學(xué)習(xí)、自組織、自適應(yīng)能力及高度非線性表達(dá)能力,這是其它建模方法所不具備的[11]。目前很多學(xué)者將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于農(nóng)產(chǎn)品無損檢測上,劉思伽等[12]使用BP神經(jīng)網(wǎng)絡(luò)結(jié)合高光譜(全局)對蘋果的病害程度進(jìn)行了預(yù)測,訓(xùn)練集檢測率達(dá)100%,驗證集檢測率達(dá)100%;徐永浩等[13]對蘋果的近紅外光譜(全局)和糖度應(yīng)用PSO結(jié)合BP神經(jīng)網(wǎng)絡(luò)建立的蘋果糖度預(yù)測模型,具有更高的預(yù)測精度,預(yù)測相關(guān)系數(shù)r和均方根誤差分別為0.991 1和0.150 2;田瓊等[14]通過近紅外光譜技術(shù)結(jié)合主成分分析和BP神經(jīng)網(wǎng)絡(luò)研究不同國家大豆內(nèi)含特征,建立進(jìn)口大豆產(chǎn)地識別模型,總體測試集準(zhǔn)確率為95.65%。因此,神經(jīng)網(wǎng)絡(luò)應(yīng)用于蘋果品質(zhì)參數(shù)的預(yù)測是可行的。
針對以上問題和研究現(xiàn)狀,本研究采用主成分空間的歐氏距離(Euclidean distance,ED)和馬氏距離(Mahalanobis distance,MD)作為相似標(biāo)準(zhǔn)來篩選訓(xùn)練子集,減少因樣本差異過大給模型造成的非線性影響,并與全局建模參數(shù)進(jìn)行比較,結(jié)合BP神經(jīng)網(wǎng)絡(luò)建立局部回歸模型,并應(yīng)用于對實(shí)測蘋果糖度的樣品分析,以期對基于高光譜的蘋果糖度無損檢測的研究提供參考依據(jù)。
局部建模方法與全局建模方法的區(qū)別在于對每一個測試樣本選擇與其相似的訓(xùn)練集樣本作為訓(xùn)練集子集進(jìn)行建模,可以更好的對預(yù)測樣本進(jìn)行參數(shù)預(yù)測。
馬氏距離和歐式距離的定義分別為[15]:
其中,xi和yj分別是第i個訓(xùn)練樣本光譜和第j個測試樣本光譜在主成分空間的投影;X(M)為所有訓(xùn)練集的協(xié)方差矩陣,M表示主成分空間的維數(shù),即主成分的數(shù)目,T表示矩陣的轉(zhuǎn)置,+表示對協(xié)方差矩陣X(M)取廣義逆[16]。
BP神經(jīng)網(wǎng)絡(luò)是一種具有輸入層、隱含層和輸出層的典型多層前向型神經(jīng)網(wǎng)絡(luò),可以實(shí)現(xiàn)輸入和輸出間的任意非線性映射,具有較好的非線性映射逼近能力和預(yù)測能力[17]。圖1是一個多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),第1層是輸入層(3個神經(jīng)元),第2層是隱含層(3個神經(jīng)元),第3層是輸出層。從數(shù)學(xué)角度看,神經(jīng)網(wǎng)絡(luò)是一個多元復(fù)合函數(shù),如果增加神經(jīng)網(wǎng)絡(luò)的層數(shù)和神經(jīng)單元,就會有更多的函數(shù)表達(dá)式[18]。
圖1 多層神經(jīng)網(wǎng)絡(luò)的表示
多層神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)表達(dá)式為:
式(3)~式(6)中x是輸入數(shù)值,w是相鄰神經(jīng)元之間的權(quán)重,是神經(jīng)網(wǎng)絡(luò)在訓(xùn)練中需要學(xué)習(xí)的參數(shù),神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)需要一個損失函數(shù)來計算訓(xùn)練過程中的輸出值與真實(shí)值之間的差別,訓(xùn)練的目標(biāo)是通過調(diào)整每個權(quán)重值w使得損失函數(shù)最小。最后得到的w值為模型訓(xùn)練得到的參數(shù),從而可以進(jìn)行模型的測試[19]。
在計算輸出值時按照前向傳播算法進(jìn)行計算,隱藏層的輸出值定義如下[20]:
其中Xi是當(dāng)前節(jié)點(diǎn)的輸入值,是連接到此節(jié)點(diǎn)的權(quán)重,是輸出值,f是當(dāng)前階段的激活函數(shù),是當(dāng)前節(jié)點(diǎn)的輸入值經(jīng)過計算后被激活的值[17]。BP神經(jīng)網(wǎng)絡(luò)就是逐層將最終誤差進(jìn)行分解,即每一層只與下一層連接。假設(shè)每一層均為輸出層的前一個層級,通過計算前一個層級與輸出層的誤差得到權(quán)重的更新。首先求得輸出層與真實(shí)值之間的差距,然后反向傳播到上一個節(jié)點(diǎn),并計算出該節(jié)點(diǎn)的誤差值,計算誤差的目的是更新權(quán)重,可以用類似梯度下降法的方法進(jìn)行權(quán)重的更新。后向傳播計算公式為[21-22]:
其中δk為輸出層的誤差項,Y是計算值,T是真實(shí)值,是隱藏層誤差。隱藏層的誤差根據(jù)鏈?zhǔn)角髮?dǎo)法則,可推出如下公式:
當(dāng)前一層輸出值對誤差的梯度可以通過下一層的誤差與權(quán)重和輸入值的梯度乘積獲得。
權(quán)重更新的公式為:
其中ji表示為反向傳播時對應(yīng)的節(jié)點(diǎn)系數(shù),通過對的計算可以更新對應(yīng)的權(quán)重值[20]。
均方根誤差(root mean square error,RMSE)是觀測值與真實(shí)值偏差的平方和與觀測次數(shù)n比值的平方根,是用來衡量觀測值同真實(shí)值之間的偏差,其表達(dá)式如式(11)所示[23]。
其中,yi表示實(shí)測值,i表示預(yù)測值。
RMSE越小,表明測量精度越高。
相關(guān)系數(shù)一般用r表示,它是量化相關(guān)性分析中兩個變量之間線性關(guān)系強(qiáng)度的特定參數(shù),其表達(dá)式如式(12)所示[24]。
其中,xi和yi是兩組數(shù)據(jù),和分別是兩組數(shù)據(jù)的均值。
r的絕對值越接近1相關(guān)性越好。
本研究中,首先把所有的樣本隨機(jī)分成三部分,分別為訓(xùn)練集、驗證集和測試集,訓(xùn)練集用于訓(xùn)練模型,驗證集用于優(yōu)化模型,測試集用于模型的測試,它們的比例為6∶2∶2;然后對訓(xùn)練集光譜進(jìn)行主成分分析,根據(jù)主成分圖,構(gòu)建訓(xùn)練集和驗證集在主成分特征空間的投影;之后根據(jù)訓(xùn)練集和驗證集的歐氏距離和馬氏距離選定訓(xùn)練子集,并使用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行建模和預(yù)測,并根據(jù)驗證集RMSE確定模型的最優(yōu)參數(shù),即訓(xùn)練子集的數(shù)目和偏最小二乘法選取主成分的因子;最后以優(yōu)化的參數(shù)對測試集進(jìn)行預(yù)測。
本試驗以大小、形狀一致,顏色分布均勻,表面光滑無損傷的阿克蘇紅旗坡糖心蘋果為測試對象,蘋果采摘后置于0℃冷藏室存儲,為了減少溫度對蘋果的影響,在試驗前取出并置于室溫下24 h后再開始編號,然后進(jìn)行高光譜圖像和糖度的采集。
使用HySpexSWIR-384采集蘋果高光譜圖像,采集時為避免高光譜圖像采集時環(huán)境和散光干擾成像,將整個高光譜數(shù)據(jù)采集系統(tǒng)置于定制的黑箱內(nèi),首先將編好號碼的糖心蘋果以三個為一組,擺放在移動平臺上,擺放時第一個蘋果和白板之間、蘋果與蘋果之間要留有一定的距離,以免影響第一個蘋果高光譜圖像的校正處理,避免蘋果之間的高光譜數(shù)據(jù)互相干擾,每次放完樣本即可關(guān)閉閘門,并通過電腦軟件進(jìn)行圖像采集。
使用ENVI4.7軟件打開采集的糖心蘋果高光譜圖像的RAW格式文件,首先使用“ROI Tool”界面選擇矩形框移動到圖像的白板區(qū)域?qū)D像進(jìn)行校正,以此降低在高光譜圖像采集過程中的噪聲干擾;隨后在每個蘋果偏離光點(diǎn)的赤道區(qū)畫出矩形框,并點(diǎn)擊右鍵把所選矩形框標(biāo)紅,運(yùn)行出它的光譜圖像并將對應(yīng)的光譜數(shù)據(jù)平均值以ASCLL的形式保存在Excel文檔中備用。剔除異常數(shù)據(jù)以后,保存有效光譜數(shù)據(jù)200組。
圖2 原始高光譜圖曲線
糖度數(shù)據(jù)使用糖度、鹽度兩用儀(MASTER-BX/S28M)來測量。在蘋果上采集光譜數(shù)據(jù)的位置處使用糖度儀對蘋果進(jìn)行糖度測量,每個位置采集糖度5次,最后取平均值作為樣本的糖度值。
將200組數(shù)據(jù)按比例6∶2∶2隨機(jī)分成訓(xùn)練集、驗證集和測試集,即120個樣本作為訓(xùn)練集,40個樣本作為驗證集,其余40個樣本作為測試集。參數(shù)優(yōu)化的過程以驗證集的RMSEP作為評價依據(jù)。
建立BP神經(jīng)網(wǎng)絡(luò)的步驟如下:分別對訓(xùn)練集和驗證集數(shù)據(jù)進(jìn)行讀取;對輸入層和輸出層的神經(jīng)元進(jìn)行歸一化處理,這一步可以加快訓(xùn)練網(wǎng)絡(luò)的收斂性;使用newff創(chuàng)建網(wǎng)絡(luò),對模型多次測試后設(shè)置隱藏節(jié)點(diǎn)的個數(shù)為8,此時均方根誤差最?。辉O(shè)置網(wǎng)絡(luò)的訓(xùn)練參數(shù),最大學(xué)習(xí)迭代數(shù)為1 000、學(xué)習(xí)速率為0.01,收斂誤差設(shè)置為0.000 1;采用最佳隱含層神經(jīng)元數(shù)對模型進(jìn)行訓(xùn)練;基于sim函數(shù)對訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行仿真預(yù)測;將得出的數(shù)據(jù)反歸一化并進(jìn)行誤差計算。
為了確定主成分的數(shù)目,即主成分特征空間的維數(shù),對光譜中各主成分進(jìn)行考察,結(jié)果如圖3所示。第一和第二主成分的貢獻(xiàn)率共達(dá)到98%以上,因此可以采用前兩個主成分進(jìn)行樣本主成分的計算,即把所有的高光譜數(shù)據(jù)投影到二維主成分空間,計算歐氏距離和馬氏距離來選擇訓(xùn)練子集。但在使用最小二乘法建模時,考慮到蘋果成分的復(fù)雜性以及其它各成分的貢獻(xiàn)率,主成分因子采用13來建模,從圖4可以看出,主成分因子采用13完全可以把所有的影響元素囊括進(jìn)來。
圖3 主成分貢獻(xiàn)率
圖4 不同方式選取主因子對均方根誤差的影響
根據(jù)式(1)、(2)計算主成分空間內(nèi)每個驗證集樣本與訓(xùn)練集樣本之間的歐氏距離和馬氏距離,然后以距分布中心的3個標(biāo)準(zhǔn)偏差為閾值來選擇訓(xùn)練子集進(jìn)行建模和預(yù)測。
圖5~圖7分別為全光譜、馬氏距離選取之后和歐氏距離選取之后訓(xùn)練集和驗證集在二維主成分中的分布情況。歐氏距離衡量的是兩樣品在主成分空間中的相對距離,因此所選擇的訓(xùn)練子集分布在近似圓形的區(qū)域,而馬氏距離在計算兩樣品的距離時考慮了方向上的影響因素,因此選擇的訓(xùn)練子集分布類似橢圓形,這與理論分析結(jié)果一致。
圖5 全光譜訓(xùn)練集和驗證集在主成分空間的分布
圖6 馬氏距離選取之后訓(xùn)練集和驗證集在主成分空間的分布
圖7 歐氏距離選取之后訓(xùn)練集和驗證集在主成分空間的分布
表1是全光譜、馬氏距離選取之后訓(xùn)練集糖度、歐氏距離選取之后訓(xùn)練集糖度和被剔除的糖度數(shù)據(jù)的統(tǒng)計表格。從表1可以看出,歐式距離和馬氏距離選擇樣本后,樣本間差異減小。
表1 糖度統(tǒng)計表格
對訓(xùn)練集和驗證集進(jìn)行三種主成分分析后,全光譜(全局)的數(shù)量為160,其中120組為訓(xùn)練集,40組為驗證集;馬氏距離選取后訓(xùn)練子集的光譜數(shù)量為80組,歐氏距離選取后訓(xùn)練子集的光譜數(shù)量也為80組。
基于全光譜(全局)使用神經(jīng)網(wǎng)絡(luò)建立模型,建模主成分因子選取13,訓(xùn)練子集的數(shù)目就是全部的訓(xùn)練集,對驗證集進(jìn)行預(yù)測,得到RMSEP為0.173 7,r為0.820 94。由于訓(xùn)練集和驗證集是隨機(jī)從數(shù)據(jù)中進(jìn)行無重復(fù)選擇的,因此為了結(jié)果的穩(wěn)定性,表1中所有的RMSEP和r均為運(yùn)行100次的結(jié)果均值;表2是使用不同的方法建模預(yù)測時驗證集各參數(shù)的比較。
表2 驗證集各參數(shù)比較
全光譜+PCA+BP對全光譜進(jìn)行主成分分析之后,訓(xùn)練子集的數(shù)量不變,因為主成分降低光譜維數(shù),對訓(xùn)練集的數(shù)量并不產(chǎn)生影響,通過BP神經(jīng)網(wǎng)絡(luò)建模之后驗證集的RMSEP為0.166 4,r為0.857 28。相對全光譜的預(yù)測,預(yù)測速度有很大的提升,RMSEP和r也有改進(jìn)。
ED+PCA+BP是對訓(xùn)練集通過主成分空間內(nèi)的歐氏距離選出訓(xùn)練子集后,進(jìn)行主成分分析和BP神經(jīng)網(wǎng)絡(luò)建模,由于訓(xùn)練集中距離較遠(yuǎn)的被淘汰,驗證集的RMSEP和r有很大程度的提高。
MD+PCA+BP是對訓(xùn)練集通過主成分空間內(nèi)的馬氏距離選出訓(xùn)練子集后,進(jìn)行主成分分析和BP神經(jīng)網(wǎng)絡(luò)建模,與歐氏距離得到的結(jié)果相比較,測試集的RMSEP為0.106 1,r為0.954 76,RMSEP有很大程度的改善,但是r卻有所降低。
綜合考慮預(yù)測速度和RMSEP以及r后,使用MD+PCA+BP對測試集進(jìn)行預(yù)測,BP神經(jīng)網(wǎng)絡(luò)回歸參數(shù)如圖8所示。所建立模型對訓(xùn)練集的預(yù)測r為0.951 43,對驗證集的預(yù)測r為0.820 94,對測試集的預(yù)測r為0.808 29,對全部數(shù)據(jù)進(jìn)行預(yù)測時,r為0.912 83,預(yù)測效果比較理想。測試集預(yù)測值與真實(shí)值之間對比的情況如圖9所示。分析可知馬氏距離選出的訓(xùn)練子集進(jìn)行的局部建模方法對測試集糖度的預(yù)測結(jié)果是最好的,這也說明,對于蘋果的研究,光譜響應(yīng)與糖度含量之間存在很明顯的非線性關(guān)系,使用局部建模方法可以改進(jìn)預(yù)測精度。
圖8 MD+PCA+BP神經(jīng)網(wǎng)絡(luò)對測試集的預(yù)測情況
圖9 測試集預(yù)測值與真實(shí)值的對比
本研究在把樣本分為訓(xùn)練集、驗證集和測試集的基礎(chǔ)上,實(shí)現(xiàn)了一種基于主成分空間的局部建模方法,并將這種方法與BP神經(jīng)網(wǎng)絡(luò)結(jié)合用于蘋果糖度高光譜圖像技術(shù)的定量分析。結(jié)果表明,與全光譜相比,局部變量建模相關(guān)系數(shù)r提高,RMSEP降低,提高了檢測效果,因此能減少樣本間非線性響應(yīng);而兩種局部建模方法中,采用主成分空間中的馬氏距離所選擇的訓(xùn)練子集更能代表樣本之間的相似性,歐氏距離次之;基于馬氏距離和BP神經(jīng)網(wǎng)絡(luò)的局部建模方法對測試集的預(yù)測均方根誤差RMSEP達(dá)到0.106 61,相關(guān)系數(shù)r為0.808 29,可以較好的實(shí)現(xiàn)蘋果中糖度含量的高光譜定量分析。研究表明,針對研究對象選擇合適局部建模方法,對提高模型精度具有重要意義。