歐陽愛國,劉昊辰,成 龍,姜小剛, 李 雄,胡 宣
華東交通大學(xué)機電與車輛工程學(xué)院,水果智能光電檢測技術(shù)與裝備國家地方聯(lián)合工程研究中心,江西 南昌 330013
毛桃富含維生素C,食用可以起到延緩衰老,提高免疫力的作用,其極高的藥用價值也被唐代名醫(yī)孫思邈稱為“肺之果,肺病宜食之”。毛桃從果樹上成熟到最后到達消費者手中,中間需要經(jīng)過采摘、 儲藏、 包裝、 運輸?shù)纫幌盗羞^程[1],每個過程都可能產(chǎn)生碰傷果,造成極大的經(jīng)濟損失。因此,尋求能夠得到碰傷果在各過程中出現(xiàn)概率的方法,從而對容易出現(xiàn)毛桃碰傷的這個過程進行針對性地改進就顯得尤為重要。
近年來,高光譜成像技術(shù)憑借著圖譜合一的優(yōu)勢[2],能夠同時獲取樣品的內(nèi)部信息以及外部圖像信息,在水果無損檢測領(lǐng)域[3-5]發(fā)揮著重要作用。劉燕德等采集黃桃輕微碰傷圖像并進行主成分分析(principal component analysis,PCA)降維后選擇最佳特征波長的RGB圖像,結(jié)合圖像掩膜和閾值分割等技術(shù),判別準確率最高達94.6%(見本刊37卷10期)。張保華等[6]采集蘋果在400~1 000 nm波長范圍的輕微碰傷圖像,利用最小噪聲分離算法(minimum noise fraction,MNF)對高光譜數(shù)據(jù)進行降維并挑選特征波段后得到的判別模型精度高達97.1%。Lopez-Maestresalas等[7]采集了可見近紅外和短波近紅外兩種波長范圍內(nèi)的馬鈴薯碰傷圖像,基于短波近紅外數(shù)據(jù)建立的偏最小二乘判別分析模型效果最好,模型分類準確率達到98.56%,可以用于檢測五小時內(nèi)的碰傷。Baranowski等[8]采集蘋果碰傷后2,5,6,9,12和14 d的圖像并使用多種建模方法來鑒定反推碰傷時間是可行的,且模型誤判率低于10%。
上述研究中,大多數(shù)學(xué)者都是利用高光譜成像技術(shù)的光譜特征建模,很少利用圖像特征,基于圖像特征結(jié)合光譜特征建模較少。其次在水果碰傷時間判別方面,多以天數(shù)為間隔,時間間隔較大,水果碰傷時間越久,其變化越明顯[9],因此檢測碰傷時間越久的水果,其準確率越高; 目前尚缺乏有效方法對于碰傷時間較短的水果進行碰傷時間分類。
本研究運用高光譜成像技術(shù)分別采集毛桃在碰傷12,24,36和48 h后的圖像,提取毛桃的光譜特征及圖像特征,最后利用最小二乘支持向量機(least squares-support vector machine,LS-SVM)算法分別建立毛桃碰傷時間判別的光譜特征模型、 圖像特征模型以及圖像特征結(jié)合光譜特征模型,通過比較三種模型的分類效果,選出最優(yōu)模型用于碰傷時間分類,通過對發(fā)生碰傷較多的時間點進行反推,就可知道在哪一過程中產(chǎn)生了碰傷,進而對該過程做出針對性的改進,能夠從源頭上減少碰傷的發(fā)生,希望對提高國內(nèi)水果品質(zhì)方面起到良好借鑒意義。
實驗毛桃樣品為平谷桃。為減少其他無關(guān)因素對本實驗造成影響,毛桃的大小均為80 mm左右,且在實驗前都經(jīng)過仔細挑選,保證樣品外觀無缺陷,無機械損傷等。對于實驗中所需要的表面碰傷果,采用直徑20 mm,質(zhì)量33 g的金屬球在距離毛桃表面160 mm自由落體撞擊毛桃赤道附近形成,以此來模擬現(xiàn)實中的水果碰傷。毛桃個數(shù)為90個,碰傷后的毛桃在標號后放置于室溫24 ℃,相對濕度RH=65%的環(huán)境中,然后使用高光譜成像系統(tǒng)獲取碰傷后12,24,36和48 h共計四個時間點的毛桃照片如圖1所示,從左到右依次是碰傷后12,24,36和48 h的毛桃高光譜圖像。
圖1 實驗樣品高光譜圖像Fig.1 Hyperspectral image of experimental samples
毛桃高光譜圖像由蓋亞(GaiaSorter)高光譜分選儀采集,其組成結(jié)構(gòu)示意圖如圖2所示,該系統(tǒng)主要由計算機(Intel(R) Core(TM) i7-6700 CPU@3.4GHz 3.4GHz)、 成像光譜儀、 四盞20 W的鹵素燈(OSRAM,DECOSTAR51,MR16)、 位移平臺、 步進電機等組成。硬件安裝在尺寸為790 mm×1 024 mm×1 800 mm暗箱內(nèi),用以消除外部環(huán)境中的光線。
圖2 高光譜系統(tǒng)示意圖Fig.2 Sketch map of hyperspectral system
在進行毛桃高光譜圖像采集前先將儀器預(yù)熱0.5 h左右,防止儀器在剛啟動時狀態(tài)不穩(wěn)定,同時能夠起到消除基線漂移影響的作用。結(jié)合經(jīng)驗對參數(shù)進行多次優(yōu)化后,在SpecVIEW軟件中將攝像機曝光時間定為6 ms,位移平臺前進速度設(shè)置為1 cm·s-1,防止前進速度和相機掃描速度不匹配導(dǎo)致采集的圖像變形或失真。通過將位移平臺回退時間設(shè)置為2.5 cm·s-1,可以適當?shù)毓?jié)約每個樣品采集時間。上述參數(shù)調(diào)整完畢后,每次在位移平臺上放置一個毛桃樣品,通過SpecVIEW控制步進電機帶動位移平臺進行連續(xù)掃描,完成一個毛桃高光譜圖像的采集。
為避免在各波段下分布不均的光源強度以及CCD相機中暗電流[10]對圖像采集的干擾,必須對所獲得的毛桃高光譜圖像進行黑白標定[11]處理。與采集毛桃圖像相同的參數(shù)條件下,直接在SpecVIEW軟件上進行黑白標定,首先將鏡頭對準聚四氟乙烯白板,獲取一張白板的圖像Rwhite(λ),然后擰上鏡頭蓋掃描一張黑板圖像Rdark(λ)。黑白標定的計算公式為
(1)
式(1)中,Rxy(λ)為原始圖像數(shù)據(jù);Rdark(λ)為全黑圖像數(shù)據(jù);Rwhite(λ)為全白圖像數(shù)據(jù);Ixy(λ)為校正后的圖像數(shù)據(jù),所有原始圖像數(shù)據(jù)黑白標定完后,即可進行下一步分析。
主成分分析(PCA)將原始光譜通過數(shù)據(jù)降維的方式壓縮為若干個相互正交的主成分的線性組合[12-13],能夠在消除光譜變量之間可能存在的多重共線性的同時盡可能在不丟失重要信息的條件下提取出最能表征原始光譜信息的特征因子組合。計算公式為
(2)
式(2)中,Y為樣品的光譜矩陣,t為得分矩陣,p為載荷向量,E為殘差矩陣。
最小二乘支持向量機(LS-SVM)在進行模型判別分析的時候,其映射函數(shù)是非線性的,在高緯度的空間把光譜變量與特征矩陣進行一一對應(yīng),將優(yōu)化問題過渡為等式約束條件[14]。
LS-SVM用于毛桃碰傷時間定性判別公式為
(3)
式(3)中,K(x,xi)是核函數(shù),xi輸入向量,αi是拉格朗日算子;b是偏差;N是毛桃樣品數(shù)量,通過該公式計算毛桃碰傷時間模型預(yù)測值。
毛桃碰傷區(qū)域都選擇位于高光譜相機鏡頭正對的部分。使用ENVI4.5軟件對毛桃碰傷區(qū)域選取的100個像素點進行平均光譜的計算,能夠有效避免單個像素點的光譜與樣品整體光譜的差異,并且得到的光譜特征較具代表性。
由圖3可知: 不同碰傷時間的毛桃和未碰傷毛桃的光譜波形都相似,只是反射率大小有所區(qū)別。714和815 nm處存在兩個比較明顯的吸收峰,其中714 nm處吸收峰是由C—H鍵伸縮振動引起的,815 nm處吸收峰是由N—H鍵伸縮振動引起。未碰傷毛桃的吸收峰最高,并且碰傷毛桃的吸收峰會隨碰傷時間的增加而逐漸降低,一種可能的解釋是毛桃碰傷后,其碰傷部位會和空氣中的氧氣等發(fā)生化學(xué)反應(yīng),破壞毛桃果肉細胞中原本完整的細胞壁和細胞膜,釋放部分水分,且隨著毛桃碰傷時間的增加,釋放的水分也更多,這就導(dǎo)致了未碰傷毛桃和不同碰傷時間毛桃的含水量差異,造成光譜吸收率的差異,反應(yīng)在光譜曲線上就是吸收峰的高低不同[15]??梢园l(fā)現(xiàn),碰傷時間越久,其和未碰傷毛桃的光譜差異越大,這也解釋了為何碰傷時間越久的水果,建模識別率越高,同時從圖像角度而言,碰傷時間越久的水果,其碰傷部位顏色變化更加明顯,識別碰傷果也就越容易,這與光譜曲線得出的結(jié)論是相一致的。
圖3 未碰傷與不同碰傷時間樣品光譜對比圖Fig.3 Spectra of samples without bruiseand with different bruise time
高光譜成像儀器波長范圍為400~1 100 nm,每個波長對應(yīng)一張圖像,因此需要采取數(shù)據(jù)降維的方式從海量的圖像數(shù)據(jù)中尋找出最能表征毛桃碰傷特征波長的圖像。
對毛桃圖像進行主成分分析后,選取了前五個主成分圖像如圖4所示,從圖像中可以看出: PC1圖像保留了毛桃的真實信息,可以較好的反映毛桃的碰傷特征,PC2圖像失真嚴重,PC3圖像樣品中心處和邊緣處差異較大,PC4圖像中碰傷部位完全沒顯示出來,PC5圖像雖然顯示出碰傷部位,但是顯示不均的原因使得它無法較好的反映樣品的真實信息。對比可知,PC1圖像能夠更好的反映出毛桃碰傷特征。
圖4 主成分分析得到的前5個主成分圖像Fig.4 The first five PC images obtained by PCA
根據(jù)PC1圖像繪制了毛桃碰傷后12,24,36及48 h的權(quán)重系數(shù)曲線如圖5所示。通常來說權(quán)重系數(shù)曲線的波峰波谷對應(yīng)的波長對圖像貢獻率較大,因此選取了標記在圖中箭頭處512,571,693和853 nm的四個特征波長對應(yīng)的圖像作為特征圖像。圖6為不同碰傷時間的所對應(yīng)的四個特征圖像,從上到下分別碰傷時間為12,24,36和48 h。
對毛桃特征圖像進行灰度化操作,通過將背景圖像的灰度值設(shè)置為0,毛桃區(qū)域的灰度值保持不變,從而分離圖像中毛桃區(qū)域和背景區(qū)域。統(tǒng)計毛桃區(qū)域的像素點數(shù),最后對毛桃區(qū)域的灰度值求和并除以總的像素點數(shù)得到平均灰度值作為最終的圖像特征如圖7所示。
對毛桃圖像特征及光譜特征進行主成分分析后,選取前3個主成分因子的得分情況并繪制了如圖8所示的得分散點圖。雖然前3個主成分累計貢獻率達到98%,但是并不存在明顯聚類現(xiàn)象,難以將4種碰傷時間的毛桃實驗樣品進行分類。
圖5 PC1圖像的權(quán)重系數(shù)圖Fig.5 Weight coefficient of PC1 image
圖6 不同碰傷時間的特征圖像Fig.6 Feature images of samples with different bruising time
圖7 灰度直方圖統(tǒng)計特征提取流程Fig.7 Gray histogram statistical feature extraction process
圖8 所有毛桃前3個主成分得分投影圖Fig.8 Score projection of the first three principalcomponents (PCs) of all peaches
人為將碰傷后12,24,36和48 h的毛桃樣本依次定義為1,2,3和4,分別從四種碰傷時間的毛桃樣本中各隨機選取60個組成240個樣本作為建模集,剩余的120個作為預(yù)測集。使用LS-SVM算法分別建立了光譜特征模型,圖像特征模型,以及圖像特征結(jié)合光譜特征模型共計三種定性模型,采用分類正確率來評價三種模型的好壞。
2.4.1 光譜特征最小二乘支持向量機模型
表1是利用LS-SVM算法基于光譜特征建立的定性判別模型,可以看出: 兩種核函數(shù)模型的預(yù)測精度都隨著碰傷時間的增加而提高,在對碰傷時間為36和48 h的碰傷果進行預(yù)測時,基于RBF核函數(shù)的模型預(yù)測正確率都達到100%,基于Lin核函數(shù)的模型在預(yù)測碰傷36 h的毛桃時,誤判1個,預(yù)測碰傷48 h的毛桃時,正確率為100%; 兩種核函數(shù)在預(yù)測碰傷后24 h的毛桃時都進行了1次誤判,且在預(yù)測碰傷后12 h毛桃時均存在較高的誤判率。
表1 基于光譜特征的最小二乘支持向量機模型結(jié)果Table 1 Results of LS-SVM modeling based onthe spectral features
2.4.2 圖像特征最小二乘支持向量機模型
表2是利用LS-SVM算法基于圖像特征建立的定性判別模型,可以看出: 圖像特征模型的預(yù)測精度相比于光譜特征模型而言是較差的,特別是對碰傷后12和24 h的毛桃進行分類時,兩種核函數(shù)模型的誤判數(shù)都達到十幾個??赡苁怯捎诋斆遗鰝麜r間較短時,其碰傷部分的變化不明顯,所提取的平均灰度值特征區(qū)別不明顯,從而造成誤判數(shù)較高。當碰傷時間達到36和48 h時,碰傷部位的顏色變化較為明顯,因此其誤判數(shù)也相對減少。
2.4.3 圖像特征結(jié)合光譜特征最小二乘支持向量機模型
表3是利用LS-SVM算法基于圖像特征結(jié)合光譜特征建立的定性判別模型。由表3可得: 利用歸一化后的數(shù)據(jù)建立的圖像特征結(jié)合光譜特征模型,當選擇RBF核函數(shù)時,誤判率相比于純光譜特征和圖像特征模型是更低的,能夠較為準確的判斷出四種碰傷時間的毛桃。而當選擇Lin核函數(shù)時,相比于光譜特征模型而言存在更高的誤判率的原因可能是Lin核函數(shù)在建立非線性模型時性能略差。
表2 基于圖像特征的最小二乘支持向量機模型結(jié)果Table 2 Results of LS-SVM modeling based onthe image features
表3 基于圖像特征結(jié)合光譜特征的最小二乘支持向量機模型結(jié)果Table 3 Results of LS-SVM modeling based on the imagefeatures combined with spectral features
對毛桃高光譜數(shù)據(jù)進行主成分分析,選取最能反映毛桃碰傷特征且相對清晰不失真的PC1圖像作為分析圖像并進行權(quán)重系數(shù)曲線的繪制,在波峰波谷處挑選出四個對PC1圖像貢獻最大的特征波長(512,571,693和853 nm)的圖像作為毛桃碰傷特征圖像,并通過灰度化操作分離特征圖像中毛桃碰傷區(qū)域與背景區(qū)域,從而提取出平均灰度值作為毛桃碰傷的圖像特征。然后在提取毛桃碰傷區(qū)域100個像素點的平均光譜作為光譜特征后,基于LS-SVM算法分別建立了光譜特征模型、 圖像特征模型和圖像特征結(jié)合光譜特征共三種毛桃碰傷時間判別模型,根據(jù)碰傷時間分類準確率判斷三種模型的好壞。三種模型的誤判率都隨著碰傷時間的增加而逐漸降低,且基于RBF核函數(shù)建立的圖像特征結(jié)合光譜特征模型效果最好,對碰傷時間為12,24,36和48 h的毛桃分類正確率可達83.33%,96.67%,100%和100%。該研究表明,高光譜圖像特征結(jié)合光譜特征所建立的最小二乘支持向量機RBF核函數(shù)模型可用于短期碰傷時間的毛桃分類,從而通過時間反推出容易發(fā)生毛桃碰傷的環(huán)節(jié)并進行后續(xù)針對性改進,具有一定可行性。