楊寶華,高志偉,齊 麟,朱 月,高 遠(yuǎn)
安徽農(nóng)業(yè)大學(xué)信息與計(jì)算機(jī)學(xué)院,安徽 合肥 230036
鮮桃是一種營養(yǎng)豐富和風(fēng)味甜香的水果,可溶性固形物含量(soluble solids content, SSC)作為影響鮮桃風(fēng)味的重要成分,也成為衡量鮮桃品質(zhì)的重要參考標(biāo)準(zhǔn),因此,精準(zhǔn)估測(cè)SSC對(duì)于鮮桃分級(jí)和評(píng)價(jià)具有重要的研究意義和應(yīng)用價(jià)值。
目前,隨著傳感器和數(shù)據(jù)分析技術(shù)的快速發(fā)展,無損估測(cè)水果可溶性固形物含量被廣泛研究及應(yīng)用。其中,近紅外光譜、多光譜、熒光譜、電子鼻等已經(jīng)成功地檢測(cè)鮮果SSC[1-4]。然而,目前大部分研究基于單一特征檢測(cè),從而限制了水果SSC預(yù)測(cè)模型的進(jìn)一步探究。近年來,高光譜影像(hyperspectral image, HSI)不僅提供光譜維信息,還提供空間維信息,常常被廣泛用來檢測(cè)水果的SSC[5]。Fan等融合了光譜特征和紋理特征成功檢測(cè)蘋果的SSC[6],Li等利用高光譜影像估測(cè)鮮桃的SSC[7]。結(jié)果表明,基于高光譜影像特征估測(cè)SSC的可行性。然而,大部分研究?jī)H基于光譜維信息,容易導(dǎo)致SSC估測(cè)模型過擬合。
隨著深度學(xué)習(xí)在不同領(lǐng)域的應(yīng)用,為鮮桃SSC預(yù)測(cè)提供了新思路和新方案。堆疊自動(dòng)編碼器(stacked auto-encoder,SAE)[8]作為深度學(xué)習(xí)方法,具有較強(qiáng)的特征能力,從而提高預(yù)測(cè)模型的精確性。因此,在這項(xiàng)研究中設(shè)計(jì)不同結(jié)構(gòu)的堆疊自動(dòng)編碼器,分別提取高光譜影像的光譜維、空間維及空-譜維信息的深層特征,為鮮桃SSC的定量分析提供技術(shù)路徑。
1.1.1 鮮桃樣本及SSC數(shù)據(jù)采集
2019年6月,在市場(chǎng)上購買了不同品種的成熟鮮桃樣本120個(gè)(黃金蜜桃、蟠桃和油桃各40個(gè),單果重量在160~240 g之間)。所有鮮桃表面被清潔處理后放置于25 ℃ 的環(huán)境中保存12 h,使樣品溫度與室溫基本一致。
通過手持型折射計(jì)(Model: LYT-330, Shanghai Linyu Trading Co., Ltd., China)測(cè)量鮮桃樣本的SSC,其測(cè)量范圍為0~32°Brix,分辨率為0.2°Brix。測(cè)量鮮桃樣本SSC時(shí),在樣品進(jìn)行光譜采集部位對(duì)應(yīng)的鮮桃果肉深度為5~8 mm處,取出果汁滴在折射計(jì)的檢測(cè)窗口,3次重復(fù)采集的均值作為鮮桃樣本SSC的真實(shí)值。所測(cè)樣本集SSC含量在6.0~14.2°Brix之間。共計(jì)120個(gè)樣本,按照3∶1劃分為校正集(90個(gè))和驗(yàn)證集(30個(gè))。
1.1.2 高光譜影像采集
利用高光譜影像采集系統(tǒng)獲取鮮桃高光譜影像數(shù)據(jù),該系統(tǒng)包括1個(gè)光譜成像儀(Imspector V17E, Spectral Imaging Ltd., Oulu, Finland)、1個(gè)攝像機(jī)為CCD相機(jī)(IPX-2M30, ImperxInc., Boca Raton, FL, USA),2個(gè)150 W的鹵素?zé)?3900, Illumination Technologies Inc., New York, USA),1個(gè)數(shù)據(jù)采集暗箱,圖像采集和分析軟件(Spectral Image Software, Isuzu Optics Corp., Taiwan, China)組成,反射式線性光道管和電控位移平臺(tái)(MTS120,北京光學(xué)儀器廠,中國),光源照射方向與豎直方向呈45°,整個(gè)采集系統(tǒng)置于暗箱內(nèi)。
為了獲得高質(zhì)量的圖像,鮮桃樣本的最高點(diǎn)到物鏡距離為220 mm,電動(dòng)機(jī)控制速度和曝光時(shí)間分別設(shè)置為0.8 mm·s-1、2 ms, 系統(tǒng)的光譜分辨率和圖像大小分別為5 nm、636×838像素。為了盡可能降低圖像噪聲和暗電流的影響,掃描鮮桃樣本后,使用標(biāo)準(zhǔn)白色和深色參考圖像對(duì)獲得的高光譜數(shù)據(jù)進(jìn)行校準(zhǔn)。
1.2.1 堆棧自動(dòng)編碼器
自動(dòng)編碼器(auto-encoder, AE)是一種運(yùn)行在人工神經(jīng)網(wǎng)絡(luò)上的基于無監(jiān)督學(xué)習(xí),由編碼器和解碼器兩部分構(gòu)成,其功能就是對(duì)輸入樣本進(jìn)行學(xué)習(xí)并在輸出中重構(gòu)數(shù)據(jù)。通常將輸入數(shù)據(jù)通過非線性激活函數(shù)映射到隱含層的階段稱為編碼,將隱含層映射至輸出層稱為解碼。因此,AE就是一個(gè)小型的深度學(xué)習(xí)模型,該模型主要包括輸入層、隱含層和輸出層。
堆棧自動(dòng)編碼器(SAE)是通過多個(gè)自動(dòng)編碼器堆疊構(gòu)成的[10]。按照無監(jiān)督的方式,利用貪婪訓(xùn)練的方法,對(duì)每個(gè)自動(dòng)編碼器進(jìn)行單獨(dú)訓(xùn)練。編碼器相鄰層中,前一層的輸出結(jié)果既是該隱含層的輸出,也是后一隱含層的輸入。SAE通過逐層訓(xùn)練可以從原始數(shù)據(jù)中獲得有效的特征,以減少原始信息的數(shù)據(jù)維數(shù)和干擾因素,避免因過高的維數(shù)和原始數(shù)據(jù)的共線性等問題而導(dǎo)致過擬合現(xiàn)象。因此,最后一個(gè)隱含層的輸出結(jié)果就是利用SAE提取原始信息的深層特征。
1.2.2 估測(cè)鮮桃SCC的模型構(gòu)建及評(píng)價(jià)
精確地提取特征是模型構(gòu)建的重要前提。為了獲取光譜信息和空間信息的特征,首先獲取鮮桃樣本的光譜數(shù)據(jù),在鮮桃的鄰近赤道部位選定一個(gè)200×200 pixels的圖像感興趣區(qū)域(region of interest, ROIs),利用ENVI軟件提取該區(qū)域范圍內(nèi)所有像素點(diǎn)的反射率;其次,利用HSI獲得每個(gè)鮮桃樣本的636×838×508圖像;然后,提取有效波段對(duì)應(yīng)高光譜影像的特征。最后,為了提取空-譜特征,將光譜維和空間維的原始信息進(jìn)行融合。
為了預(yù)測(cè)鮮桃SSC,設(shè)計(jì)了堆棧自動(dòng)編碼器-粒子群優(yōu)化支持向量回歸(stacked autoencoder-particle swarm optimization-support vector regression, SAE-PSO-SVR)模型。將光譜維、空間維和融合信息分別輸入到SAE模型,在SAE提取光譜信息、圖像信息和融合信息的深層特征基礎(chǔ)上,采用粒子群優(yōu)化支持向量回歸(particle swarm optimization-support vector regression, PSO-SVR)模型估測(cè)鮮桃SSC,如圖1所示。其中,本研究設(shè)計(jì)的SAE結(jié)構(gòu)包括三層隱含層,隱含層神經(jīng)元節(jié)點(diǎn)數(shù)通過模型訓(xùn)練及參數(shù)微調(diào)確定。第三層隱含層的輸出作為PSO-SVR模型的輸入變量。
圖1 基于堆疊式自動(dòng)編碼器-粒子群優(yōu)化支持向量回歸預(yù)測(cè)鮮桃可溶性固形物含量模型
最后,利用決定系數(shù)(coefficient of determination,R2)和均方根誤差(root mean square error, RMSE)作為解釋和量化預(yù)測(cè)鮮桃SSC模型的評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)的硬件實(shí)驗(yàn)環(huán)境配置如下:主板為Z370 HD3-CF,CPU 為 Intel Core i7-8700,顯存為8GB GDDR5,內(nèi)存16 GB。軟件環(huán)境配置為:操作系統(tǒng)為 Windows 10(64 位),編程軟件和語言分別為 Anaconda3、matlab2017和python3.6,深度學(xué)習(xí)框架為 Keras。
圖2所示為從不同鮮桃樣本高光譜影像中提取的光譜反射率,該光譜曲線包含508個(gè)波段(908~1 735 nm),去除部分噪聲明顯的首尾波段,包括光譜曲線首端908~940 nm共21個(gè)波段,末端1 681~1 735 nm共34個(gè)波段。剩余的453個(gè)波段(942~1 680 nm)作為光譜信息。鮮桃樣本的光譜曲線可以有效地反映鮮桃中SSC等主要成分的化學(xué)信息,光譜反射強(qiáng)度與SSC含量存在一定的相關(guān)性。因此,含有不同SSC的鮮桃樣本在不同波段下的光譜反射率存在一定的差異。
圖2 鮮桃的高光譜原始曲線
為了獲取空間維信息,利用鮮桃樣本高光譜影像設(shè)置5個(gè)不同的感興趣區(qū)域(50×50 pixels)提取2 500維像素信息,取其平均值作為該樣本的空間信息。為了提取敏感空間信息,利用隨機(jī)森林(random forest, RF)選取相對(duì)重要性大于0.11的信息(如圖3所示),共計(jì)894個(gè)敏感空間信息作為SAE的輸入,輸出的結(jié)果就是高光譜影像的深層特征。為了獲取鮮桃高光譜影像的融合信息,將453維光譜信息和894維空間信息融合,共計(jì)1 347維融合信息。
圖3 鮮桃高光譜影像空間信息的相對(duì)重要性
為了對(duì)比不同SAE結(jié)構(gòu)的預(yù)測(cè)效果,分別利用光譜信息、空間信息和融合信息設(shè)置不同的SAE結(jié)構(gòu)提取深層特征,作為粒子群優(yōu)化支持向量回歸(PSO-SVR)模型的輸入變量,構(gòu)建鮮桃SSC的估測(cè)模型,結(jié)果如圖4所示。對(duì)于校正集, 基于光譜信息深層特征、圖像信息深層特征、融合信息深層特征的估測(cè)模型R2分別分布在0.723 4~0.826 9,0.739 2~0.802 6和0.758 3~0.873 3之間。對(duì)于驗(yàn)證集, 基于光譜信息深層特征、圖像信息深層特征、融合信息深層特征構(gòu)建的估測(cè)模型R2分別分布在0.677 5~0.782 5,0.685 5~0.776 6和0.693 7~0.820 9之間。其中,基于融合信息提取的深層特征估測(cè)鮮桃SSC的效果出色。尤其是,SAE模型結(jié)構(gòu)為1347-750-550-400-100模型的R2達(dá)到0.873 3(校正集)和0.820 9(驗(yàn)證集),比基于光譜信息的模型(SAE結(jié)構(gòu)為453-300-200-100-40)R2提高5.3%和4.7%,比基于圖像信息的模型(SAE結(jié)構(gòu)為894-800-700-500-100)R2提高8.1%和5.4%。
圖4 基于不同結(jié)構(gòu)的SAE-PSO-SVR模型預(yù)測(cè)鮮桃SSC結(jié)果
隱含層神經(jīng)元節(jié)點(diǎn)是 SAE模型的關(guān)鍵參數(shù)之一,設(shè)置合適的節(jié)點(diǎn)對(duì)提高模型精度起到重要作用。因此,根據(jù)鮮桃高光譜影像不同類型原始信息提取的深層特征,經(jīng)過參數(shù)調(diào)整、數(shù)據(jù)訓(xùn)練以選擇合適的SAE 模型。對(duì)于光譜信息,SAE模型設(shè)置了三種結(jié)構(gòu)(453-300-200-100-40,453-350-250-150-50,453-350-250-100-60)。其中,利用隱含層為300,200和100的SAE提取深層特征進(jìn)行鮮桃SSC預(yù)測(cè)的精度是最好的,比其他兩種SAE結(jié)構(gòu)預(yù)測(cè)效果分別提高9.8%和13.4%。對(duì)于空間信息,SAE模型設(shè)置了三種結(jié)構(gòu)(894-700-500-300-50,894-650-350-200-80,894-800-700-500-100),從模型訓(xùn)練的結(jié)果表明第一層、第二層和第三層隱含層節(jié)點(diǎn)數(shù)為800,700和500的SAE模型表現(xiàn)較佳,比其他兩種模型的預(yù)測(cè)結(jié)果提高11.7%和8.6%。對(duì)于融合信息,SAE模型設(shè)置了三種結(jié)構(gòu)(1347-800-400-200-40,1347-750-550-400-100,1347-700-500-360-150),其中,隱含層為750,550和400的SAE提取的深層特征預(yù)測(cè)鮮桃SSC的精度最高,比其他兩種結(jié)構(gòu)提取的深層特征預(yù)測(cè)精度分別提高15.5%和6.6%。
為了直觀的表示鮮桃SSC,選擇成熟的黃金蜜桃、蟠桃和油桃作為測(cè)試樣本,利用SAE-PSO-SVR模型預(yù)測(cè)其SSC含量,可視化結(jié)果如圖5所示。從圖5中可以看出,第一行為鮮桃原始高光譜影像,第二行為不同品種鮮桃SSC含量的偽彩色圖。由圖例可以看出不同品種鮮桃樣本含有不同的SSC。其中,黃金蜜桃樣本的SSC含量范圍為6.0~13.6°Brix,蟠桃樣本的SSC含量范圍為6.5~14.2°Brix,油桃樣本的SSC含量范圍為6.0~14°Brix。由圖5還可以直觀看出,黃金蜜桃和油桃的SSC分布于鮮桃赤道及桃核中心部分,蟠桃的SSC主要分布于鮮桃核的四周區(qū)域。
圖5 不同品種鮮桃的可溶性固形物含量可視化
可溶性固形物含量是衡量鮮桃品質(zhì)和風(fēng)味的關(guān)鍵因素。提出了一種SAE-PSO-SVR模型估測(cè)鮮桃SSC。將深度學(xué)習(xí)理論應(yīng)用到鮮桃可溶性固形物含量估測(cè)中,并將無監(jiān)督訓(xùn)練的SAE特征提取與有監(jiān)督訓(xùn)練的微調(diào)相結(jié)合。主要結(jié)論如下:
(1)通過對(duì)比不同隱含層神經(jīng)元節(jié)點(diǎn)的SAE模型,表明基于網(wǎng)絡(luò)結(jié)構(gòu)為1347-750-550-400-100模型估測(cè)效果最好。
(2)通過對(duì)比輸入不同信息的SAE模型估測(cè)效果,表明基于融合信息的模型精度最高(校正集R2=0.873 3,驗(yàn)證集R2=0.820 9)。
(3)通過不同品種鮮桃樣本的SSC可視化,表明SAE-PSO-SVR模型具有較好的普適性?;赟AE提取鮮桃高光譜影像的光譜信息和空間信息深層特征,進(jìn)一步通過融合信息的深層特征構(gòu)建了基于SAE-PSO-SVR的鮮桃SSC估測(cè)模型,有效的提高了模型的估測(cè)精度。今后將利用不同深度學(xué)習(xí)方法驗(yàn)證及檢測(cè)鮮桃的其他品質(zhì)參數(shù),如酸度、硬度及水分,為鮮桃等水果的無損檢測(cè)提供參考。