關(guān)婷予 黃詠梅 林 敏 周新奇
(中國(guó)計(jì)量大學(xué)計(jì)量測(cè)試工程學(xué)院1,杭州 310018)(杭州譜育科技發(fā)展有限公司2,杭州 311305)
中國(guó)是世界上稻谷產(chǎn)量最大的國(guó)家,大米蛋白粉是大米的深加工產(chǎn)物。大米蛋白具有極高的營(yíng)養(yǎng)價(jià)值[1],并且其氨基酸組成接近于 WHO/FAO 推薦的營(yíng)養(yǎng)模式[2],與其他植物蛋白及乳清蛋白相比具有低敏性,可以免于過(guò)敏實(shí)驗(yàn)[3]。隨著加工工藝的發(fā)展,改性大米蛋白被人們認(rèn)可,逐漸發(fā)展成為嬰幼兒食品、運(yùn)動(dòng)營(yíng)養(yǎng)劑的重要原料[4],并作為添加劑開發(fā)應(yīng)用于食品工業(yè)[5]。
大米蛋白粉為加工產(chǎn)品,不同提取工藝及提取精度會(huì)影響大米蛋白粉品質(zhì),蛋白質(zhì)、脂肪與水分的含量是衡量品質(zhì)優(yōu)劣的重要指標(biāo)。傳統(tǒng)化學(xué)方法成分測(cè)定過(guò)程復(fù)雜且檢測(cè)時(shí)間長(zhǎng),處理過(guò)程對(duì)樣品具有破壞性,不能滿足現(xiàn)代質(zhì)量檢測(cè)的需求,急需快速無(wú)損的檢測(cè)方法。近紅外光譜技術(shù)是一種無(wú)損檢測(cè)技術(shù),具有檢測(cè)速度快的優(yōu)點(diǎn),已用于糧食作物[6]、食品成分含量分析中[7]。邱燕燕等[8]利用近紅外光譜技術(shù)結(jié)合偏最小二乘(PLS)快速檢測(cè)豆?jié){中蛋白質(zhì)、脂肪和可溶性固形物含量;Joe等[9]應(yīng)用近紅外光譜技術(shù)建立小麥中的水分、淀粉、蛋白質(zhì)等的定量分析模型。大米蛋白粉中蛋白質(zhì)、脂肪和水分由含氫基團(tuán)構(gòu)成,近紅外光譜主要反映了含氫基團(tuán)倍頻和組合頻的吸收信息,因此可通過(guò)近紅外光譜結(jié)合化學(xué)計(jì)量學(xué)方法對(duì)其含量進(jìn)行檢測(cè)。近紅外光譜建模方法大多采用PLS[10],是光譜數(shù)據(jù)處理軟件中的常用方法。但當(dāng)待測(cè)樣品的光譜數(shù)據(jù)與理化值存在非線性關(guān)系時(shí),PLS預(yù)測(cè)精度不高[11],需要探索新的化學(xué)計(jì)量學(xué)方法提高預(yù)測(cè)精度。本研究利用近紅外光譜技術(shù)結(jié)合自適應(yīng)極限學(xué)習(xí)機(jī)(ELM)模型預(yù)測(cè)大米蛋白粉中蛋白質(zhì)、脂肪和水分的含量,為大米蛋白粉中含量快速測(cè)定提供新方法,可實(shí)現(xiàn)加工廠家對(duì)加工原料中成分含量的快速分析。
大米蛋白粉樣品采自福建省漳州市、安徽省滁州市、陜西西安、河南鄭州及湖北武漢等不同地區(qū),采集不同存放時(shí)間、樣品各成分含量分布范圍較大的244份大米蛋白粉。將樣品密封存放于干燥、陰涼處并盡快進(jìn)行近紅外光譜分析。
采集光譜所用儀器為杭州聚光科技有限公司生產(chǎn)的SupNIR-2720近紅外多功能采集儀,儀器采用全息數(shù)字式光柵和高靈敏度銦鎵砷檢測(cè)器相結(jié)合,采集范圍1 000~1 800 nm,采樣波長(zhǎng)間隔1 nm,一個(gè)樣品800個(gè)光譜數(shù)據(jù),光譜分辨率為10.9 nm,旋轉(zhuǎn)掃描次數(shù)30次,取平均作為測(cè)量光譜。實(shí)驗(yàn)溫度(25±1) ℃,且避免陽(yáng)光直射。采集光譜前儀器預(yù)熱30 min,傾倒大米蛋白粉使其自然填滿樣品盤,防止裝樣松緊度對(duì)測(cè)量光譜產(chǎn)生影響,并將樣品上表面刮平。儀器通過(guò)性能測(cè)試后,以白板作為參比,計(jì)算樣品吸光度,最終得到244份原始光譜數(shù)據(jù)。
光譜測(cè)量后將樣品分為3份,按國(guó)家標(biāo)準(zhǔn)分別測(cè)量蛋白質(zhì)、脂肪和水分含量。蛋白質(zhì)按照GB 5009.5—2016 《食品安全國(guó)家標(biāo)準(zhǔn) 食品中蛋白質(zhì)的測(cè)定》中凱氏定氮法測(cè)量氮含量;脂肪按GB 5009.6—2016《食品安全國(guó)家標(biāo)準(zhǔn) 食品中脂肪的測(cè)定》索氏提取法開展實(shí)驗(yàn);水分按照國(guó)家標(biāo)準(zhǔn)GB 5009.3—2016《食品安全國(guó)家標(biāo)準(zhǔn) 食品中水分的測(cè)定》恒重法計(jì)算水分含量。最終得到表1大米蛋白粉中各成分含量。
表1 大米蛋白粉主要成分含量統(tǒng)計(jì)值
由表1可知,大米蛋白粉樣品中蛋白質(zhì)、脂肪和水分的含量分布較廣,所選樣品有一定的差異和代表性,符合近紅外光譜建模要求。
1.4.1 光譜數(shù)據(jù)預(yù)處理
為了消除光譜采集過(guò)程中不可避免的噪聲,減少外界因素的影響以及簡(jiǎn)化數(shù)據(jù)分析中的計(jì)算,在建模分析前,先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理[12,13]。分別采用二階導(dǎo)數(shù)(2ndDer)、去除趨勢(shì)(Detrend)、標(biāo)準(zhǔn)正態(tài)變量校正(SNV)和小波變換(WT),選擇大米蛋白粉的預(yù)處理方法。
1.4.2 極限學(xué)習(xí)機(jī)建模
極限學(xué)習(xí)機(jī)(ELM)是一種單隱含層前饋神經(jīng)網(wǎng)絡(luò)[14],因其學(xué)習(xí)速度快,泛化性較好而應(yīng)用于定量預(yù)測(cè)[15]或定性分類[16]中。將預(yù)處理后的光譜數(shù)據(jù)及樣品理化值作為輸入,模型輸出為大米蛋白粉中蛋白質(zhì)、脂肪和水分的預(yù)測(cè)含量,ELM模型如圖1所示。其中x1,x2,…,xm為m個(gè)樣品的光譜數(shù)據(jù),h為隱含層節(jié)點(diǎn),p為隱含層節(jié)點(diǎn)數(shù),ωij為連接輸入層與隱含層的權(quán)重,bij為隱含層偏置;βij為需要訓(xùn)練的輸出層權(quán)重,y1,y2,…ym為ELM模型預(yù)測(cè)的成分含量。人工調(diào)節(jié)p值后,通過(guò)權(quán)重βij及光譜數(shù)據(jù)xm可得成分預(yù)測(cè)含量ym。
1.4.3 自適應(yīng)極限學(xué)習(xí)機(jī)
經(jīng)典ELM模型初始參數(shù)輸入層權(quán)重(ω)和隱含層偏置(b)是隨機(jī)確定的,預(yù)測(cè)效果不穩(wěn)定,因此先將ω和b進(jìn)行自適應(yīng)尋優(yōu),提高ELM的穩(wěn)定性。另外ELM的隱含層節(jié)點(diǎn)數(shù)p決定了模型的精度及過(guò)擬合程度,隱含層節(jié)點(diǎn)數(shù)可選范圍較廣,且人工試驗(yàn)方法無(wú)法直觀判斷出精度最高、過(guò)擬合最小的節(jié)點(diǎn)數(shù),因此需要對(duì)其進(jìn)行自適應(yīng)尋優(yōu)。本研究提出的自適應(yīng)ELM優(yōu)化過(guò)程如圖2所示。
初始化參數(shù)ω和b采用粒子群算法(PSO)[17]進(jìn)行優(yōu)化。PSO尋優(yōu)時(shí)有多個(gè)粒子且信息互通,更易找到全局最優(yōu)解。將ω和b作為PSO的粒子,隨著迭代次數(shù)的增加向著訓(xùn)練集均方根誤差(RMSEC)減小的方向調(diào)整。
隱含層節(jié)點(diǎn)數(shù)p采用線性加權(quán)評(píng)價(jià)法確定。首先確定評(píng)價(jià)預(yù)測(cè)模型優(yōu)劣的指標(biāo)為預(yù)測(cè)精度及過(guò)擬合程度,接著根據(jù)指標(biāo)的重要程度分配權(quán)重m,將不同隱含層節(jié)點(diǎn)數(shù)下ELM的輸出線性加權(quán)求和,最后根據(jù)線性加權(quán)求和結(jié)果,自適應(yīng)的選取最優(yōu)隱含層節(jié)點(diǎn)數(shù)。
圖1 極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型
圖2 自適應(yīng)ELM優(yōu)化過(guò)程示意圖
1.4.4 模型評(píng)價(jià)
將大米蛋白粉樣品按照2∶1的比例分為訓(xùn)練集和預(yù)測(cè)集,訓(xùn)練集用來(lái)建立模型,預(yù)測(cè)集用來(lái)檢驗(yàn)?zāi)P偷念A(yù)測(cè)能力。模型精度由預(yù)測(cè)集均方根誤差(RMSEP)及預(yù)測(cè)集決定系數(shù)(R2)[18]決定,過(guò)擬合程度由RMSEC與RMSEP之差的絕對(duì)值判斷。RMSEP表示預(yù)測(cè)值與實(shí)際值的差異,越接近于0越好,R2表示預(yù)測(cè)值與實(shí)際值的相關(guān)程度,越接近于1越好。
采用光譜儀對(duì)大米蛋白粉進(jìn)行掃描測(cè)量,為了防止偶然誤差,由同一實(shí)驗(yàn)員操作兩次取平均作為測(cè)量光譜,大米蛋白粉的原始光譜曲線如圖3所示。
圖3 大米蛋白粉原始光譜
近紅外光譜主要反映了有機(jī)物分子中C—H、O—H、N—H鍵基頻振動(dòng)的倍頻和組合頻信息。大米蛋白粉樣品中蛋白質(zhì)、脂肪和水分各成分含量不同,吸光度也不同,因此峰值高低與大米蛋白粉中的成分含量相關(guān)。大米蛋白粉在1 193、1 505、1 730 nm附近有三個(gè)吸收峰,蛋白質(zhì)中N—H的伸縮振動(dòng)一級(jí)倍頻在1 500 nm左右、脂肪中C-H振動(dòng)的一級(jí)倍頻、二級(jí)倍頻分別在1 730、1 193 nm附近,水在1 730 nm及1 193 nm附近有的組合頻吸收[19]。不同成分的吸收峰有重疊,僅通過(guò)光譜曲線無(wú)法判斷各成分含量,因此需結(jié)合數(shù)據(jù)分析方法,建立光譜數(shù)據(jù)與成分含量的非線性關(guān)系模型。
通過(guò)馬氏距離剔除4個(gè)異常樣品。剩余的240組數(shù)據(jù)分別采用不同預(yù)處理方法的結(jié)果如表2所示。
表2 不同預(yù)處理方法對(duì)大米蛋白粉各成分含量預(yù)測(cè)模型的影響
由表2可知, WT預(yù)處理方法效果最好。圖4a為任意選取的3個(gè)樣品的原始光譜,圖4b為利用小波變換系數(shù)進(jìn)行重構(gòu)的光譜曲線,由圖可知,WT可較好的還原原始光譜數(shù)據(jù),小波系數(shù)重構(gòu)光譜數(shù)據(jù)與原始光譜數(shù)據(jù)的均方根誤差為1.46×10-4。WT將800個(gè)原始光譜數(shù)據(jù)用52個(gè)小波系數(shù)代替,消除冗余的光譜數(shù)據(jù),大大簡(jiǎn)化了后續(xù)建模的復(fù)雜度,提高檢測(cè)的快速性。
圖4 大米蛋白粉光譜數(shù)據(jù)圖及預(yù)處理
大米蛋白粉成分中的蛋白質(zhì)含量較高,脂肪和水分的含量較低。利用光譜-理化值共生距離(SPXY)算法將樣品按2∶1比例劃分為訓(xùn)練集和預(yù)測(cè)集,各成分含量的最大、最小值和標(biāo)準(zhǔn)差如表3所示。利用SPXY劃分訓(xùn)練集和預(yù)測(cè)集使樣品具有較大的差異性,提高建模的穩(wěn)定性。
表3 訓(xùn)練集和預(yù)測(cè)集樣品成分含量的分布特征/g/100 g
2.4.1 初始參數(shù)ω和b的優(yōu)化
預(yù)處理后的光譜數(shù)據(jù)及理化值作為ELM模型輸入,將粒子群算法迭代200次后的ω和b作為ELM的初始參數(shù)。圖5為經(jīng)典ELM與PSO優(yōu)化的ELM分別運(yùn)行10次的結(jié)果圖。由圖5可知,對(duì)ELM的ω和b進(jìn)行改進(jìn),可提高預(yù)測(cè)的穩(wěn)定性及精度。
圖5 ELM與PSO-ELM蛋白質(zhì)含量預(yù)測(cè)結(jié)果比較
2.4.2 隱含層節(jié)點(diǎn)數(shù)的自適應(yīng)選擇
ELM隱含層節(jié)點(diǎn)數(shù)的最優(yōu)個(gè)數(shù)一般不會(huì)超過(guò)60個(gè)[20],合適的隱含層節(jié)點(diǎn)數(shù)應(yīng)使預(yù)測(cè)模型的精度盡可能高,并且過(guò)擬合程度盡可能小。因此評(píng)價(jià)指標(biāo)為RMSEP及|RMSEP-RMSEC| 2個(gè)指標(biāo)。由于目的是檢測(cè)大米蛋白粉各成分含量,預(yù)測(cè)精度更重要,因此根據(jù)指標(biāo)重要性賦予RMSEP的權(quán)重為0.6,|RMSEP-RMSEC|的權(quán)重為0.4。通過(guò)線性加權(quán)求和計(jì)算各個(gè)隱含層節(jié)點(diǎn)數(shù)p的得分Q。由于各指標(biāo)均為極小型指標(biāo)[21],所以Q越小說(shuō)明該隱含層節(jié)點(diǎn)數(shù)越好,得到蛋白質(zhì)、脂肪和水分ELM模型的最優(yōu)隱含層節(jié)點(diǎn)數(shù)分別為24、18、14個(gè)。
為了驗(yàn)證模型的預(yù)測(cè)能力,使用未參與建模的預(yù)測(cè)集樣品對(duì)大米蛋白粉中蛋白質(zhì)、脂肪、水分含量進(jìn)行檢測(cè),結(jié)果如表4所示,預(yù)測(cè)集樣品的預(yù)測(cè)值與實(shí)際值如圖6所示。
表4 預(yù)測(cè)集樣品檢驗(yàn)結(jié)果
圖6 大米蛋白粉中各成分含量預(yù)測(cè)結(jié)果圖
分析表4及圖6發(fā)現(xiàn),模型的決定系數(shù)R2均接近于1,RMSEP比較接近于0。大米蛋白粉中蛋白質(zhì)含量最大值為86 g/100 g,脂肪和水分最高僅有11 g/100 g及7 g/100 g,對(duì)于不同含量,預(yù)測(cè)集樣品的預(yù)測(cè)值與實(shí)際值差異很小,說(shuō)明近紅外光譜技術(shù)結(jié)合自適應(yīng)ELM建模方法可以對(duì)未知大米蛋白粉樣品進(jìn)行預(yù)測(cè)。
大米蛋白粉中蛋白質(zhì)、脂肪和水分的預(yù)測(cè)效果不同,外部檢驗(yàn)決定系數(shù)分別為0.990 5、0.964 3、0.957 4。從訓(xùn)練集的標(biāo)準(zhǔn)差來(lái)看蛋白質(zhì)標(biāo)準(zhǔn)差為2.61,脂肪和水分的為1.39和1.03。蛋白質(zhì)含量大小分布較廣,模型效果更好,說(shuō)明樣品理化值大小的分布會(huì)影響模型的預(yù)測(cè)效果。
ELM是由前饋神經(jīng)網(wǎng)絡(luò)演化而來(lái),相比于線性PLS模型,其學(xué)習(xí)能力有所提升,可實(shí)現(xiàn)對(duì)多組分含量的預(yù)測(cè)。但ELM需要人工調(diào)參,且結(jié)果不穩(wěn)定,本文提出自適應(yīng)ELM自動(dòng)尋找最優(yōu)參數(shù),將自適應(yīng)ELM與經(jīng)典ELM、PLS建模方法進(jìn)行比較,如表5所示。
表5 三種建模方法比較
由表5可知,自適應(yīng)ELM與PLS模型相比,大米蛋白粉中蛋白質(zhì)、脂肪及含水量預(yù)測(cè)集R2更大,RMSEP分別降低了40%、28%、30%,預(yù)測(cè)精度有了較大提高。相比于經(jīng)典ELM模型,經(jīng)過(guò)優(yōu)化的自適應(yīng)ELM提高了模型的穩(wěn)定性及預(yù)測(cè)精度,可實(shí)現(xiàn)大米蛋白粉中蛋白質(zhì)、脂肪和水分的自動(dòng)檢測(cè)。
本研究利用近紅外光譜技術(shù)結(jié)合自適應(yīng)ELM建模方法預(yù)測(cè)大米蛋白粉中蛋白質(zhì)、脂肪和水分的含量。對(duì)采集的244份大米蛋白粉原始光譜數(shù)據(jù)進(jìn)行小波變換預(yù)處理,數(shù)據(jù)壓縮比為93.5%。為了提高預(yù)測(cè)模型的精度,采用自適應(yīng)ELM建模,ELM是單隱含層前饋神經(jīng)網(wǎng)絡(luò),將ELM的初始化參數(shù)用PSO進(jìn)行優(yōu)化,并利用線性加權(quán)評(píng)價(jià)方法自適應(yīng)確定隱含層節(jié)點(diǎn)數(shù),建立穩(wěn)定性更高的自適應(yīng)ELM模型。蛋白質(zhì)、脂肪、水分模型的決定系數(shù)分別為0.990 5、0.960 7、0.957 4;預(yù)測(cè)均方根誤差為0.330 8、0.376 6、0.192 2,結(jié)果表明自適應(yīng)ELM定量分析方法與PLS相比預(yù)測(cè)精度有較大提高,說(shuō)明近紅外光譜技術(shù)結(jié)合自適應(yīng)ELM能夠有效預(yù)測(cè)大米蛋白粉中各成分含量。該研究為大米蛋白粉中各成分含量的無(wú)損快速檢測(cè)提供一種新方法。