涂 斌 宋志強 鄭 曉 曾路路 尹 成 何東平 亓培實
(武漢輕工大學機械工程學院1,武漢 430023)(武漢輕工大學食品科學與工程學院2,武漢 430023)(武漢百信環(huán)保能源科技有限公司3,武漢 430023)
樣品溫度對植物油的近紅外定性分析模型的影響
涂 斌1宋志強1鄭 曉1曾路路1尹 成1何東平2亓培實3
(武漢輕工大學機械工程學院1,武漢 430023)(武漢輕工大學食品科學與工程學院2,武漢 430023)(武漢百信環(huán)保能源科技有限公司3,武漢 430023)
主要研究不同的樣品溫度對基于激光近紅外食用植物油分類模型預測能力的影響。選擇樣品溫度分別為30、40、50、60 ℃作為研究對象,利用激光近紅外光譜儀采集4種溫度下的合格食用油樣品的光譜數(shù)據(jù),用標準正態(tài)變量變換(SNV)對光譜數(shù)據(jù)進行預處理,應用支持向量機分類(SVC)方法建立獨立溫度分類模型和混合溫度分類模型,然后采用遺傳算法(GA)對模型參數(shù)組合(C,g)進行尋優(yōu),確定最佳參數(shù)組合,利用建立的8個模型對4種不同溫度下的預測集樣品分別進行預測。試驗結果表明:某個樣品溫度下的獨立模型對于該溫度下的樣品的預測準確率較高,但是對于其他溫度下的樣品的預測準確率不夠理想;混合模型對不同溫度的樣品預測能力相對較好,具有更好的預測穩(wěn)定性和溫度適應性。研究表明:樣品溫度對模型的預測能力有很大的影響,是建立食用植物油分類模型過程中需要考慮的重要變量。
油脂 激光近紅外 樣品溫度 模型 遺傳算法 支持向量機
由于計算機技術、光譜技術和化學計量學的快速發(fā)展,近紅外光譜分析技術(Near Infrared Spectrum,NIRS)因其分析速度快、效率高、樣品無需預處理、無損分析和易于實現(xiàn)在線分析等特點,在醫(yī)藥、食品、煙草、農(nóng)業(yè)和石化等行業(yè)得到了廣泛的應用[1-3]。由于近紅外光譜分析技術所擁有的優(yōu)點,國內外許多學者應用近紅外技術對植物油脂進行品質分析,劉瑩等[4]利用研制的近紅外山茶油品質分析系統(tǒng),對攙兌玉米油的山茶油進行體積分數(shù)的建模與預測,結果顯示,體積分數(shù)的預測值與真實值基本一致,能夠實現(xiàn)山茶油的品質分析。Julia Kuligowski等[5]結合近紅外光譜技術與偏最小二乘法建立1個全局模型和4個子模型,對煎炸油中的聚合甘油三酯(polymerised triacylglycerides,PTG)進行定量預測,結果顯示,5個模型都能實現(xiàn)PTG含量的預測,其中全局模型預測效果更好、更準確。一般近紅外光譜分析流程包括:第一步,分析樣品,分析樣品的組成成分,可能出現(xiàn)波峰、波谷的波段;第二步,建立數(shù)學模型,研究適合待測物光譜數(shù)據(jù)預處理、建模方法等,應用最佳建模參數(shù)建立可以應用于分析的數(shù)學模型;第三步,優(yōu)化并確定模型參數(shù),確定最優(yōu)建模參數(shù);但是建立的數(shù)學模型一般只能適應一定的時間和空間范圍,隨著測量時間、光程、樣品溫度和樣品狀態(tài)的改變對模型的預測能力和穩(wěn)定性產(chǎn)生一定的影響[6-9]。加熱對樣品的含氫基團產(chǎn)生影響,導致吸光度變化,即不同溫度的樣品的光譜存在差異,容易造成待測樣品溫度與建立數(shù)學模型時的溫度有較大差別時預測結果偏差較大。在特定條件下采集的光譜,建立的模型,只適應于該條件下的樣品品質分析,對于其他條件下的樣品的品質分析的結果不理想,影響模型的推廣應用,同時制約了近紅外光譜分析技術的發(fā)展[10-12]。
本試驗采用激光近紅外光譜儀采集食用油的光譜,以新型的超輻射發(fā)光二極管(super luminescent Light Emitting Diode, SLED)作為光源,具有寬光譜、高能量、低噪聲和小發(fā)射角等特點,不僅消除了鹵鎢燈熱效應,避免因鹵鎢燈發(fā)射的紫外等光譜的能量轉化為熱能,對儀器和樣品起到加熱作用,而且線性度、單色性更好。同時食用油是多種脂肪酸甘油三酯的混合物,其化學成分含氫基團(C-H、O-H)振動的合頻和倍頻的吸收區(qū)與近紅外光譜區(qū)是一致的,因此近紅外適用于對食用油的快速檢測[13]。試驗中以樣品溫度為變量,在其他條件不變的情況下,采用支持向量機(Support Vector Machine,SVM)方法建模,應用遺傳算法(Genetic Algorithm,GA)進行參數(shù)尋優(yōu),研究樣品溫度對于植物油脂分類模型預測能力的影響,找到消除樣品溫度對模型預測準確性和穩(wěn)定性影響的建模方法。
試驗樣品來源包括在武漢各大超市購買的不同品牌、不同種類的合格植物食用油以及一些油脂生產(chǎn)廠家提供的合格食用油共7類,總共79個樣品,見表1。試驗采用K-S(Kennard-Stone)算法按3∶1的比例選取校正集和預測集樣本,隨機選擇60個樣品組成校正集,其余的作為預測集,其中校正集樣本用于模型建立,預測集樣本用于模型預測性能的檢驗,以預測的準確率來判別所建模型的好壞。
表1 樣品的種類、數(shù)量
試驗中采用課題組研制的植物油脂激光近紅外檢測儀采集光譜,主機為美國Axsun科技公司生產(chǎn)的Axsun XL410型激光近紅外光譜儀,光譜測定范圍為1 350~1 800 nm,掃描次數(shù)32次,分辨率為3.5 cm-1,信噪比(250 ms,RMS)>5 500∶1,測量方式為透射,可以選用2、5、10 mm光程的比色皿,溫控范圍為20~100 ℃,可以準確的控制樣品溫度;本次試驗主要采用:50 μL移液槍,石英比色皿(2 mm光程),數(shù)顯恒溫水浴鍋;基于MATLAB_2012a平臺自主設計的光譜數(shù)據(jù)處理系統(tǒng),主要包括光譜的預處理、特征波長提取、模型的建立、未知樣品預測等功能。
針對試驗樣品,分別保持樣品溫度在30、40、50、60 ℃下進行激光近紅外光譜的掃描,得到4組樣品光譜數(shù)據(jù)。在掃描光譜之前,把樣品置于數(shù)顯恒溫水浴鍋中,調節(jié)到相應的檢測溫度,待達到設定溫度,靜置10 min,以保證試劑瓶中的樣品溫度相同,每次取出1個樣品進行光譜掃描。樣品裝樣與圖譜采集:取光程為2 mm比色皿,進行空載掃描,去除暗背景,使用移液管將樣本注入比色皿約3/4處,將比色皿放入樣品池中,恒溫靜置1~2 min,試驗中采用儀器自帶的軟件完成樣品圖譜采集。每個樣品采集3次穩(wěn)定的譜圖后取其平均圖譜作為最終圖譜,原始光譜見圖1。試驗期間保證室內溫度(25 ℃)、濕度、光線的基本一致。
圖1 原始光譜(30、40、50、60 ℃)
2.1.1 預處理方法
通過近紅外光譜儀采集的光譜,包含豐富的信息,但是同時伴有譜帶重疊嚴重、信噪比低等,這些影響模型好壞的因素使得必須對采集的原始光譜數(shù)據(jù)進行預處理。一般比較好的預處理方法應盡可能放大不同種類植物油樣品光譜數(shù)據(jù)的差異,同時減小相同種類植物油樣品光譜數(shù)據(jù)的差異,達到提高建立的模型的準確率和泛化能力。主要考察了3種預處理方法,包括:原始光譜(RWA)(不處理)、標準正態(tài)變量變換(Standard normal variate transformation,SNV)、矢量歸一化(Unit vector normalization,UVN)。UVN可以消除因微小光程差異帶來的光譜變動;SNV可以消除光譜的基線漂移及光程的影響。圖2為SNV處理后的50 ℃光譜圖。
圖2 預處理光譜圖
2.1.2 建模方法
本試驗中將SVM作為建立模型的方法。支持向量機是數(shù)據(jù)挖掘中的一項技術,是借助最優(yōu)化方法來解決機器學習問題的新工具,最初由V. Vapnik領導的AT&T Bell實驗室研究小組在1995年提出的,在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,成為克服“維數(shù)災難”和“過學習”等困難的強有力手段,并能夠推廣應用到函數(shù)擬合等其他機器學習問題中[14-15]。
試驗中將原始數(shù)據(jù)作為支持向量機分類模型的輸入,建立支持向量機分類(Support Vector Machine Classifier,SVC)模型,采用遺傳算法(GA)進行尋優(yōu),確定影響SVC分類器準確率的懲罰參數(shù)C和徑向基(RBF)參數(shù)g,使得C-SVC分類器能夠更好得實現(xiàn)分類預測功能,同時保證有較高的分類準確率。本試驗選用RBF核,因為RBF核的參數(shù)少,參數(shù)過多將會影響到模型的選擇,同時實際應用表明RBF核具有很強的SVM學習能力[16]。以預測準確率的高低評價模型,準確率越高,模型的預測能力越好。
2.2.1 溫度對近紅外光譜的影響
同一個菜籽油樣品分別在30、40、50、60 ℃等4個溫度點下按照圖譜采集方法采集的近紅外光譜,如圖3,可以看出,隨著溫度的變化,同一樣品的激光近紅外光譜圖發(fā)生了變化,其中1700~1800 nm波段的波峰、波谷位置的吸光度相比較其它波段的變化較顯著。通過圖3中可以看出變化是微弱的,不能夠確定溫度對近紅外光譜是否有本質的影響,這有可能是加熱的過程中含氫基團受到了破壞,導致吸光度的變化;也有可能是選擇的樣品數(shù)量少,存在隨機性誤差,因此需要進一步研究溫度對樣品近紅外光譜的影響。
圖3 4種溫度下相同樣品的原始光譜
2.2.2 光譜預處理
根據(jù)表2中各種預處理方法建立的模型的準確率的判斷、對比,發(fā)現(xiàn)使用標準正態(tài)變量變換(SNV)處理的原始光譜數(shù)據(jù)建立的模型預測準確率最高,因此本試驗選用此方法作為預處理方法。
表2 預處理方法的對比分析
注:建模方法為GA-SVC。
2.2.3 建立模型
2.2.3.1 獨立模型
分別對30、40、50、60 ℃的光譜數(shù)據(jù)建立獨立的植物油分類模型,并對建立的4個獨立溫度模型進行交叉檢驗,驗證所建模型對不同溫度的樣品的預測能力,以預測集的預測準確率(%)為評價標準,評價結果(見表3)。
表3 獨立模型交叉檢驗結果/%
通過表3可以看出,各個獨立溫度模型對該溫度下的樣品預測準確率均在84%以上,30、40 ℃模型的預測效果最好,預測集準確率為94.74%,出現(xiàn)了1個錯判(見圖4);50、60 ℃模型的預測能力相對差一點,但是錯判數(shù)僅為3個;表明當采用相同的方法建立數(shù)學模型,不同溫度下的光譜數(shù)據(jù)建立的模型的預測能力差異性很小。同時也可得出,某個樣品溫度下的獨立模型對于該溫度下的樣品的預測準確率是最高的,但是對于其他溫度下的樣品的預測準確率仍然不夠理想,溫度相差越大,預測準確率越低,達不到實際應用中的需要,其中60 ℃模型相比較另兩個獨立溫度模型的預測能力強,但是對于30、40 ℃樣品預測準確率遠遠小于94.74%。說明獨立模型的溫度普適性不是很強,適合獨立模型溫度下的樣品預測,很難實現(xiàn)對不同溫度的待測樣品進行準確預測,同時建立獨立模型對試驗條件有著嚴格的要求,一般只適合在實驗室完成,不僅阻礙了模型的推廣應用,而且制約了獨立模型的建立。綜上表明,溫度對近紅外光譜有實質性的影響,在不同的溫度下,吸光度是變化的;獨立模型單一溫度的預測能力較強,多溫度的預測能力相對差一點,但是隨著樣品溫度的升高,獨立模型的多溫度預測能力逐漸增強;在能夠保證試驗條件的前提下,獨立模型是最好的選擇。
圖4 預測集分類結果圖
2.2.3.2 混合模型
從上述的獨立模型的交叉檢驗可以看出,獨立溫度模型對該溫度下的樣品預測能力較強,但是對其他不同溫度的樣品預測能力相對弱一點,可以發(fā)現(xiàn)樣品溫度對模型的預測能力是有影響的。從理論上分析,加熱有可能導致油脂中含氫基團破壞,影響吸光度,因此對于不同溫度的樣品光譜數(shù)據(jù),是存在差異的,并且包含特有的樣品溫度信息。為了減小溫度對模型預測能力的影響,建立了2元和3元溫度混合模型,消除獨立模型溫度的單一性,加強模型的溫度適應性,也就是增強所建模型的多溫度預測能力。為了和獨立模型對比,混合模型的校正集取自獨立模型的校正集數(shù)據(jù),預測集也是取自相應的預測集數(shù)據(jù)?;旌夏P桶ɑ旌夏P?(40、50 ℃2種溫度光譜集混合)、混合模型2(40、60 ℃2種溫度光譜集混合)、混合模型3(50、60 ℃2種溫度光譜集混合)、混合模型4(40、50、60 ℃3種溫度光譜集混合),建模結果(見表4)。
從表4中看出,混合模型相比較獨立溫度模型,多溫度預測能力、穩(wěn)定性較好,錯判數(shù)都是在3個左右?;旌夏P椭邪骋粶囟鹊臉悠?,對該溫度下的樣品預測準確率較高,有的甚至優(yōu)于在該溫度下獨立模型的預測準確率。對30、40 ℃樣品的預測效果仍然不是很好,錯判數(shù)為3~5個,但是通過4個混合模型與4個獨立模型對比,可以看出混合模型的預測穩(wěn)定性、多溫度適應性優(yōu)于獨立溫度模型,究其原因,主要是因為獨立溫度模型的光譜數(shù)據(jù)偏少,雖然校正集和預測集的光譜數(shù)的選擇具有隨機性,但仍然容易造成隨機誤差相對偏大;混合模型的校正集包含的光譜數(shù)據(jù)是獨立模型的2~3倍,減小了隨機誤差,提高了模型的預測穩(wěn)定性和溫度適應性。結果表明:雖然混合模型對某個溫度的樣品預測能力低于獨立模型,但是對于多溫度的綜合預測能力是優(yōu)于獨立模型。在模型的推廣應用過程中,當不能夠滿足特定溫度條件的時候,可以采用混合模型。
表4 獨立模型和混合模型檢驗預測集樣本的準確率表(%)
本試驗將溫度作為唯一變量引入,作為植物油分類模型預測穩(wěn)定性的影響因素,采用SVC方法建立獨立溫度與混合溫度模型。通過對比所有模型的預測準確率,結果表明:1)某個樣品溫度下的獨立模型對于該溫度下的樣品的預測能力很強,對于其他溫度下的樣品的預測能力較弱;當能夠保證試驗條件時,獨立模型是最佳的選擇。2)混合模型單一溫度預測能力相對弱一點,但是對于不同溫度下樣品預測能力相對較好,具有更好的預測穩(wěn)定性、溫度適應性;當不能夠保證獨立模型的溫度要求,混合模型可以作為一種選擇。3)溫度對模型的預測能力有很大的影響,是在采集光譜數(shù)據(jù)、建立數(shù)學模型過程中需要考慮的一個重要因素。本試驗只是粗略的討論了樣品溫度對模型預測能力的影響,沒有更加深入的解決這一問題,但是為以后建立溫度修正模型提供了參考。
[1]陳蛋,陳斌,陸道禮,等.近紅外光譜分析法測定菜籽油中芥酸的含量[J].農(nóng)業(yè)工程學報,2007,23(1):234-237
[2]彭嚴芳,史新元,周璐薇,等.基于四種NIR儀器類型的清開靈注射液中黃芩苷成分的多變量檢測限研究[J].光譜學與光譜分析,2013,33(9):2363-2368
[3]趙峰,林河通,楊江帆,等.基于近紅外光譜的武夷巖茶品質成分在線檢測[J].農(nóng)業(yè)工程學報,2014(1),30(2):269-277
[4]劉瑩,胡云龍.基于ARM9的近紅外山茶油無損檢測儀研究[J].傳感器與微系統(tǒng),2013,32(4):72-75
[5]Julia Kuligowski, David Carrión, Guillermo Quintás,et al. Direct determination of polymerised triacylglycerides in deep-frying vegetable oil by near infrared spectroscopy using Partial Least Squares regression[J].Food Chemistry, 2012, 131(1):353-359
[6]嚴衍祿 趙龍蓮 李軍會,等,現(xiàn)代近紅外光譜分析的信息處理技術[J].光譜學與光譜分析,2000,20(6):777-780
[7]于海燕, 應義斌, 劉燕德. 農(nóng)產(chǎn)品品質近紅外光譜分析結果影響因素研究綜述[J].農(nóng)業(yè)工程學報, 2005,21(11): 160-163
[8]杜敏,吳志生,林兆洲,等.光程對清開靈注射液中黃芩苷近紅外定量模型的影響[J].藥物分析雜志,2012,32(10):1796-1800
[9]王冬,熊艷梅,黃蓉,等,溫度對復配乳油的近紅外光譜定量分析模型的影響[J].分析化學,2010(9):1311-1315
[10]Hideyuki Abe, Toyoko Kusama, Sumio Kawano.et al. Analysis of hydrogen bonding related to water in foods[J].Japanese Spectrum Research,1995,44(5):247
[11]徐志龍,趙龍蓮,嚴衍祿.減小樣品溫度對近紅外定量分析數(shù)學模型影響的建模方法[J].現(xiàn)代儀器,2004(5):29-31
[12]孔翠萍,褚小立,杜澤學,等.近紅外光譜方法預測生物柴油主要成分[J].分析化學,2010(6):805-810
[13]徐廣通,陸婉珍.柴油近紅外光譜與性質的相關性分析[J].石油學報(石油加工),2001,17(2):91-95
[14]Vapnik, Vladimir Naumovich. The Nature of Statistical Learning Theory[M].New York:Springer-Verlag,1999
[15]司守奎,孫璽.數(shù)學建模算法與應用[M]. 北京:國防工業(yè)出版社,2011
[16]宋志強,沈雄,鄭曉,等.應用近紅外光譜對低碳數(shù)脂肪酸含量預測[J].光譜學與光譜分析,2013(8):2079-2082.
Effect of Sample Temperature on Near-Infrared Qualitative Analysis Models of Vegetable Oil
Tu Bin1Song Zhiqiang1Zheng Xiao1Zeng Lulu Yin Cheng1He Dongping2Qi Peishi3
(School of Mechanical Engineering, Wuhan Polytechnic University1, Wuhan 430023)(College of Food Science and Engineering, Wuhan Polytechnic University2, Wuhan 430023)(Pashun Group3, Wuhan 430023)
The paper has mainly emphasized that different sample temperature has different effect on the predictive ability based on the classification model of laser near infrared edible vegetable oil. First, three sample temperatures have been selected as 30, 40, 50, 60 ℃, respectively; the spectral data of qualified edible oil samples were collected by laser near infrared spectrometer. The spectral data were preprocessed through Standard Normal Variate (SNV), and classification model of independent temperature and classification model of mixing temperature were established by Support Vector Machine (SVM). Further, after the model parameters (C, g) being optimized by application of Genetic Algorithm (GA), the optimal parameters have been finally defined. The the prediction samples with the four different temperatures were predicted by exploiting 8 established mathematical models respectively. According to the analysis, at a certain temperature, independent model had high predicting accuracy in the temperature, while it was far from ideal for the samples in the other temperature. Hybrid model had the better predicting stability and thermal adaptability on the ability of predicting samples at different temperatures. The results showed that sample temperatures had great effect on the predictive ability of classification model, which could be a very important variable in establishment of classification model of edible vegetable oil.
oil, laser near infrared, sample temperature, model, genetic algorithm, support vector machine
O657.3
A
1003-0174(2016)04-0133-05
“十一五”國家科技支撐計劃(2009BADB9B08),武漢市科技攻關計劃(2013010501010147),武漢工業(yè)學院食品營養(yǎng)與安全重大項目培育專項(2011Z06)
2014-09-29
涂斌,男,1990年出生,碩士,智能檢測技術
鄭曉,男,1958年出生,教授,油脂壓榨原理與智能檢測