• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于TrAdaBoost算法的近紅外光譜模型傳遞研究

      2022-03-14 13:26:22劉翠玲徐金陽孫曉榮張善哲昝佳睿
      農(nóng)業(yè)機械學報 2022年2期
      關(guān)鍵詞:食用油預(yù)測值校正

      劉翠玲 徐金陽 孫曉榮 張善哲 昝佳睿

      (1.北京工商大學人工智能學院, 北京 100048; 2.北京工商大學食品安全大數(shù)據(jù)技術(shù)北京市重點實驗室, 北京 100048)

      0 引言

      隨著近紅外(Near infrared,NIR)光譜學的發(fā)展,近紅外光譜技術(shù)已成功地應(yīng)用于食品、醫(yī)藥和農(nóng)業(yè)等許多領(lǐng)域[1-4]。然而,由于儀器的多樣性,所建立的校正模型已經(jīng)不適用于新樣本,但是重新建立校正模型需要大量的工作和時間。模型傳遞(Calibration transfer)為這類問題的解決提供了可行途徑,其本質(zhì)是克服樣本在不同儀器間測量信號的不一致性,使得主機建立的校正模型可以用于其他儀器[5-6]。

      近年來,國內(nèi)外學者對模型傳遞在食品安全領(lǐng)域的應(yīng)用進行了大量研究。劉銳等[7]使用直接標準化算法(Direct standardized,DS)和分段直接標準化(Piecewise direct standardization,PDS)對牛奶的成分進行模型傳遞研究。趙政[8]將斜率截距(Slope/bias,S/B)算法應(yīng)用到新鮮度豬肉的揮發(fā)性和鹽基氮原子含量的模型傳遞。CHEN等[9]提出了一種基于極限學習機自編碼器的模型傳遞方法(Transfer via extreme learning machine auto-encoder method,TEAM),通過對玉米、煙草、藥品數(shù)據(jù)集的實驗證明其預(yù)測性能較好。這些傳統(tǒng)算法都成功將校正模型進行傳遞并取得不錯效果,但存在參數(shù)設(shè)置復(fù)雜、效率低等缺點。

      隨著計算機技術(shù)的快速發(fā)展,遷移學習(Transfer learning)逐漸成為研究熱點,其核心思想是將某個領(lǐng)域上學習到的知識遷移到不同但相關(guān)的領(lǐng)域中[10-11]。這與模型傳遞將主機建立的校正模型遷移到從機上的思路十分相近,所以遷移學習為模型傳遞提供了一種新思路。但現(xiàn)階段遷移學習主要用于圖像[12-13]、文本[14]、語義[15]等方面,戴文淵[16]提出TrAdaBoost算法并成功將其應(yīng)用到跨領(lǐng)域的文本分類。遷移學習具有數(shù)據(jù)小、效率高和魯棒性較好等優(yōu)點[17],但其在模型傳遞領(lǐng)域的應(yīng)用卻鮮有報道。

      本文采用TrAdaBoost算法,并結(jié)合極限學習機(Extreme learning machine,ELM)[18]建立傳遞模型,實現(xiàn)食用油酸值的校正模型在不同儀器之間傳遞。并與直接標準化算法(DS)、基于極限學習機自編碼器的模型傳遞算法(TEAM)和缺損數(shù)據(jù)重構(gòu)算法(Missing data recovery,MDR)[19]進行對比研究,以期將遷移學習更好地應(yīng)用于模型傳遞領(lǐng)域。

      1 材料與方法

      1.1 材料

      實驗食用油樣本來源于北京古船食品有限公司,選擇了5種食用油(玉米油、芝麻香油、大豆油、橄欖油、小磨香油)共計129個樣本。并依據(jù)GB/T 5530—2005《動植物油脂 酸值和酸度測定》[20]測定所有食用油樣本的酸值。

      1.2 實驗儀器

      實驗在北京工商大學光譜技術(shù)與品質(zhì)檢測實驗室完成,光譜檢測儀器為Bruker公司的VERTEX-70型傅里葉紅外光譜儀和MATRIX-F型傅里葉紅外光譜儀。實驗設(shè)定MATRIX-F型光譜儀為主機,VERTEX-70型光譜儀為從機。儀器參數(shù)詳見表1。

      表1 光譜儀器和參數(shù)Tab.1 Spectroscopic instruments and parameters

      1.3 光譜采集

      使用2臺近紅外光譜儀分別采集食用油樣本信息。采集時儀器參數(shù)設(shè)置為:分辨率16 cm-1;樣本掃描次數(shù)32;背景掃描次數(shù)為32;光譜的采集范圍9 000~5 000 cm-1;光闌6 mm;掃描頻率10 kHz。

      1.4 數(shù)據(jù)分析與處理

      1.4.1光譜數(shù)據(jù)預(yù)處理

      由于客觀存在或人為因素,實驗采集到的光譜數(shù)據(jù)通常會摻入噪聲干擾,甚至使得數(shù)據(jù)不再完整。因此,光譜數(shù)據(jù)在建立校正模型之前必須進行預(yù)處理,壓縮建模光譜集數(shù)據(jù)的規(guī)模,從而平滑噪聲并剔除奇異數(shù)據(jù)[21]。在全光譜范圍內(nèi)比較了有限脈沖響應(yīng)(Finite impulse response,F(xiàn)IR)[22]、多元散射校正(Multiplicative scatter correction,MSC)[23]、正交信號校正(Orthogonal signal correction,OSC)[24]和標準正態(tài)變量變換(Standard normalized variate,SNV)[25]共4種預(yù)處理方法對ELM模型性能的影響,發(fā)現(xiàn)經(jīng)SNV預(yù)處理后的光譜能有效提高ELM模型的性能,因此,本實驗以SNV預(yù)處理后的光譜作為后續(xù)分析的基礎(chǔ)。

      1.4.2樣本劃分方法

      建立校正模型前,需要將食用油樣品集劃分為訓練集和測試集。Kennard-Stone[26]算法是一種有效的樣品集劃分方法。其算法是通過計算樣品之間的歐氏距離(Euclidean distance),選擇代表性強的樣品作為訓練集樣品,其余的作為測試集,從而提高校正模型性能。

      1.5 建立PCA-ELM-TrAdaBoost模型傳遞分析模型

      1.5.1PCA降維

      由于食用油數(shù)據(jù)集中的樣本數(shù)量遠小于波數(shù),因此需要降維處理減少數(shù)據(jù)的復(fù)雜度。PCA是常用的化學計量工具,它可以將數(shù)據(jù)從高維空間投影到低維空間,并盡可能保留原始數(shù)據(jù)的有效信息[27]。

      1.5.2ELM校正模型

      ELM的拓撲結(jié)構(gòu)是一個經(jīng)典的前饋神經(jīng)網(wǎng)絡(luò),具有輸入層、隱藏層和輸出層共3層。隱藏神經(jīng)元參數(shù)是隨機分配的,輸出權(quán)重可以通過使用Moore-Penrose廣義逆矩陣進行分析,ELM算法具有學習速度快、可調(diào)參數(shù)少等優(yōu)點[28]。本文采用加權(quán)ELM算法建立校正模型,將降維后的食用油數(shù)據(jù)作為神經(jīng)元輸入,油酸值預(yù)測值作為神經(jīng)元輸出,隱藏層節(jié)點設(shè)為20,并選用Sigmoid作為激活函數(shù)。

      1.5.3TrAdaBoost模型傳遞方法原理

      現(xiàn)階段遷移學習大致分為3類:基于實例的遷移、基于特征的遷移和基于共享參數(shù)的遷移[29-30]。其中TrAdaBoost算法就是基于實例的遷移學習,其核心思想是:對源域Ds的標記數(shù)據(jù)實例進行有效權(quán)重分配,使源域?qū)嵗植冀咏繕擞駾t的實例分布,從而在目標領(lǐng)域中建立一個可靠的校正模型實現(xiàn)模型傳遞[31-32]。其主要步驟為:

      (1)

      (2)

      (3)

      式中m、n——源域、目標域訓練集樣本數(shù)量

      (2)計算誤差。建立加權(quán)ELM校正模型。將訓練集Xi經(jīng)PCA降維后輸入到校正模型中,輸出預(yù)測值Yi,其與真實值Ti的預(yù)測誤差為εi,計算式為

      (4)

      (5)

      (6)

      其中

      式中βk——每次迭代的學習機權(quán)重

      (4)達到最大迭代次數(shù)N后,輸出ELM校正模型目標域的最終預(yù)測值YN。

      1.6 模型傳遞的評價

      模型的評價參數(shù)選擇決定系數(shù)(Correlation coefficient of cross-validation,R2)和預(yù)測集均方根誤差(Root mean square error of prediction,RMSEP)。R2越大表明光譜信息與食用油理化值的相關(guān)性越好,RMSEP越小,表明預(yù)測性能越好,模型傳遞的效果越好。

      2 結(jié)果與分析

      2.1 食用油光譜特征分析

      主機和從機所采集的食用油樣品光譜經(jīng)SNV預(yù)處理后波數(shù)在9 000~5 000 cm-1范圍內(nèi),共2 074個波數(shù)點(圖1)。觀察發(fā)現(xiàn),8 700 cm-1和8 200 cm-1附近有2處主要的吸收峰,且其分別可能是由C—H(CH3,CH2)基團的2ν二倍頻和2ν+2β組合頻作用所引起的[33]。

      圖1 經(jīng)SNV預(yù)處理后的主機與從機的食用油吸光度Fig.1 Spectra of edible oil from master and slave after SNV pretreatment

      2.2 樣本劃分

      采用Kennard-Stone算法對129個食用油樣品進行數(shù)據(jù)劃分,訓練集與預(yù)測集的比例約為3∶1,所以有97個樣本作為訓練集,32個樣本作為預(yù)測集。食用油樣本的數(shù)據(jù)集劃分的具體情況如表2所示,訓練集的油酸質(zhì)量比為0.08~2.12 mg/g,涵蓋了較寬的范圍,有助于構(gòu)建穩(wěn)定的數(shù)學模型。且預(yù)測集的油酸質(zhì)量比為0.09~1.82 mg/g,在訓練集的油酸質(zhì)量比范圍之內(nèi),表明該子集可以對模型的預(yù)測性能進行驗證。

      表2 食用油樣品的數(shù)據(jù)集劃分Tab.2 Data set division of edible oil

      2.3 主成分分析

      由于原始光譜數(shù)據(jù)包含2 074個波數(shù)點,為了降低模型的復(fù)雜度和計算量,故對數(shù)據(jù)采用PCA主成分分析。前5個主成分的貢獻率分別為70.52%、16.79%、4.15%、3.29%和1.21%。通過計算可知,前5個主成分的累計貢獻率已經(jīng)達到了95.96%,故本文使用5個主成分進行建模分析。

      2.4 模型預(yù)測結(jié)果

      利用在主機上已建立好的ELM模型分別預(yù)測主機和從機上的32個預(yù)測集樣品的油酸質(zhì)量比,并循環(huán)20次取平均值。利用主機模型預(yù)測主機樣品集時,預(yù)測值與真實值的決定系數(shù)R2為0.922,預(yù)測集均方根誤差(RMSEP)為0.198 mg/g,預(yù)測效果較好。而當從機樣品集未進行模型傳遞直接代入主機模型進行預(yù)測時,決定系數(shù)R2下降到0.489,預(yù)測集均方根誤差(RMSEP)提高到4.824 mg/g,預(yù)測結(jié)果產(chǎn)生較大差異。

      圖2為2臺光譜儀的預(yù)測集與真實值差值圖,其中Δ1為真實值與主機預(yù)測值的差值,Δ2為真實值與從機樣品集直接應(yīng)用于主機模型預(yù)測值的差值??梢钥闯靓?幾乎為0,主機預(yù)測值與真實值相差不大,說明預(yù)測較為準確。但當從機樣品集直接應(yīng)用于主機模型時,Δ2較大,預(yù)測值與真實值產(chǎn)生較大偏差,所以主機建立的校正模型無法直接應(yīng)用于從機樣品,需要進行模型傳遞改善預(yù)測效果。

      圖2 2種模型的油酸質(zhì)量比預(yù)測值與真實值差值圖Fig.2 Difference of predicted and true values between two models

      2.5 基于TrAdaBoost算法模型傳遞及預(yù)測結(jié)果

      首先,按照算法要求將97個主機訓練集和97個從機訓練集進行合并,形成一個新的訓練集。其次,對新訓練集進行PCA處理并選取5個主成分,建立PCA-ELM-TrAdaBoost模型傳遞分析模型。最后,將從機的32個樣本代入上述傳遞后的主機模型中進行預(yù)測,并循環(huán)20次取平均值。

      圖3為循環(huán)20次的模型傳遞與未傳遞的決定系數(shù)R2對比圖,經(jīng)過模型傳遞后的從機預(yù)測值與真實值的R2較高且比較穩(wěn)定,在0.9左右浮動,而未經(jīng)過模型傳遞的決定系數(shù)R2相對較低且不穩(wěn)定。

      圖3 傳遞與未傳遞的決定系數(shù)R2對比Fig.3 R2 comparison between transfer and un-transfer

      圖4為經(jīng)過模型傳遞后從機預(yù)測值與真實值差值圖,可以看出經(jīng)模型傳遞后預(yù)測值與真實值差值(Δ)幾乎為0,預(yù)測值接近真實值,說明模型預(yù)測能力有所改善。決定系數(shù)R2從0.489提高到0.892,RMSEP從原先的4.824 mg/g降低到0.267 mg/g。說明經(jīng)TrAdaBoost算法傳遞后的主機模型能更有效適用從機樣本,從而減少主機與從機間的數(shù)據(jù)差異。

      圖4 模型傳遞后的預(yù)測值與真實值差值圖Fig.4 Difference of predicted and true values between transfer and un-transfer

      2.6 標準樣品數(shù)量對模型傳遞的影響

      為了取得較好的模型傳遞效果,采用Kennard-Stone算法依次從主機訓練集中選取0、10、…、90個樣品作為標準化樣品集,對TrAdaBoost算法進行測試。圖5為不同標準化樣品數(shù)量對TrAdaBoost模型的影響情況。當主機樣品數(shù)為0時,此時仍是從機樣品直接在主機模型預(yù)測的結(jié)果。隨著主機樣品數(shù)的增加,RMSEP下降到穩(wěn)定值后無明顯變化,說明標準樣品集的數(shù)量對TrAdaBoost算法的影響很小。

      圖5 不同標準化樣品數(shù)對模型的影響Fig.5 Influence of number of samples on model

      2.7 TrAdaBoost算法與其他算法的比較

      為了評估TrAdaBoost算法的模型傳遞的性能,采用DS算法、TEAM算法和MDR算法進行對比測試。DS算法的基本思想是先建立主、從機光譜數(shù)據(jù)的數(shù)學函數(shù)關(guān)系,再用函數(shù)關(guān)系轉(zhuǎn)換從機光譜數(shù)據(jù),從而減少不同儀器間所測同一樣本光譜數(shù)據(jù)的差異,實現(xiàn)模型在不同儀器間傳遞。TEAM算法將主機光譜作為學習目標,選擇隱藏層中權(quán)重與偏差正交的節(jié)點,利用極限學習機的快速逼近能力與泛化性能建立主機和從機光譜之間的關(guān)系,以減少傳遞后的預(yù)測誤差。MDR算法通過構(gòu)建光譜轉(zhuǎn)換矩陣,將待轉(zhuǎn)換光譜視作缺失數(shù)據(jù),通過多次迭代計算,可逐步實現(xiàn)從機光譜向主機光譜方向的轉(zhuǎn)換,再預(yù)測時能夠得到從機與主機光譜數(shù)據(jù)較小偏差的結(jié)果。

      為了對比4種模型傳遞算法,樣本的數(shù)據(jù)集劃分、主成分個數(shù)以及ELM隱藏節(jié)點數(shù)均相同。經(jīng)4種算法傳遞后的主機模型分別預(yù)測從機樣品的油酸質(zhì)量比,并循環(huán)20次計算平均R2和RMSEP,以評估傳遞模型的性能,如圖6所示。

      圖6 不同算法下的模型R2和RMSEPFig.6 R2 and RMSEP results by different calibration transfer methods

      對比4種算法,將從機樣本代入經(jīng)TrAdaBoost算法轉(zhuǎn)換后的主機模型,其預(yù)測能力效果最好,R2為0.892,RMSEP為0.267 mg/g,十分接近主機本身的樣本代入主機模型的預(yù)測值,R2為0.922和RMSEP為0.198 mg/g。預(yù)測效果由優(yōu)到差依次為TEAM算法、MDR算法和DS算法,但這3種模型傳遞算法的預(yù)測能力均有所改善,均大于從機樣本直接應(yīng)用到主機模型上的預(yù)測值。TrAdaBoost模型預(yù)測效果比其他3種算法好的原因可能是該算法將主機樣本和從機樣本進行合并,新產(chǎn)生的訓練集因為包含主機樣本,使得擬合效果更接近主機模型,以致在預(yù)測時可以更好地適應(yīng)主機模型。

      3 結(jié)論

      (1)將遷移學習的方法應(yīng)用到近紅外光譜中模型傳遞領(lǐng)域,采用TrAdaBoost算法結(jié)合ELM模型,實現(xiàn)了食用油酸質(zhì)量比校正模型在不同儀器之間的傳遞。并與DS算法、TEAM算法和MDR算法進行對比研究。

      (2)經(jīng)模型傳遞后的主機模型的從機樣本油酸質(zhì)量比預(yù)測模型R2從0.489提高到0.892,RMSEP從4.824 mg/g降低到0.267 mg/g。對比其余3種算法,TrAdaBoost算法的預(yù)測結(jié)果最好,且預(yù)測值十分接近主機模型的預(yù)測結(jié)果,此外模型的建立幾乎不受標準樣品數(shù)量的影響。

      (3)TrAdaBoost算法可以有效使不同儀器之間的光譜數(shù)據(jù)進行轉(zhuǎn)換,提高了從機樣本在主機模型的適應(yīng)度,這對遷移學習應(yīng)用于模型傳遞領(lǐng)域提供了研究思路,使近紅外光譜技術(shù)應(yīng)用于食用油檢測具有實際意義。

      猜你喜歡
      食用油預(yù)測值校正
      IMF上調(diào)今年全球經(jīng)濟增長預(yù)期
      企業(yè)界(2024年8期)2024-07-05 10:59:04
      加拿大農(nóng)業(yè)部下調(diào)2021/22年度油菜籽和小麥產(chǎn)量預(yù)測值
      ±800kV直流輸電工程合成電場夏季實測值與預(yù)測值比對分析
      劉光第《南旋記》校正
      國學(2020年1期)2020-06-29 15:15:30
      廢食用油改性瀝青性能研究
      石油瀝青(2020年1期)2020-05-25 06:54:04
      法電再次修訂2020年核發(fā)電量預(yù)測值
      國外核新聞(2020年8期)2020-03-14 02:09:19
      開封后的食用油應(yīng)該怎么存放
      伴侶(2019年10期)2019-10-16 02:23:34
      2019上海食用油展、食用油包裝展覽會
      2019上海食用油展、食用油包裝展覽
      一類具有校正隔離率隨機SIQS模型的絕滅性與分布
      茂名市| 眉山市| 南乐县| 台东县| 聂荣县| 达尔| 隆子县| 汶川县| 田阳县| 西昌市| 金秀| 平顶山市| 无极县| 建德市| 望奎县| 固始县| 汕头市| 灯塔市| 玉溪市| 连南| 奇台县| 财经| 宁都县| 诏安县| 尉氏县| 大渡口区| 永仁县| 于田县| 湾仔区| 刚察县| 淮北市| 绥宁县| 县级市| 商都县| 沈阳市| 台安县| 宝应县| 天津市| 扶风县| 临湘市| 遂川县|