• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      近紅外光譜奇異樣本剔除方法研究

      2014-01-13 13:47:22劉翠玲胡玉君吳勝男孫曉榮竇森磊苗雨晴
      食品科學技術學報 2014年5期
      關鍵詞:馬氏面粉校正

      劉翠玲, 胡玉君, 吳勝男, 孫曉榮, 竇森磊, 苗雨晴, 竇 穎

      (北京工商大學計算機與信息工程學院,北京 100048)

      近紅外光譜奇異樣本剔除方法研究

      劉翠玲, 胡玉君, 吳勝男, 孫曉榮, 竇森磊, 苗雨晴, 竇 穎

      (北京工商大學計算機與信息工程學院,北京 100048)

      采用近紅外光譜分析技術建立面粉校正模型,對面粉中灰分含量進行定量分析,并對異常樣本進行剔除.試驗中采用馬氏距離法和蒙特卡洛采樣法分別對異常樣本進行了剔除,結果表明:用馬氏距離法剔除異常樣本,當權重系數為1.5,剔除樣本數為3時,得到最好結果,相關系數(R2) 為92.67,交互驗證均方差RMSECV為0.048 5;MCCV法剔除異常樣本,剔除樣本數為3,得到最好結果,相關系數(R2)為94.64,交互驗證均方差RMSECV為0.041 1.故馬氏距離法剔除異常樣本能在一定程度上提高校正模型的精度和預測精度,但MCCV法剔除異常樣本后模型精度和預測精度優(yōu)于馬氏距離法.

      近紅外光譜;異常樣本;馬氏距離法;MCCV;灰分

      人們的日常生活離不開面粉,面粉的品質問題隨著生活水平的提高而得到普遍關注,食品監(jiān)管部門對面粉品質的控制尤為重要.目前對面粉的評價指標主要有水分、灰分以及面筋等[1-4].傳統(tǒng)的面粉品質檢測方法(物理化學法)存在多種缺陷,不僅耗費時間,而且容易對面粉造成二次污染[5],而被廣泛應用于農作物品種檢測和分析的近紅外光譜分析技術能夠在不破壞樣品的前提下對樣品進行準確、迅速的檢測,在一定程度上克服了傳統(tǒng)檢測方法的缺陷.

      近紅外光譜分析技術是一種物理測試技術,主要通過建立近紅外光譜分析模型對未知的面粉樣品進行預測,分析模型的準確程度能夠直接影響對未知樣品的預測精度[6-8].在建立面粉的近紅外光譜分析模型時要求面粉的近紅外光譜圖和化學值之間存在一定的相關性,異常樣品的存在能夠降低譜圖與化學值之間的相關性,降低模型的預測精度,因此需要對異常樣本進行判別和處理.王建義[9]等人對產生異常樣品的原因進行了詳細的介紹,本文主要探討馬氏距離法以及蒙特卡洛交叉驗證法對剔除異常樣本后的數據建立近紅外光譜分析模型,通過測定模型的準確度對兩種方法進行比較,從而提高近紅外光譜面粉品質檢測模型的精確性和可靠性.

      1 試驗材料、儀器與方法

      1.1 樣品的準備

      試驗所用面粉樣本,是從合作單位古船面粉廠取得的不同日期、不同生產線生產的不同種類的面粉,共計60個.

      1.2 樣品化學值的測量

      試驗采用國標法850℃乙酸鎂法,準確測量面粉樣本的灰分含量,所測值作為建模時的化學值.

      1.3 樣品近紅外光譜的采集

      本次試驗使用傅里葉變換近紅外光譜儀VER-TEX 70,將上述面粉樣品放置在漫反射樣品臺的樣品杯中,進行近紅外光譜采集.大樣品杯旋轉采樣,環(huán)境溫度23~25℃,掃描次數64次,波數范圍12 000~4 000 cm-1,分辨率8 cm-1.對60個面粉樣本進行近紅外漫反射掃描后的光譜圖如圖1.

      圖1 面粉樣本的近紅外漫反射光譜圖Fig.1 NIR diffuse reflectance spectra of flour samples

      1.4 馬氏距離與蒙特卡洛交叉驗證算法

      1.4.1 馬氏距離算法

      將面粉的光譜圖轉換成數據矩陣后將成為一個n×k的矩陣A.

      計算n個樣品的平均光譜:

      式(1)中,Aij為樣品光譜矩陣元素;n為樣品的個數; j為波長序號;樣品光譜的平均值.

      將光譜數據減去平均值做光譜數據中心化處理:

      式(2)中,Au代表中心化處理后的光譜矩陣,A代表原光譜矩陣,代表光譜的平均值陣.

      然后計算出原標準光譜數據集的協(xié)方差陣:

      式(3)中,M代表標準光譜數據集的協(xié)方差陣,ATu代表中心化處理后的光譜矩陣的轉置,Au代表中心化后的光譜陣,n代表樣品數.

      根據校正集樣品數據和平均光譜數據計算兩者之間的馬氏距離:

      式(4)中,Ai代表校正集樣品數據,A代表平均光譜數據.M-1代表標準光譜數據集的協(xié)方差陣的逆矩陣.

      為了檢驗n個樣品中是否存在異常樣本,首先要設置一個閾值,這個閾值是根據計算出的n個馬氏距離設置的.計算閾值范圍如下:

      式(5)中,代表馬氏距離的平均值;σD代表馬氏距離的標準差;e代表調整閉值范圍的參數.

      當樣品i與樣品的平均光譜十分相近時,即存在Di≤Dt,則稱之為平均樣品的鄰近樣品.陳斌[10-13]等人詳細介紹了如何通過設置不同的閾值范圍參數e,調節(jié)樣品的臨近樣品個數,并采用PLS建模進行回歸預測,根據預測結果選取最佳e值.

      1.4.2 蒙特卡洛交叉驗證算法

      蒙特卡洛交叉驗證算法(Monte Carlo cross validation,MCCV)又稱為統(tǒng)計模擬方法,能夠用于解決復雜統(tǒng)計模型和矩陣高維問題[14-15].蒙特卡洛交叉驗證算法的核心是對樣本的抽取,如何從給定的目標函數分布中進行高效抽樣成為關鍵所在.蒙特卡洛隨機取樣(Monte Carlo sampling,MCS)法提出選取一定的校正集(占樣品量的80%)建立偏最小二乘模型,剩余的20%作預測集對模型進行驗證,經過多次循環(huán)后能夠得到一組預測殘差,通過預測殘差計算出預測殘差的均值(MEAN)與方差(STD),從而判斷異常樣本.

      通過校正集相關系數(R2)、交叉驗證均方差RMSECV、預測均方差RMSEP對模型進行評價,從而驗證剔除異常樣本是否有利于模型精度的提高.

      2 結果與討論

      2.1 含異常樣品的面粉近紅外光譜分析

      將60個樣本應用于近紅外定量分析,通過Kennard-Stone(KS)方法,確定校正集50個樣本,剩余10個樣本用于模型驗證.通過OPUS 6.5軟件的分析和優(yōu)化,選擇最優(yōu)處理算法,尋找面粉的吸收光譜較豐富的波段.分析表明,面粉對光譜信息貢獻量最大的譜區(qū)范圍是4 848.4~4 246.7 cm-1,維數為6,利用PLS方法進行建模,可得相關系數(R2)為85.69,交互驗證均方差RMSECV為0.067 2,50個面粉樣本近紅外光譜圖交叉驗證后灰分的近紅外計算值與化學分析值如圖2.

      部分異常樣品的存在使模型的相關系數比較低,模型預測結果缺乏可信度,所以需要把異常樣本剔除.

      2.2 馬氏距離法剔除異常樣品

      對50個校正集樣本的近紅外光譜進行馬氏距離計算,可得到馬氏距離分布圖,如圖3.

      圖2 近紅外光譜交叉驗證計算值與化學分析值Fig.2 Near-infrared spectroscopy cross-validation calculated values and chemical analysis values

      圖3 校正集的馬氏距離分布圖Fig.3 Calibration set Mahalanobis distance distribution

      從圖3中可以看出,一些樣品如30,39等的馬氏距離過大而成為異常樣本.設定6個不同的權重系數對異常樣本進行判斷和分析,可將權重設置為e(3,2.5,1.5,1.2,1.0,0.5),分別剔除異常樣本為:30(e=3);30,39(e=2.5);30,32,39(e=1.5); 1,30,32,39(e=1.2);1,14,30,32,39(e=1.0);1, 14,27,30,32,39(e=0.5).剔除異常樣品后,對光譜信息貢獻量最大的譜區(qū)范圍4 848.4~4 246.7 cm-1.采取偏最小二乘方法建模,所得結果如表1,馬氏距離法剔除異常樣品后交叉驗證計算值與化學分析值如圖4.

      表1 不同閾值剔除后PLS校正模型交互校驗結果Tab.1 Interact verification results of PLS calibrationmodel after removal of different thresholds

      由表1可知,當權重系數為1.5,主成分數為8,剔除異常樣本數為3時,得到最好結果,相關系數(R2)為92.67,交互驗證均方差(RMSECV)為0.048 5.

      圖4 馬氏距離法剔除異常樣品后交叉驗證計算值與化學值Fig.4 Cross-validation calculated and chemical values of Mahalanobis distance method excluding anomalous samples

      2.3 蒙特卡洛交叉驗證算法剔除異常樣本

      在50個校正集樣本中,用蒙特卡洛隨機取樣法選取校正集和預測集,然后建立偏最小二乘模型,循環(huán)2 000次后得到各樣本的預測殘差值,并計算出均值與方差的MEAN-STD圖,如圖5,為了確定異常樣本,繪制誤差的火柴梗圖,如圖6.

      圖5 均值方差分布Fig.5 Mean-variance distribution

      從圖5可知,某些樣本明顯偏離主體樣本,如39,12這些樣本可視為奇異樣本,應該剔除,由MEAN-STD圖和火柴梗圖確定出需要剔除異常樣本.奇異樣本剔除前后PLS校正模型的RMSECV的變化情況見表2.MCCV剔除異常樣品后交叉驗證計算值與化學分析值如圖7.

      由表2可知,剔除異常樣品個數為3,得到最好結果,相關系數(R2)為94.64,交互驗證均方差RMSECV為0.041 1.

      圖6 預測誤差的火柴梗圖Fig.6 Stick Figure of prediction error

      表2 剔除異常樣本前后PLS校正模型交互校驗結果Tab.2 PLS calibrationmodel cross validation results after excluding outliers

      圖7 MCCV法剔除異常樣品后交叉驗證計算值與化學分析值Fig.7 Cross-validation calculated and chemical analysis values of MCCV law after excluding abnormal samples

      2.4 預測模型的精度比較

      為了驗證剔除異常樣本的準確性,對預測集的10個樣本進行預測,預測結果如表3.真實值與預測值之間的相關圖如圖8~圖10.

      表3 剔除異常樣本后校正模型的預測結果Tab.3 Calibration model predictions after excluding outliers

      由表3可知,用馬氏距離法和MCCV法剔除異常樣本后校正模型的精度和預測精度確實有所提高,MCCV法剔除異常樣本模型精度和預測精度提高的相對明顯.

      圖8 未剔除樣本的模型真實值與預測值相關圖Fig.8 Real and predicted values correlation chartwithout excluding samplemodel

      圖9 馬氏距離法剔除樣本模型真實值與預測值相關圖Fig.9 Real and predicted values correlation chart with Mahalanobis distancemethod excluding sample

      圖10 MCCV法剔除樣本模型真實值與預測值相關圖Fig.10 Real and predicted values correlation chartwith MCCV law Excluding sample

      3 結論與展望

      本次試驗用馬氏距離法和蒙特卡洛采樣法分別對異常樣本進行了剔除,用馬氏距離法剔除異常樣本,當權重系數為1.5,剔除樣本數為3時,得到較好結果,相關系數(R2)為92.67,交互驗證均方差RMSECV為0.048 5.MCCV法剔除異常樣本,剔除異常樣本數為3時,得到較好結果,相關系數(R2)為94.64,交互驗證均方差RMSECV為0.041 1.結果表明:馬氏距離法剔除異常樣本確實能提高校正模型的精度和預測精度,但MCCV法剔除異常樣本模型精度和預測精度提高的相對更明顯.

      在本次試驗中發(fā)現,雖然2種異常樣本剔除方法都使模型精度得到提高并且剔除異常樣本的個數相同,但是剔除的樣本并不同,可能存在以下問題: 1)在沒有樣本的化學值的情況下,仍然可以采用馬氏距離法剔除異常樣本,MCCV法不僅需要光譜數據而且需要樣本的化學值,可能存在由于人為誤差導致化學值測量不準確,從而導致2種方法剔除不同的樣本.2)2種方法的原理不同,馬氏距離法是通過光譜數據驗證樣本間的距離,MCCV方法是通過對光譜數據進行多次PLS建模驗證得到結果,所以這兩種方法所得到的結果不同.目前對剔除異常樣本進行了初步的研究,所做的都是驗證工作,下一步的工作目標是找到問題存在的原因,并且尋找更好的異常樣本剔除方法,從而提高預測模型的準確性和穩(wěn)定性.

      [1] 陸婉珍,袁洪福,徐廣通.現代近紅外光譜分析技術[M].北京:中國石油化工出版社,2000:37-45.

      [2] 倪永年.化學計量學在分析化學中的應用[M].北京:科學出版社,2004:304-310.

      [3] 劉建學.實用近紅外光譜分析技術[M].北京:科學出版社,2008:168-186.

      [4] 鄒小波,趙杰文.農產品無損檢測技術與數據分析方法[M].北京:中國輕工業(yè)出版社,2008:197-220.

      [5] 閆李慧,王金水,金華麗,等.基于近紅外光譜技術的通用面粉水分無損檢測模型的建立[J].現代食品科技,2011,27(2):235.

      [6] Karande A D,Heng PW S,Liew CV.In-line quantification ofmicronized drug and excipients in tablets by near infrared(NIR)spectroscopy:real timemonitoring of tabletting process[J].International Journal of Pharmaceutics,2010,396:63-74.

      [7] CHEN Quansheng,PEI Jiang,ZHAO Jiewen.Measurement of total flavones content in snow lotus(saussurea involucrate)using near infrared spectroscopy combined with interval PLSand genetic algorithm[J].Spectrochimica Acta Part A,Molecular and Biomolecular Spectroscopy,2010,76:50-55.

      [8] QU Nan,ZHUMingchao,MIHong,etal.Nondestructive determination of compound amoxicillin powder by NIR spectroscopy with the aid of chemometrics[J].Spectrochimica Acta Part A,Molecular and Biomolecular Spectroscopy,2008,70:1146-1151.

      [9] 王建義,雷蒙.近紅外光譜煤質分析模型中異常樣品的剔除方法[J].工礦自動化,2011,11(11):75-76.

      [10] 陳斌,鄒賢勇,朱文靜.PCA結合馬氏距離法剔除近紅外異常樣品[J].江蘇大學學報,2008,29(4):277 -279.

      [11] 王毅.近紅外光譜分析技術在食用植物油品質檢測中的應用[D].鎮(zhèn)江:江蘇大學,2010.

      [12] SHAO Yongni,HE Yong.Measurement of soluble solids and pH of Yogurt using visible/near infrared spectroscopy and chemometrics[J].Food Bioprocess Techno, 2009(2):229-233.

      [13] Edword J.Graphicalmodelling and themahalanobis distance[J].Journal of Applied Statistics,2005,32 (9):959-967.

      [14] 李水芳,單楊,范偉,等.基于MCCV奇異樣本篩選和CARS變量選擇法對蜂蜜pH值和酸度的近紅外光譜檢測[J].食品科學,2011,32(8):182-184.

      [15] LIU Yande,Ying Yibin,JIANG Haiyan.Rapid determination ofmaturity in apple using outlier detection and calibrationmodel optimization[J].Transactions of the ASAB E,2006,49(1):91-95.

      Outlier Sam ple Elim inating M ethods for Building Calibration M odel of Near Infrared Spectroscopy Analysis

      LIU Cuiling, HU Yujun, WU Shengnan, SUN Xiaorong, DOU Senlei, MIAO Yuqing, DOU Ying (School ofComputer Science and Information Engineering,Beijing Technology and Business University, Beijing 100048,China)

      The accuracy of the prediction model is affected by the near-infrared spectrum of flour and flour ash contentswas quantitative analyzed.While the presence ofoutlier data seriously interferewith the reliability of themodel,therefore,it is essential to identify and dealwith the outlier samples to improve the predictive ability.Mahalanobis distance and the Monte Carlo cross validation(MCCV)methodswere used to remove the outlier samples.When the weight coefficientwas1.5,excluding sample number was 3 with the formermethod it could get the best results,and the related coefficient(R2)was92.67,crossvalidationmean square error(RMSECV)was0.048 5.While with the lattermethod the correlation coefficient(R2)was94.64,cross-validation mean square error(RMSECV)was0.041 1.Therefore,Mahalanobis distancemethod can improve the calibration model and prediction accuracy to a certain extent, while the calibrationmodeland prediction accuracy ofMCCV withoutoutliers sampleswas better than that of the Mahalanobis distancemethod.

      near infrared spectroscopy;outlier samples;Mahalanobis distance;MCCV;flour ash

      檀彩蓮)

      TS211.7;TS207.3;TP391.9

      A

      10.3969/j.issn.2095-6002.2014.05.014

      2095-6002(2014)05-0074-06

      劉翠玲,胡玉君,吳勝男,等.近紅外光譜奇異樣本剔除方法研究.食品科學技術學報,2014,32(5):74-79. LIU Cuiling,HU Yujun,WU Shengnan,et al.Outlier sample eliminatingmethods for building calibration model of near infrared spectroscopy analysis.Journal of Food Science and Technology,2014,32(5):74-79.

      2014-03-06

      北京市科技創(chuàng)新平臺資助項目(pxm_2012_014213_000023);北京市教委科技發(fā)展重點資助項目(KZ201310011012);北京市優(yōu)秀人才基金資助項目(2012D005003000007).

      劉翠玲,女,教授,博士,主要從事檢測技術及智能信息處理方面的研究.

      猜你喜歡
      馬氏面粉校正
      面粉大戰(zhàn)
      一類時間變換的強馬氏過程
      有環(huán)的可逆馬氏鏈的統(tǒng)計確認
      劉光第《南旋記》校正
      國學(2020年1期)2020-06-29 15:15:30
      關于樹指標非齊次馬氏鏈的廣義熵遍歷定理
      面粉多少噸
      面粉為什么會爆炸
      一致可數可加馬氏鏈不變測度的存在性
      一類具有校正隔離率隨機SIQS模型的絕滅性與分布
      小靈通磨面粉
      石林| 长垣县| 东丽区| 景东| 巩留县| 兴城市| 修文县| 治多县| 武宣县| 东至县| 长泰县| 都安| 修文县| 阿合奇县| 滦平县| 民勤县| 巨鹿县| 商都县| 建平县| 姜堰市| 罗山县| 云安县| 辰溪县| 长岛县| 通海县| 涟水县| 永德县| 土默特左旗| 涟水县| 射洪县| 西宁市| 利川市| 永城市| 贺州市| 都匀市| 巩留县| 枣庄市| 平阴县| 确山县| 出国| 宁晋县|