張立國,陳至坤,王 麗,曹麗芳,嚴 冰,王玉田
1.燕山大學測試計量技術(shù)及儀器河北省重點實驗室,河北 秦皇島 066004 2.華北理工大學電氣工程學院,河北 唐山 063009 3.河北省自動化研究所,河北 石家莊 050081
可拓神經(jīng)網(wǎng)絡模式識別對成品油的鑒別與測量
張立國1,3,陳至坤1, 2,王 麗1*,曹麗芳1,嚴 冰1,王玉田1
1.燕山大學測試計量技術(shù)及儀器河北省重點實驗室,河北 秦皇島 066004 2.華北理工大學電氣工程學院,河北 唐山 063009 3.河北省自動化研究所,河北 石家莊 050081
燃油存在“消耗量大”、“相對低質(zhì)”、“前端缺少清潔”、“末端排放缺乏控制”四大問題, 我國的空氣污染60%以上來自煤和油的燃燒,霧霾問題很大程度上取決于能源問題??焖贉蚀_地實現(xiàn)汽油、柴油、煤油等成品油的鑒別與測量,對于實施空氣污染監(jiān)測及治理具有重要意義。在精確地表征成品油種類信息的基礎上,為了提高網(wǎng)絡模型的識別效率,采用主成分分析方法將高維空間進行降維處理。對最常用的三維熒光光譜基于激發(fā)-發(fā)射矩陣(excitation-emission matrix, EEM)數(shù)據(jù)進行主成分分析以提取更精細、更深層的特征參量。分類過程中應用交叉驗證的方法避免發(fā)生“過擬合”現(xiàn)象。設計鑒別和測量雙重處理的神經(jīng)網(wǎng)絡,將神經(jīng)網(wǎng)絡模式識別結(jié)果反饋到濃度網(wǎng)絡的輸入端,與相對斜率、綜合本底參數(shù)、相對熒光強度一起測量相應種類的濃度輸出,利用可拓神經(jīng)網(wǎng)絡模式識別技術(shù)實現(xiàn)成品油的鑒別與測量。應用可拓神經(jīng)網(wǎng)絡方法實現(xiàn)成品油種類模式識別的平均識別率達到0.99,濃度平均回收率為0.95。模式識別平均耗時為2.5 s,僅為PARAFAC模型分析方法的48.5%。該方法顯著提高了運算速度,且應用效果理想。需要指出的是,在分析諸如成品油、茶葉、農(nóng)藥等成分復雜的混合物時,應針對具體待測物制作相應的校正樣本,用以確保分析的準確性與精度。
三維熒光光譜;成品油;主成分分析;可拓神經(jīng)網(wǎng)絡
我國的空氣污染60%以上來自煤和油的燃燒,快速準確地實現(xiàn)成品油的鑒別與測量,對于實施空氣污染監(jiān)測及治理具有重要意義。近年來國內(nèi)許多研究者對油類熒光光譜的數(shù)學特征進行提取,應用基于表觀特征的原點矩、峰度系數(shù)等統(tǒng)計學指標實現(xiàn)光譜參數(shù)化[1-2],僅能反映出三維熒光譜的總體特征。國外學者研究了油類三維熒光光譜的紅移與濃度定量測量之間的關(guān)系,并且對多環(huán)芳烴進行了較多地研究[3-6]。本研究通過對EEM數(shù)據(jù)的主成分分析來提取更精細、更深層的特征參量,利用可拓神經(jīng)網(wǎng)絡模式識別技術(shù)實現(xiàn)成品油的鑒別與測量,顯著地提高了運算速度。
主成分分析(principal component analysis, PCA)是將原變量進行轉(zhuǎn)換,使數(shù)據(jù)降維。所得新變量互不相關(guān),即正交。在m維空間中,新變量μ1,μ2, …,μm表達為式(1)
μ1=ν11x1+ν12x2+…+ν1mxm
μ2=ν21x1+ν22x2+…+ν2mxm
…
μm=νm1x1+νm2x2+…+νmmxm
(1)
(2)
WDc=0.4/P
(3)
Ei(yk,Vk)=
i=1, 2, …,L
(4)
(5)
(6)
(7)
式(6)中的Eki由式(8)表示
i=1, 2, …,L
(8)
PARAFAC平行因子分析模型或平行因子是三線性成分模型及其分解方法在化學計量學領(lǐng)域的簡稱。在熒光光譜數(shù)據(jù)分析中,平行因子分析遵循朗伯-比爾定律。經(jīng)典的PARAFAC算法是應用交替最小二乘法實現(xiàn)三線性模型的分解,其目標是使殘差平方和達到最小。
(9)
式(9)中σ為殘差平方和,F(xiàn)為平行因子方法所選取的因子數(shù)。
在成品油的四氯化碳溶液配置過程中,按比例1∶1 000(成品油與四氯化碳體積比)配置成品油四氯化碳溶液的標準母液,將母液進行逐步稀釋得到濃度各異的待測樣本。
在對原始數(shù)據(jù)進行標準化以及相關(guān)系數(shù)矩陣的計算基礎上,選取特征譜的維數(shù)為8。選取主成分特征譜的目的就是在保留分類信息的前提下,合理選取既少又能體現(xiàn)事物全貌特征的最優(yōu)特征變量,進一步壓縮和降低特征空間的維數(shù)以減少計算量,這樣更有利于選出信息量最大、對分類最有影響的特征[7-8]。通過分析應用相關(guān)系數(shù)法計算所得的各參數(shù)之間的相關(guān)系數(shù),最終選取主成分特征譜(PCA提取)列于表1。
表1 主成分特征譜(PCA提取)
續(xù)表1
270.54690.57250.53770.44950.76130.58120.66320.5912280.99670.00010.02510.67060.89890.75910.37670.4787290.92200.55160.57300.49940.74830.79390.79870.5112300.57500.63530.53080.57630.78320.73410.59470.4435
某一變量的載荷定義為該變量在組合式中的系數(shù)乘以相應于該主成分本征值的平方根,但實際中也常稱系數(shù)本身為載荷。載荷越大說明此變量與那個主成分越“相同”。因而,載荷可視為變量與主成分的相關(guān)性。一試樣相應于某主成分由組合式計算所得值稱為得分。網(wǎng)絡輸入數(shù)據(jù)即主成分得分列于表2。
表2 主成分得分數(shù)據(jù)
將上述主成分得分數(shù)據(jù)作為新數(shù)據(jù)輸入網(wǎng)絡,1~20號樣本為訓練樣本,21~30號樣本為測試樣本,分類過程中應用交叉驗證的方法避免“過擬合”現(xiàn)象的發(fā)生[9]。在擁有足夠信息的前提下,選取前5位特征參數(shù)(除濃度信息)。網(wǎng)絡模型的輸入節(jié)點數(shù)設置為5,輸出節(jié)點數(shù)即成品油種類數(shù)設置為3。在可拓神經(jīng)網(wǎng)絡中,初始權(quán)重直接相關(guān)于訓練結(jié)果。在均衡初始權(quán)重的影響下,對訓練樣本進行網(wǎng)絡訓練,其中學習算法中的循環(huán)迭代會產(chǎn)生訓練誤差,網(wǎng)絡模型的訓練結(jié)果表示樣本與期望輸出的接近程度。神經(jīng)網(wǎng)絡既可用于精確值計算,也可用于模式識別。用于模式識別時,其輸出結(jié)點數(shù)與擬分的類數(shù)有關(guān)。如有兩類,可用兩個結(jié)點,三類為三結(jié)點等。相應地,三類時可分別表達為(1,0,0),(0,1,0)和(0,0,1),即期望輸出(D1,D2,D3)。網(wǎng)絡模型的訓練結(jié)果與期望輸出列于表3。模式識別誤差曲線如圖1所示。
表3 網(wǎng)絡模型的訓練結(jié)果與期望輸出
圖1 模式識別誤差曲線
表4 測試樣本輸出結(jié)果
經(jīng)過1~20號訓練樣本對網(wǎng)絡模型的訓練,將21~30號測試樣本數(shù)據(jù)輸入訓練好的神經(jīng)網(wǎng)絡,輸入?yún)?shù)增加濃度信息(相對熒光強度、相對斜率、綜合本底參數(shù)),進行成品油的模式識別與測量。在濃度測量過程中,用模式識別網(wǎng)絡輸出值作為相對斜率(樣本中濃度與熒光強度關(guān)系曲線的變化斜率值)的權(quán)重系數(shù)。測試樣本的網(wǎng)絡模型輸出結(jié)果列于表4。相應特征統(tǒng)計數(shù)據(jù)列于表5。
表5 測試樣本輸出結(jié)果的特征統(tǒng)計
應用PARAFAC模型分析方法進行對比[10-11]。利用核一致診斷方法和殘差平方和方法共同估計因子數(shù),當因子數(shù)為3時,核一致系數(shù)顯著下降,殘差平方和呈現(xiàn)單調(diào)下降的趨勢,選取因子數(shù)為2?;旌先芤簶颖镜腜ARAFAC模型分析結(jié)果如圖2和圖3所示,其中圖2為熒光激發(fā)光譜理論與測量結(jié)果對比圖,圖3為熒光發(fā)射光譜理論與測量結(jié)果對比圖。
圖2 熒光激發(fā)光譜理論與測量結(jié)果對比圖
PARAFAC模型分析方法實現(xiàn)成品油種類模式識別的平均識別率為98.5%,柴油和汽油的平均回收率分別為96.5%和105.7%,PARAFAC模型分析平均耗時5.15 s。
圖3 熒光發(fā)射光譜理論與測量結(jié)果對比圖
結(jié)合主成分分析的數(shù)據(jù)表征和可拓神經(jīng)網(wǎng)絡對混合組分體系的模式識別優(yōu)勢,實現(xiàn)了成品油的鑒別與測量??赏厣窠?jīng)網(wǎng)絡模型對光譜數(shù)據(jù)矩陣進行訓練,給出了模式識別誤差曲線。綜合分析了種類鑒別和濃度測量的數(shù)據(jù)特征,給出了平均識別率、濃度誤差和平均回收率等統(tǒng)計信息。將PARAFAC模型分析應用于成品油光譜數(shù)據(jù)分析,建立了熒光激發(fā)、發(fā)射特征光譜理論與測量結(jié)果對比圖,進一步驗證了可拓神經(jīng)網(wǎng)絡用于光譜數(shù)據(jù)分析是非常有力的手段。需要指出,該方法對于汽油、柴油和煤油等光譜有一定的重疊,但光譜線形狀有較大差異的體系適用性強,但對于光譜重疊嚴重,且光譜線形狀非常相似的體系尚有一定的局限性。
[1] Lü Gui-cai, ZHAO Wei-hong, WANG Jiang-tao(呂桂才, 趙衛(wèi)紅, 王江濤).Chinese Journal of Analytical Chemistry(分析化學), 2010, 38(8): 1144.
[2] ZHAO You-quan, LU Xue-feng, LIANG Ying, et al(趙友全, 路雪峰, 梁 瑛, 等).Chinese Journal of Scientific Instrument(儀器儀表學報), 2012, 23(6): 1275.
[3] ZHOU Yu, QIAN Xu, ZHANG Jun-cai, et al(周 玉, 錢 旭, 張俊彩, 等).Application Research of Computers(計算機應用研究), 2010, 27(1): 1.
[4] QIAO Jun-fei, HAN Hong-gui(喬俊飛, 韓紅桂).Acta Automatica Sinica(自動化學報), 2010, 36(6): 865.
[5] WANG Yan-ni, FAN Yang-yu(王燕妮, 樊養(yǎng)余).Computer Engineering and Applications(計算機工程與應用), 2010, 46(17): 23.
[6] YANG Guo-wei, WANG Shou-jue(楊國為, 王守覺).Journal of Harbin Institute of Technology(哈爾濱工業(yè)大學學報), 2006, 38(7): 1129.
[7] Mas S, Anna de Juan, Tauler R.Talanta, 2010, 80(3): 1052.
[8] Wang C, Li W, Luan X.Talanta, 2010, 81(1-2): 684.
[9] LIU Ling-ling, WU Yan-wen, ZHANG Xu, et al(劉玲玲, 武彥文, 張 旭, 等).Acta Chimica Sinica(化學學報), 2012, 70(8): 995.
[10] Valderrama P, Marco P H, Locquet N, et al.Chemometrics and Intelligent Laboratory Systems, 2011, (106): 166.
[11] YANG Li-li, WANG Yu-tian, LU Xin-qiong(楊麗麗, 王玉田, 魯信瓊).Chinese Journal of Lasers(中國激光), 2013, 40(6): 0615002.
(Received Apr.17, 2015; accepted Aug.16, 2015)
*Corresponding author
Study on Refined Oil Identification and Measurement Based on the Extension Neural Network Pattern Recognition
ZHANG Li-guo1,3, CHEN Zhi-kun1, 2, WANG Li1*, CAO Li-fang1, YAN Bing1, WANG Yu-tian1
1.Measurement Technology and Instrumentation Key Laboratory of Hebei Province, Yanshan University, Qinhuangdao 066004, China 2.Electrical Engineering College, North China University of Science and Technology, Tangshan 063009, China 3.Hebei Automation Research Institute, Shijiazhuang 050081,China
There are four major problems related to fuel consumption, “l(fā)arge consumption”, “l(fā)ow quality”, “l(fā)ack of front-end clean” and “l(fā)ack of end emission control”, which needs to address urgently for our country.More than 60 percent of the air pollution is due to the burning of coal and oil in our country, so the haze problem depends on how much we can deal with energy issues.We should achieve the identification and measurement of gasoline, diesel, kerosene and other refined oil products rapidly and accurately, which is important for the implementation of air pollution monitoring and controlling.in order to characterize the type information of the refined oil accurately and to improve the efficiency of the network model identification, it is effective to use principal component analysis method which could achieve the data dimension reductionwhile reducing the complexity of the problem.With principal component analysis of the most commonly used three-dimensional fluorescence spectra based on excitation-emission matrix (Excitation-Emission Matrix, EEM) data, we could obtain finer, deeper characteristic parameters.During the process of classification, it could avoid the “over-fitting” phenomenon because of the application of the cross-validation method, A neural network capable of both qualitative and quantitative analysis is designed.The neural network pattern recognition result becomes feedback to the input of the concentration network, together with the relative slope, the comprehensive background parameters, and the relative fluorescence intensity, we could achieve the measurement of the concentration of the corresponding types, then use the extension neural network pattern recognition technology to achieve identification and measurement of kerosene, diesel, gasoline and other refined oil products.The results of the study show that the average recognition rate reaches 0.99, the average recovery rate of concentration reaches 0.95, the average time of pattern recognition is 2.5 seconds and this time is 48.5% of the time used by PARAFAC model analysis method.The method significantly improves the operation speed with ideal application effect .It should be pointed out that, in order to ensure the accuracy and precision of the analysis, we should make corresponding calibration samples for specific analytes in terms of the analysis of complex mixtures such as refined oil, pesticides, tea, etc.
Three-dimensional fluorescence spectra; Refined oil; Principal component analysis; Extension neural network
2015-04-17,
2015-08-16
國家自然科學基金項目(61471312),河北省自然科學基金項目(F2015203240,F(xiàn)2015203072,F(xiàn)2015203392)資助
張立國,1978年生,燕山大學儀器科學與工程系副教授 e-mail:zlgtime@163.com *通訊聯(lián)系人 e-mail:lydia_smile@163.com
O657.3
A
10.3964/j.issn.1000-0593(2016)09-2901-05