聶 磊, 陶 明 , 翟中生
(湖北工業(yè)大學(xué)機械工程學(xué)院, 湖北 武漢 430068)
基于三次樣條曲線擬合的激光拉曼光譜基線校正研究
聶 磊, 陶 明 , 翟中生
(湖北工業(yè)大學(xué)機械工程學(xué)院, 湖北 武漢 430068)
拉曼光譜基線校正是拉曼分析技術(shù)的重要環(huán)節(jié),特別是將拉曼光譜用于定量分析時,光譜基線校正的準(zhǔn)確性直接影響定量分析的精度。三次樣條函數(shù)具有平滑作用,擬合的數(shù)值穩(wěn)定而且具有較好的收斂性。用其校正拉曼光譜基線,既能對拉曼光譜基線進行擬合,又能突出三次樣條曲線對基線的平滑作用,達到一定去噪功能,提高拉曼光譜的信噪比,為拉曼光譜基線校正提供了一種有效方法。將三次樣條函數(shù)應(yīng)用于某種炔烴化合物氣體拉曼光譜的基線校正,采用單峰法和三點面積法計算拉曼光譜強度,實驗結(jié)果證明,分段三次樣條曲線擬合達到了理想的基線校正效果,而且相比其他方法其誤差最小。
拉曼光譜;信噪比;三次樣條函數(shù);內(nèi)標(biāo)法
拉曼光譜包含探測試樣的有關(guān)分子信息,是分子極化率改變的結(jié)果,被稱為分子的“指紋譜”[1],其分析技術(shù)不需要對試樣進行預(yù)處理,具有非破壞性、快速高效的優(yōu)點,因此得到廣泛應(yīng)用。但是,由于受到環(huán)境噪聲和熒光背景的影響[2],拉曼光譜會產(chǎn)生基線漂移、峰值位置不準(zhǔn)確等現(xiàn)象,給其分析帶來不利影響[3]。特別是在定量分析中,基線漂移會造成拉曼特征峰峰高或峰面積無法準(zhǔn)確計算,無法標(biāo)定拉曼峰值強度與物質(zhì)濃度之間的關(guān)系[4],給定量分析帶來困難[5]。
拉曼光譜基線校正的方法主要包括導(dǎo)數(shù)法、小波變換法、平滑法等[6]。常用的基線校正方法是根據(jù)噪聲和背景的特點,對拉曼光譜數(shù)據(jù)采用不同的方法進行重構(gòu),分離出基線信號和光譜信號,然后去除基線信號,達到基線校正的效果。但這種方法在分離基線和光譜信號時,有許多參數(shù)需要人為設(shè)定,對原始光譜干涉比較大,導(dǎo)致拉曼光譜數(shù)據(jù)在一定程度上失真,而且分離和復(fù)現(xiàn)數(shù)據(jù)麻煩,有時會放大噪聲,甚至?xí)淖兝庾V曲線的形狀[7],影響預(yù)測模型的精度?;€校正的另一種常用方法是對基線采用多項式曲線擬合,但是此方法對擬合階數(shù)難以確定,若階數(shù)選取不當(dāng)則無法得到理想的校正效果[8]。因此,本文針對上述問題,提出一種基于三次樣條函數(shù)的基線校正方法,利用三次樣條曲線分段擬合拉曼光譜基線,保留了拉曼光譜數(shù)據(jù)的原始信息[9],克服了人為干涉光譜信號的問題,又利用三次樣條曲線的平滑特點,進一步對光譜信號做平滑去噪處理,從而得到了比較理想的校正效果。
每一種物質(zhì)的拉曼光譜特征峰個數(shù)和位置不盡相同,在對其進行基線校正時,要盡可能保留特征峰信息,可采用拉曼光譜特征峰分段的處理方法[3]。將拉曼光譜分為波峰區(qū)間和非波峰區(qū)間,根據(jù)光譜儀CCD像素值與波數(shù)之間的對應(yīng)關(guān)系、兩波峰之間的距離,選擇保留各個特征峰峰值點前后的數(shù)據(jù)點(一般選擇前后各5點)作為波峰區(qū)間[10],非波峰區(qū)間則處在波峰區(qū)間兩側(cè)。非波峰區(qū)間的光譜信號,由于不含分析物質(zhì)的特征光譜信息,可以直接作為基線處理[11],對于波峰區(qū)間的光譜信號,包含了基線信號,需要將基線去除實現(xiàn)校正[12]。其具體方法是,對波峰區(qū)間前后兩側(cè)的非波峰區(qū)間信號進行曲線擬合,得到擬合的基線曲線,再將波峰區(qū)間點代入到擬合曲線中,得到波峰區(qū)間基線信號強度值,最后用波峰區(qū)間拉曼光譜強度值減去擬合的基線信號強度值,即可得到基線校正后的波峰區(qū)間信號。
分段拉曼光譜基線校正的方法不但避免了分離背景噪聲的處理步驟,更能對每個波峰區(qū)間進行單獨分析,比較完整地保留了非峰值區(qū)間基線的真實數(shù)據(jù),這樣實現(xiàn)了拉曼光譜特征峰數(shù)據(jù)的真實性與準(zhǔn)確性,從而達到提高拉曼光譜信噪比的效果。
1.1 分段三次樣條曲線擬合基線方法
若函數(shù)s(x)∈C2[a,b],且在每個小區(qū)間[xj,xj+1]上是三次多項式,其中a=x0 s(xj)=yj(j=0,1,…,n) (1) 成立,則稱s(x)為三次樣條插值函數(shù)。要求出s(x),每個小區(qū)間[xj,xj+1]上要確定4個待定系數(shù),共有n個小區(qū)間,故應(yīng)確定4n個參數(shù),根據(jù)s(x)在[a,b]上二階導(dǎo)數(shù)連續(xù),在節(jié)點xj(j=1,2,…,n-1)處應(yīng)滿足連續(xù)性條件 s(xj-0)=s(xj+0) (2) s′(xj-0)=s′(xj+0) (3) s″(xj-0)=s″(xj+0) (4) 共有3n-3個條件,再加上s(x)滿足式(4)插值條件,共有4n-2個條件,則還要2個條件才能確定s(x),考慮采用分段拉曼光譜基線校正方法,要滿足分段處的首尾兩端點x0和xn各與其前后基線連接具有連續(xù)性和光滑性,在首尾分段點處各加一個條件,使分段首尾兩端點滿足三次樣條第一類邊界條件,但是理想實驗環(huán)境下基線信號應(yīng)該是一個穩(wěn)定的數(shù)值,f′(xj)=0,則加入的邊界條件滿足 s′(x0)=f′(x0)=0 (5) s′(xn)=f′(xn)=0 (6) 聯(lián)合式(1)、(2)、(3)、(4)、(5)、(6)即可得到三次樣條函數(shù)。 采用三次樣條函數(shù)對拉曼光譜基線分段校正,根據(jù)三次樣條曲線本身的光滑性,能夠保證校正后的基線具有光滑連續(xù)性。 1.2 濃度求取原理 在氣體成分的測試中,對校正后的拉曼光譜曲線,采用內(nèi)標(biāo)法[13]測量被測氣體拉曼峰值強度與濃度之間的關(guān)系。通常選取N2為標(biāo)定氣體,主要是因為N2特征峰相對穩(wěn)定,信號較強,而且一般與被測氣體的拉曼譜峰沒有重疊。試驗對定制濃度的被測氣體進行標(biāo)定,標(biāo)定過程將被測氣體的光譜強度統(tǒng)一轉(zhuǎn)化成N2的光譜強度,然后根據(jù)N2的拉曼峰值強度和濃度之間成正比關(guān)系,即可得出被測氣體的拉曼峰值強度與濃度的關(guān)系。 用N2作為內(nèi)標(biāo)物,需要知道單位濃度N2和單位濃度被測氣體的拉曼峰值強度之比,即被測氣體峰值強度轉(zhuǎn)換成N2峰值強度的轉(zhuǎn)換系數(shù)[14],簡稱拉曼效率比(Ramanefficiencyratio),根據(jù)每種氣體固有的分子特性,拉曼效率比在同一條件下理論上是定值,拉曼效率比 (7) 式中:HN、HU分別表示N2和被測氣體標(biāo)定時的光譜強度,DN、DU分別表示N2和被測氣體標(biāo)定時的濃度。 若已知h為測量的被測氣體拉曼峰值強度,d為測量時被測氣體的濃度,K2為N2拉曼峰值強度與其濃度之間的線性比例系數(shù)。則被測氣體的拉曼峰值強度與濃度之間的關(guān)系 d=K1K2h (8) 由此可見,只有準(zhǔn)確標(biāo)定被測氣體轉(zhuǎn)換成N2峰值強度的拉曼效率比K1,才能準(zhǔn)確得到被測氣體拉曼峰值強度與濃度的關(guān)系,而標(biāo)定K1的準(zhǔn)確性與基線校正的好壞有很大關(guān)系。 為了驗證分段三次樣條曲線擬合基線處理方法的效果,對炔烴化合物與N2的混合氣體進行了拉曼光譜數(shù)據(jù)采集。計算基線校正后單位濃度(即炔烴化合物在混合氣體中的濃度為1%)下混合氣體的拉曼光譜強度,并利用該值預(yù)測其他濃度的同種混合氣體拉曼光譜強度;比較預(yù)測值與實際測得值,計算相對誤差,與常用的最小二乘法多項式擬合基線方法進行對比,發(fā)現(xiàn)三次樣條曲線擬合基線方法相對誤差最小,校正效果更佳。 2.1 實驗系統(tǒng) 光譜儀采用Ocean Optics公司的QEPB6500,其感光器件CCD是1044個像素的線性陣列,對應(yīng)其拉曼光譜測量范圍537.38~738.43 nm。激光器采用532 nm單色激光,激光器波長不在光譜儀測量范圍內(nèi),避免瑞利散射對拉曼散射的影響[15]。 2.2 實驗設(shè)計 實驗系統(tǒng)壓強為0.5 MPa,采集不同濃度被測氣體和N2混合氣體的拉曼光譜數(shù)據(jù)?;旌蠚怏w的體積分?jǐn)?shù)如表1所示,每一組數(shù)據(jù)采集100次取平均值作為最終拉曼光譜數(shù)據(jù)。 表1 混合氣體成分 被測氣體存在多個拉曼譜峰,計算拉曼峰值強度時選擇主峰作為目標(biāo)峰[16],其拉曼頻移在1 984 cm-1處,對應(yīng)的位置在594.62 nm處,N2的主峰拉曼頻移在2 331 cm-1,對應(yīng)的波長在607.45nm處。 實驗以混合氣體①作為標(biāo)定氣體,分別采用分段最小二乘法二階、三階多項式,分段三次樣條曲線對基線進行擬合校正,計算被測氣體與N2的拉曼峰值強度。拉曼峰值強度的計算方法采用單峰法和三點面積法[17],單峰法即直接選取波峰區(qū)間的峰值點作為拉曼峰值強度,三點面積法即累加波峰區(qū)間的峰值點及其左右兩點的值作為拉曼峰值強度,在數(shù)字信號中累加即可代表面積。 計算混合氣體①的拉曼峰值強度后,求取單位濃度被測氣體以及單位濃度N2的拉曼峰值強度,并以此值為依據(jù),預(yù)測混合氣體②以及混合氣體③的拉曼峰值強度理論值。實驗中采集的混合氣體②和混合氣體③拉曼光譜數(shù)據(jù),直接采用分段最小二乘法二階、三階多項式,分段三次樣條曲線對基線進行擬合校正,并用單峰法和三點面積法計算拉曼峰值 強度作為實際值,比較理論值與實際值并計算其相對誤差[18],以此對比各種基線校正方法的效果。 圖1是混合氣體①在積分時間3 s,采用分段三次樣條曲線對基線進行擬合校正后的結(jié)果,圖中可以看到原始拉曼光譜數(shù)據(jù)由于受到噪聲影響,基線不僅不平滑而且還具有一定的高度,不在水平坐標(biāo)軸上,這樣的數(shù)據(jù)不能計算拉曼峰值強度且不能進行定量分析,必須進行基線校正,使基線與水平坐標(biāo)軸重合。 圖 1 被測氣體和N2混合氣體拉曼光譜基線校正 單峰法理論值實際值相對誤差/% 三點面積法理論值實際值相對誤差/%2.95%CxHy278.5805309.604710.02660.2700733.880710.0397.05%N22532.96352593.67972.345867.04576024.57762.610.297%CxHy28.046929.77625.8166.474670.69275.9799.703%N22564.33782602.20571.486027.42986179.16982.46 圖2是混合氣體①在積分時間3 s時原始拉曼光譜圖以及采用分段三次樣條曲線擬合基線,分段最小二乘法二階、三階擬合基線圖。圖3是采用不同基線擬合方法擬合被測氣體主峰處的基線效果圖。 圖 2 混合氣體拉曼光譜基線擬合圖 圖 3 被測氣體拉曼主峰處基線擬合圖 從圖3可以看出,分段最小二乘法擬合拉曼光譜基線,其擬合結(jié)果是基于擬合光譜基線與實際光譜基線之間的最小誤差。此種方法在一定程度上保持了原始拉曼光譜基線信號信息,但是無論二階或三階基線擬合,其效果與原曲線均存在較大差異,容易出現(xiàn)欠擬合和過擬合現(xiàn)象[14]。而圖3中分段三次樣條曲線擬合基線最大程度保持了原始拉曼光譜基線信號信息,因此擬合出的峰值區(qū)域基線較為準(zhǔn)確,充分體現(xiàn)了分段三次樣條曲線平滑的優(yōu)點。 對混合氣體①基線校正后,利用單峰法和三點面積法計算出單位濃度被測氣體和單位濃度N2的拉曼峰值強度,預(yù)測混合氣體②和混合氣體③拉曼峰值強度理論值,并對實際測得的混合氣體②和混合氣體③拉曼光譜數(shù)據(jù),采用對應(yīng)的方法進行基線擬合校正,計算被測氣體拉曼峰值強度實際值,其數(shù)據(jù)如表2所示。 通過數(shù)據(jù)對比發(fā)現(xiàn),無論是采用峰值法還是三點面積法,分段三次樣條曲線對基線擬合校正,其校正后預(yù)測的理論值與實際值相對誤差最小,而采用分段最小二乘法對基線進行擬合校正,其相對誤差都大于分段三次樣條曲線擬合校正后的相對誤差。其原因有以下幾點。 表3 壓強0.5 MPa,積分時間3 s分段最小二乘法三階拉曼光譜基線校正 表4 壓強0.5 MPa,積分時間3 s分段三次樣條曲線拉曼光譜基線校正 其一,分段最小二乘法擬合基線是基于擬合最小誤差理論。理想實驗環(huán)境下,雖然可以把拉曼光譜基線看作一個穩(wěn)定值,但是實際實驗環(huán)境中基線信號還是會輕微波動。采用分段三次樣條曲線擬合基線,在光譜儀采集的數(shù)據(jù)點上保留了基線信號信息,在非數(shù)據(jù)采集點上,插值出基線信號值,這樣最大程度逼近了實際實驗環(huán)境的基線信號信息。 其二,采用分段拉曼光譜基線校正時,擬合的區(qū)間只包括波峰區(qū)間左右兩側(cè),中間的波峰區(qū)間被隔離,會出現(xiàn)數(shù)據(jù)的突變,且分段后每一段基線的特點各不相同,但是基線信號只是輕微波動,擬合出的波峰區(qū)間兩側(cè)基線應(yīng)該具有光滑連接的特點。采用分段最小二乘法基線擬合校正,做到的只是在一定程度上保持了原始拉曼基線信號信息,并沒有保證分段擬合基線連接的光滑性,會使擬合出的基線效果不夠理想。而三次樣條曲線具有二階光滑度,即有二階連續(xù)導(dǎo)數(shù),比最小二乘法曲線擬合的光滑性好,其本質(zhì)是分段的三次多項式拼合而成的曲線,在拼接處不僅函數(shù)是連續(xù)的,且一階二階導(dǎo)數(shù)也是連續(xù)的[9],采用分段三次樣條曲線擬合基線會實現(xiàn)基線連接平滑過渡的作用。 綜上,采用分段三次樣條曲線擬合校正拉曼光譜基線信號,不僅最大限度保留了原始拉曼光譜基線信號信息,還能對基線進行平滑作用,擬合出的峰值區(qū)域基線十分理想,從而達到進一步去噪功能,提高了拉曼光譜的信噪比。 分段三次樣條曲線擬合校正拉曼光譜基線,不僅能使擬合基線更加真實,還使基線更加平滑,擬合出的峰值區(qū)域基線效果較為理想,既滿足了一定去噪功能,又保證了后面拉曼光譜數(shù)據(jù)定量分析的準(zhǔn)確性。因此,基于三次樣條的拉曼光譜基線校正方法的提出,為激光拉曼基線校正提供了一種有效的參考方法。 [1] 李津蓉. 拉曼光譜的數(shù)學(xué)解析及其在定量分析中的應(yīng)用[D]. 杭州:浙江大學(xué), 2013:20-21. [2] 高國明, 李雪, 覃宗定,等. 消除拉曼光譜熒光背景的新方法及其應(yīng)用[J]. 光學(xué)學(xué)報, 2013, 33(2):258-266. [3] 林漫漫,牛麗媛,覃趙軍,等.分段式線性擬合校正拉曼光譜基線漂移[J].光子學(xué)報,2012,41(1):112. [4] 張保華, 江永成, 沙文,等. 特征提取算法在福美雙表面增強拉曼光譜定量分析中的應(yīng)用[J]. 光譜學(xué)與光譜分析, 2015(2):390-393. [5] 阮華, 戴連奎, RuanHua,等. 支持向量機分類與回歸聯(lián)合建模方法及其在拉曼光譜分析中的應(yīng)用[J]. 儀器儀表學(xué)報, 2010, 31(11):2440-2446. [6] 郭忠, 廖海洋, 陳益,等. 一種改進小波閾值函數(shù)在拉曼光譜去噪的應(yīng)用[C]// 2009全國虛擬儀器大會論文集(一). 2009. [7] 楊桂燕, 李路, 陳和,等. 基于廣義Whittaker平滑器的拉曼光譜基線校正方法[J]. 中國激光, 2015(9):360-368. [8] 高鵬飛, 楊蕊, 季江,等. 拉曼光譜的局域動態(tài)移動平均全自動基線校準(zhǔn)算法[J]. 光譜學(xué)與光譜分析, 2015(5):1281-1285. [9] 張玲.基于三次樣條曲線擬合公路平面線形方法研究[D].武漢:武漢理工大學(xué),2007. [10] Jr C H C, Cicerone M T. Chemically sensitive bioimaging with coherent Raman scattering[J]. Nature Photonics, 2015, 9(5):295-305. [11] 高小玲. 應(yīng)用拉曼光譜法進行定量分析的幾個關(guān)鍵性技術(shù)問題[J]. 分析試驗室, 1995(4):52-56. [12] 李慶波, 于超, 張倩暄. 基于凈信號的乙醇含量拉曼光譜分析方法研究[J]. 光譜學(xué)與光譜分析, 2013, 33(2):390-394. [13] 陳玉鋒, 莊志萍, 魏林博,等. 激光拉曼光譜內(nèi)標(biāo)法直接測定甲醇含量[J]. 理化檢驗-化學(xué)分冊, 2015, 51(4):558-559. [14] Hansen S B, Berg R W, Stenby E H. High-pressure measuring cell for Raman spectroscopic studies of natural gas[J]. Applied Spectroscopy, 2001, 55(1): 55-60 [15] 姜承志, 孫強, 劉英,等. 基于多尺度局部信噪比的拉曼譜峰識別算法[J]. 光學(xué)學(xué)報, 2014, 34(6):299-305. [16] Alfonso-García.Alba,Mittal.Richa ,Lee.Eun Seong,Potma.Eric.O. .Biological imaging with coherent Raman scattering microscopy :A tutorial .Journal of Biomedical Optics, v 19, n 7, July 2014,19(7):071407. [17] Seruga B, Pond G R, Hertz P C, et al. Comparison of absolute benefits of anticancer therapies determined by snapshot and area methods[J]. Annals of oncology, 2012, 23(11):2977-2982. [18] 費業(yè)泰. 誤差理論與數(shù)據(jù)處理[M]. 北京:機械工業(yè)出版社,2006:57-73. [責(zé)任編校: 張 眾] Correction of Raman Spectroscopy Baseline Based on Cubic Spline Curve Fitting NIE Lei, TAO Ming, ZHAI Zhongsheng (SchoolofMechanicalEngin.,HubeiUniv.ofTech.,Wuhan430068,China) The baseline correction is an important step in the Raman analysis technology, especially in the Raman spectroscopy for quantitative analysis. Whether the Spectral baseline correction is good or not directly affects the accuracy of quantitative analysis. With the capability of smoothing data curve, cubic spline function can realize stable fitting curve which has good convergence. Thus, cubic spline fitting is a proper baseline correction method for Raman spectroscopy. It can not only fit the spectroscopy curve, but also improve the signal-to-noise ratio. Using the baseline correction method, the Raman spectroscopy of an alkyne gas mixed with N2was processed. Single peak and the three-point area methods were applied to calculate the intensity of the Raman spectrum. The experimental result shows that the cubic spline fitting correction method achieves satisfactory effect and has the relatively low error. Raman spectroscopy; signal-to-noise ratio; cubic spline function; internal standard method 2016-10-15 湖北省科技支撐計劃(142142407) 聶 磊(1978-),男,湖北武漢人,工學(xué)博士,湖北工業(yè)大學(xué)副教授,研究方向為電子制造工藝可靠性 1003-4684(2017)01-0063-05 O657.3 A2 實驗
3 結(jié)果與討論
4 結(jié)論