尤 文, 夏陽(yáng)鵬, 黃玉濤, 林京君, 林曉梅
1. 長(zhǎng)春工業(yè)大學(xué)電氣與電子工程學(xué)院, 吉林 長(zhǎng)春 130012 2. 長(zhǎng)春工業(yè)大學(xué)機(jī)電工程學(xué)院, 吉林 長(zhǎng)春 130012 3. 吉林建筑科技學(xué)院, 吉林 長(zhǎng)春 130012
激光誘導(dǎo)擊穿光譜(laser-induced breakdown spectroscopy, LIBS)技術(shù)是一種元素含量分析技術(shù)[1-2], 它具有原位、 實(shí)時(shí)、 快速、 可遠(yuǎn)程、 非接觸、 無需樣品準(zhǔn)備等優(yōu)點(diǎn)[3-5], 可以分析元素周期表中的所有元素, 并且可以對(duì)固體、 液體、 氣體、 氣溶膠等任何狀態(tài)下的物質(zhì)進(jìn)行檢測(cè)[6-9]。 但是, LIBS光譜信息豐富, 包含了大量的原子和離子譜線, 實(shí)驗(yàn)重復(fù)性低, 實(shí)驗(yàn)結(jié)果誤差較大。 在進(jìn)行定量分析時(shí), 用單一的特征譜線定標(biāo), 原始數(shù)據(jù)比較分散, 擬合相關(guān)性不高, 而且光譜利用率低, 模型穩(wěn)定性差。 多變量分析可以擴(kuò)展影響LIBS譜線的特征信息, 在一定程度上減小樣品的波動(dòng)性, 提高分析準(zhǔn)確率[10]。 但是, 整個(gè)LIBS光譜數(shù)據(jù)稀疏且高維, 大多數(shù)譜線與分析元素?zé)o關(guān)。 此外, 無關(guān)的冗余變量不僅會(huì)增加模型復(fù)雜程度, 導(dǎo)致過擬合, 而且會(huì)使模型學(xué)習(xí)到雜散的噪聲信息, 嚴(yán)重影響分析結(jié)果的準(zhǔn)確性。 因此, 尋找一種高效的變量選擇方法具有重要意義。
傳統(tǒng)方法是根據(jù)光譜信息結(jié)合NIST數(shù)據(jù)庫(kù)人為選擇特征譜線作為分析變量, 效率低, 受主觀因素影響較大。 而且, 手動(dòng)選擇無法識(shí)別元素間的相互作用, 特征譜線容易受到基體效應(yīng)影響。 為了有效篩選LIBS特征光譜, 減少定量分析誤差, 國(guó)內(nèi)外學(xué)者對(duì)變量選擇展開了大量的工作。 吳宜青等用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS)選擇Cr元素的特征變量, 預(yù)測(cè)結(jié)果優(yōu)于單變量、 五變量和全波段模型[11]。 胡麗等將LIBS與PLS相結(jié)合, 分析了水中的Pb元素含量, 結(jié)果表明, PLS適用于不同的水樣, 可以在一定程度上降低基體效應(yīng)的影響[12]。 郭愷琛等采用主成分分析載荷空間距離法篩選特征譜線, 對(duì)礦物進(jìn)行種類識(shí)別, 識(shí)別精度達(dá)到了92.8%, 降低了識(shí)別難度[13]。 Sun等將SelectKBest算法用于LIBS特征變量的選擇, 發(fā)現(xiàn)其可以限制過擬合, 有效提取重要的特征[14]。 大量的研究證明, 變量篩選技術(shù)可以有效減少基體效應(yīng)的影響, 提高LIBS定量分析精度。
LIBS在用于液體檢測(cè)時(shí), 樣品波動(dòng)性強(qiáng), 同一實(shí)驗(yàn)數(shù)據(jù)重復(fù)性較差[15]。 為了驗(yàn)證CART回歸樹對(duì)特征譜線的選擇能力, 本文利用激光誘導(dǎo)擊穿光譜技術(shù)結(jié)合CART回歸樹對(duì)溶液中Ca元素的含量進(jìn)行檢測(cè)。 通過計(jì)算每個(gè)變量的重要性程度, 選擇對(duì)待測(cè)元素濃度貢獻(xiàn)率較大的幾個(gè)特征譜線作為分析變量, 提高定量分析準(zhǔn)確性。
本實(shí)驗(yàn)采用液體射流的實(shí)驗(yàn)方式, 實(shí)驗(yàn)平臺(tái)包含激光光路系統(tǒng)和液體射流系統(tǒng)兩部分, 如圖1所示。 光路系統(tǒng)主要有Nd∶YAG固體激光器(Surelite Ⅲ 10, USA Continuum)、 光纖光譜儀(Avaspec-USB2, 荷蘭Avantes)、 數(shù)字延時(shí)脈沖發(fā)生器(DG645)等。 激光經(jīng)過格蘭棱鏡、 反射鏡、 半波片和聚焦透鏡(f=150 mm)聚焦到液柱表面。 產(chǎn)生的等離子體經(jīng)光纖探頭收集, 傳輸進(jìn)入光譜儀, 最終通過PC機(jī)得到光譜信息。 液體射流系統(tǒng)主要由蠕動(dòng)泵(Kamoer Lab UIP)、 分液漏斗(噴嘴直徑為1 mm)和燒杯支架等組成。 液體樣品經(jīng)過漏斗、 乳膠管、 蠕動(dòng)泵和燒杯形成循環(huán)系統(tǒng), 整個(gè)系統(tǒng)放置在三維移動(dòng)平臺(tái)上, 通過X軸和Z軸實(shí)時(shí)改變焦距以及聚焦點(diǎn)到噴嘴的距離。 通過參數(shù)優(yōu)化得到最佳的聚焦位置為液柱表面, 焦點(diǎn)距離噴嘴的最佳距離為2 mm。
圖1 實(shí)驗(yàn)裝置示意圖
實(shí)驗(yàn)樣品是利用母液稀釋而成, 標(biāo)準(zhǔn)溶質(zhì)為北京化工廠生產(chǎn)的CaCl2, 使用蒸餾水稀釋母液, 配置7種不同濃度梯度的CaCl2溶液, 如表1所示。
表1 標(biāo)準(zhǔn)樣品中Ca元素濃度
采集光譜時(shí), 液面波動(dòng)性較大, 收集到的光譜重復(fù)性差。 為了減少實(shí)驗(yàn)誤差與不穩(wěn)定性, 本文對(duì)7個(gè)梯度進(jìn)行多組實(shí)驗(yàn), 每組實(shí)驗(yàn)進(jìn)行6次, 取平均值作為定標(biāo)的輸入, 將37組數(shù)據(jù)用于最終的定量分析。
本文將CART算法中的回歸樹用于LIBS的定量分析, 以平方誤差最小化作為準(zhǔn)則, 進(jìn)行特征變量的選擇, 逐步選擇內(nèi)部節(jié)點(diǎn), 從而生成回歸樹模型。 其構(gòu)建算法具體如下:
(1)選擇最優(yōu)變量j與變量切分點(diǎn)s, 求解
(1)
式(1)中:c1=average(yi|xi∈M1(j,s)),c2=average(yi|xi∈M2(j,s))遍歷所有的特征j和切分點(diǎn)s, 即可找到最優(yōu)的特征變量組合;
(2)用求得的分割點(diǎn)(j,s)將輸入?yún)^(qū)域劃分, 并得到相應(yīng)節(jié)點(diǎn)的輸出值;
M1(j,s)={x|x(j)
M2(j,s)={x|x(j)>s}
(2)
(3)重復(fù)(1)和(2), 構(gòu)建其他的子節(jié)點(diǎn), 直到滿足停止條件;
(4)將輸入空間劃分為M1,M2, …生成決策樹。
為了限制回歸樹的規(guī)模, 簡(jiǎn)化模型結(jié)構(gòu), 需要對(duì)回歸樹進(jìn)行剪枝。 回歸樹的剪枝分為兩部分。 第一步是從生成的決策樹底部開始剪枝, 一直到根節(jié)點(diǎn), 如此生成一系列子樹{T0,T1, …,Tm}; 第二步是對(duì)所有的子樹做交叉驗(yàn)證, 選出效果最優(yōu)的子樹。
由于Ca Ⅱ 393.366 nm譜線的輪廓清晰、 波峰較為明顯, 而且受附近譜線干擾較小, 因此可以作為單變量分析的分析譜線。 將譜線的光譜強(qiáng)度與Ca元素濃度做線性回歸, 繪制真實(shí)濃度與預(yù)測(cè)濃度的擬合曲線如圖2所示。 單變量分析不會(huì)對(duì)數(shù)據(jù)做任何處理, 真實(shí)的反映了原始數(shù)據(jù)的分布情況。 從圖中可以看到, 數(shù)據(jù)分布比較分散, 而且數(shù)據(jù)穩(wěn)定性較低。 擬合系數(shù)R2只有0.933 2, RMSEC, RMSEP和ARE分別為0.019 2 Wt%, 0.017 7 Wt%和11.604%。 這可能是由于激光與液體作用后, 液體飛濺、 波動(dòng), 導(dǎo)致連續(xù)背景增加, 無用的光譜信息增加, 大大降低了實(shí)驗(yàn)的穩(wěn)定性。 其次可能存在著自吸收和基體效應(yīng), 導(dǎo)致數(shù)據(jù)呈非線性分布。 因此, 單變量分析難以滿足LIBS的定量分析要求。
圖2 CaⅡ 393.366 nm的單變量定標(biāo)曲線
為了改善單變量分析的不穩(wěn)定性, 提高分析精度, 我們需要擴(kuò)展表征待測(cè)元素濃度的光譜信息, 充分利用光譜中的有用信息, 實(shí)現(xiàn)多個(gè)變量之間信息互補(bǔ), 減小基體效應(yīng)、 波動(dòng)等不確定因素的影響。 同時(shí), 為了避免維度過高, 模型過于復(fù)雜, 我們需要對(duì)特征變量進(jìn)行有效的篩選, 因此引入了傳統(tǒng)的變量選擇方法—偏最小二乘回歸(partial least squares regression, PLSR)。
在PLSR分析中, 我們選取392.818~397.61 nm范圍內(nèi)的100條譜線作為多變量分析的輸入, 最終獲得的主成分個(gè)數(shù)為7。 將得到的新的主成分作為變量與待測(cè)元素質(zhì)量分?jǐn)?shù)建立多變量關(guān)系。 得到的定標(biāo)模型如圖3所示。 橫坐標(biāo)為Ca元素的實(shí)際濃度, 縱坐標(biāo)為預(yù)測(cè)濃度, 可以發(fā)現(xiàn), 曲線的擬合系數(shù)R2達(dá)到了0.975 3, RMSEC和RMSEP分別為0.010 8 Wt%和0.013 Wt%, ARE為7.49%。
圖3 偏最小二乘回歸定標(biāo)曲線
CART回歸樹利用最重要的特征信息構(gòu)建樹模型, 可以分析所得變量的重要性程度, 因此可以利用回歸樹對(duì)LIBS光譜進(jìn)行特征變量的選取。 本章節(jié)的數(shù)據(jù)處理在Python編程語言的框架內(nèi)完成, 利用機(jī)器學(xué)習(xí)模塊scikit-learn進(jìn)行特征變量選擇, 選擇392.818~397.61 nm范圍內(nèi)的100條譜線作為回歸樹的輸入, 總樣本的70%作為訓(xùn)練集, 30%作為預(yù)測(cè)集, 檢驗(yàn)?zāi)P偷男阅堋?/p>
在CART回歸樹的構(gòu)建過程中, 波長(zhǎng)變量數(shù)由100個(gè)減小到6個(gè), 變量壓縮率達(dá)到了94%。 圖4為回歸樹方法優(yōu)選的6個(gè)波長(zhǎng)變量的重要性分布情況。 從圖中可以看出優(yōu)選的波長(zhǎng)變量分別為393.013 6, 393.160 3, 393.366, 393.794 6, 395.348 3和396.847 nm, 得到的有效特征變量主要包括Ca的特征譜線(其中CaⅡ 393.366 nm的重要性達(dá)到了0.731 1)和相鄰譜線。 由此表明, Ca元素含量不但與自身特征譜線強(qiáng)度有關(guān), 還受到了其他相鄰特征譜線的干擾。
圖4 特征變量的重要性分布
根據(jù)選擇的最優(yōu)變量組合, 建立Ca元素的CART回歸樹定標(biāo)模型。 如圖5所示, 擬合系數(shù)R2達(dá)到0.997 5, RMSEC和RMSEP分別達(dá)到0.003 5 Wt%和0.006 1 Wt%, ARE降低到2.500%。 與單變量和PLSR相比, 穩(wěn)定性明顯提高, 模型的預(yù)測(cè)誤差得到顯著的降低, 可見CART回歸樹可以用于LIBS特征變量的選擇, 具體對(duì)比結(jié)果如表2所示。
圖5 CART回歸樹定標(biāo)曲線
表2 定標(biāo)模型參數(shù)比較
研究了CART回歸樹對(duì)LIBS光譜中變量的篩選能力, 通過構(gòu)建CART回歸樹, 以平方誤差最小化為準(zhǔn)則, 從100個(gè)波長(zhǎng)中獲取到最重要的6個(gè)特征變量, 變量壓縮率達(dá)到了94%, 從而建立Ca含量的回歸樹定標(biāo)模型。 Ca元素實(shí)際濃度與預(yù)測(cè)濃度的擬合系數(shù)達(dá)到0.997 5, RMSEC, RMSEP和ARE分別為0.003 5 Wt%, 0.006 1 Wt%和2.500%, 優(yōu)于單變量和PLSR定標(biāo)模型。 由此表明, CART回歸樹可以對(duì)變量進(jìn)行有效的篩選, 剔除無用信息, 提高定量模型準(zhǔn)確度和穩(wěn)定性, 因此, CART回歸樹與LIBS結(jié)合可以作為一種快速、 準(zhǔn)確、 魯棒性強(qiáng)的檢測(cè)方法。