王其濱,楊輝華,,潘細(xì)朋,李靈巧,
(1.桂林電子科技大學(xué)電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004;2.北京郵電大學(xué)自動(dòng)化學(xué)院,北京 100876)
近紅外光譜分析技術(shù)能夠?qū)崿F(xiàn)快速、無損、在線分析樣本,在化工,食品,農(nóng)業(yè),藥品等多個(gè)領(lǐng)域得到了迅速的發(fā)展[1-4]。模型傳遞技術(shù)是近紅外光譜分析中一種常用的方法,用于解決儀器間因不同的時(shí)間,環(huán)境或者機(jī)械加工誤差,而導(dǎo)致模型通用性較差的問題[5]。在實(shí)際的應(yīng)用中,一臺光譜儀上建立的校正模型,如果直接用于另一臺光譜儀進(jìn)行樣本的分析會(huì)產(chǎn)生較大的偏差,無法得到理想的預(yù)測結(jié)果。盡管相同型號的儀器實(shí)現(xiàn)模型的共享最終必須要依靠硬件的提高,但模型傳遞方法依然有必要進(jìn)一步研究下去[6]。目前,模型傳遞技術(shù)主要分為有標(biāo)樣和無標(biāo)樣兩種方法,在實(shí)際中使用最為廣泛的是有標(biāo)樣的直接校正算法(DS)、分段直接校正算法(PDS)以及Shenk′s算法等。這些方法能夠?qū)崿F(xiàn)模型傳遞的效果,但在進(jìn)行模型傳遞的過程中,并沒有考慮待測量的特征,無法在去除光譜中存在的背景噪聲的同時(shí),很好的保留與待測變量有關(guān)的光譜信息。對此,多項(xiàng)研究將正交信號校正方法引入光譜的處理中,王安冬等人[7],提出用正交信號回歸法對不同批次中藥材光譜進(jìn)行模型傳遞研究。賈一飛等人[8],提出直接正交信號校正方法結(jié)合SBC算法,用于近紅外定量模型批次間的傳遞并取得了不錯(cuò)的效果。劉賢等人[9],提出將正交信號校正用于秸稈青貯飼料粗蛋白近紅外分析模型傳遞中,較好的實(shí)現(xiàn)了模型傳遞的效果。
直接正交信號校正(Direct Orthogonal Signal Correction,DOSC)方法已經(jīng)被證明能夠大幅提高近紅外光譜模型的預(yù)測能力和穩(wěn)健性,是一種被廣泛采用的預(yù)處理方法[10]。但在實(shí)驗(yàn)過程中發(fā)現(xiàn),光譜數(shù)據(jù)中的噪音并不絕對正交于光譜的濃度陣,因此DOSC方法只能除去它們在與濃度陣正交方向上的投影,噪音殘留的部分便會(huì)影響模型的穩(wěn)定性,并可能造成過擬合。針對DOSC的這個(gè)缺陷,本文提出了一種改進(jìn)的方法,即RF-DOSC模型傳遞方法。該方法在應(yīng)用DOSC處理數(shù)據(jù)之前,首先采用隨機(jī)森林波長選擇方法預(yù)先除去那些噪音含量豐富的區(qū)域,盡可能的去除噪音殘留部分的干擾。
RF-DOSC模型傳遞方法,首先將光譜運(yùn)用隨機(jī)森林算法進(jìn)行波長篩選,用于去除光譜中含有豐富噪聲的區(qū)域,之后利用DOSC方法對優(yōu)選后的光譜進(jìn)行校正,減小不同批次樣本的光譜背景差異,最后在構(gòu)建一元線性回歸模型,求得傳遞矩陣。通過在近紅外玉米光譜數(shù)據(jù)集之間進(jìn)行傳遞模型實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果相較于傳統(tǒng)方法光譜差異和預(yù)測標(biāo)準(zhǔn)偏差都有所降低。
RF-DOSC模型傳遞方法,采用隨機(jī)森林算法進(jìn)行近紅外光譜波長篩選。隨機(jī)森林最早是由Breiman提出的一種集成學(xué)習(xí)方法[11],它以決策樹為基學(xué)習(xí)器,在訓(xùn)練過程中加入了隨機(jī)屬性選擇。隨機(jī)森林算法利用Bootstrap重采樣建立訓(xùn)練集,根據(jù)包外數(shù)據(jù)誤差OOB(out-of-bag)對特征變量重要程度進(jìn)行衡量,將各個(gè)變量重要程度進(jìn)行降序排列,通過剔除相對不重要的變量,從而實(shí)現(xiàn)變量的篩選。
對于每一個(gè)隨機(jī)森林中的決策樹,使用其相應(yīng)的OOB(包外數(shù)據(jù))數(shù)據(jù)來計(jì)算它的包外數(shù)據(jù)誤差,記為errOOB1。隨機(jī)地對包外數(shù)據(jù)OOB中所有樣本的特征X加入噪聲干擾,并再次計(jì)算它的包外數(shù)據(jù)誤差,記為errOOB2。假設(shè)隨機(jī)森林中有Ntree棵決策樹,那么對于特征X的重要性MX便可以根據(jù)公式(1)計(jì)算得到。
(1)
隨機(jī)森林特征選擇的步驟為:
(1)對隨機(jī)森林中的特征變量的重要程度進(jìn)行衡量,并進(jìn)行降序排列。
(2)確定刪除數(shù)目,從當(dāng)前的特征變量中剔除相應(yīng)數(shù)目不重要的變量,得到一個(gè)新的特征集。
(3)用新的特征集建立隨機(jī)森林,重復(fù)以上步驟,直到剩下N個(gè)特征變量。
RF-DOSC模型傳遞方法在波長優(yōu)選后,采用DOSC方法對光譜進(jìn)行校正處理。DOSC算法是在正交信號校正算法的基礎(chǔ)上提出的一種改進(jìn)算法[12],該方法將光譜矩陣X與濃度矩陣Y正交,之后將光譜陣X中與Y無關(guān)的信號去除,保留與濃度陣Y相關(guān)的光譜信息,從而能夠?qū)崿F(xiàn)在去除光譜噪聲的同時(shí),保留光譜中與目標(biāo)值有關(guān)的有用信息。該方法的實(shí)現(xiàn)過程如下。
3)通過將ZZ′進(jìn)行奇異值分解,求得Z的得分矩陣T。
4)回歸計(jì)算權(quán)重矩陣W=X-1T,計(jì)算新的得分矩陣T=XW,載荷矩陣P=X′T(T′T)-1。
5)去除X中與Y正交的噪聲,XDOSC=X-TP′(XDOSC為正交信號校正后X矩陣)。
從上述方法步驟可以看出,DOSC算法是將光譜陣X投影到一個(gè)由標(biāo)樣集光譜X和濃度Y確立的空間中,光譜X在此空間中只保留了與濃度陣Y相關(guān)的部分,與濃度陣Y無關(guān)的部分被去除,因此該方法能夠有效的消除光譜中與目標(biāo)值Y無關(guān)的背景噪聲。通常運(yùn)用DOSC方法進(jìn)行預(yù)處理后的光譜,在進(jìn)行回歸建模分析可以取得比不經(jīng)過預(yù)處理建模更好的預(yù)測結(jié)果。
RF-DOSCR模型傳遞方法在經(jīng)過直接正交信號校正處理后,采用一元線性回歸建立模型傳遞的校正模型[13]。設(shè)主儀器上測得光譜矩陣表示為Xm,從儀器上測得光譜矩陣表示為Xs,則光譜數(shù)據(jù)第i個(gè)樣品在第j個(gè)波長點(diǎn)上的吸光度可表示為Xm(i,j)和Xs(i,j),其應(yīng)滿足如下一元線性回歸方程:
(2)
式(2)中,第j(j∈1,…,p)個(gè)波長點(diǎn)對應(yīng)的回歸系數(shù)分別為b0(j)和b(j)。由式(2)可得:
(3)
其中,[1n×1Xs(:,j)]+表示[1n×1Xs(:,j)]的廣義逆矩陣。
(4)
式中,回歸系數(shù)b0(j)和b(j)可以通過公式(3)求出。從儀器上測得的未知樣品光譜X′(n′×p)(其中n′為未知樣品數(shù)),通過公式(4)可以轉(zhuǎn)換為與主儀器上測得的一致的光譜Xstd,傳遞后的從儀器的光譜數(shù)據(jù)便可以使用主機(jī)建立的校正模型進(jìn)行樣品的分析。
實(shí)驗(yàn)采用玉米數(shù)據(jù)集驗(yàn)證了RF-DOSC模型傳遞方法的有效性。數(shù)據(jù)是由Eigenvector Research公司提供的玉米數(shù)據(jù)集(http://www.eigenvector.com/data/Corn/index.html),數(shù)據(jù)集包含3臺儀器上80組玉米的光譜數(shù)據(jù),數(shù)據(jù)的波長范圍為1100~2498 nm,樣本維度為700,波長間隔為2 nm,提供了包括玉米的水分、油分、蛋白質(zhì)和淀粉四種性質(zhì)參數(shù)。
光譜處理過程主要分為兩個(gè)階段,分別是利用隨機(jī)森林進(jìn)行光譜變量的優(yōu)選和通過DOSC對光譜進(jìn)行校正處理。波長優(yōu)選階段,將光譜信息重疊、冗余,含有大量背景噪聲等光譜區(qū)間作為主要的關(guān)注對象,采用隨機(jī)森林算法將變量的重要程度進(jìn)行排序,通過剔除相對不重要的變量,實(shí)現(xiàn)變量的篩選。實(shí)驗(yàn)過程中,采用交叉驗(yàn)證均方根誤差(RMSECV)作為模型的評價(jià)指標(biāo),通過選擇不同的波長數(shù)進(jìn)行實(shí)驗(yàn),將誤差最小時(shí)對應(yīng)的波長數(shù)設(shè)為最佳波長數(shù)。光譜校正處理階段,采用DOSC方法,將光譜正交分解后,進(jìn)一步去除與待測量無關(guān)的光譜信息,能夠很好的校正光譜中因溫度,時(shí)間,儀器等因素的變動(dòng)帶來的光譜背景差異。對比試驗(yàn)采用SG卷積平滑預(yù)處理方法對光譜數(shù)據(jù)進(jìn)行處理,用于消除光譜的噪聲,提高樣本的信噪比。
實(shí)驗(yàn)過程通過K-S算法對玉米數(shù)據(jù)集進(jìn)行標(biāo)樣集的選取,該方法通過計(jì)算光譜之間的歐氏距離,能夠選取光譜中最具代表性的樣本子集作為標(biāo)樣集。實(shí)驗(yàn)將數(shù)據(jù)集按照成分進(jìn)行降序排列,然后通過改變不同的目標(biāo)值,就能夠?qū)Σ煌某煞诌M(jìn)行預(yù)測。玉米數(shù)據(jù)集一共80個(gè)樣本,在主儀器光譜數(shù)據(jù)集上選取50個(gè)測試集,30個(gè)校正集,采用10折交叉驗(yàn)證,利用預(yù)測標(biāo)準(zhǔn)偏差(SEP)作為評價(jià)指標(biāo)得到最優(yōu)的PLS模型主因子數(shù),建立主儀器的定量分析模型。實(shí)驗(yàn)采用光譜平均差異(ARMS)、預(yù)測標(biāo)準(zhǔn)偏差(SEP)和光譜校正率(Prcorrected)作為RF-DOSC模型傳遞方法的評價(jià)指標(biāo)。其中ARMS越小,說明兩個(gè)不同的主從光譜儀測得的光譜差異越小,SEP越小,表明所建模型的預(yù)測能力越強(qiáng),Prcorrected值的大小,代表模型傳遞方法的傳遞效果好壞。ARMS和SEP計(jì)算公式如下式(5)和(6):
(5)
(6)
(7)
式中,ARMSuncorrected代表模型傳遞前為校正的平均光譜差異;ARMScorrected代表模型傳遞后校正過的平均光譜差異。
近紅外光譜往往變量數(shù)很大,維數(shù)較高,且光譜信息重疊、冗余,光譜中含有大量背景噪聲等問題。通過對光譜數(shù)據(jù)進(jìn)行波長選擇,可以去除冗余數(shù)據(jù)和背景噪聲,降低數(shù)據(jù)維度,簡化算法的復(fù)雜度。實(shí)驗(yàn)采用玉米水分成分含量為例,通過隨機(jī)森林算法進(jìn)行波長篩選,然后進(jìn)行PLS回歸建模預(yù)測。實(shí)驗(yàn)采用交叉驗(yàn)證均方根誤差(RMSECV)作為模型的評價(jià)指標(biāo)。如圖1所示,波長數(shù)的變化對RMSECV有很大的影響,整體的變化呈先降低后升高的趨勢。RMSECV的值越小,說明模型的預(yù)測能力越強(qiáng)。在波長數(shù)為70周圍時(shí),RMSECV的值最小,之后隨著波長數(shù)的增加,RMSECV的值又逐漸變大,這有可能是加入了一些與模型預(yù)測不太相關(guān)甚至無關(guān)的變量。所以,本文的實(shí)驗(yàn),波長篩選的數(shù)目設(shè)定為70,以獲取一個(gè)最優(yōu)的樣本集,從而達(dá)到最好的預(yù)測效果。
圖1 玉米水分成分RMSECV隨波長變量數(shù)的變化情況
在波長優(yōu)選后,采用直接正交信號校正算法進(jìn)行光譜的處理,通過正交的數(shù)學(xué)方法將與濃度陣無關(guān)的光譜信號濾除。設(shè)從儀器1表示為S1,從儀器2表示為S2。為了能夠直觀的觀察直接信號校正算法的校正效果,實(shí)驗(yàn)在全光譜上進(jìn)行光譜的校正處理,實(shí)驗(yàn)結(jié)果如圖2(a)、(b)所示。
圖2 處理前后S1玉米樣本光譜對比圖
其中,圖2(a)為S1原始光譜與平均光譜的差值光譜圖,圖2(b)為S1直接正交信號校正處理后與平均光譜的差值光譜圖。通過將玉米樣本處理前(a)后(b)的S1差值光譜圖進(jìn)行對比,可以發(fā)現(xiàn)在光譜的處理過程中,光譜的整體形狀并沒有發(fā)生很大的差別,但校正處理后,光譜曲線變的更為光滑,且光譜的排列也比校正前更整齊緊密,也說明直接正交信號校正處理后去除了光譜中的噪聲,同時(shí)也保留了原光譜中的主要信息。
使用RF-DOSC模型傳遞方法,建立玉米樣本近紅外光譜校正模型。分別計(jì)算對比兩個(gè)從儀器玉米樣本傳遞前后的平均光譜差異,可以得出RF-DOSC模型傳遞方法的效果。表1記錄了RF-DOSC算法模型傳遞前后S1和S2間的光譜差異以及光譜校正率。以S1玉米的水分成分為例,校正前光譜與主儀器光譜平均差異為0.2096,校正后光譜的平均差異為0.0568,通過校正率計(jì)算公式(8)計(jì)算可得其光譜校正率為92.66 %,可見RF-DOSC模型傳遞方法可以很好的消除主儀器光譜和從儀器光譜之間的差異。
表1 測試集經(jīng)RF-DOSC算法傳遞前后主從儀器間的光譜差異
將RF-DOSC算法與DS、PDS和DOSC三種算法模型傳遞后以及未校正的光譜平均差異進(jìn)行對比,如表2所示。從表2數(shù)據(jù)我們可以看出,四種模型傳遞的算法均能有效的減小光譜的平均差異,其中RF-DOSC模型傳遞方法的光譜差異最小,也說明本文的提出的方法在四種方法中,效果最優(yōu)。DOSC方法效果相較于DS、PDS模型傳遞方法整體表現(xiàn)更優(yōu),但在S1、S2儀器玉米水分成分的光譜差異不如其他方法,也說明DOSC方法在實(shí)際的實(shí)驗(yàn)過程中,表現(xiàn)不穩(wěn)定,容易出現(xiàn)過擬合的現(xiàn)象。從DS、PDS方法與DOSC和RF-DOSC方法的光譜差異對比可以發(fā)現(xiàn),DOSC和RF-DOSC模型傳遞方法在校正的過程中,受到了目標(biāo)值變化的影響,而另外兩種方法,則與目標(biāo)值Y無關(guān),四種成分的光譜差異均相同。
表2 DS、PDS、DOSC和RF-DOSC傳遞后測試集主從儀器間的光譜差異(ARMS)
為驗(yàn)證RF-DOSC模型傳遞方法在預(yù)測精度,穩(wěn)健性方面的表現(xiàn),實(shí)驗(yàn)使用主光譜儀測得的光譜數(shù)據(jù)集進(jìn)行PLS回歸建模分析。通過將模型傳遞前后的光譜數(shù)據(jù)代入回歸模型中進(jìn)行分析對比,采用預(yù)測標(biāo)準(zhǔn)偏差作為評價(jià)指標(biāo),可以得出模型傳遞方法的傳遞效果。通過與DS、PDS、DOSC方法的對比,可以發(fā)現(xiàn)RF-DOSC模型傳遞方法表現(xiàn)最優(yōu),預(yù)測標(biāo)準(zhǔn)偏差最小。結(jié)果如表3所示。
表3 DS、PDS、DOSC和RF-DOSC傳遞后測試集預(yù)測標(biāo)準(zhǔn)偏差(SEP)
實(shí)驗(yàn)結(jié)果顯示,在光譜模型傳遞前,未校正的從儀器光譜直接帶入主儀器光譜數(shù)據(jù)建立的PLS回歸模型進(jìn)行預(yù)測分析,會(huì)產(chǎn)生較大的誤差。在經(jīng)過模型傳遞之后,校正后的從儀器光譜數(shù)據(jù)預(yù)測標(biāo)準(zhǔn)偏差均有減小,其中RF-DOSC算法整體預(yù)測標(biāo)準(zhǔn)偏差最小,此時(shí)所建模型預(yù)測能力和穩(wěn)健性最好。PDS整體結(jié)果表現(xiàn)優(yōu)于DS、DOSC方法,DOSC方法在某些成分預(yù)測上,優(yōu)于DS、PDS,這可能是因?yàn)楣庾V殘留的噪聲,通過DOSC正交分析后影響了模型的穩(wěn)定性。實(shí)驗(yàn)結(jié)果也說明,通過隨機(jī)森林算法預(yù)先進(jìn)行波長篩選,去除含有大量噪聲的光譜區(qū)間是有必要的。實(shí)驗(yàn)結(jié)果表明RF-DOSC算法在經(jīng)過波長篩選后,采用直接正交信號校正算法消除光譜背景噪聲,在建立校正回歸模型,可以較好地實(shí)現(xiàn)近紅外光譜模型的傳遞。
針對近紅外光譜模型通用性較差的問題,提出了一種基于隨機(jī)森林結(jié)合直接正交信號校正的模型傳遞方法。該方法首先使用隨機(jī)森林算法實(shí)現(xiàn)光譜波長點(diǎn)的篩選,然后利用直接正交信號算法進(jìn)行光譜校正,最后采用回歸分析求得模型傳遞矩陣。該方法首先采用隨機(jī)森算法進(jìn)行波長的篩選,有效地去除了光譜中含有大量噪聲的區(qū)間,避免了直接正交信號校正算法可能會(huì)造成過擬合的弊端。在一臺主儀器,兩臺從儀器上測的玉米光譜數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,表明該方法能夠消除不同儀器間光譜的平均差異,提高模型的預(yù)測能力和穩(wěn)健性。在與其他傳統(tǒng)模型傳遞方法DS,PDS和DOSC算法對比之后,得出結(jié)論基于隨機(jī)森林結(jié)合直接正交信號的模型傳遞方法能夠較好地完成近紅外光譜的模型傳遞,實(shí)現(xiàn)不同儀器間模型的共享。