葉星辰
摘要:本文介紹了一種改進(jìn)的偏最小二乘回歸算法——局部加權(quán)偏最小二乘回歸(LWPLSR)算法,闡明了其提出的原因和具有的優(yōu)勢(shì)等。在光譜數(shù)據(jù)集上進(jìn)行了分析并與傳統(tǒng)的PLSR進(jìn)行了比較,證明了LWPLSR的有效性。
關(guān)鍵詞:偏最小二乘回歸;局部加權(quán);光譜數(shù)據(jù)集
1 引言
近紅外光譜是近年來(lái)發(fā)展較快的一種有效分析方法,其最大特點(diǎn)是方便、快速、成本較低、可同時(shí)檢測(cè)多種成分,是一種能夠滿足檢測(cè)的獨(dú)立分析技術(shù)[1]. 隨著各種高維數(shù)據(jù)分析算法和化學(xué)計(jì)量學(xué)的發(fā)展,近紅外光譜的用途逐漸廣泛了起來(lái)[2]。偏最小二乘法是一種新型的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,于1983年由S.Wold和C.Albano等人首次提出。偏最小二乘法實(shí)現(xiàn)了,在一個(gè)算法下,可以同時(shí)實(shí)現(xiàn)回歸建模、數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)化以及兩組變量之間的相關(guān)性分析。偏最小二乘法可以處理全光譜信息,包括這些信息中包含了過(guò)多的冗余信息[3]。局部模型是指x軸上的一個(gè)局部區(qū)域,在這個(gè)區(qū)域上定義了兩個(gè)帶參數(shù)的局部模型預(yù)測(cè)函數(shù)以及權(quán)重。
2 局部加權(quán)偏最小二乘算法
局部加權(quán)偏最小二乘(LWPLS)是一種廣泛應(yīng)用于自適應(yīng)軟測(cè)量開發(fā)的建模算法。在LWPLS中,通過(guò)計(jì)算數(shù)據(jù)之間的距離對(duì)歷史樣本進(jìn)行相似性度量和權(quán)值分配,對(duì)處理過(guò)程時(shí)變的突變問(wèn)題非常有效[4]。局部加權(quán)偏最小二乘是一種以即時(shí)建模思想為基礎(chǔ)的方法,將傳統(tǒng)的PLS算法融入局部加權(quán)的理念進(jìn)行改進(jìn),在建立每一個(gè)局部模型時(shí),考慮了訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)之間的距離,計(jì)算出它們之間的距離并將其作為各數(shù)據(jù)點(diǎn)的權(quán)重,如果距離新來(lái)數(shù)據(jù)越短就被賦予的權(quán)重越大,通過(guò)加權(quán)的樣本建立局部PLS模型。因此,相比PLS建模而言,LWPLS能夠更好地描述化工過(guò)程中的非線性特征[5]。
LWPLS的算法步驟如下:
首先設(shè)置隱變量的初值為1,并輸入最多隱變量個(gè)數(shù)A的值
Step2:根據(jù)計(jì)算出它與數(shù)據(jù)庫(kù)中各樣本之間的相似度。其中,是的標(biāo)準(zhǔn)差,是位置參數(shù),一般取0.1~1.5之間。將由計(jì)算得到的表示成相似矩陣的形式為:
Step3:對(duì)輸入輸出矩陣及新來(lái)的數(shù)據(jù)點(diǎn)進(jìn)行中心化和加權(quán)處理,計(jì)算出及。
其中,為全1的列向量,
Step4:推斷出局部線性模型
X的得分向量:ta=Xaωa.X的負(fù)荷向量:.模型回歸系數(shù)向量:
新來(lái)數(shù)據(jù)點(diǎn)的得分:
如果,則下一步;不然的話,使再到step4進(jìn)行循環(huán)。這里,是的最大特征值所對(duì)應(yīng)的特征向量。
Step5:計(jì)算新來(lái)測(cè)試樣本的輸出估計(jì)值:
3 實(shí)例分析
此數(shù)據(jù)集為玉米數(shù)據(jù)集,共包含80個(gè)樣本,在3臺(tái)近紅外光譜儀(m5, mp5, mp6)上測(cè)量。每個(gè)樣品由四種成分組成:水分、油脂、蛋白質(zhì)和淀粉。波長(zhǎng)范圍1100- 2400nm,間隔2nm(700通道)。m5spec中測(cè)量的光譜作為主光譜,mp6spec中測(cè)量的光譜作為次級(jí)光譜。數(shù)據(jù)集根據(jù)Kennard-Stone (KS)算法分為64個(gè)樣本的校準(zhǔn)集和16個(gè)樣本的測(cè)試集。其中,m5, ‘mp5, ‘mp6這三個(gè)數(shù)據(jù)表代表了不同儀器測(cè)得的波普長(zhǎng)度,可作為自變量。water, ‘pro, ‘oil, ‘starch為不同屬性的測(cè)值,可作為因變量。 其中共有樣本80例,每個(gè)光譜測(cè)量樣本共有700個(gè)屬性,因變量只有一個(gè)屬性。
本文在數(shù)據(jù)集中隨即劃分占總數(shù)量50%的樣本為訓(xùn)練集,其余的樣本作為測(cè)試集。然后使用不同算法進(jìn)行訓(xùn)練和測(cè)試。經(jīng)過(guò)訓(xùn)練,使用sklearn的PLSR在玉米光譜數(shù)據(jù)集上測(cè)試的RMSE:為0.3963.
使用LWPLSR在玉米光譜數(shù)據(jù)集上測(cè)試的RMSE為0.375,由此可見(jiàn)改進(jìn)的PLSR算法——LWPLSR算法比傳統(tǒng)的算法更有優(yōu)勢(shì)一些
結(jié)論
本文主要對(duì)LWPLSR進(jìn)行了介紹和進(jìn)行實(shí)例分析,證明了其在光譜數(shù)據(jù)集上有分析一定的有效性,比傳統(tǒng)的PLSR效果更好一些。
參考文獻(xiàn)
[1] CHEN H, LIN Z, TAN C. Automatic cancer discrimination based on near-infrared spectrum and class-modeling technique[J]. Vibrational Spectroscopy, 2020, 106(C). DOI:10.1016/j.vibspec.2019.102991.
[2] 田翔, 劉思辰, 王海崗, 等. 近紅外漫反射光譜法快速檢測(cè)谷子蛋白質(zhì)和淀粉含量[J]. 食品科學(xué), 2017, 38(16):140-144. DOI: 10. 7506/ spkx1002-6630-201716022.
[3] 張瑩, 王耀南. 基于局部加權(quán)偏最小二乘法的冷凝器污垢預(yù)測(cè)[J]. 儀器儀表學(xué)報(bào), 2010, 031(002):299-304.
[4] Yuan X , Zhou J , Wang Y . A spatial-temporal LWPLS for adaptive soft sensor modeling and its application for an industrial hydrocracking process[J]. Chemometrics and Intelligent Laboratory Systems, 2020, 197:103921.
[5] 薛明晨, 熊偉麗, 徐保國(guó). 基于局部加權(quán)偏最小二乘的在線多模型建模[J]. 計(jì)算機(jī)應(yīng)用研究, 2015, 032(010):2981-2984,2995.