• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于變量重要性和偏最小二乘的近紅外特征篩選方法研究

      2021-12-21 07:04:52劉偉平
      關(guān)鍵詞:波長(zhǎng)光譜重要性

      黃 新,劉偉平

      (湖南城市學(xué)院 a.管理學(xué)院,b.圖書館,湖南 益陽 413000)

      近紅外光譜是一種簡(jiǎn)單、快速、無破壞性的新型綠色分析檢測(cè)技術(shù),被廣泛應(yīng)用于食品檢測(cè)、環(huán)境保護(hù)、石油化工以及中藥光譜分析等領(lǐng)域[1].近紅外光譜數(shù)據(jù)分析的困難在于波長(zhǎng)變量之間通常存在嚴(yán)重的多重共線性,同時(shí)含有大量無信息波長(zhǎng)甚至是噪聲波長(zhǎng),如果直接對(duì)全光譜進(jìn)行建模分析不僅會(huì)增加模型的復(fù)雜程度與計(jì)算代價(jià),甚至還會(huì)降低模型的預(yù)測(cè)性能.因此,光譜變量選擇已經(jīng)成為近紅外光譜數(shù)據(jù)分析中一個(gè)關(guān)鍵的環(huán)節(jié),對(duì)提高模型的預(yù)測(cè)能力和穩(wěn)健性具有重要的意義.

      目前,為了提高模型的預(yù)測(cè)能力,國(guó)內(nèi)外學(xué)者們提出了一系列基于PLS的變量篩選方法.其中有代表性的方法有:無用信息刪除(uninformative variable elimination,UVE)[2-3];移動(dòng)窗口偏最小二乘(moving window partial least squares,MWPLS)[4];自適應(yīng)競(jìng)爭(zhēng)權(quán)值采樣(the competitive adaptive reweighted sampling method)[5-6]等.

      為進(jìn)一步提高變量選擇結(jié)果的穩(wěn)健性,本文將變量重要性融入到PLS 中,提出了一種新的基于變量重要性的偏最小二乘特征變量篩選方法(VISPLS),它是基于變量重要性的向前變量選擇算法.同時(shí),選擇斯皮爾曼(Spearman)相關(guān)系數(shù)、肯德爾(Kendall)相關(guān)系數(shù)、選擇性比(selectivity ratio,SR)、投影變量重要性(variable importance in projection VIP)來度量變量的重要性,并用2 個(gè)真實(shí)的近紅外光譜數(shù)據(jù)集來評(píng)估VISPLS 的性能,旨在提高系統(tǒng)預(yù)測(cè)性能.

      1 偏最小二乘原理與算法步驟

      偏最小二乘(partial least squares,PLS)法融合了多元線性回歸分析、主成分分析和典型相關(guān)分析3 種分析方法,由Wold 引入化學(xué)計(jì)量學(xué),成為近紅外數(shù)據(jù)分析的主要方法[7].給定1 個(gè)n×p自變量矩陣X,每行代表1 個(gè)樣本,每列表示1個(gè)變量.則n×q因變量矩陣Y可記為

      X=(x1,x2,…,xn)T,Y=(y1,y2,…,yq)T.

      其中,xi(i=1,2,…,n)是1 個(gè)p維的列向量;y j(j=1,2,…,q)是1 個(gè)n維的列向量;T表示向量或矩陣的轉(zhuǎn)置.

      偏最小二乘首先運(yùn)用主成分分析和典型相關(guān)分析方法,分別在數(shù)據(jù)X和Y中提取主成分t1和u1,t1和u1應(yīng)滿足下列2 個(gè)條件:

      1)t1和u1應(yīng)該盡可能多地包含原始數(shù)據(jù)矩陣中的信息;

      2)t1和u1之間的相關(guān)程度應(yīng)該盡可能最大.

      得到第1 個(gè)主成分t1和u1后,偏最小二乘再結(jié)合多元線性回歸分析方法,分別執(zhí)行X對(duì)t1和Y對(duì)t1的回歸.若方程已經(jīng)滿足精度要求,則算法停止;否則,繼續(xù)利用X被t1解釋后的殘余信息及Y被t1解釋后的殘余信息進(jìn)行第2 成分的提取,如此進(jìn)行,直到達(dá)到滿意的精度為止.

      Wold[8]提出的非線性迭代偏最小二乘算法(nonlinear iterative partial least squares,NIPALS)是實(shí)現(xiàn)偏最小二乘回歸的基本方法.在此基礎(chǔ)上,目前有多種算法能夠?qū)崿F(xiàn)偏最小二乘回歸.下面采用Lewi[9]在1995 年提出的算法.

      1)從矩陣Y中任選1 列,用u表示;

      2)令w=XTu;

      3)v=Xw,;

      4)c=YTv;

      5)u=Yc,;

      6)重復(fù)步驟2)~步驟5),直到收斂;

      7)計(jì)算殘差矩陣,X←X-vvTX,Y←Y-vvTY.

      PLS 回歸是一個(gè)迭代的過程,即提取第一個(gè)主成分后,按步驟7)計(jì)算殘差矩陣,然后應(yīng)用殘差矩陣代替原來的數(shù)據(jù)矩陣,算法重新開始,直到達(dá)到原始矩陣X的秩r.為避免過擬合,一般采用交互檢驗(yàn)來確定最優(yōu)的主成分?jǐn)?shù).在提取r個(gè)主成分后,能夠得到n×r矩陣V和U,p×r矩陣W和q×r矩陣C,它們的列分別由構(gòu)成.這樣,PLS回歸模型就能夠?qū)懗删仃囆问?/p>

      Y=XB+E.

      其中,E是殘差矩陣.這個(gè)方程和通常的嶺回歸、多元線性回歸和主成分回歸模型有一樣的形式.然而,比較這些模型,矩陣B有以下形式:

      B=W(PTW)-1CT.

      其中,W=XTU;P=XTV(VTV)-1;C=YTV(VTV)-1.

      利用矩陣V列的正交性,矩陣B又可寫成

      B=XTU(VTXXTU)-1VTY.

      2 4 種基于相關(guān)性的變量重要性

      2.1 斯皮爾曼(Spearman)相關(guān)系數(shù)

      Spearman 相關(guān)系數(shù)又稱秩相關(guān)系數(shù)[10],是利用2 個(gè)變量的秩次大小作線性相關(guān)分析,對(duì)原始變量的分布不作要求,屬于非參數(shù)統(tǒng)計(jì)方法.設(shè)X=(x1,x2,…,xn),Y=(y1,y2,…,yn),將x1,x2,…,xn和y1,y2,…,yn按照升序進(jìn)行排列,則X與Y的Spearman 相關(guān)系數(shù)為

      2.2 肯德爾(Kendall)相關(guān)系數(shù)

      肯德爾(Kendall)相關(guān)系數(shù)又稱一致性系數(shù)[11],是表示多列等級(jí)變量相關(guān)程度的一種方法.X與Y存在組元素對(duì)(xi,yj),i≠j,i≥1,j≤n.Kendall 相關(guān)系數(shù)為

      其中,N0是元素對(duì)總數(shù);1N為X與Y正相關(guān)的元素對(duì)總數(shù);N2為X與Y負(fù)相關(guān)的元素對(duì)總數(shù);N3為X中相同元素對(duì)(xi=xj)總數(shù);N4為Y中相同元素對(duì)(yi=yj)總數(shù).

      2.3 選擇性比(selectivity ratio,SR)

      基于PLS,Kvalheim[12]提出了變量選擇性比(selectivity ratio,SR)的方法用于變量選擇.此法原理簡(jiǎn)單,它認(rèn)為被模型解釋得越多的變量越重要.建立PLS 模型后,可以得到每個(gè)變量被模型所解釋的方差和未被解釋的方差.在給定PLS的回歸系數(shù)b的條件下,有

      其中,Si,exp為第i個(gè)變量的解釋方差;Si,res為第i個(gè)變量的殘差方差.

      2.4 投影變量重要性(variable importance in projection,VIP)

      Favilla 等提出了 variable importance in projection(VIP)[13],其中第j個(gè)變量的VIP值為

      其中,wjf是主成分?jǐn)?shù)f下第j個(gè)變量的權(quán)重值;SSYf是主成分?jǐn)?shù)f的解釋方差平方和;m是變量個(gè)數(shù);SSYtotal是因變量的平方總和.

      3 基于變量重要性的偏最小二乘特征變量篩選方法(VISPLS)

      針對(duì)近紅外光譜數(shù)據(jù)的特點(diǎn),選擇常用的斯皮爾曼(Spearman)相關(guān)系數(shù)、肯德爾(Kendall)相關(guān)系數(shù)、選擇性比(selectivity ratio,SR)、投影變量重要性(variable importance in projection,VIP)來度量變量的重要性,利用變量的重要性和PLS 來篩選波長(zhǎng)變量.VISPLS 是基于相關(guān)變量重要性的向前變量選擇算法.VISPLS 算法步驟如下:

      1)標(biāo)準(zhǔn)化近紅外光譜數(shù)據(jù)矩陣X和Y.令M={x1,x2,…,xp}表示整個(gè)變量集.

      2)按照式(1)~式(4)分別計(jì)算相關(guān)變量的重要性,并按數(shù)值的絕對(duì)值大小順序排序;依次挑選系數(shù)最大時(shí)所對(duì)應(yīng)的1 個(gè)變量,建立PLS 回歸模型;然后記錄均方根誤差(RMSE).這樣就得到P個(gè)PLS 回歸模型和P個(gè)RMSE值.

      3)選擇P個(gè)RMSE值中最小值所對(duì)應(yīng)的變量集,在這個(gè)變量集上建立最優(yōu)的PLS模型.RMSE的計(jì)算公式為

      其中,yi和分別表示第i個(gè)樣本的實(shí)際值和預(yù)測(cè)值[14].

      4 數(shù)據(jù)與結(jié)果討論

      選擇2 個(gè)真實(shí)的近紅外光譜數(shù)據(jù)來評(píng)估VISPLS 算法的性能.RMSEOPT表示優(yōu)化集的均方根誤差,RMSETEST表示測(cè)試集的預(yù)測(cè)均方根誤差,nLV表示PLS 模型的成分?jǐn)?shù),nVar表示VISPLS模型選擇的變量數(shù),Threshold表示最優(yōu)模型對(duì)應(yīng)的閾值.基于斯皮爾曼相關(guān)系數(shù)、肯德爾相關(guān)系數(shù)、選擇性比、投影變量重要性的4 種偏最小二乘特征變量篩選方法分別記為:SpearmanPLS,KendallPLS,SRPLS 和VIPPLS.VISPLS 算法代碼是基于R 語言(版本4.1)編寫.

      4.1 Corn 數(shù)據(jù)

      Corn 數(shù)據(jù)有80 個(gè)樣本,波長(zhǎng)為1 100~2 498 nm,并以間隔2 nm 取值,這樣總共有700 個(gè)變量[5].這80 個(gè)樣本是運(yùn)用“m5spec”,“mp”和“m6spec”3 種不同的近紅外光譜儀測(cè)量得到的.在本研究中,只應(yīng)用預(yù)測(cè)矩陣“m5spec”與油量(oil)因變量來評(píng)估VISPLS 算法.圖1 是數(shù)據(jù)集Corn的光譜圖.Corn 數(shù)據(jù)的80 個(gè)樣本被隨機(jī)地分成訓(xùn)練集(train set,40)、優(yōu)化集(optimization set,20)和測(cè)試集(test set,20).

      圖1 數(shù)據(jù)集Corn 的光譜圖

      比較 VIPPLS,SRPLS,KendallPLS 和SpearmanPLS 4 種方法,VIPPLS 的預(yù)測(cè)精度是最好的,見表1.4 種方法選擇的的變量與波長(zhǎng)區(qū)間分別列于圖2.由圖2 可知,基于變量重要性篩選變量能夠提高PLS 模型的預(yù)測(cè)性能.

      圖2 Corn 數(shù)據(jù)集上4 種方法選擇的波長(zhǎng)變量

      4.2 Gasoline 數(shù)據(jù)

      Gasoline 數(shù)據(jù)[15]是另一個(gè)近紅外光譜數(shù)據(jù)集,它包含60 個(gè)樣本,近紅外譜是根據(jù)漫反射度的函數(shù)log(1/R)從900~1 700 nm中以2 nm為間隔測(cè)量出來的,共有401 個(gè)變量或波長(zhǎng)(wavelengths)(見圖3).

      圖3 數(shù)據(jù)集Gasoline 的光譜圖

      Gasoline數(shù)據(jù)的60 個(gè)樣本被隨機(jī)地分成訓(xùn)練集(train set,30)、優(yōu)化集(optimization set,15)和測(cè)試集(test set,15).

      比較表2 中4 種方法可知,VIPPLS 取得了最好的預(yù)測(cè)精度.VIPPLS,SRPLS,KendallPLS和SpearmanPLS 4 種方法選擇的的變量與波長(zhǎng)區(qū)間見圖4.

      表2 數(shù)據(jù)集 Gasoline 的預(yù)測(cè)結(jié)果

      圖4 Gasoline 數(shù)據(jù)上4 種方法選擇的波長(zhǎng)變量

      5 結(jié)論

      近紅外光譜數(shù)據(jù)通常包含成百上千個(gè)變量,變量數(shù)遠(yuǎn)遠(yuǎn)大于樣本數(shù),研究者普遍認(rèn)為,通過選擇有信息的變量或者刪除無用的變量后,建立的模型能夠明顯地提高模型的穩(wěn)健性和預(yù)測(cè)精度.如何從這些數(shù)據(jù)中選擇重要的光譜變量是近紅外光譜建模的關(guān)鍵問題.本文將變量重要性融入到偏最小二乘回歸中,提出了一種新的基于變量重要性的偏最小二乘特征變量篩選方法VISPLS.選擇Spearman 相關(guān)系數(shù)、Kendall 相關(guān)系數(shù)、SR 系數(shù)和VIP 系數(shù)4 個(gè)指標(biāo)來度量近紅外光譜變量的重要性,然后對(duì)變量重要性進(jìn)行排序,再運(yùn)用PLS 進(jìn)行變量篩選.VISPLS 是一種基于變量重要性的前向迭代算法,通過2 個(gè)真實(shí)的近紅外光譜數(shù)據(jù)研究表明,VISPLS 可以更好地挖掘變量間的相互關(guān)系,能夠有效提高近紅外光譜模型預(yù)測(cè)性能.

      猜你喜歡
      波長(zhǎng)光譜重要性
      HPLC-PDA雙波長(zhǎng)法同時(shí)測(cè)定四季草片中沒食子酸和槲皮苷的含量
      基于三維Saab變換的高光譜圖像壓縮方法
      “0”的重要性
      論七分飽之重要性
      幼兒教育中閱讀的重要性
      甘肅教育(2020年21期)2020-04-13 08:09:24
      雙波長(zhǎng)激光治療慢性牙周炎的療效觀察
      日本研發(fā)出可完全覆蓋可見光波長(zhǎng)的LED光源
      讀《邊疆的重要性》有感
      星載近紅外高光譜CO2遙感進(jìn)展
      便攜式多用途光波波長(zhǎng)測(cè)量?jī)x
      天台县| 绥宁县| 峡江县| 虹口区| 河津市| 德钦县| 通许县| 杭州市| 彭阳县| 克山县| 泉州市| 抚松县| 韩城市| 巨鹿县| 黄陵县| 扶风县| 东阳市| 昌吉市| 绥化市| 垦利县| 浏阳市| 台南县| 建昌县| 温宿县| 肇州县| 克什克腾旗| 云南省| 通州市| 甘孜| 将乐县| 定边县| 漳平市| 冷水江市| 天峨县| 瑞金市| 安达市| 原平市| 石棉县| 易门县| 贵德县| 兴安县|