劉鑫鵬, 孫祥洪, 秦玉華*, 張 敏, 宮會(huì)麗
1. 青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院, 山東 青島 266061 2. 江西中煙工業(yè)有限責(zé)任公司信息中心, 江西 南昌 330096 3. 中國(guó)海洋大學(xué)信息科學(xué)與工程學(xué)部, 山東 青島 266100
近年來(lái), 近紅外光譜分析技術(shù)(NIR)快速發(fā)展, 因其具有高效、 便捷、 無(wú)損、 重現(xiàn)性好等優(yōu)點(diǎn), 非常適合大批樣品的快速分析, 被廣泛應(yīng)用于石油、 食品、 醫(yī)藥、 煙草等領(lǐng)域[1]。 近紅外光譜的相似性度量能夠?qū)崿F(xiàn)產(chǎn)品之間質(zhì)量的相似性評(píng)價(jià), 針對(duì)目標(biāo)樣本進(jìn)行有效的替換, 緩解稀缺原料使用的緊張程度, 在食品加工、 卷煙生產(chǎn)領(lǐng)域具有重要意義[2]。 而高維、 高冗余、 非線性的近紅外光譜使得樣本間的距離度量效果不佳, 嚴(yán)重影響了相似性樣本替換的準(zhǔn)確率。 因此, 建立一種適用于高維近紅外光譜數(shù)據(jù)的特征提取、 數(shù)據(jù)降維的方法[3], 來(lái)滿足樣本之間的相似性度量顯得尤為重要[4]。
臧卓[5]等為探討主成分分析法(PCA)在喬木樹(shù)種高光譜數(shù)據(jù)降維分類(lèi)中的效果, 分別對(duì)濾波后的高光譜反射率數(shù)據(jù)及3種預(yù)處理數(shù)據(jù)進(jìn)行降維處理, 樹(shù)種分類(lèi)時(shí)選擇前15~20個(gè)主成分, 分類(lèi)精度達(dá)到一個(gè)較高的水平。 但PCA作為一種線性降維方法, 無(wú)法對(duì)光譜中非線性特征進(jìn)行有效提取, 使得某些波段的特征信息在降維過(guò)程中丟失。 徐寶鼎[6]等將高維光譜數(shù)據(jù)劃分為多個(gè)網(wǎng)格子空間, 通過(guò)改進(jìn)的LLE算法將高維子空間數(shù)據(jù)映射至低維空間, 計(jì)算每個(gè)子空間的相似度矩陣, 并將每個(gè)空間中歸一化后的相似度矩陣進(jìn)行加和, 以此實(shí)現(xiàn)光譜的相似性度量。 改進(jìn)后的LLE算法雖然避免了因樣本分布稀疏導(dǎo)致的不確定性, 但近鄰數(shù)的選擇仍會(huì)對(duì)降維結(jié)果產(chǎn)生較大影響。 姜斌[7]等利用t-SNE算法對(duì)恒星光譜進(jìn)行降維, 利用流形學(xué)習(xí)方法從高維采樣數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu), 并求出相應(yīng)的嵌入映射, 降維后的恒星光譜在機(jī)器學(xué)習(xí)分類(lèi)器中具有較高的分類(lèi)準(zhǔn)確率。 但t-SNE算法使用KL散度表示高維空間和低維空間中數(shù)據(jù)點(diǎn)概率分布的差異, 當(dāng)分布相距較遠(yuǎn)或完全沒(méi)有重疊時(shí), 將會(huì)出現(xiàn)梯度消失的現(xiàn)象。 馬雁軍[8]等應(yīng)用PPF(projection of basing on principal component and fisher criterion)建立國(guó)產(chǎn)白肋煙近紅外光譜的投影分析模型, 并度量其產(chǎn)地、 部位間相似性, 將相似性判定結(jié)果用于指導(dǎo)煙葉替換和復(fù)烤配方的微調(diào)。 基于主成分分析及Fisher準(zhǔn)則的PPF方法能夠克服數(shù)據(jù)高維距離度量無(wú)效性帶來(lái)的困擾, 但維度越高, 帶來(lái)的后續(xù)計(jì)算越困難。 由此可見(jiàn), 對(duì)高維光譜數(shù)據(jù)降維是分析樣本間關(guān)系的必要環(huán)節(jié), 消除光譜中堆疊的冗余信息, 實(shí)現(xiàn)高維數(shù)據(jù)的降維能夠提高近紅外光譜樣本間相似性度量的精準(zhǔn)度。
針對(duì)上述問(wèn)題, 本文提出了一種基于Wasserstein散度[9]的t分布隨機(jī)近鄰嵌入算法(Wt-SNE)。 該方法能夠有效地把高維的數(shù)據(jù)映射到低維的空間, 采用Wasserstein散度衡量?jī)蓚€(gè)空間的概率分布, 有效避免了近紅外光譜在高維空間內(nèi)由于樣本分布稀疏導(dǎo)致的梯度消失的現(xiàn)象, 并且保持了數(shù)據(jù)在高維空間的局部結(jié)構(gòu)。 實(shí)驗(yàn)表明, 該方法降維后的近紅外光譜類(lèi)別邊界更明顯, 低維空間的距離度量能夠表示樣本間的相似度, 在煙葉近紅外光譜相似性度量中表現(xiàn)出良好的效果。
隨機(jī)近鄰嵌入SNE(stochastic neighbor embedding)是一種非線性流形降維算法[10], 通過(guò)仿射變換將數(shù)據(jù)點(diǎn)映射到概率分布上, 在高維空間和低維空間構(gòu)建概率分布, 優(yōu)化兩個(gè)概率分布之間的距離即KL散度, 使其分布盡可能地相似, 以此實(shí)現(xiàn)數(shù)據(jù)從高維空間到低維空間的降維。
采用SNE在高維空間構(gòu)建近紅外光譜的概率分布的過(guò)程如下。 假設(shè)在高維歐氏空間RD中有n個(gè)D維數(shù)據(jù)集X={x1,x2,x3,…,xn},xi∈RD, (i=1,2,3,…,n), 利用式(1)計(jì)算數(shù)據(jù)點(diǎn)xi與xj之間的概率分布pij, 以高斯概率分布表示樣本的位置信息[11]。
(1)
(2)
為了讓高維空間的點(diǎn)映射到低維空間后, 盡可能保持一樣的分布,SNE采用梯度下降的方法, 不斷更新低維空間內(nèi)點(diǎn)的分布, 使得兩個(gè)概率空間的KL散度逐漸降低, 使得降維之后的特征空間與高維空間局部鄰域信息具有較高的相似度。
Wasserstein散度是一種度量?jī)蓚€(gè)概率分布之間距離的方法[13], 能夠保持兩個(gè)概率分布的幾何特性。 目前, Wasserstein散度在概率理論和數(shù)理統(tǒng)計(jì)方面已有成熟的理論研究, 并且隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的發(fā)展, Wasserstein散度在算法研究領(lǐng)域具有較為廣泛的應(yīng)用[14]。 值得一提的是在生成對(duì)抗網(wǎng)絡(luò)中, Wasserstein散度優(yōu)化了JS散度距離衡量不合理性, 拉近生成數(shù)據(jù)和真實(shí)數(shù)據(jù)的數(shù)據(jù)分布, 有效的解決了生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定的問(wèn)題, 提高了樣本數(shù)據(jù)生成、 圖像生成、 文本生成的準(zhǔn)確率[15]。 Wasserstein散度表示兩個(gè)概率分布之間的距離定義如式(3)
(3)
式(3)中, ∏(P1,P2)表示的是分布P1和P2中所有可能的聯(lián)合分布, 對(duì)于每一個(gè)可能的聯(lián)合分布γ, 可以從中采樣(x,y)~γ得到一個(gè)樣本x和y, 并計(jì)算出這對(duì)樣本的距離‖x-y‖, 同時(shí)計(jì)算該聯(lián)合分布γ下樣本對(duì)距離的期望值E(x,y)-γ[‖x-y‖], 在所有聯(lián)合分布中求期望值的最大下界inf(E(x,y)-γ[‖x-y‖]), 從而得到兩個(gè)概率分布的Wasserstein散度。
為了在近紅外光譜中, 找到與目標(biāo)樣本相似度匹配最近的樣本, 提出了基于Wasserstein散度的t分布隨機(jī)近鄰嵌入算法(Wt-SNE)。 先將近紅外光譜數(shù)據(jù)利用概率分布在高維空間表示, 重構(gòu)低維度空間的概率分布, 同時(shí)引入Wasserstein散度替換KL散度, 通過(guò)迭代調(diào)整低維空間內(nèi)樣本點(diǎn)的位置信息, 降低兩個(gè)空間樣本分布差異性, 增強(qiáng)低維空間中相似性度量結(jié)果的準(zhǔn)確度, 基于Wasserstein散度的t分布隨機(jī)近鄰嵌入算法的相似性度量方法步驟如下:
Step 1: 根據(jù)式(1), 將近紅外光譜數(shù)據(jù)集X中每個(gè)樣本在高維空間內(nèi)的分布用高斯概率分布表示, 獲取高維空間中兩個(gè)樣本的條件概率pj|i。
Step 2: 在低維空間中, 對(duì)于低維特征矩陣Y={y1,y2,y3,…,yn}使用更重長(zhǎng)尾分布的t分布來(lái)避免crowding問(wèn)題[16], 以此來(lái)替代高斯分布, 表達(dá)低維空間內(nèi)兩點(diǎn)之間的相似度, 在t分布下第i個(gè)樣本分布在樣本j周?chē)母怕蕅ij計(jì)算如式(4)
(4)
Step 3: 引入Wasserstein散度計(jì)算高維空間和低維空間兩個(gè)概率分布之間的距離W(p,q), 通過(guò)梯度下降算法, 迭代更新低維度空間的特征矩陣Y, 計(jì)算概率分布, 優(yōu)化Wasserstein散度。 低維度空間的特征矩陣Y更新如式(5)
(5)
式(5)中,Y(t)表示t輪迭代后的特征矩陣,η為梯度更新的學(xué)習(xí)率,α為動(dòng)量因子。 相比KL散度, 即使兩個(gè)分布的支撐集沒(méi)有重疊或者重疊非常少, Wasserstein散度仍然能反映近紅外光譜在兩個(gè)空間內(nèi)概率分布的相似情況, 而KL散度變得無(wú)意義。
Step 4: 低維特征矩陣Y, 保留了原始數(shù)據(jù)的多種有效特征結(jié)構(gòu), 通過(guò)計(jì)算低維特征矩陣樣本點(diǎn)之間的馬氏距離, 得到目標(biāo)樣本與其他樣本之間的差異程度[17]。 此距離越大, 樣本間的差距越大, 反之樣本間的相似度越高, 距離度量標(biāo)準(zhǔn)如式(6)
(6)
式(6)中,yi、yj分別為降維后第i個(gè)和第j個(gè)樣本的特征向量,V為類(lèi)協(xié)方差矩陣。
選取某煙草企業(yè)提供的近3年廣西、 山東、 四川、 云南四個(gè)產(chǎn)區(qū)具有代表性的280個(gè)煙葉樣品, 其主要化學(xué)成分含量已知。 將樣本置于60 ℃烘箱內(nèi)烘2 h, 磨碎過(guò)40目篩, 常溫避光密封保存24 h后采集樣本光譜。
選用尼高力公司的Antaris Ⅱ近紅外光譜儀, 光譜掃描范圍為4 000~10 000 cm-1, 分辨率為8 cm-1。 每個(gè)實(shí)驗(yàn)樣品稱(chēng)重15 g, 置于樣本杯中用壓樣器壓實(shí), 壓實(shí)用200 g壓力。 保持室溫在18~22 ℃、 濕度<60%。 重復(fù)掃描3次取平均值作為該樣品的最終光譜, 如圖1(a)所示。 化學(xué)物質(zhì)的含量是度量樣本煙葉之間相似性的關(guān)鍵指標(biāo), 煙葉中總糖、 煙堿、 還原糖等物質(zhì)的特征波段主要分布在4 140~7 500 cm-1范圍內(nèi), 不同樣本在此波段吸收峰的變化存在差異, 因此選取4 140~7 500 cm-1波段作為樣本相似性度量的波長(zhǎng)區(qū)間。 將光譜數(shù)據(jù)進(jìn)行Savitzky Golay(9, 2)一階導(dǎo)數(shù)預(yù)處理, 以消除環(huán)境、 儀器和人為等因素的噪聲干擾, 預(yù)處理后的光譜如圖1(b)所示。
圖1 原始光譜圖和預(yù)處理結(jié)果(a): 原始光譜; (b): Savitzky Golay(9, 2)一階導(dǎo)數(shù)預(yù)處理Fig.1 The original and pretreated spectra(a): Original spectra; (b): Savitzky Golay(9, 2) first derivative
領(lǐng)域?qū)<艺J(rèn)為相同產(chǎn)地的煙葉相似度高, 將高維煙葉光譜數(shù)據(jù)進(jìn)行降維, 重構(gòu)的低維數(shù)據(jù)盡可能的表達(dá)原數(shù)據(jù)的特征信息。 好的降維方法應(yīng)使相同產(chǎn)地的煙葉盡可能靠近, 不同產(chǎn)地的煙葉盡可能分開(kāi)。 隨機(jī)選取140個(gè)樣本, 分別采用PCA、 LPP、 t-SNE、 Wt-SNE方法對(duì)不同產(chǎn)區(qū)煙葉光譜數(shù)據(jù)進(jìn)行降維的投影效果對(duì)比如圖2所示。
可以看出, PCA算法降維后的煙葉樣本, 投影混合現(xiàn)象嚴(yán)重, LPP算法無(wú)法有效區(qū)分不同產(chǎn)區(qū)的煙葉, 存在部分樣本的重疊, 線性降維方法PCA、 LPP對(duì)于近紅外光譜數(shù)據(jù)的相似性和樣本分布特征提取較差。 t-SNE算法對(duì)四個(gè)產(chǎn)地的煙葉區(qū)分度優(yōu)于PCA和LPP算法, 但分類(lèi)邊界效果較差。 本文提出的Wt-SNE算法對(duì)于煙葉產(chǎn)地的區(qū)分度明顯高于其他三種算法, 產(chǎn)區(qū)分類(lèi)邊界明顯, 降維效果較優(yōu)。
近紅外光譜數(shù)據(jù)能夠反映不同產(chǎn)地?zé)熑~的成分、 質(zhì)量的差異性, 將其降至低維后進(jìn)行分類(lèi), 通過(guò)產(chǎn)地識(shí)別的準(zhǔn)確率反映降維方法對(duì)近紅外光譜數(shù)據(jù)的特征提取能力。 將280個(gè)具有代表性的樣本數(shù)據(jù)按照3∶1的比例隨機(jī)劃分?jǐn)?shù)據(jù)集, 210個(gè)樣本作為訓(xùn)練集, 剩余樣本為測(cè)試集。 分別利用PCA、 LPP、 t-SNE、 Wt-SNE將光譜數(shù)據(jù)降維至1~7維, 再通過(guò)KNN分類(lèi)器對(duì)低維光譜數(shù)據(jù)建立煙葉產(chǎn)地分類(lèi)模型, 分類(lèi)準(zhǔn)確率隨光譜特征維度的變化如圖3所示。
圖3 不同維度下產(chǎn)地識(shí)別準(zhǔn)確率Fig.3 Accuracy of origin recognition in different dimensions
通過(guò)圖3可以看出, 四種降維方法得到的特征數(shù)據(jù)在不同維度下產(chǎn)地識(shí)別準(zhǔn)確率各不相同, 總體上隨著維度的增加分類(lèi)準(zhǔn)確率先上升后趨于平緩, 在6維特征空間之后呈現(xiàn)下降趨勢(shì)。 因此實(shí)驗(yàn)將光譜數(shù)據(jù)降至6維特征, 以確保四種降維方法能夠從近紅外光譜中提取到煙葉的關(guān)鍵信息, 從而保證煙葉樣本相似性度量的可靠性。
為進(jìn)一步驗(yàn)證降維結(jié)果的有效性, 分別使用PCA、 LPP、 t-SNE、 Wt-SNE算法對(duì)煙葉光譜數(shù)據(jù)降至6維特征, 之后除KNN分類(lèi)器外, 另外再選用SVM和PLS-DA分類(lèi)器利用訓(xùn)練集光譜建立煙葉產(chǎn)地分類(lèi)模型, 對(duì)測(cè)試集70個(gè)樣本進(jìn)行產(chǎn)地預(yù)測(cè), 表1為不同算法在測(cè)試集中的產(chǎn)地分類(lèi)準(zhǔn)確率對(duì)比。
表1 煙葉產(chǎn)地分類(lèi)準(zhǔn)確率對(duì)比Table 1 Comparison of accuracy of tobacco origin classification
由表1可以得出, 三種分類(lèi)器對(duì)原始數(shù)據(jù)進(jìn)行產(chǎn)地識(shí)別的準(zhǔn)確率最低, 說(shuō)明原始數(shù)據(jù)中存在較多的噪聲和冗余信息的干擾。 運(yùn)用四種降維方法后的樣本產(chǎn)地識(shí)別準(zhǔn)確率均有所提高, 其中, Wt-SNE算法降維后的數(shù)據(jù)在三種分類(lèi)器下的產(chǎn)地識(shí)別準(zhǔn)確率分別為93.8%、 91.5%、 92.7%, 相比t-SNE算法識(shí)別錯(cuò)誤的樣本有所減少, 這是因?yàn)樵趖-SNE算法中, KL散度雖然能夠確保低維空間生成的t分布正確匹配高維空間高斯分布的峰值部分, 但尾部樣本的概率分布將無(wú)法有效匹配。 而Wt-SNE算法采用Wasserstein散度衡量?jī)蓚€(gè)概率分布的距離, 更加重視全局性的概率分布特征, 且兩概率分布的尾部同樣會(huì)受到關(guān)注, 有效拉近了低維空間生成的概率分布與高維空間真實(shí)的概率分布之間的相關(guān)性。 相比其他算法, 該方法降維后保留了更多煙葉的特征信息, 因此識(shí)別率最高, 這與投影分析結(jié)果一致。
單料煙葉的替換是配方維護(hù)和保持卷煙葉組配方質(zhì)量穩(wěn)定性的關(guān)鍵環(huán)節(jié), 在某一需要維護(hù)的卷煙葉組配方中, 選取一個(gè)單料煙作為替換的目標(biāo)煙葉, 從90個(gè)用于維護(hù)的煙葉樣品中查找相似煙葉。 圖4為采用PCA、 LPP、 t-SN、 Wt-SNE方法降維后的維護(hù)煙葉樣本與目標(biāo)樣本之間的馬氏距離以及通過(guò)馬氏距離選出5個(gè)距離最近的替換樣本。 替換樣本與目標(biāo)樣本在空間中的馬氏距離反映了樣本間的相似度, 距離越近相似度越高。
圖4 備選樣本與目標(biāo)樣本之間的馬氏距離度量結(jié)果(a): PCA; (b): LPP; (c): t-SNE; (d): Wt-SNEFig.4 The Mahalanobis distance measurement results between the candidate sample and the target sample(a): PCA; (b): LPP; (c): t-SNE; (d): Wt-SNE
從圖4可以看出, 四種降維方法選取的替換煙葉存在部分重復(fù)的情況, 樣本16、 56、 72、 88均被兩種以上方法選為較優(yōu)先的替換樣本, 其中樣本16被LPP、 t-SNE和Wt-SNE三種方法選為與目標(biāo)樣本最為接近的替換樣本, 表明通過(guò)馬氏距離的度量在不同的低維空間內(nèi)選取的替換結(jié)果具有相似性。
為驗(yàn)證選取的替換樣本與目標(biāo)樣本的相似度情況, 選取四種降維方法中與目標(biāo)樣本馬氏距離最為接近的2個(gè)樣本作為替換煙葉, 分別從化學(xué)成分和感官評(píng)吸方面對(duì)選取的替換煙葉進(jìn)行評(píng)價(jià)。 感官評(píng)吸組織10位專(zhuān)家依據(jù)YC/T 497-2014《卷煙中式卷煙感官評(píng)價(jià)方法》從香氣、 煙氣、 口感特性方面進(jìn)行打分評(píng)價(jià)。 此外, 為直觀評(píng)價(jià)煙葉總體質(zhì)量差異, 以0.5分為梯度對(duì)煙葉品質(zhì)進(jìn)行打分, 煙葉品質(zhì)偏差感官評(píng)價(jià)標(biāo)準(zhǔn)見(jiàn)表2。 表3為采用四種降維方法選取與目標(biāo)樣本馬氏距離最為接近的2個(gè)樣本評(píng)價(jià)結(jié)果。
表2 煙葉品質(zhì)偏差感官評(píng)價(jià)標(biāo)準(zhǔn)Table 2 Sensory evaluation standard of tobacco quality deviation
表3 目標(biāo)煙葉和替換煙葉評(píng)價(jià)結(jié)果對(duì)比Table 3 Evaluation comparison of target tobacco and replacement tobacco
由表3可以看出, LPP、 t-SNE和Wt-SNE選取的最為接近的替換煙葉(16號(hào)樣本)與目標(biāo)煙葉的相似度較高, 煙葉總糖和煙堿的含量與目標(biāo)煙葉最為相近, 香氣、 煙氣、 口感評(píng)析得分表現(xiàn)出較高的一致性, 煙葉總體品質(zhì)無(wú)偏差。 但LPP和t-SNE選取的次優(yōu)替換煙葉39號(hào)和52號(hào)樣本與目標(biāo)煙葉存在一定差異, 相比之下Wt-SNE選取的替換煙葉56號(hào)煙葉與目標(biāo)煙葉的相似度較為接近, 表明Wt-SNE降維后的數(shù)據(jù)在替換樣本選擇上具有一定的穩(wěn)定性, 能夠準(zhǔn)確地度量煙葉近紅外光譜之間樣本的相似度, 是一種有效的單料煙葉的替換方法。
基于Wasserstein散度的t分布隨機(jī)近鄰嵌入算法(Wt-SNE)能夠有效提取近紅外光譜高維空間稀疏矩陣的特征信息, 實(shí)現(xiàn)高維數(shù)據(jù)降維的同時(shí), 保留了高維數(shù)據(jù)的特征結(jié)構(gòu), 利用Wasserstein散度改進(jìn)了t-SNE算法兩個(gè)空間中概率分布的差異表示, 保證降維后數(shù)據(jù)的信息映射更加準(zhǔn)確。 實(shí)驗(yàn)表明, 該方法可視化投影類(lèi)別區(qū)分明顯, 降維后的數(shù)據(jù)保留了煙葉樣本的有效特征。 進(jìn)一步對(duì)單料煙替換前后的相似性結(jié)果進(jìn)行了對(duì)比, Wt-SNE選取的替換煙葉在化學(xué)成分和感官評(píng)析方面與目標(biāo)煙葉相似性最高, 滿足企業(yè)原料煙葉替換標(biāo)準(zhǔn), 該方法可在產(chǎn)品相似性度量的其他領(lǐng)域得到進(jìn)一步的推廣。