苑寧之 陳少華 牟濤濤
摘要:拉曼光譜法能識別塑料制品光譜特征峰,但操作流程繁瑣且準確率有待提升,對此提出了基于一維卷積神經(jīng)網(wǎng)絡(luò)(one-dimensional convolution neural network, 1-D CNN)的塑料制品分類算法,首先建立以聚乙烯(polyethylene, PE)、聚丙烯(polypropylene, PP)、聚對苯二甲酸乙二醇酯(polyethylene terephthalate, PET)和聚苯乙烯(polystyrene, PS)為原材料的40種塑料包裝樣本數(shù)據(jù)集;然后設(shè)計1-D CNN 、K 近鄰(KNN)、決策樹(DT)和支持向量機(SVM)4種算法模型進行訓(xùn)練,并在光譜分類流程、模型準確率和魯棒性等方面進行對比。實驗結(jié)果表明,1-D CNN 在不經(jīng)過預(yù)處理條件下分類準確率達到98.62%,且在60 dB 噪聲下仍有96.42%的準確率,優(yōu)于另外3種傳統(tǒng)機器學(xué)習(xí)算法模型。該結(jié)果證實,拉曼光譜融合神經(jīng)網(wǎng)絡(luò)的多分類方法可提升塑料制品檢測性能。
關(guān)鍵詞:拉曼光譜;一維卷積神經(jīng)網(wǎng)絡(luò);機器學(xué)習(xí);塑料制品;定性分類
中圖分類號: O 433.4 文獻標志碼: A
Research on classification of plastics by Raman spectroscopy combined with deep learning algorithm
YUANNingzhi ,CHEN Shaohua,MU Taotao
(College of Instrumental Science and Optoelectronic Engineering, Beijing Information Science andTechnology University, Beijing 100192, China)
Abstract: Raman spectroscopy can identify the spectral characteristic peaks of plastic products, but the operation process is complicated and the accuracy needs to be improved. Therefore, a classification algorithm for plastic products based on one-dimensional convolution neural network (1-D CNN) is proposed. Firstly, data sets of 40 kinds of plastic packaging samples using polyethylene, polypropylene, polyethylene terephthalate and polystyrene as raw materials were established. Then, four algorithm models including 1-D CNN, KNN, DT and SVM were designed for training, and the spectral classification process, model accuracy and robustness were compared. The experimental results show that the classification accuracy of 1-D CNN can reach 98.62% without pretreatment. And the accuracy rate is 96.42% under 60 dB noise, which is better than the?three traditional machine learning algorithm models. The results show that the multi-classification method of Raman spectral fusion neural network can improve the detection performance of plastic products.
Keywords: Raman spectroscopy; one-dimensional convolutional neural network ; machine learning;plastic products ;qualitative classification
引 言
塑料包裝的原材料為樹脂,純樹脂本身無毒無臭,但其單體和低聚物多為致癌物,很容易透過塑料制品向外散發(fā),尤其在經(jīng)過高溫加熱或在包裝老化的過程中會釋放大量有毒物質(zhì),損害消費者健康[1]。例如線性低密度聚乙烯使用的安全溫度不超過110℃[2];高密度聚乙烯材料不宜長期存儲食品,也不宜高溫加熱,否則將會產(chǎn)生有毒有害物質(zhì);塑料飲料瓶中含有的聚丙烯一旦受到高溫或是酸性腐蝕,就會慢慢溶解釋放有機溶劑,對人體造成危害。當前我國塑料包裝標準和要求相對比較寬泛,部分風(fēng)險項目尚無國家標準檢驗方式,存在安全隱患。由此可見,研究一種能夠?qū)χ饕芰现破吩牧线M行快速檢測和分類的方法很有必要。目前檢驗塑料的方法主要有原子光譜法[3]、拉曼光譜法[4]、紅外光譜法[5]、X 射線熒光光譜法[6]、液相色譜–質(zhì)譜法[7]和氣相色譜–質(zhì)譜法[8]等。
拉曼光譜法通過對與入射光頻率不同的散射光進行分析,以得到物質(zhì)分子振動、轉(zhuǎn)動信息,從而分析物質(zhì)的組成[9],已被廣泛應(yīng)用于各類化學(xué)物質(zhì)分類研究中,其具有操作簡單,靈敏度高,非破壞性等特點。但是傳統(tǒng)的拉曼光譜檢測通常需要人為經(jīng)驗來選取特征信息,且需要對光譜數(shù)據(jù)進行平滑濾波、基線校正等預(yù)處理,需耗費大量人力和時間成本,所以近年來人們將深度學(xué)習(xí)算法應(yīng)用到拉曼光譜分析領(lǐng)域的研究中。Liu 等[10]采用 LeNet-5變體的深度卷積神經(jīng)網(wǎng)絡(luò)對拉曼光譜數(shù)據(jù)進行分類,在 RRUFF 礦物拉曼光譜數(shù)據(jù)庫上取得很好的分類效果;祁文博等[11] 采用 Deep-CNN 網(wǎng)絡(luò)對三元混合礦物顏料拉曼光譜進行分類,準確率高達100%;李錦等[12]使用差分拉曼光譜結(jié)合 RBF 模型對藥品塑料包裝瓶進行分類, PCA 降維后的樣本分類正確率為95.74%;田陸川等[13]建立 PBFNN-LDA 模型對塑料拖鞋鞋底的拉曼光譜識別準確率為100%。這些技術(shù)成果表明深度學(xué)習(xí)算法在拉曼光譜分類識別中具有較高的分類準確率,且能夠應(yīng)用到塑料制品的分類檢測中。
但是目前拉曼光譜結(jié)合深度學(xué)習(xí)算法對塑料制品分類的研究仍存在一定不足,包括:對塑料制品的選取局限于某單一類別;對實際應(yīng)用中環(huán)境噪聲對分類準確率的干擾缺乏考慮;主要應(yīng)用方向為刑事偵查,忽視生產(chǎn)生活中塑料制品危害的研究。因此本文提出拉曼光譜結(jié)合深度學(xué)習(xí)算法對生活中常見的塑料包裝進行分類,依據(jù)光譜特征,通過設(shè)計神經(jīng)網(wǎng)絡(luò)卷積核大小、優(yōu)化激活函數(shù)和損失函數(shù)等參數(shù)基礎(chǔ)上,建立1-D CNN模型完成樣本訓(xùn)練,對比3種機器學(xué)習(xí)模型分類結(jié)果,從分類準確率、抗噪聲干擾能力方面討論模型的優(yōu)勢和特點。
1 實驗部分
實驗對帶標簽的4類塑料材料包裝采集拉曼光譜,建立原始光譜數(shù)據(jù)集,為使光譜數(shù)據(jù)達到機器學(xué)習(xí)模型訓(xùn)練樣本所需要求,對原始光譜進行預(yù)處理;由于人工采集樣本數(shù)據(jù)量不足以達到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練要求,為滿足卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練,將原始數(shù)據(jù)集進行擴充,最終得到兩組數(shù)據(jù)樣本,模型分類流程如圖1所示。
1.1 數(shù)據(jù)集建立
實驗采用北京云端光科技術(shù)有限公司生產(chǎn)的785手持式拉曼檢測儀 M1對40種塑料包裝進行檢測,設(shè)置光譜檢測儀參數(shù)分別為:激光波長(785±0.02)nm;激光功率500 mW;顯示波數(shù)200~1800 cm?1;分辨率8~11 cm?1。實驗在避光條件下進行。對每個樣本采集10條光譜,共采集400條光譜,根據(jù)特征峰[14]將樣本原材料分為4類,分別為聚乙烯(PE)、聚丙烯(PP)、聚對苯二甲酸乙二醇酯(PET)和聚苯乙烯(PS),具體塑料包裝及對應(yīng)原材料如表1所示。
采集到的塑料材料平均樣本光譜如圖2所示。
1.2 數(shù)據(jù)預(yù)處理
采集到的光譜由于熒光噪聲和環(huán)境輻射等干擾會對后續(xù)建模處理帶來不良影響,于是對光譜采用 Savitzky-Golay (SG)算法[15]進行平滑濾波,并且使用迭代自適應(yīng)重加權(quán)懲罰最小二乘法[16] 進行基線校正。經(jīng)過預(yù)處理后的樣本光譜如圖3 5所示。
1.3 光譜數(shù)據(jù)增強
卷積神經(jīng)網(wǎng)絡(luò)需要龐大的數(shù)據(jù)量作為訓(xùn)練樣本,以此獲取更加精確的數(shù)據(jù)類別特征,并識別近似材料之間的特征差異。在制作塑料制品原材料數(shù)據(jù)集過程中,僅靠人力很難得到大批量拉曼光譜樣本,因此本文使用數(shù)據(jù)增強方法來擴充樣本數(shù)量,數(shù)據(jù)增強是一種基于有限的標記樣本,通過一定規(guī)則擴大樣本數(shù)量來訓(xùn)練神經(jīng)網(wǎng)絡(luò),從而提高模型魯棒性的技術(shù)。實驗將數(shù)據(jù)增強分為三步:第一步,在有限的拉曼位移波動范圍內(nèi),左右隨機平移原始光譜,將塑料拉曼光譜數(shù)據(jù)由400條擴充至600條;第二步,向已擴充的拉曼光譜圖像中分別添加5 dB 、10 dB 和20 dB 的隨機高斯白噪聲,將光譜數(shù)據(jù)擴充至3000條;最后,使用總和為1的隨機比例系數(shù),將數(shù)條同類別拉曼光譜數(shù)據(jù)線性疊加,擴充光譜數(shù)據(jù)至6000條。經(jīng)數(shù)據(jù)增強,生成包含4類帶標簽的塑料拉曼光譜圖像數(shù)據(jù)集共6000條,作為后續(xù)網(wǎng)絡(luò)模型訓(xùn)練的輸入樣本。
2 一維卷積神經(jīng)網(wǎng)絡(luò)圖像分類
2.1 1-D CNN 模型搭建
參照經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型 LeNet-5,本文設(shè)計了具有2個卷積層、2個池化層、2個全連接層和一個 Softmax分類輸出層的一維卷積神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)如圖6所示。
光譜輸入卷積層后,激活函數(shù)采用 ReLU 函數(shù)變體 LeakyReLU,可在 x<0時避免梯度消失問題,其表達式為
在經(jīng)過大量仿真實驗后,最終確定兩層卷積核大小分別為10×1和5×1,卷積核個數(shù)分別為32,64。根據(jù)采集到的一維光譜數(shù)據(jù)特點,采用的一維結(jié)構(gòu)卷積核計算式為
式中: xi(n)-1為第 n-1層第 i 個輸入的特征圖;*表示一維卷積運算; kij(n)表示卷積運算使用的卷積核; bj(n)表示偏置; yj(n)表示第 n層第 j 個輸入的特征圖。
卷積層后通常加入池化層,其作用為降低特征圖大小,縮減運算量,提高運算速度,因此池化層不需要權(quán)值更新。本文采用最大池化法(Max-pooling)進行下采樣,其計算式為
式中: xj(n)為第 n層第 j 個卷積核; l 為卷積核的大小。
經(jīng)過多層卷積和池化運算后,提取出的樣本特征展開輸入到全連接層中,全連接層采用Tanh 激活函數(shù),并在其后加入 Dropout 隨機失活比例來避免過擬合。經(jīng)過仿真實驗確定全連接層神經(jīng)元個數(shù)為128,隨機失活比例為0.5,為提升模型的泛化性能,在每層后加入批標準化層(batch normalization, BN)。
2.2 1-D CNN 模型訓(xùn)練
卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練可以分為兩個過程:第一個過程是前向傳播,通過預(yù)測值和真實值計算損失函數(shù);若損失函數(shù)值過大,進入第二個過程反向傳播,對卷積神經(jīng)網(wǎng)絡(luò)模型的權(quán)值進行更新。直到損失函數(shù)值達到最小,輸出訓(xùn)練結(jié)果,本文設(shè)計的1-D CNN 反向傳播訓(xùn)練過程如圖7所示。
反向傳播訓(xùn)練中使用交叉熵損失函數(shù),計算公式為
式中: xn是訓(xùn)練光譜數(shù)據(jù); yn;k 是第 n個樣本預(yù)測第 k 個數(shù)據(jù)的標簽; pn;k 是第 n個樣本預(yù)測第 k 個數(shù)據(jù)值的概率; N 是總共的樣本數(shù); K為總標簽類數(shù)。
損失函數(shù)下降采用 Adam優(yōu)化算法,參數(shù)設(shè)置為
β1=0:9;β2=0:999;ε=10-8;η =0:001 (5)
為加快模型收斂速度,訓(xùn)練樣本被分成多個批次,批處理樣本數(shù)目(batch size)設(shè)置為50。
將拉曼光譜數(shù)據(jù)集隨機劃分為3部分:70%光譜數(shù)據(jù)作為訓(xùn)練集;10%光譜數(shù)據(jù)作為驗證集,用于在反向傳播訓(xùn)練過程中調(diào)整神經(jīng)元權(quán)重參數(shù);20%光譜數(shù)據(jù)作為測試集,用于測試已訓(xùn)練后的網(wǎng)絡(luò)模型性能。模型經(jīng)過20個 Epoch 訓(xùn)練之后的正確率和損失值曲線如圖8所示,可以看出網(wǎng)絡(luò)基本收斂。
3 分析與討論
3.1 模型分類準確率比較
為驗證模型的分類能力,將1-D CNN 模型分別與 K 近鄰、決策樹和支持向量機3種傳統(tǒng)的機器學(xué)習(xí)模型的分類結(jié)果做對比。由于傳統(tǒng)的機器學(xué)習(xí)方法通常需要進行平滑濾波和基線校正的預(yù)處理,故先對拉曼光譜數(shù)據(jù)集使用 Savitzky- Golay 濾波器進行濾波,使用 airPLS 算法進行基線校正,分別比較4種模型在原始數(shù)據(jù)和經(jīng)預(yù)處理數(shù)據(jù)上的平均分類準確率,實驗結(jié)果如表2所示。
由表2可知,3種機器學(xué)習(xí)算法模型在經(jīng)預(yù)處理后的分類準確率均得到不同程度的提升,其中提升最明顯的是 KNN 模型,由原來的79.83%提升到88.15%,說明平滑濾波和基線校正方法可提高傳統(tǒng)機器學(xué)習(xí)算法對拉曼光譜的分類準確率。
預(yù)處理前后分類準確率對比如圖9所示,在兩類光譜數(shù)據(jù)集上分類準確率最高的都是1-DCNN 網(wǎng)絡(luò)模型,而在原始光譜數(shù)據(jù)集上,1-DCNN 的分類準確率與其他算法對比差異明顯,且比預(yù)處理后得到的分類準確率略高,說明在使用1-D CNN 模型分類時無需進行預(yù)處理過程,相較于傳統(tǒng)機器學(xué)習(xí)方法,其分類流程快速高效。
3.2 模型抗噪聲干擾能力比較
在實際應(yīng)用過程中,周圍環(huán)境通常不可避免地對光譜采集過程造成影響,所以模型的抗干擾能力對分類結(jié)果的魯棒性至關(guān)重要。本文分別向光譜中加入強度為20,30,40,50和60dBW 的高斯白噪聲,驗證 KNN 、DT 、SVM 和1-D CNN的抗干擾能力,實驗結(jié)果的折線對比如圖10所示。
由圖10可以看出,在加入微弱噪聲時,4種模型的分類準確率均未受到較大影響,而在噪聲超過40 dB 時, KNN 模型準確率開始出現(xiàn)明顯下滑;噪聲超過50 dB 時,DT 模型準確率也出現(xiàn)大幅下降;在60 dB 噪聲下,兩種模型分類準確率已不足50%。而 SVM 和1-D CNN 兩種模型的抗干擾能力較強,其中1-D CNN 模型更為突出,在60 dB 噪聲下,仍有96.42%的分類準確率。說明在實際應(yīng)用中,卷積神經(jīng)網(wǎng)絡(luò)對塑料材料的拉曼光譜多分類結(jié)果更加可靠。
4 結(jié) 論
為實現(xiàn)塑料材料多分類,提出了一維卷積神經(jīng)網(wǎng)絡(luò)拉曼光譜分類模型,實現(xiàn)了4種塑料聚合物拉曼光譜的定性分類。提出適用于小樣本拉曼光譜數(shù)據(jù)的3種數(shù)據(jù)增強方法,建立符合卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)量的拉曼光譜數(shù)據(jù)集。搭建1-DCNN 拉曼光譜分類模型,確定最優(yōu)結(jié)構(gòu)參數(shù)和訓(xùn)練參數(shù),完成模型訓(xùn)練。與傳統(tǒng)機器學(xué)習(xí)分類方法相比,1-D CNN 無需光譜預(yù)處理,能夠更好地提取出光譜特征,從而減少計算量,縮短計算時間,能夠?qū)?種塑料聚合物實現(xiàn)準確高效的分類,分類準確率達到98.6%。
研究發(fā)現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)可在模型內(nèi)部對輸入的拉曼光譜信號進行預(yù)處理、特征提取和分類,整體流程無需人工干預(yù),能在準確鑒別物質(zhì)類別的同時簡化處理流程。通過模擬實際拉曼光譜采集過程,在拉曼光譜信號中添加不同強度的白噪聲,發(fā)現(xiàn)相較于機器學(xué)習(xí)算法,1-D CNN模型具有更強抗噪聲干擾能力,魯棒性更高??梢?,一維卷積神經(jīng)網(wǎng)絡(luò)是一種優(yōu)秀的拉曼光譜定性分析方法,能夠準確、快速、高效地檢測生產(chǎn)生活中的塑料制品,可適應(yīng)復(fù)雜信號和環(huán)境,有明顯的潛力和廣闊的應(yīng)用前景。
參考文獻:
[1] SUN Q J, XIN S G. Plastic food packaging materialsand food safety[J]. Journal of Shenyang NormalUniversity (Natural Science Edition), 2014, 32(2):151–155.
[2]劉萬文.食品紙包裝材料中熒光增白劑的檢測方法[J].食品界, 2018(6):162.
[3]柳沙.原子吸收光譜法測定 PET 塑料材料中銻的遷移量[J].云南化工, 2019, 46(7):60–61,64.
[4] XU X X, SHEN X J, YANG X B, et al. Rapid analysisof phthalate esters in plastic toys by Laser Ramantechnology[J]. Spectroscopy and Spectral Analysis,2020, 40(6):1929–1933.
[5]田靜, 王曉娟, 齊文良, 等.基于近紅外光譜分析技術(shù)的食品包裝塑料的定性分析[J].分析測試學(xué)報 ,2020, 39(11):1416–1420.
[6]馬梟, 姜紅, 楊佳琦. X 射線熒光光譜結(jié)合多元統(tǒng)計分析塑料打包帶(繩)[J].激光與光電子學(xué)進展, 2019,56(22):223005.
[7]朱茂電, 靳雅莉, 謝雨桐.液相色譜-質(zhì)譜法在食品包裝鄰苯二甲酸酯含量測定中的應(yīng)用[J].塑料工業(yè) ,2019, 47(8):106–109.
[8]杜煥玲, 呂姍, 曹焱鑫.氣相色譜–質(zhì)譜法測定塑料玩具及兒童用品中的多環(huán)芳烴[J].化工技術(shù)與開發(fā) ,2020, 49(12):37–39.
[9] DONG J L, HONG M J, ZHENG X Q, et al. Discrimination of Human, dog and rabbit blood using Raman spectroscopy[J]. Spectroscopy and Spectral Analysis, 2018, 38(2):459–466.
[10] LIU J, OSADCHY M, ASHTON L, et al. Deep convolutional neural networks for Raman spectrum recognition: a unified solution[J]. Analyst, 2017, 21(142):4067–4074.
[11]祁文博, 牟濤濤, 陳少華.基于卷積神經(jīng)網(wǎng)絡(luò)和便攜式拉曼光譜儀的彩色礦物顏料成分分析[J].傳感器世界, 2022, 28(3):16–22.
[12]李錦, 姜紅, 楊俊, 等.差分拉曼光譜結(jié)合人工神經(jīng)網(wǎng)絡(luò)對藥品塑料包裝瓶的分類研究[J].塑料工業(yè) ,2022, 50(8):101–107.
[13]田陸川, 楊俊, 姜紅.基于 RBFNN-FDA 模型對塑料拖鞋鞋底的拉曼光譜研究[J].上海塑料, 2022, 50(4):62–67.
[14]林福華.拉曼光譜技術(shù)在聚合物分析中的應(yīng)用[J].塑料工業(yè), 2018, 46(6):132–135.
[15] ?LUPEK M, MAT?JKA P, VOLKA K. Noisereduction in Raman spectra: Finite impulse responsefiltration versus Savitzky-Golay smoothing[J]. Journalof Raman Spectroscopy, 2007, 38(9):1174–1179.
[16] RICHARDS S, MILLER R, GEMPERLINE P.Advantages of soft versus hard constraints in self-modeling curve resolution problems. Penaltyalternating least squares (P-ALS) extension to multi-way problems[J]. Applied Spectroscopy, 2008, 62(2):197–206.
(編輯:張磊)