汪雨晴,趙慶賀
(1.沈陽儀表科學(xué)研究院有限公司,遼寧沈陽 110043;2.東北農(nóng)業(yè)大學(xué)電氣與信息學(xué)院,黑龍江哈爾濱 150030)
人工嗅覺傳感器(electronic nose system)是工業(yè)生產(chǎn)中常用的環(huán)境檢測系統(tǒng),相比于色譜方法,具有低成本和高實時性的優(yōu)勢。目前的人工嗅覺傳感器采用多傳感器集成實現(xiàn)多種待測氣體的隔離式檢測方式,各組的儀器響應(yīng)和預(yù)測值是作為獨立樣本進行擬合建模的,預(yù)測過程受到環(huán)境中其他氣體和傳感器漂移的雙重影響,對實時監(jiān)測過程的精度有很大的負面影響[1]
隨著機器學(xué)習(xí)和人工智能方法的快速發(fā)展,針對適用人工嗅覺傳感器系統(tǒng)的高準確度模型及系統(tǒng)研究逐漸成為熱點,H. Fan等應(yīng)用電化學(xué)傳感器陣列完成了開放環(huán)境的氣體聚類鑒別[3]。J. Burgués等開發(fā)了一種基于人工嗅覺的無人機用工業(yè)環(huán)境空氣質(zhì)量量化系統(tǒng)[4]。P. Asha等設(shè)計了基于物聯(lián)網(wǎng)和人工智能方法的多傳感器環(huán)境監(jiān)測人工嗅覺系統(tǒng)[5]。
非甲烷總烴(non-methane hydrocarbons,NMHC)是指空氣中除甲烷外的氣體烴類化合物,主要是工業(yè)環(huán)境含碳有機物的副產(chǎn)物,是大氣環(huán)境中的廢氣之一[6]。傳統(tǒng)的NMHC檢測需依照《固定污染源廢氣:總烴、甲烷和非甲烷總烴的測定:氣相色譜法》(HJ 38—2017)完成,作為基于色譜學(xué)的實驗室方法,無法完成實時性的檢測[8]。人工嗅覺方法作為一種高效且實時的方法在NMHC檢測中具有良好的應(yīng)用前景。
為提高人工嗅覺系統(tǒng)在實時監(jiān)測中的準確性,本文提出了一種基于融合多通道傳感器數(shù)據(jù)的記憶序列模型,利用7通道(5種氣體及溫濕度數(shù)據(jù))儀器響應(yīng)和長度為4的記憶多維度數(shù)據(jù),結(jié)合模擬退火優(yōu)化的rbf-svr模型作為擬合算法,對比傳統(tǒng)的線性模型可將R2從0.924 8提升至0.984 1,MAE指標從41.057 5提升至15.244 4。
人工嗅覺系統(tǒng)的核心包括數(shù)據(jù)采集模塊和計算單元模塊,如圖1所示。數(shù)據(jù)采集模塊由單一氣體傳感器或氣體傳感器陣列構(gòu)成,將表征環(huán)境氣體濃度信息的化學(xué)信號轉(zhuǎn)化為傳感器的電信號,最終作為儀器響應(yīng)值輸入計算單元。計算單元將儀器響應(yīng)值和預(yù)測值進行轉(zhuǎn)化,完成擬合計算后,最終將電信號強度轉(zhuǎn)換為具有實際物理意義的觀察值,完成儀表檢測任務(wù)[6,9]。
圖1 復(fù)雜氣體環(huán)境下人工嗅覺系統(tǒng)示意圖
該過程中,數(shù)據(jù)采集模塊的傳感器部分是將待測氣體信息轉(zhuǎn)化為儀器響應(yīng)的關(guān)鍵核心部分,但實際的應(yīng)用過程中,傳感器或傳感器陣列會受到環(huán)境溫濕度、環(huán)境中干擾氣體成分和自身運行漂移的影響,從而造成響應(yīng)值和真實值的非線性偏差[6,10]。
對于非監(jiān)測氣體的干擾,傳統(tǒng)的解決方法是盡可能在數(shù)據(jù)收集側(cè)減少異常氣體的干擾,但實際應(yīng)用的環(huán)境中,氣體的種類與含量都具有高度不確定性,采用抗干擾能力更強的傳感器陣列會加大應(yīng)用的成本。另一方面,從實際的氣體分布環(huán)境角度而言,環(huán)境中的氣體含量是存在相關(guān)性的,以本文關(guān)注的NMHC氣體為例,其自身是有機物化學(xué)反應(yīng)過程中產(chǎn)生的混合烴類氣體,當有機物產(chǎn)生時,環(huán)境中的CO、CH4等同樣會產(chǎn)生變化,各類氣體的含量最終會達到空氣中的動態(tài)平衡,因此這樣的復(fù)雜氣體環(huán)境是人工嗅覺系統(tǒng)的工作常態(tài)。
針對人工嗅覺系統(tǒng)中復(fù)雜氣體環(huán)境下非監(jiān)測氣體的干擾問題,本文結(jié)合多通道傳感器可同時獲取多路儀器響應(yīng)值的特點,將多路響應(yīng)值作為共同特征,完成多維度響應(yīng)數(shù)據(jù)集的構(gòu)建,進一步選擇具有適合多維度數(shù)據(jù)回歸擬合的方法建模,即帶有rbf核的支持向量回歸方法,并引入模擬退火方法,構(gòu)成sa-rbf-svr模型進一步完善多維度擬合預(yù)測NMHC氣體濃度的效果。
對于傳感器的漂移現(xiàn)象,本質(zhì)上是隨系統(tǒng)采集時間的增加,傳感器自身發(fā)生老化或環(huán)境氣體吸附造成傳感器中毒引出的誤差,可視為y=f(x,t)中引入了時間變量對模型造成的影響。這種影響可以采用引入時間特征,或加入基于時間特征的修正系數(shù)進行修正[9]。
針對人工嗅覺系統(tǒng)的傳感器漂移問題,本文將前時刻儀器響應(yīng)納入模型,作為記憶維度進行動態(tài)補償。相比于時間特征或修正系數(shù),這種結(jié)合了記憶響應(yīng)的數(shù)據(jù)能具有更有效的信息量。
圖2是本文數(shù)據(jù)輸入部分的結(jié)構(gòu),記憶序列部分的引入將抑制隨時間變化的傳感器漂移,多通道響應(yīng)的引入將抑制其他氣體在檢測過程中產(chǎn)生的干擾。這樣的數(shù)據(jù)結(jié)構(gòu)不僅包含了多維度數(shù)據(jù)的特點,也結(jié)合了時間序列數(shù)據(jù)的部分特點,但傳統(tǒng)的線性模型擬合效果一般,因此本文設(shè)計了基于機器學(xué)習(xí)方法的支持向量機模型(support vector machine,SVM),通過歷史數(shù)據(jù)完成模型建立,并針對高維度的記憶序列特點,引入了基于模擬退火方法的回歸模型優(yōu)化方法。
圖2 有記憶的多通道儀器響應(yīng)數(shù)據(jù)結(jié)構(gòu)
支持向量回歸(support vector regression,SVR)是Vladimir Vapnik提出的支持向量機監(jiān)督學(xué)習(xí)算法在回歸問題中的變種,是機器學(xué)習(xí)中被廣泛應(yīng)用的高性能高穩(wěn)健性算法[11]。高維空間中,SVR通過凸優(yōu)化過程,迭代完成構(gòu)建超平面,完成實現(xiàn)樣本的有損劃分,最終依靠過程中的支持向量(support vector,SV)完成回歸任務(wù)。此過程可以構(gòu)建為如下模型:
(1)
式中:ω和b是構(gòu)成超平面y=wX+b的點法參數(shù);φ(xi)是xi向希爾伯特空間的映射;C,ε和ζ是線性不可分過程中的軟間隔(soft margin)的懲罰項,C為懲罰強度,ε為對ζ和ζ*的邊界誤差允許程度。
該問題的拉格朗日對偶問題如下,兩者滿足Karush-Kuhn-Tucker條件,可等價求解(2):
(2)
(3)
式中:γ為rbf核函數(shù)的轉(zhuǎn)換強度。
該過程中涉及到3個關(guān)鍵的超參數(shù):決定了正則化懲罰強度的C和ε,以及rbf核中的γ。三者共同決定了SVR迭代過程中SV的求取,最終直接影響模型的精度和泛化能力,此模型即為rbf-svr模型。
本文在超參數(shù)配置過程中采用了模擬退火算法(simulated annealing,SA)完成求解。SA算法是一種帶有隨機過程的元啟發(fā)算法,是對金屬加工過程中退火過程的模仿[12-13]。rbf-svr模型配合SA算法的過程如圖3所示,其中H為C、ε和γ構(gòu)成的超參數(shù)分布集合:
圖3 模擬退火優(yōu)化算法流程圖
(1)初始化過程:配置初代指標參數(shù)s0=0,H=H0,H0為待搜索超參數(shù)的初始集。
(2)結(jié)合訓(xùn)練數(shù)據(jù)x后,得到次代指標s。
(3)當s>s0時,代表新狀態(tài)更優(yōu)秀,直接更新H0=H與s0=s;
(4)如果s (5)更新迭代世代數(shù)k,并進行判斷,如果k達到迭代上限,輸出此時的H0作為最優(yōu)解;否則,對H加入search space的擾動量。 重復(fù)(2)至(5)過程,直到達成輸出條件。 本文人工嗅覺儀器響應(yīng)數(shù)據(jù)由意大利國家新技術(shù)、能源和可持續(xù)經(jīng)濟發(fā)展局(ENEA,national agency for new technologies,energy and sustainable economic development)提供[14]。 該數(shù)據(jù)采集自Pirelli實驗室開發(fā)的多通道人工嗅覺傳感器系統(tǒng),其中傳感器陣列采用金屬氧化物化學(xué)電阻傳感器,可同時采集5種污染物儀器響應(yīng)值,簡要特性如表1所示。 表1 多通道人工嗅覺傳感器參數(shù) ENEA同時提供了相關(guān)固定觀測站的5種空氣污染物的測量真值和采樣地點的溫濕度信息。針對如上數(shù)據(jù)集,截取時間間隔1 h的約15 d樣本,計算成對的相關(guān)系數(shù)得到如圖4所示,從相關(guān)系數(shù)矩陣可知,本文焦距的NMHC與其他4種污染物的真值間存在較高的相關(guān)性,和C6H6及NOx之間的peason相關(guān)系數(shù)分別為0.944 3及0.819 7。 圖4 5類污染物的peason積累相關(guān)系數(shù)矩陣 本文取5通道傳感器的響應(yīng)數(shù)值和溫濕度信息作為樣本數(shù)據(jù)集,取NMHC真值作為擬合目標值,采樣間隔為1h,采樣范圍約15 d,得到182個樣本的7維度原始數(shù)據(jù)集。將每個樣本點的前4個時刻的NMHC響應(yīng)值加入樣本,得到合計11維的178個有記憶樣本點。 將數(shù)據(jù)集中前130個樣本點作為訓(xùn)練集,該集合用來擬合模型;中間間隔24個樣本點后,以末尾24個樣本點作為測試集,用來評價模型的泛化能力。 對于模型的整體擬合效果,采用決定系數(shù)(coefficient of determination,R2)和平均絕對誤差(mean absolute error,MAE)評價。 決定系數(shù)R2的計算方式如下, (5) 決定系數(shù)R2是擬合優(yōu)度的指標,合法區(qū)間為[-1,1],越接近于1的指標,代表模型擬合效果越出色。 平均絕對誤差的計算方式如下: (6) MAE代表樣本集成對的真值與觀察值誤差的整體分布,具有和真值相同的物理量綱,越接近于0的指標,代表擬合誤差越小。 對于擬合中的可能出現(xiàn)的異常結(jié)果,采用MedAE和最大誤差(Max error)計算。 (7) (8) MedAE和MaxError分別度量了殘差集中的中位數(shù)和最大值,參照兩者可以對模型擬合過程中存在異常結(jié)果的穩(wěn)健性進行平均,兩者的值越小,代表模型穩(wěn)健性越強。 模型采用python3.9編程環(huán)境,svm家族模型采用libvim實現(xiàn),偏最小二乘和彈性網(wǎng)線性模型采用scikit-learn實現(xiàn),計算環(huán)境見表2。 表2 算法實現(xiàn)計算環(huán)境 為保證實驗過程中的現(xiàn)象可復(fù)現(xiàn),實驗配置全部隨機數(shù)種子為615。數(shù)據(jù)轉(zhuǎn)換、預(yù)處理及樣本異常值處理采用numpy和pandas完成。對于SA算法,采用hyperactive完成配置。 實驗數(shù)據(jù)及模型源代碼已完成開源,可在MIT許可協(xié)議下獲取及測試[15]。 對照實驗中采用2種線性模型和2種svr模型參數(shù)。線性偏最小二乘回歸模型(oplsr)和經(jīng)3-flods交叉檢驗確定系數(shù)的彈性網(wǎng)回歸模型(en3)[16]作為線性模型的對照組,linear-svr為線性核svr模型,該模型和rbf-svr模型配置為同樣的共有超參數(shù)。 配置起始溫度數(shù)值為1.00,退火過程中接受妥協(xié)的概率為0.90,單次退火過程的鄰域候選點數(shù)為5,隨機過程產(chǎn)生的隨機數(shù)滿足高斯分布。 搜索空間中,配置C為[1,10 000]的離散整型數(shù),間隔為1;配置svr懲罰項ε和rbf核轉(zhuǎn)換強度γ的空間為初始數(shù)值上下各1個數(shù)量級的10 000個樣本點。對于ε的初值,按照文獻[17]配置為nsamples×var(X)的倒數(shù)。完成模擬退火參數(shù)和搜索空間配置后,進行104次迭代退火。 對于退火算法的評價指標,采用5-flods的交叉檢驗完成,并進一步在每flod中采用訓(xùn)練集的5-flods求解平均R2作為評價指標,以構(gòu)建雙cross validation過程確保泛化性能最大化。迭代過程中的rbf-svr函數(shù)限制迭代上限次數(shù)為103次,確保最終得到的優(yōu)化模型具有抗過擬合的性能。 sa-rbf-svr在最終數(shù)據(jù)集(better-svr_d3)的優(yōu)化迭代過程如圖5所示,x-y-z軸分別為C-γ-ε的取值,空間點顏色深度為5-flods得到的訓(xùn)練集R2平均值。在搜索空間立方中,只有C-ε平面的高精度的點分布均勻,證明SA過程中對kernel自身的轉(zhuǎn)換強度更偏重,可知模型的訓(xùn)練精度對rbf函數(shù)中γ系數(shù)的更為依賴。 圖5 基于模擬退火的rbf-svr優(yōu)化的三維可視過程 將實驗結(jié)果按決定系數(shù)R2排序,如表3所示,d1和d2分別代表傳感器單通道和多通道的響應(yīng)數(shù)據(jù),d3是融合了NMHC前4個時序的響應(yīng)的有記憶數(shù)據(jù)集。better-svr表示sa-rbf-svr模型。svr類模型相比線性模型具有更優(yōu)秀的性能?;赗2指標,sa-rbf-svr模型在結(jié)合了記憶的多通道數(shù)據(jù)d3中,具有0.984 1的R2指標,在所有測試集結(jié)果中表現(xiàn)最好,偏最小二乘回歸oplsr和3折彈性網(wǎng)回歸en3模型,在分別與d3和d2結(jié)合后,可得到0.978 8和0.978 1的決定系數(shù),分別代表了兩類線性模型的最優(yōu)結(jié)果。在測試集中,sa-rbf-svr模型具有最好的擬合效果。 圖6是針對擬合實際情況的MAPE繪制的條形對比圖,該項指標代表了完成了歸一化指標的MAE的距離,linear-svr的3種MAPE指標均環(huán)比最劣,對應(yīng)的在表3中,其相關(guān)系數(shù)在d1模式下為負值,d2和d3模式下也較為低下。在各類數(shù)據(jù)模型中的linear-svr均表現(xiàn)不佳,這和rbf-svr和sa-rbf-svr形成了鮮明對比。 表3 對比建模效果評價 圖6 線性模型與svr模型的MAPE對比 以oplsr模型作為線性模型代表和sa-rbf-svr對比,將測試集中MAE、MaxError和MedAE三項指標繪制雷達圖(見圖7),由圖7可知,兩類svr模型,實際上具有更大的最大誤差,但盡可能將中位數(shù)誤差控制在一定范圍內(nèi)。偏最小二乘回歸模型oplsr和3折彈性網(wǎng)回歸的R2指標和最優(yōu)的sa-rbf-svr相近,但根據(jù)MAPE的對比,這兩類線性模型的表現(xiàn)均無法和sa-rbf-svr對比。 圖7 線性模型與sa-rbf-svr穩(wěn)定性三維指標雷達圖 圖8將測試集的預(yù)測結(jié)果和真值進行比較,可見oplsr_d2模型的高R2指標,是對若干極端點的擬合貢獻的,實際擬合過程中的貼合度并非R2反應(yīng)的確切。對于測試集中的局部極值樣本擬合效果,如1 d和11 d兩處的尖峰,以及14 d處的下轉(zhuǎn)折點,點折線條表示的oplsr_d3貼合緊密,但其他樣本的擬合程度則不如svr模型準確。因此,實際應(yīng)用效果中,oplsr的實用性不如sa-rbf-svm。 圖8 真實值與回歸結(jié)果對比 人工嗅覺傳感器系統(tǒng)應(yīng)用中,通過對比單通道擬合單項數(shù)據(jù)的數(shù)據(jù)集d1與多通道共同作用的數(shù)據(jù)集d2,可知應(yīng)用多維儀器響應(yīng)作為數(shù)據(jù)集,可以更加準確的擬合單項氣體數(shù)據(jù)的濃度。通過對比有記憶的數(shù)據(jù)集d3與無記憶的數(shù)據(jù)集d2各項模型的指標后,可知將儀器響應(yīng)歷史記憶數(shù)據(jù)的引入,可進一步提高人工嗅覺系統(tǒng)的識別精度。 在人工嗅覺系統(tǒng)多維響應(yīng)建模的過程,svr算法比傳統(tǒng)的線性算法具有更好的擬合強度,但此過程需要正確配置kernel函數(shù),并將對應(yīng)超參數(shù)合理選擇。對于核函數(shù),rbf核函數(shù)相比于linear核具有更好的擬合效果,對于超參數(shù)選擇,sa方法引入后的sa-rbf-svr可以進一步將支持向量回歸的性能提升。 綜上所述,sa-rbf-svr模型結(jié)合有記憶多儀器響應(yīng)的數(shù)據(jù)的氣體模型識別具有更好的預(yù)測性能,結(jié)合帶有記憶的多維度數(shù)據(jù),可將R2從0.924 8提升至0.984 1,MAE指標從41.057 5提升至15.244 4??捎行Ц纳迫斯ば嵊X系統(tǒng)中的識別過程。3 實驗設(shè)計與驗證
3.1 數(shù)據(jù)集與數(shù)據(jù)相關(guān)性分析
3.2 模型評價指標
3.3 算法實現(xiàn)環(huán)境
4 實驗結(jié)果與分析
4.1 線性模型建模與模擬退火優(yōu)化過程分析
4.2 結(jié)果分析
5 結(jié)論