摘 "要: 機動車排放的污染氣體會對環(huán)境造成嚴重危害,其中尾氣排放超標的車輛是主要污染來源,因此實現對道路高排放源的有效識別具有重要意義。針對尾氣遙測數據,提出一種基于特征采樣引導和集成隨機傅里葉特征極限學習機(RFELM)的道路高排放源識別模型。首先對遙測數據進行多次隨機采樣,構建多組訓練子集;然后對每組訓練子集進行多次特征采樣,并訓練對應的子分類器,根據組內最優(yōu)子分類器的輸入特征更新特征采樣的概率與特征權重;最后對所有子分類器的驗證分數進行排序,篩選出一定比例的RFELM組成分類器集合,采用加權投票法預測數據的標簽。實驗結果表明,相比于RFELM和隨機森林等算法,所提模型在真實的道路遙測數據上具有更好的識別效果,還有著更強的抗噪能力。
關鍵詞: 道路高排放源識別; 遙測數據; 特征采樣; 集成學習; 隨機傅里葉特征極限學習機; 子分類器
中圖分類號: TN957.52+3?34; X734.2 " " " " " " " " 文獻標識碼: A " " " " " " " "文章編號: 1004?373X(2024)06?0124?07
On?road high?emitter identification model based on guided feature sampling and ensemble RFELM
ZHOU Hansheng1, 2, DUAN Peijie2, 3, LI Zerui1, 2, ZHOU Jinhua1
(1. School of Biomedical Engineering, Anhui Medical University, Hefei 230023, China;
2. Institute of Artificial Intelligence, Hefei Comprehensive National Science Center, Hefei 230088, China;
3. AHU?IAI AI Joint Laboratory, Anhui University, Hefei 230601, China)
Abstract: The pollution gas emitted by vehicles causes serious harm to the environment, among which the vehicles with excessive exhaust emissions are the major sources of pollutions. Therefore, it is of great significance to realize the effective identification of high?emitters on the road. A high?emitter identification model based on guided feature sampling and ensemble random Fourier feature extreme learning machines (RFELM) is proposed to classify the on?road remote sensing data. The remote sensing data is randomly sampled several times to construct multiple training subsets. Then, each training subset is sampled several times to train corresponding subclassifiers. The sampling probability and weight of feature are updated according to the input features of the optimal subclassifiers in the group. The validation scores of all subclassifiers are sorted, a certain proportion of RFELM is selected to form the classifier set, and the weighted voting method is used to predict the labels of the test data. The experimental results show that in comparison with RFELM, random forest and so on, the proposed model has better recognition performance and stronger noise resistance on real road remote sensing data.
Keywords: on?road high?emitter recognition; remote sensing data; feature sampling; ensemble learning; random Fourier feature extreme learning machine; subclassifier
0 "引 "言
據統(tǒng)計,機動車在行駛過程中排放的有害氣體已成為大氣污染的主要來源[1]。為改善空氣質量,需要加強對尾氣排放超標機動車的快速檢測和監(jiān)管控制。目前,越來越多的地區(qū)利用尾氣遙測技術實現對道路高排放源的識別。根據對機動車排放遙測數據處理方法的不同,可以將道路高排放源識別方法分為設定限值方法和基于機器學習的方法。設定限值方法對限值的設置需要依賴一定的人工經驗,而機器學習方法通過挖掘機動車尾氣監(jiān)測數據之間的內在聯系和規(guī)律進行決策,具有更高的科學性[2]。
基于機器學習算法的高排放源識別方法可以實現對道路高排放源的自動識別與分類,極大地減少人力和物力成本,具有較高的研究價值和應用前景。目前,已有研究人員根據尾氣遙測數據進行有針對性的研究。曾君等人根據車輛怠速檢測結果和道路遙測數據構建高排放車輛識別模型,通過引入主成分分析、K最近鄰思想、遺傳算法和機動車比功率,實現了對高排放車輛的有效識別[3]。Guo等人將機動車尾氣遙測數據和怠速檢測結果輸入到反向傳播神經網絡中[4],可以正確識別移動污染源的比例達到81.63%。Wang等人引入了一個表征記憶模塊,通過迭代學習保留關鍵數據特征,并且重構移動源的時間序列特征,提高了對高排放源和正常排放源的識別準確率[5]。Li等人研究了一種基于加權極限學習機的道路高排放源識別模型,通過主動學習的方式選擇有價值的樣本進行標記。實驗結果證明,該方法能夠提高對道路高排放源的識別性能[6]。Kang等人使用可信度高的高排放遙測數據構建了基于單分類支持向量機和半監(jiān)督的單分類支持向量機的移動污染源識別模型[7]。實驗結果顯示,該方法提升了對道路高排放源和正常排放源識別的準確性。
在道路高排放源識別任務中,所獲取到的數據除排放污染物濃度外,通常還包括機動車信息與當前環(huán)境信息。但是這類信息龐雜,一些特征會對模型性能起到相反的作用,降低模型的識別精度[8],而重要特征與相關特征的組合可能達到最好的效果,但是在缺乏先驗的前提下,無法判斷特征與特征組合的重要性。為此,本文提出一種基于特征采樣引導和集成RFELM的道路高排放源識別模型(RF?RFELMBagging)。首先,構建多組訓練子集與驗證子集,在每組訓練集上進行特征的多次隨機采樣,并訓練對應的RFELM子分類器;然后,根據上一組數據集特征采樣的概率和最優(yōu)子分類器所使用的特征計算得到下一組特征采樣的概率,實現特征采樣引導;最后,在測試集上選取部分性能優(yōu)異的子分類器,通過加權投票的方式決定最終預測結果。根據實驗結果,RF?RFELMBagging在道路高排放源識別任務中取得了較高的分類精度并具有較好的穩(wěn)定性,并對特征與特征組合的重要性進行了分析。
1 "算法介紹
極限學習機(Extreme Learning Machine, ELM)是一種單隱含層前饋神經網絡[9],只需設置隱含層節(jié)點個數,隨機生成隱含層輸入權值與偏置,不用進行迭代即可得到最優(yōu)解,具有泛化能力強和識別精度高的優(yōu)點。KELM是基于ELM 并引入核函數所提出的改進算法,核函數能夠將特征映射到較高維空間,提高數據的可分性,已經廣泛應用于多個領域[10?11]。隨機傅里葉特征(Random Fourier Feature, RFF)[12]將數據特征映射至一個相對低維的特征空間,近似實現核映射的效果。受此啟發(fā),本文通過RFF映射生成ELM的隱含層節(jié)點,構建以RFELM為子分類器的集成學習算法。
1.1 "RFELM
具體來說,對于數據[x∈RN×m],N表示樣本數, m表示輸入數據的維度。對應標簽的one?hot編碼[y∈RN×c],c表示類別數。RFELM的隱含層節(jié)點通過RFF映射生成,RFF公式如下所示:
[fxi=2D[cosxiw1+b1,…,cosxiwj+bj,…,cosxiwD+bD], "i=1,2,…,N] "(1)
式中:[fxi∈R1×D];[xi]是輸入數據[x]中第[i]條數據,輸入數據[x]=[xT1,xT2,…,xTNT];D為經過RFF映射后的維度。
為滿足RFF映射結果接近高斯核函數,[wj]和[bj]符合以下要求:[wj∈Rm×1]服從高斯分布[N0,σ2],[bj]服從均勻分布[U0,2π],其中[j=1,2,…,D];[σ2]是預定義的方差。輸入數據通過RFF映射生成ELM的隱含層節(jié)點,公式如下:
[A=fx1T,fx2T,…,fxNTT] " " (2)
目標函數如下:
[min 12Aβ-y2+C2β2] "(3)
式中C為正則項系數,輸出層權重[β]公式為:
[β=IC+ATA-1ATy, "Ngt;D;I∈RD×DATIC+AAT-1y, "N≤D;I∈RN×N ] " " "(4)
1.2 "RF?RFELMBagging
1.2.1 "樣本采樣
首先在數據集上劃分出30%的測試集,隨后在剩余樣本中按照設定比例進行K次隨機采樣,得到K組不同的訓練集與驗證集。
1.2.2 "特征采樣引導
在每一組訓練集上進行特征采樣時,為了能夠偏向選擇重要特征,本文會根據上一組訓練集下子分類器的驗證結果,對下一組的特征采樣進行優(yōu)化,這一過程稱為特征采樣引導。
令[counti=counti1,…,countij,…,countim],當i=1時,設[count1=1,1,…,1];當igt;1時,會根據第i-1組訓練集下對應的最優(yōu)子分類器的輸入特征,將對應[countij=counti-1j+1]。[pij]表示第i次特征采樣時,第j個特征的采樣概率,公式如下:
[pij=countijj=1mcountij] " " " " " (5)
同時,為了讓重要特征的作用放大,對特征進行加權。由于采樣概率[pij]一定程度上能反映特征的重要性,因此對采樣概率進行縮放,得到特征權重。具體公式為:
[wij=exppij-meanpistdpi] " " " " (6)
式中:[pi=pi1,…,pij,…,pim];[wij]表示第[i]組訓練集中第[j]個特征的權重,會放大一部分當前認為重要的特征,并縮小其他特征。
1.2.3 "訓練與預測
在每組訓練集上經過L次特征隨機采樣后,分別訓練得到L個子分類器,采用每個子分類器預測驗證集得到驗證分數。最后在L×K個子分類器中根據驗證分數進行排序,以選取一部分性能較好的子分類器,并利用它們的驗證分數作為權重,通過加權投票的方式決定最終的預測結果。
算法流程如圖1所示。
2 "實驗與分析
2.1 "數據處理與評價指標
2.1.1 "數據處理
本文采用道路遙測數據作為實驗數據,數據特征包括機動車類型、燃油規(guī)格、標識類型、基準質量、最大總質量、車檢年限、遙測年限、識別置信度、行駛速度、加速度、車長、CO、HC、NO、CO2的實測濃度、不透光煙度、風速、風向、溫度、濕度、氣壓、不透光系數、最大不透光煙度和平均不透光煙度等,具體信息如表1所示。數據中高排放移動源數量為138,其余為正常排放移動源,數量為3 964。
由于原始數據存在缺失的情況,為了得到更多的訓練數據,本文對數據進行缺失值補全。使用KNN算法對缺失值進行補全,具體過程為:計算缺失值所在樣本k個最近鄰居,根據所有鄰居對應特征的均值來進行填充;再對所有數據進行標準化,使其均值為0,方差為1。
2.1.2 "評價指標
實驗數據不同類別間樣本數量差異較大,存在類別分布不均衡的情況,在這種情況下,使用準確率來評估算法的性能不夠全面。為了更客觀地評估模型的性能,在本文中使用F1分數作為評價指標。F1分數是一個綜合考慮模型的精確率和召回率的指標,其中精確率(Precision, P)定義為模型預測為高排放的樣本中真實高排放樣本的比例,召回率(Recall, R)定義為在真實高排放樣本中被模型正確檢測出來的比例。F1分數公式如下:
[F1=2PRP+R] " " " " " " "(7)
通過使用F1分數來評估模型性能,可以更好地衡量模型在本實驗數據集上的表現。F1分數越大,證明模型性能更好。
2.2 "實驗結果
2.2.1 "對比實驗
為驗證RF?RFELMBagging算法的有效性,選取RFELM、SVM[13]、DT(Decision Tree)[14]、RF(Random Forest)[15]、AdaBoost[16]和DF[2]作為對比方法。RF?RFELMBagging算法中,設置K=50,L=20,篩選一半子分類器參與最終決策。RF和AdaBoost均使用1 000個子分類器,實驗結果如表2所示。
從表2中可以看出,RF?RFELMBagging具有最高的F1分數,達到了71.7%,并且還有較低的標準差,這表明本文算法識別性能較好并且具有穩(wěn)定性。DT、DF和AdaBoost方法表現良好,F1分數分別達到了68.5%、59.2%和67.5%,說明這三種方法對高排放源有一定的識別能力,但仍低于本文算法的F1分數。RFELM方法的F1分數僅為39%,觀察R和P指標發(fā)現,盡管其R指標最高,但P指標是所有方法中最低的,可能是模型容易將正常排放源錯誤預測為高排放源。RF方法的表現較差,其R和P與RFELM相反,在所有方法中R指標最低,P指標最高,F1分數為51.2%,可能是模型容易將高排放源錯誤預測為正常排放源。SVM實驗結果分類器并未傾向某一類別,但整體F1分數并不高。綜上所述,RF?RFELMBagging方法在道路高排放源識別中取得了最好的識別結果。
2.2.2 "篩選比例δ對實驗結果的影響
為了探究參與預測的子分類器數量對算法的影響,分別選取了篩選比例δ為[0.1,0.2,…,1]的RFELM進行預測,實驗結果如圖2所示。
從圖2中可以看出,RF?RFELMBagging的F1分數隨著篩選比例δ的增加呈現先上升后下降的趨勢。上升的原因可能是參與預測的子分類器數量的增加,提高了模型的泛化能力。
為了解釋下降的原因,統(tǒng)計了所有的RFELM子分類器驗證分數,其分布情況如圖3所示。從圖3的分布結果可以看出,有相當一部分子分類器驗證分數過低,當這部分子分類器參與預測時會導致模型性能下降。
2.2.3 "抗噪實驗
由于尾氣遙測數據采集于機動車實際行駛環(huán)境,不可避免會存在噪聲,因此模型的抗噪能力對移動污染源的識別具有重要意義。為了檢驗模型的抗噪聲能力,向數據中引入不同程度的噪聲數據來驗證模型的穩(wěn)定性。具體為在已經標準化的數據中引入均值為0,方差分別為[0.1,0.2,…,0.5]的隨機高斯分布噪聲進行實驗,結果如表3所示。在噪聲逐漸增強的過程中,與其他算法相比,RF?RFELMBagging算法模型性能下降較緩,在不同方差的情況下都具有最好的性能。這表明RF?RFELMBagging在噪聲環(huán)境下,相比于其他對比算法有著更強的抗噪性。
2.2.4 "消融實驗
與單純的Bagging算法相比,RF?RFELMBagging對使用的特征進行了隨機采樣,并對特征采樣概率進行了引導。為了證明隨機采樣以及特征采樣引導的作用,本文根據是否使用特征采樣引導和特征隨機采樣,分別進行兩組實驗,實驗結果如圖4所示。其中圖a)表示RF?RFELMBagging算法的特征采樣數量Min和Max在2~24之間時的實驗結果,在Min=10和Max=14時,F1分數最高達到80%。圖b)展示了RF?RFELMBagging未使用特征采樣引導策略的實驗結果,此時特征的采樣概率始終相同,當Min=8和Max=12時,未使用特征采樣引導方法的F1分數最高為69%。
圖4b)中,當Min和Max均為最大值時,此時算法退化為子分類器為RFELM的投票集成學習算法,F1分數僅為59%,遠低于最高F1分數69%。這可能是因為全部特征中包含了部分對高排放源識別任務無關的特征,影響了重要特征的篩選與放大,而特征隨機采樣對提升道路高排放源識別精度是有效的。觀察圖a)與圖b)可以看出,使用了特征采樣引導的圖a)總體要優(yōu)于未使用的圖b),且最高F1分數高出11%,這可能是因為特征采樣引導使得特征采樣更側重于當前認為重要的特征,該特征作為訓練數據的組成部分,將有效提高RFELM的識別精度。在圖a)中,當Min和Max均為最大值時,F1分數僅為59%,遠低于使用了特征隨機采樣和特征采樣引導的80%,說明使用特征隨機采樣和特征采樣引導對提升道路高排放識別是有效的。
2.2.5 "特征分析
在RF?RFELMBagging算法中,記錄了最后一組子分類器更新后的特征權重,在一定程度上可以體現這些特征在該次任務的重要性。RF和DT算法可以通過計算每個特征的基尼指數并歸一化來衡量尾氣遙測數據中各個特征的重要程度。本文將RF?RFELMBagging的特征權重進行歸一化,表示各個特征的重要性,并與RF和DT計算的特征重要性進行對照分析,如圖5所示。
由圖5可知,在DT算法中特征之間的重要性差異比較明顯,Opacity的重要性遠高于其他特征,其次表現突出的是RC_CO2、ACC、RC_CO,而一些特征被認為完全不重要,如OpacityPara、OpacityMax、OpacityAvg等。在RF算法中,RC_CO2、RC_CO、Opacity同樣有著比較突出的重要性,但OpacityPara和OpacityMax的特征重要性也很高,與DT的結果相悖。在RF?RFELMBagging中,ACC、RC_CO2、RC_CO的重要性與DT接近,與DT和RF不同的是,Opacity的特征重要性并不算突出。由此可見,RF?RFELMBagging與RF和DT類似,也可以評估單個特征的重要性。
本文通過Apriori算法[17]發(fā)掘RF?RFELMBagging被選擇分類器中出現的特征組合模式,特征組合的支持度表示特征組合出現的頻率,如表4所示。
在兩個特征的組合中,支持度排名前4的特征組合皆有RC_CO。其中(RC_CO2、RC_CO)的組合支持度為44.7%,為所有組合中的最高。這些結果表明RC_CO對于道路高排放源識別相當重要,且與RC_CO2搭配最佳。3個特征的組合出現頻率最高的4個組合分別為(RC_CO2、RC_CO)與ACC、Speed和Length的組合,以及RC_CO、ACC和Speed的組合。4個特征的組合出現頻率最高的4個分別為(RC_CO2、RC_CO、ACC)與Speed、OpacityPara和RC_NO的組合,以及(RC_CO、RC_CO2、Speed)和OpacityPara的組合。結合未展示的關聯規(guī)則,發(fā)現被選擇的分類器多數以(RC_CO2、RC_CO)與其他特征的組合模式。RF?RFELMBagging呈現以固定特征組合為核心,再與其他多種特征結合構建分類器的形式,這種形式的集成或許是其表現優(yōu)良性能的原因。
3 "結 "論
機動車尾氣遙測數據包含污染物濃度、車輛屬性和氣象環(huán)境等信息,然而無關的數據特征會影響道路高排放源的識別精度。為此,本文提出一種基于特征采樣引導和集成RFELM的識別模型,可以在無先驗知識的前提下,探究重要特征及其組合對實驗結果的影響。實驗結果表明,本文算法在提高道路高排放源的識別精度的同時,具有良好的抗噪能力。
注:本文通訊作者為李澤瑞。
參考文獻
[1] LI W, LU C, DING Y. A systematic simulating assessment within reach greenhouse gas target by reducing PM2.5 concen?trations in China [J]. Polish journal of environmental studies, 2017, 26(2): 683?698.
[2] 許鎮(zhèn)義,王仁軍,張聰,等.基于深度特征聚類的高排放移動污染源自動識別[J].交通運輸系統(tǒng)工程與信息,2021,21(6):298?309.
[3] 曾君,郭華芳,胡躍明.基于遙感監(jiān)測的PKGV?ANN高排污車輛鑒別模型研究[C]//第二十七屆中國控制會議論文集.北京:北京航空航天大學出版社,2008:1065?1069.
[4] GUO H F, ZENG J, HU Y M. Neural network modeling of vehicle gross emitter prediction based on remote sensing data [C]// 2006 IEEE International Conference on Networking, Sensing and Control. Ft. Lauderdale, FL: IEEE, 2006: 943?946.
[5] WANG R J, XIA X S, XU Z Y. Identification of high emission mobile sources based on self?supervised representation network [C]// Asian Simulation Conference. Singapore: Springer, 2022: 419?430.
[6] LI Z R, KANG Y, Lü W J, et al. High?emitter identification model establishment using weighted extreme learning machine and active sampling [J]. Neurocomputing, 2021, 441: 79?91.
[7] KANG Y, LI Z R, Lü W J, et al. High?emitting vehicle identification by on?road emission remote sensing with scarce positive labels [J]. Atmospheric environment, 2021, 244: 117877.
[8] 李麗敏,溫宗周,宋玉琴.優(yōu)化K均值聚類在冗余特征剔除中的應用研究[J].計算機與數字工程,2019,47(11):2836?2840.
[9] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: theory and applications [J]. Neurocomputing, 2006, 70(1/3): 489?501.
[10] LI G H, TANG Y Z, YANG H. A new hybrid prediction model of air quality index based on secondary decomposition and improved kernel extreme learning machine [J]. Chemosphere, 2022, 305: 135348.
[11] 王青寧,施均道,何旺容,等.基于BEMD和KELM的路面病害檢測算法[J].現代電子技術,2023,46(9):110?114.
[12] RAHIMI A, RECHT B. Random features for large?scale ker?nel machines [C]// Proceedings of the 20th International Conference on Neural Information Processing Systems. Vancouver: ACM, 2007: 1177?1184.
[13] PLATT J. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods [J]. Advances in large margin classifiers, 1999, 10(3): 61?74.
[14] LOH W Y. Classification and regression trees [J]. Wiley inter?disciplinary reviews: data mining and knowledge discovery, 2011, 1(1): 14?23.
[15] BREIMAN L. Random forests [J]. Machine learning, 2001, 45: 5?32.
[16] HASTIE T, ROSSET S, ZHU J, et al. Multi?class adaboost [J]. Statistics and its interface, 2009, 2(3): 349?360.
[17] BORGELT C, KRUSE R. Induction of association rules: Aprio?ri implementation [C]// Compstat: Proceedings in Computational Statistics. Berlin: Physica?Verlag HD, 2002: 395?400.