• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機器學習的典型制藥企業(yè)工藝過程VOCs排放特征因子識別

      2022-03-04 03:08:38景德基程娜娜蔡興農(nóng)石展宏楊春亞李素靜王俏麗
      能源環(huán)境保護 2022年1期
      關鍵詞:特征選擇污染源分類器

      景德基,程娜娜,蔡興農(nóng),石展宏,楊春亞,李素靜,王俏麗,李 偉,*

      (1.浙江大學 化學工程與生物工程學院,浙江 杭州 310007;2.浙江工業(yè)大學 環(huán)境學院,浙江 杭州 310014)

      0 引 言

      深入打好污染防治攻堅戰(zhàn),不斷改善空氣質量,是建設美麗中國的必要前提。地級及以上城市空氣質量優(yōu)良天數(shù)比率到2025年達到87.5%,已成為我國“十四五”時期經(jīng)濟社會發(fā)展的一項約束性指標[1]。當前,我國大氣細顆粒物(PM2.5)污染形式依然嚴峻[2-3]且臭氧(O3)污染日益凸顯[4],成為影響空氣質量的主要因素。京津冀及周邊地區(qū)、長三角地區(qū)、汾渭平原區(qū)域現(xiàn)階段源解析研究表明,揮發(fā)性有機物(VOCs)是PM2.5和O3大氣復合污染的重要來源[5]。此外,環(huán)境空氣中部分VOCs具有特殊氣味并且表現(xiàn)出刺激性、腐蝕性、器官毒性、致癌性,對人體健康造成較大的影響[6-7]。部分VOCs可以被傳輸?shù)狡搅鲗?,對臭氧層造成破壞,少?shù)VOCs屬于溫室氣體[8]。因此,減少VOCs的排放對于提高空氣質量有著重要意義。

      實施VOCs減排,要抓好污染嚴重的重點行業(yè),準確識別重點企業(yè)和工藝過程,全面推進工業(yè)園區(qū)、企業(yè)集群等VOCs的精準治理和綜合治理[9]。隨著醫(yī)藥行業(yè)的迅速發(fā)展,中國已經(jīng)成為一個醫(yī)藥大國,醫(yī)藥行業(yè)的VOCs排放成為一個不可忽視的環(huán)境問題[10]。隨著化工企業(yè)“退城入園”工作的推進,化工園區(qū)的企業(yè)密度日益變大,作為精細化工產(chǎn)業(yè)的代表,制藥行業(yè)在化工園區(qū)占據(jù)重要的地位?;瘜W合成類制藥行業(yè),生產(chǎn)原料使用大量有機溶劑,合成工藝復雜,各類副反應繁多,存在大量間歇性、無組織的VOCs排放,使得排放規(guī)律不明晰、排放特征不明確,同時還存在監(jiān)測難度大,污染來源追溯難等問題[11-14]。

      針對污染排放源監(jiān)測構建的污染源成分譜是描述源排放特征的重要數(shù)據(jù)集之一[15-17]。然而,VOC污染源成分譜由于數(shù)據(jù)量大、因子多、信息不完備、數(shù)據(jù)規(guī)則不明顯,在其應用過程中難以充分挖掘排放特征。而特征污染物可以簡化源成分譜描述,減少數(shù)據(jù)干擾,以少量的組分表征污染源的排放特征,實現(xiàn)污染源類的定性判定[18-20]。隨著科學研究的基本手段從傳統(tǒng)的“理論+實驗”走向現(xiàn)在的“理論+實驗+計算”,乃至出現(xiàn)“數(shù)據(jù)科學”這樣的提法,機器學習的重要性日趨顯著。在環(huán)境領域,已有部分研究者采用機器學習的手段提取各種類型的特征因子。張云鵬等使用典型相關性分析和空間網(wǎng)格化邏輯回歸分析方法獲得了影響土地利用變化的全局特征因子和空間特征因子[21]。孫笑笑采用聚類分析和相關性分析提取了浙江近海岸赤潮發(fā)生時產(chǎn)生突變的赤潮特征因子[22]。曹叢華等采用主成分分析(PCA)和聚類分析提取了遼東灣鲅魚圈赤潮的環(huán)境特征因子[23]。吳超凡采用回歸分析、相關性分析和特征選擇方法識別了與森林生物量相關的特征因子[23]。機器學習具備適應復雜數(shù)據(jù),能獲得預測模型的優(yōu)點。

      本文以長三角地區(qū)某精細化工園區(qū)內(nèi)一家典型化學制藥企業(yè)為研究對象,深入分析其VOCs排放特征,利用機器學習的手段開展統(tǒng)計分析,通過數(shù)據(jù)驅動識別其生產(chǎn)工藝過程的排放特征因子。識別的特征因子種類精簡,易于監(jiān)測,與污染源類能夠高度對應,可為化學合成類制藥行業(yè)實施VOCs減排、合理選擇排放控制技術及后續(xù)地方標準的制定提供基礎信息,為實現(xiàn)化工園區(qū)大氣污染溯源提供了一條新思路。

      1 數(shù)據(jù)與方法

      1.1 數(shù)據(jù)來源

      污染源VOCs成分譜來自長三角地區(qū)某精細化工園區(qū)內(nèi)一家典型化學合成類制藥企業(yè),該企業(yè)生產(chǎn)的恩諾沙星、阿奇霉素、羅紅霉素等產(chǎn)品份額約占海內(nèi)外市場的30%。根據(jù)環(huán)評資料和現(xiàn)場調研,對廠區(qū)內(nèi)VOCs排放源開展了全覆蓋的樣品采集工作,收集了20個污染源樣本,分析了116種VOCs組分的濃度,并基于分析結果構建了基于工藝過程的精細化污染源成分譜,參見前期相關成果[25]。采樣信息如表1所示。將污染源成分譜表示為數(shù)據(jù)集D={x1,x2,…,xm},其中m=20,代表樣本數(shù)量。xi=(xi1,xi2,…,xid)代表每個樣本由各個VOC物種濃度組成的特征向量,單位μg·m-3;d=86,為所有檢測出的VOCs物種的數(shù)量。

      表1 污染源采樣信息

      1.2 技術路線

      污染源成分譜中的每個VOC物種被定義為一個特征,構成一個特征集。特征因子的識別過程被轉化成機器學習中的一個特征選擇過程,對特征子集的評價采用分類器的分類準確率作為標準。識別特征因子的技術路線如圖1所示。

      圖1 特征因子識別技術路線

      首先采用PCA加聚類分析將所有樣本按照VOCs的物種組成相似度分為若干類別,并予以標記,實現(xiàn)污染源類別的區(qū)分。聚類分析通過對無標記訓練樣本的學習,將數(shù)據(jù)集劃分為若干個通常是不相交的子集,每個子集稱為一個簇[26]。k均值聚類作為被廣泛使用的聚類算法,是一種基于中心的聚類方法[27]。它通過迭代,將樣本分到k個類中。通過這樣的劃分,每個簇可以對應一類排放特征相似的污染源。本研究中的污染源成分譜檢測出了86種VOCs的濃度,屬于高維度的樣本數(shù)據(jù)集,將導致聚類分析中的向量相關計算量呈指數(shù)增長,并且使樣本距離的度量失去意義,大大降低性能。為了使各類樣本在VOCs組成上的差異更容易區(qū)分,PCA用少數(shù)主成分近似表示原有數(shù)據(jù)集的所有信息,實現(xiàn)降維處理,提高聚類性能。

      然后,對標記后的數(shù)據(jù)集分別使用PCA處理后的數(shù)據(jù)和特征選擇處理后的數(shù)據(jù)訓練若干分類器,并計算其分類準確率。分類器是從數(shù)據(jù)中學習到的一個分類模型或分類決策函數(shù),可以對新的輸入進行輸出的預測,稱為分類[28-29]。從給定的特征集合中選擇出相關特征子集的過程,稱為特征選擇[30]。特征選擇在于選取對提高分類器性能有所貢獻的特征,即選取能夠對污染源類別進行準確分類的VOCs物種。比較PCA處理和特征選擇處理對分類器性能的影響,篩選出初步的特征子集作為預選特征因子。

      最后對污染源成分譜進行變量聚類處理,將所有VOCs物種劃分成若干個特征簇。變量聚類根據(jù)各個物種在污染源間的濃度分布,將其分為若干個特征簇,構成同一個特征簇的物種擁有相似的污染源間濃度分布。根據(jù)綜合評估特征選擇和變量聚類的結果,確定最終的特征因子。

      2 結果與討論

      2.1 特征選擇識別特征因子

      2.1.1 源樣本類別標記

      先對原始數(shù)據(jù)集進行PCA的降維處理,選取95%的解釋方差,提取獲得前15個主成分,如圖2(a)所示。在經(jīng)過k均值聚類后,所有樣本被劃分為3個子集,如圖2(b)所示,將其污染源類別分別標記為1、2、3。將聚類結果與采樣點所屬工藝過程進行對比,如表2所示。擁有相同聚類標記的樣本擁有相似的VOCs排放組成,結果顯示來自相同工藝流程的樣本基本上被劃分到了一類。在阿奇霉素生產(chǎn)線,只有103肟化車間的樣本被賦予了不同標記。同樣,在地克朱利生產(chǎn)線,只有402車間后段的樣本被賦予了不同標記。這說明該企業(yè)阿奇霉素生產(chǎn)過程與地克朱利生產(chǎn)過程有著與其它工藝過程顯著區(qū)分的VOCs排放特征,而恩諾沙星、羅紅霉素、麻保殺星等生產(chǎn)過程的VOCs排放特征則較為相似。聚類標記與工藝過程對應趨勢明顯,說明通過分析PCA提取的主成分信息,該企業(yè)的工藝特征得到了明顯的區(qū)分。然而PCA獲得的主成分是所有VOCs物種的線性組合,無法直接指向具體的物種作為污染源的特征因子,這將給實際的監(jiān)測工作帶來困難,也提高了溯源模型在數(shù)據(jù)輸入方面的難度。

      圖2 源樣本類別標記

      表2 聚類結果與工藝過程對比

      2.1.2 特征選擇結果

      對標記后的數(shù)據(jù)集進行特征選擇處理。參考PCA選擇正交變換組合的原理,特征在不同樣本間的方差越大,蘊含的信息越豐富。將86個VOCs物種按照方差降序排列,對照2.1.1中提取的15個主成分,選擇前15個物種特征作為數(shù)據(jù)輸入,訓練分類器,并計算其分類準確率。訓練過程在MATLAB軟件自帶的機器學習與深度學習工具箱中的Classification Learner模塊進行,驗證方式選擇五折交叉驗證。訓練的分類器類型包括決策樹、判別分析、邏輯回歸分類器、樸素貝葉斯分類器、支持向量機、最近鄰分類器和集成分類器。作為對照,另設一組實驗,直接使用PCA處理后的帶標記數(shù)據(jù)訓練分類器,并計算器分類準確率。觀察性能較好的分類器,結果如表3所示,經(jīng)過特征選擇處理后的數(shù)據(jù),有2個分類器的分類準確率達到了85.0%,說明通過觀察被選擇的這15個物種可以實現(xiàn)對污染源的準確分類。對比PCA處理后數(shù)據(jù)訓練得到的分類器性能,可以發(fā)現(xiàn),特征選擇在對污染源進行分類方面,達到了與PCA處理同樣的效果。因此這15個物種被認定為初步識別到的特征因子,如表4所示。

      表3 特征選擇和分類分析結果

      表4 預選特征因子

      2.2 變量聚類識別特征因子

      針對未標記的原始數(shù)據(jù)集,對86個VOCs物種進行k均值聚類分析。變量聚類根據(jù)各個VOCs物種在不同樣本間的濃度分布將其分成若干個特征簇,被分為同一類的特征擁有相似的樣本間濃度分布。結果如表5所示,所有物種被分為3個特征簇,其中甲苯、丙酮、乙醛、苯甲醛、正己烷、乙酸乙酯被分為一組。除乙酸乙酯外,其余物種均包含在步驟2.1識別出的15個預選特征因子當中。結合現(xiàn)場調研與污染源成分譜分析,甲苯是該企業(yè)多個車間的主要特征污染物,而丙酮、乙醛、苯甲醛和正己烷被劃分到與甲苯一類,說明它們在各個車間的濃度分布與甲苯類似。對比特征選擇和變量聚類的結果,綜合特征因子的特征性和精簡性,該企業(yè)的特征因子被最終認定為:甲苯、丙酮、乙醛、苯甲醛和正己烷。

      表5 變量聚類分析結果

      3 結 論

      本研究以基于工藝過程的精細化污染源成分譜為基礎數(shù)據(jù),采用特征選擇和變量聚類的機器學習方法識別出某典型化學合成制藥企業(yè)的VOCs排放特征因子為:甲苯、丙酮、乙醛、苯甲醛和正己烷。通過這種方法識別的特征因子,擁有相似的污染源濃度分布,并且可以較好地體現(xiàn)各個工藝過程在VOCs排放組成上的差異,對精細化的污染源類別實現(xiàn)準確分類。在對污染源成分譜進行分析時,可通過觀察這幾種物質的VOCs濃度組成,分析其所屬工藝過程。在實際的生產(chǎn)監(jiān)管過程中,可采集足夠豐富的污染源樣本構建成分譜,并訓練分類器,通過重點監(jiān)測特征因子的濃度,輸入分類器,得到所屬類別以及判別概率,有望實現(xiàn)VOCs排放的快速精細化溯源。

      猜你喜歡
      特征選擇污染源分類器
      持續(xù)推進固定污染源排污許可管理全覆蓋
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      基于污染源解析的空氣污染治理對策研究
      十二五”期間佳木斯市污染源排放狀況分析
      看不見的污染源——臭氧
      Kmeans 應用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      聯(lián)合互信息水下目標特征選擇算法
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      黄大仙区| 平遥县| 建德市| 田阳县| 泰安市| 贵港市| 东乌珠穆沁旗| 澄迈县| 凤阳县| 唐河县| 乐都县| 文安县| 西乌珠穆沁旗| 栾城县| 苏尼特右旗| 镇坪县| 江北区| 黄大仙区| 射阳县| 利辛县| 临江市| 康保县| 景德镇市| 盖州市| 拜城县| 天台县| 汤阴县| 大埔县| 北流市| 洛浦县| 若尔盖县| 遂平县| 积石山| 湄潭县| 通许县| 双峰县| 灵川县| 田阳县| 贡嘎县| 铅山县| 嘉荫县|