• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大氣環(huán)境分類的SVM聯(lián)合決策方法

      2022-09-07 07:46:50王竟成張倫武楊小奎胡學步周俊炎李澤華吳帥
      裝備環(huán)境工程 2022年8期
      關鍵詞:分類器分區(qū)聚類

      王竟成,張倫武,楊小奎,胡學步,周俊炎,李澤華,吳帥

      (1. 西南技術工程研究所 彈藥貯存環(huán)境效應重點實驗室,重慶 400039; 2. 重慶理工大學 化學化工學院,重慶 400054)

      邁入數(shù)據(jù)時代,時刻都有千億量級的數(shù)據(jù)產(chǎn)生,高效的數(shù)據(jù)分析處理手段一直都是研究熱點。氣象環(huán)境是典型的海量數(shù)據(jù)生產(chǎn)制造領域,遍布全球的氣象監(jiān)測站不斷收集著溫度、濕度、降水等數(shù)據(jù)。這些寶貴的數(shù)據(jù)資源在經(jīng)濟、軍事、社會等各個領域產(chǎn)生著巨大效益。運用各類挖掘分析算法研究環(huán)境數(shù)據(jù)資源的內(nèi)在規(guī)律,提煉隱性知識,能顯著提升我們的認知,有效促進數(shù)據(jù)增值。

      氣候分類最初源于農(nóng)業(yè)生產(chǎn),通常對應于植被分布,即每種氣候類型由一種植被區(qū)域或生態(tài)區(qū)域支配。氣候分類的方法很多,其中科蓬氣候分類及其衍生方法應用最多。溫度和降水是植被分布的主導性因素,因而是氣候分類最基本的變量。材料/產(chǎn)品的使用、服役與植被的分布類似,也具有一定的區(qū)域局限性,并且除溫度、降水外,應考慮更多的環(huán)境因素,如濕度、太陽輻射等。太陽輻射會顯著加速高分子材料的老化,濕空氣極易引起電子元器件的失效,此外還有溫度–濕度–太陽輻射之間的耦合作用引發(fā)的性能退化與功能失效?;谵r(nóng)學的傳統(tǒng)氣候分類方法,不能滿足裝備產(chǎn)品的多環(huán)境因素的分類辨識需求。因此,構建一個綜合的環(huán)境分類分析決策方法指導裝備設計與使用維護具有重要意義。

      諸多學者對大氣環(huán)境的分類辨識開展了研究。如張倫武等使用模糊聚類分析了腐蝕大氣環(huán)境。吳超等采用有序樣本聚類開展了腐蝕大氣分類的細化研究。唐其環(huán)使用灰色聚類分析了化學成分對大氣腐蝕的影響。前期研究中,從產(chǎn)品使用與裝備服役的角度,提出了主成分聚類分析法,用于中國城市的環(huán)境分類,但并未考慮新增城市的快速分類辨識問題。本文進一步進行了深化拓展,以91個亞非歐城市的環(huán)境數(shù)據(jù)作為輸入,在主成分聚類分析的基礎上,采用多個支持向量機分類器,組建大氣環(huán)境分類的聯(lián)合決策模型,用于城市環(huán)境的分類辨識,指導產(chǎn)品設計與使用維護。

      1 數(shù)據(jù)與方法

      1.1 技術路線

      本研究構建了一種聯(lián)合決策模型用于城市大氣環(huán)境的快速分類辨識,技術路線流程如圖1所示。首先收集、整理能代表地區(qū)環(huán)境類型的環(huán)境因素,具體包含溫度、相對濕度、降水量和太陽輻射累積量等,組裝成分析數(shù)據(jù)矩陣。將各數(shù)據(jù)列標準化后進行主成分分析,計算得到特征值與特征向量,利用累積貢獻率確定主要成分,采用主成分的歐幾里得距離表征各城市之間的相似性,以此為依據(jù)進行層次聚類。將聚類結果作為訓練測試數(shù)據(jù),利用聯(lián)合支持向量機(Support Vector Machine,SVM)分類器進行得分評估,從而構建聯(lián)合決策模型。采用訓練好的聯(lián)合決策模型,不僅能對新增城市的大氣環(huán)境類型進行判別,也能對大氣環(huán)境的主成分數(shù)據(jù)空間進行區(qū)域劃分,形成分區(qū)云圖。

      圖1 技術路線流程 Fig.1 Technical route flow diagram

      1.2 數(shù)據(jù)

      為開展國內(nèi)外城市大氣環(huán)境的分類預測研究,從中國氣象數(shù)據(jù)中心網(wǎng)站下載了91個亞非歐城市(包含38個中國城市)近10 a(2010—2019年)的年值數(shù)據(jù)。數(shù)據(jù)集包含5個有效環(huán)境變量,包括緯度、年平均溫度、年均相對濕度、年均降水量、年累積輻射量。求取各環(huán)境因素10 a間年值數(shù)據(jù)的平均值,組合成分析矩陣,以此表征這些城市的大氣環(huán)境信息,部分城市環(huán)境數(shù)據(jù)見表1。

      表1 部分國內(nèi)外城市環(huán)境數(shù)據(jù) Tab.1 Environmental data of 8 cities

      表1中,各列環(huán)境變量之間并非完全獨立,存在一定內(nèi)在聯(lián)系。例如,平均溫度明顯受緯度影響,相對濕度和降水顯著相關。將表中原始數(shù)據(jù)(X)以列為對象標準化后(X'),采用式(1)計算相關系數(shù)矩陣[R]。

      式中:var表示方差,cov表示協(xié)方差

      由表2的相關系數(shù)矩陣可見,平均溫度、降水量與緯度呈負相關,相關系數(shù)分別為–0.821、–0.793。降水量與濕度相關系數(shù)為0.803,顯著正相關。輻射累積量與緯度、平均溫度的相關性很低。

      表2 相關系數(shù)矩陣 Tab.2 Correlation coefficient matrix

      1.3 分析方法與模型

      多變量數(shù)組中,一些變量之間存在隨動關系,可能是衡量同一系統(tǒng)行為的因素。在氣象數(shù)據(jù)系統(tǒng)中,諸多變量僅有少數(shù)的驅(qū)動型因素,因此可以采用少數(shù)的組合變量來代替原始變量組,即進行數(shù)據(jù)降維,以此簡化數(shù)據(jù)分析矩陣。主成分分析法(Principal Component Analysis,PCA)作為一種廣泛應用的高效算法,能有效地從多變量數(shù)據(jù)中剔除冗余成分,篩選少數(shù)足以解釋結果的獨立成分。本研究將表征城市環(huán)境特征的數(shù)據(jù)矩陣通過PCA提取主成分,作為層次聚類的輸入。

      聚類是數(shù)據(jù)分析中最基本、最普遍的問題。觀測對象數(shù)據(jù)通常自然成團聚類,同一類的對象特征相似,而不同類的對象特征相異。本研究采用層次聚類,通過構建聚類樹將不同對象的數(shù)據(jù)進行聚集。聚類樹并非如同K-Means方法中的單個聚集體,而是一個多層級的層次結構,上個層級的聚集體在下個層級會繼續(xù)合并在一起,各對象之間的相互關聯(lián)較清晰。在具體應用時,可以根據(jù)需求選擇最合適的聚類層級或規(guī)模。研究中首先計算各城市主成分在數(shù)據(jù)空間中的距離,評估其相似性。根據(jù)相似性,將關系相近的對象歸類到二元聚集體中,新的聚集體又進一步歸類到更大的聚集體,直至聚類樹形成。以聚類樹為依據(jù),選擇合理的層級,得到城市大氣環(huán)境的聚類結果。

      將上述主成分聚類分析的結果劃分成訓練集與測試集,采用支持向量機(SVM)算法進行分類學習訓練與預測。支持向量機的主要思想是將輸入空間的非線性問題,通過核函數(shù)映射到高維特征空間,并在此空間搜尋使類間間隔最大的超平面,將數(shù)據(jù)樣本劃分開。目前常用的核函數(shù)主要有多項式、高斯徑向基函數(shù)、Sigmoid、傅里葉等4種核函數(shù)?;诮Y構風險最小化準則,SVM網(wǎng)絡拓撲結構由支持向量決定,是介于簡單算法和神經(jīng)網(wǎng)絡之間最好的算法。它僅有3個自由參數(shù),問題復雜度不取決于特征的維數(shù),只通過幾個支撐向量就能確定超平面,忽略細枝末節(jié),可以處理復雜的非線性問題。同時,通過引入松弛變量,SVM能夠解決類間的重疊問題,并提高了泛化能力。SVM在處理小樣本、非線性時具有明顯優(yōu)勢,可規(guī)避其他機器學習算法中易于出現(xiàn)的局部極小以及過擬合現(xiàn)象,已被廣泛應用于趨勢預測與故障診斷等領域,如空氣質(zhì)量預測。

      根據(jù)城市的分類數(shù)確定分類器個數(shù),由各個分類器的得分評判城市的所屬分類,并采用測試數(shù)據(jù)評估訓練后模型的有效性。串聯(lián)起PCA、層次聚類與SVM分類器,組建大氣環(huán)境分類的SVM聯(lián)合決策模型,模型部署后可用于城市大氣環(huán)境分類的快速判別與主成分數(shù)據(jù)空間的區(qū)域劃分。

      2 結果與討論

      2.1 主成分聚類分析

      由相關系數(shù)矩陣(見表2),構建特征矩陣|λIR|=0,計算得到特征值及其對應的特征向量(見表3)。特征值表征成分之間的方差,采用降序排列,每個特征向量即為一個主成分的參數(shù)矢量。由表3可見,主成分1(PC)方差的貢獻率為60.6%,主成分2(PC)的貢獻率為27.3%,主成分3(PC)的貢獻率為7.5%。僅采用PC與PC時,方差的累積貢獻率為87.9%;而采用前3個主成分時,累積貢獻率可高達95.4%。

      表3 特征值及其對應特征向量 Tab.3 Eigenvalues and corresponding eigenvector

      將特征向量(B)與標準化后的變量值(X')點乘計算主成分得分PC。本研究中,選擇前3個主成分來表征城市的主要環(huán)境特征,包含原始變量95.4%的信息。以主成分得分作為坐標值(PC, PC, PC),在圖2的數(shù)據(jù)空間中把每個城市標注出來,根據(jù)距離遠近粗略地展示了不同城市之間的相似性。

      表4 城市大氣環(huán)境聚類結果 Tab.4 Atmospheric environment classification of 91 cities

      利用不同城市的主成分得分進行層次聚類,通過計算歐幾里得距離d=sqrt(PC+PC+PC),衡量城市之間的相似性,從而構建層次聚類樹,如圖3所示。從聚類樹可見,當前91個城市大氣環(huán)境的最優(yōu)聚類數(shù)目為9,由差異值等于2.5的虛線從層次聚類樹中劃分出來。虛線之下,同一簇團內(nèi)城市之間的相異性低于2.5,代表一種環(huán)境類型,用同種顏色繪制。91個城市中,海防與河內(nèi)的差異值最低,僅為0.135,從大氣環(huán)境的角度來說它們猶如孿生城市;格爾木與巴東之間差異值最高,為6.701。城市聚類結果見表4,類型8為赤道附近的熱帶雨林氣候,類型7為高溫多雨的熱帶氣候,類型5為亞熱帶濕潤氣候,類型9為亞熱帶半干旱氣候,類型6為溫帶濕潤氣候,類型4為溫帶干旱氣候,類型2為寒溫帶半濕潤氣候。嚴寒地區(qū)漠河(類型1)、高海拔城市拉薩(類型3)與其他城市的環(huán)境特征區(qū)別較大,自成一類。

      2.2 SVM聯(lián)合決策分類

      圖2 主成分數(shù)據(jù)空間中的城市分布 Fig.2 Distribution of 91 cities in principal component data space

      圖3 91個城市的層次聚類樹 Fig.3 Hierarchal clustering tree of 91 cities

      基于支持向量機建立9個并行的二分類器,每個 分類器評估對應編號類別的可信度,使用分區(qū)聚類結果對所有分類器進行訓練。利用訓練好的聯(lián)合分類器分別計算城市大氣環(huán)境屬于每個分區(qū)的可信度得分,指定可信度得分最高的分類為當前城市的歸屬分區(qū),并根據(jù)得分判斷其可信水平。對于當前應用場景,規(guī)定:可信度>1,可信水平極高;1>可信度>0.4,可信水平高;0.4>可信度>0,可信水平中;0>可信度>-0.4,可信水平低;-0.4>可信度,不可信。

      91個城市中,抽取10%(9個)的城市作為測試集,其余城市作為訓練集訓練SVM聯(lián)合決策模型。由于類型1與類型3僅有1個城市(見表4),為保證訓練集對象種類的全覆蓋,應避免將拉薩與漠河選入測試集。從測試結果(見表5)來看,本文構建的SVM聯(lián)合決策模型對當前數(shù)據(jù)集的預測準確率為100%。從可信度得分來看,9個測試數(shù)據(jù)中4個城市的可信度>1,可信度極高;3個城市可信度∈[0.4, 1],可信度高;2個城市可信度∈[0, 0.4]。其中,可信水平高以上的占比為77.8%??梢?,大氣環(huán)境分類的SVM聯(lián)合決策模型具有較高的可靠度。

      表5 測試集分類預測結果 Tab.5 Prediction results of test data

      將91個城市的數(shù)據(jù)全部用于訓練,生成樣本點更全的聯(lián)合決策模型。統(tǒng)計結果(表6)顯示,其預測準確度97.8%,預測博帕爾與巴納特時失效,這2個城市聚類結果為類型7,預測結果為類型9,可信水平為中。在后文的主成分數(shù)據(jù)空間中,這2個城市正好處于分區(qū)7與分區(qū)9的交界面,說明博帕爾與巴納特處于類型7向類型9過渡的區(qū)域。在圖3的層次聚類樹中,若聚類的相異值設定為2,那么博帕爾、巴納特、海德拉巴與班加羅爾將從藍色分支(類型7)中獨立出來,成為一個新的細分類型。預測結 果中,可信度極高的數(shù)目占比為58.2%,高以上的占81.3%。由此可見,本文所構建的模型既具有一定泛化能力,沒有出現(xiàn)過學習的現(xiàn)象,也保持了較高的準確率與可靠度。

      表6 分類決策模型的有效性 Tab.6 Validity of present prediction model

      限定邊界框范圍為:min(PC)≤X≤max(PC),min(PC)≤Y≤max(PC),min(PC)≤Z≤max(PC),遍歷主成分數(shù)據(jù)空間邊界框內(nèi)的所有點,格點間隔取0.1。通過分類決策模型計算每個格點的可信度,將可信度得分最高的類別判定為該格點的分類。對于最高可信度得分低于-0.4的格點,判定為不可信,不劃入任何分類,數(shù)據(jù)空間中表現(xiàn)為空白區(qū)域。圖4將各分類的區(qū)域范圍可視化為不同顏色的團簇。取PC=0,繪制分區(qū)云圖中間截面的剖面圖(圖4右上部),包含7個分區(qū)。在分區(qū)云圖中直觀可見各分區(qū)之間的相互關聯(lián):熱帶氣候(分區(qū)7)處于數(shù)據(jù)空間的中心位置,與大多數(shù)環(huán)境類型都相接;熱帶雨林氣候(分區(qū)8)與溫帶干旱氣候(分區(qū)4)差異很大,處于數(shù)據(jù)空間的兩端;嚴寒地區(qū)(分區(qū)1)與高海拔地區(qū)(分區(qū)3)處于數(shù)據(jù)空間的邊緣位置,環(huán)境典型而獨立。

      圖4 主成分數(shù)據(jù)空間中的分區(qū)云圖 Fig.4 Classification clusters in principal component data space

      由于數(shù)據(jù)集中分區(qū)1與分區(qū)3僅有1個城市,通過聯(lián)合決策模型判別出的區(qū)域較小,處于主成分數(shù)據(jù)空間左下部(PC<0,PC<0)。數(shù)據(jù)空間右下部(PC>0,PC<0)表征著中等溫度、中等輻射、高濕度、高降水的環(huán)境,該區(qū)域為空白表明當前數(shù)據(jù)集中不含這類型的城市。數(shù)據(jù)空間右上部(PC>0,PC>0)也是空白,這塊區(qū)域代表著高溫、低輻射、中等濕度、中等降水環(huán)境,而高溫、低太陽輻射這種環(huán)境類型比較特殊,滿足此條件的有中高緯度的活火山附近地區(qū),不適宜人類居住。

      3 結論

      1)采用主成分聚類分析將亞非歐91個城市劃分為9類大氣環(huán)境類型,3分量主成分包含了5種環(huán)境因素95.4%的信息,數(shù)據(jù)集城市中河內(nèi)與海防環(huán)境最類似,巴東與格爾木環(huán)境差異最大。

      2)融合9個支持向量機分類器組建聯(lián)合決策模型,利用主成分聚類結果對模型進行訓練,結果表明,該模型對大氣環(huán)境類型預測的準確率高達97.8%。

      3)應用大氣環(huán)境分類的聯(lián)合決策模型將主成分數(shù)據(jù)空間劃分為9大團簇,并可視化為分區(qū)云圖,使各分區(qū)之間的相互關聯(lián)直觀可見。熱帶氣候處于數(shù)據(jù)空間的中心位置,與大多數(shù)環(huán)境類型相接;熱帶雨林氣候與溫帶干旱氣候差異很大,處于數(shù)據(jù)空間兩端;嚴寒地區(qū)與高海拔地區(qū)處于數(shù)據(jù)空間的邊緣位置,環(huán)境典型而獨立。

      猜你喜歡
      分類器分區(qū)聚類
      上海實施“分區(qū)封控”
      浪莎 分區(qū)而治
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      基于改進的遺傳算法的模糊聚類算法
      基于SAGA聚類分析的無功電壓控制分區(qū)
      電測與儀表(2015年8期)2015-04-09 11:50:16
      基于多種群遺傳改進FCM的無功/電壓控制分區(qū)
      電測與儀表(2015年7期)2015-04-09 11:40:16
      一種層次初始的聚類個數(shù)自適應的聚類方法研究
      尼玛县| 阿拉善盟| 泉州市| 巴林左旗| 襄樊市| 静乐县| 嘉义县| 许昌市| 宣武区| 商丘市| 黄大仙区| 云阳县| 罗山县| 罗江县| 遂昌县| 郸城县| 鹤山市| 岫岩| 巢湖市| 晋州市| 石首市| 丹东市| 桑植县| 石狮市| 鄂托克前旗| 上饶县| 留坝县| 阿拉善左旗| 安岳县| 若尔盖县| 乐亭县| 休宁县| 科技| 临湘市| 靖宇县| 汕头市| 榆中县| 怀柔区| 五寨县| 鹿邑县| 德钦县|