• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于隨機(jī)森林的局部放電特征提取和優(yōu)選研究

      2021-08-09 11:28:20武奇生
      關(guān)鍵詞:特征選擇特征參數(shù)正確率

      姚 銳,惠 萌,李 俊,白 璘,武奇生

      (1.長(zhǎng)安大學(xué),陜西 西安 710064;2.國(guó)網(wǎng)陜西省電力公司電力科學(xué)研究院,陜西 西安 710049)

      0 引 言

      通過不同的特征提取方法得到的局部放電模式識(shí)別所需的特征空間,或者稱為特征集,不同特征集的特征參數(shù)之間既有差異性,又有互補(bǔ)性,因此將不同特征集進(jìn)行組合,得到組合特征集。由于組合特征集的維度較高,相應(yīng)的樣本量也會(huì)增大,需要的存儲(chǔ)空間和計(jì)算量也隨之增大;特征參數(shù)中存在有與類別相關(guān)度較小的特征,特征參數(shù)相互之間可能包含有冗余信息。為了節(jié)省存儲(chǔ)空間,減少計(jì)算所需時(shí)間,獲取本質(zhì)特征,降低分類模型的難度。因此,需要對(duì)特征集進(jìn)行最優(yōu)特征子集選擇[1-4]。

      需要移除的特征通常分為兩類:一類是冗余特征,即特征出現(xiàn)重復(fù);另一類是不相關(guān)特征。這種從d維特征到d’維特征的子集變換稱為特征選擇,最終使用這些d’維的特征進(jìn)行模型訓(xùn)練。常見的特征選擇方法大致分為三類:濾波方法(Filter approach)、包裝方法(Wrapper approach)和嵌入方法(Embedding approach)。這些特征選擇方法已被應(yīng)用于多種領(lǐng)域并取得了較好的識(shí)別結(jié)果。文獻(xiàn)[5]對(duì)基于局部放電灰度圖像分解通過二維主成分分析提取的水平和垂直方向上的9個(gè)具有代表性的特征參數(shù),為了進(jìn)一步提高識(shí)別性能,基于非支配排序遺傳算法的特征選擇技術(shù)被用于降低特征維數(shù)。文獻(xiàn)[6]提出了一種基于隨機(jī)森林的局放特征優(yōu)選新方法用于高壓電纜局部放電特征構(gòu)建與優(yōu)化。文獻(xiàn)[7]為了降低局部放電識(shí)別參量的維度,定義了特征向量可分性評(píng)估準(zhǔn)則,并使用浮動(dòng)前向搜索算法選取了可分性最優(yōu)的9組特征參量。文獻(xiàn)[8]使用基于改進(jìn)的最大相關(guān)最小冗余算法進(jìn)行局部放電最優(yōu)特征子集的選擇。

      隨機(jī)森林(Random Forest,簡(jiǎn)稱RF)是一種非線性模型,它以決策樹作為基學(xué)習(xí)器使用裝袋(Bagging)原理,又稱自助聚集(Bootstrap Aggregating)來處理訓(xùn)練數(shù)據(jù)集[9]。目前,由于其計(jì)算復(fù)雜度低,以及樣本和特征選擇的隨機(jī)性,使其應(yīng)用于多種領(lǐng)域均取得了較好的識(shí)別結(jié)果。

      隨機(jī)森林模型通過特征劃分過程來計(jì)算評(píng)估各個(gè)因子特征的重要性。對(duì)于某個(gè)特征,如果用另外一個(gè)隨機(jī)值替代它之后的表現(xiàn)比之前更差,則表明該特征比較重要,所占的權(quán)重應(yīng)該較大,不能用一個(gè)隨機(jī)值替代。相反,如果隨機(jī)值替代后的表現(xiàn)沒有太大差別,則表明該特征不那么重要,可有可無。所以,通過比較某特征被隨機(jī)值替代前后的表現(xiàn),就能推斷出該特征的權(quán)重和重要性。對(duì)于隨機(jī)森林中的隨機(jī)值選擇較常使用的方法是通過隨機(jī)排序測(cè)試的方式,即在計(jì)算第i個(gè)特征的重要性的時(shí)候,將原來的所有N個(gè)樣本的第i個(gè)特征值重新打亂分布,然后比較排序前和排序后的特征表現(xiàn)的差異性。如果差異很大,則表面第i個(gè)特征是重要的。而對(duì)于如何衡量排序前和排序后的特征表現(xiàn)的差異性,為了簡(jiǎn)化計(jì)算復(fù)雜度,把隨機(jī)排序測(cè)試操作從原來的訓(xùn)練集數(shù)據(jù)移到了袋外數(shù)據(jù)驗(yàn)證集特征向量上。

      本文針對(duì)現(xiàn)有隨機(jī)森林特征選擇算法中,使用袋外數(shù)據(jù)對(duì)特征向量進(jìn)行重要性度量的方法實(shí)現(xiàn)特征排序時(shí),特征在袋外數(shù)據(jù)樣本上的排列方式是隨機(jī)的,不能保證與類標(biāo)號(hào)關(guān)聯(lián)性強(qiáng)的特征重要性得分取較高的值。為了解決該問題,本文提出了基于方差分析的隨機(jī)森林前向特征選擇方法用于組合電器局放特征優(yōu)選,并通過實(shí)驗(yàn)室數(shù)據(jù)進(jìn)行了驗(yàn)證。結(jié)果表明,該方法能夠獲得較好的特征子集,有效提高了局部放電缺陷類型識(shí)別率。

      1 數(shù)據(jù)獲取

      1.1 試驗(yàn)裝置及缺陷物理模型

      本文在西安高壓開關(guān)有限公司的一段實(shí)際220 kV GIS母線上,通過超高頻測(cè)試系統(tǒng)進(jìn)行數(shù)據(jù)采集。實(shí)驗(yàn)裝置如圖1所示。

      圖1 220 kV GIS試驗(yàn)段Fig.1 220 kV GIS test sample

      4種絕緣缺陷分別是懸浮電極缺陷、高壓導(dǎo)體上金屬突出物缺陷、絕緣盆子上金屬顆粒污穢缺陷、絕緣子內(nèi)部氣隙缺陷,如圖2所示。

      圖2 典型絕緣缺陷的物理模型Fig.2 Physical model of typical insulation defects

      1.2 試驗(yàn)方案

      本文采用逐步升高電壓的加壓方式。該方法是對(duì)試品從較低電壓升至較高電壓,直到試品閃絡(luò)擊穿。通過這種方式經(jīng)過多次試驗(yàn)可確定該缺陷的起始放電電壓和擊穿電壓。逐步升高電壓法能夠在較短的時(shí)間內(nèi)獲得缺陷從發(fā)生起始放電至擊穿過程的數(shù)據(jù)。通過多次實(shí)驗(yàn)得到每種缺陷同一試驗(yàn)電壓水平下25個(gè)樣本,6種電壓水平共150個(gè)樣本。局部放電數(shù)據(jù)記錄格式為局部放電脈沖序列qs(ts,u(ts))。它是在測(cè)量時(shí)間tm內(nèi),具有放電幅值為qs,放電脈沖發(fā)生的時(shí)間ts,試驗(yàn)電壓為u(ts)的M個(gè)PD脈沖[10,11],其中s=1,…M。這樣的數(shù)據(jù)稱為相位相關(guān)脈沖序列(Phase Resolved Pulse Sequence,簡(jiǎn)稱PRPS)數(shù)據(jù)。通過PRPS數(shù)據(jù)可以得到每種缺陷的多種局部放電譜圖。

      2 GIS典型絕緣缺陷的局部放電譜圖獲取

      對(duì)局部放電進(jìn)行有效的模式識(shí)別,首先要通過采集到的局部放電原始數(shù)據(jù),獲取表征局部放電特征的局部放電各種分析譜圖。本文以120 kV試驗(yàn)電壓,絕緣盆子上金屬顆粒污穢缺陷為例,繪制脈沖序列相位分布分析譜圖(Phase Resolved Pulse Sequence Analysis,PRPSA)[12,13],局部放電相位分布譜圖(Phase Resolved Partial Discharge,PRPD),極坐標(biāo)相位分布局部放電分析譜圖(Ploar Coordinate Phase Resolved Analysis,PCPRA)[14,15],如圖3所示。

      圖3 120 kV時(shí)絕緣盆子上金屬顆粒污穢缺陷三種放電譜圖Fig.3 Three discharge patterns of metal particle contamination defect on insulated basin with applied voltage at 120 kV

      3 基于局部放電譜圖的特征提取

      為了實(shí)現(xiàn)局部放電絕緣缺陷類型的識(shí)別,在獲取的局部放電譜圖的基礎(chǔ)上,要提取有辨識(shí)力的特征參數(shù)。特征參數(shù)作為分類模型的輸入是確保成功識(shí)別缺陷的前提和基礎(chǔ)。因此,本文針對(duì)脈沖序列相位分布分析譜圖、局部放電相位分布譜圖、極坐標(biāo)相位分布局部放電分析譜圖,基于不同局部放電譜圖的特征參數(shù)提取方法,分別獲取了用于表征缺陷的特征參數(shù),為局部放電絕緣缺陷類型識(shí)別奠定了基礎(chǔ)。

      3.1 基于PRPSA譜圖的特征提取

      本文基于PRPSA譜圖提取出來的基本特征參數(shù)包括放電起始相位、放電相位重心、放電寬度、兩個(gè)連續(xù)放電脈沖的時(shí)間間隔的平均值、兩個(gè)連續(xù)放電脈沖的時(shí)間間隔的標(biāo)準(zhǔn)偏差、兩個(gè)連續(xù)放電脈沖的時(shí)間間隔的數(shù)量、放電幅值重心、放電幅值的平均值、放電幅值的標(biāo)準(zhǔn)偏差、放電脈沖數(shù)量、相鄰局部放電脈沖幅值最大比率和放電幅值平方率。

      3.2 基于PRPD譜圖的統(tǒng)計(jì)特征提取

      通過統(tǒng)計(jì)該譜圖在φ-q平面上100個(gè)工頻周期里各個(gè)窗口內(nèi)的放電次數(shù)N,即得到Hn(φ,q)分布。由此可以得到最大放電脈沖高度-相位分布Hqmax(φ);平均脈沖高度-相位分布Hqn(φ);脈沖數(shù)量-相位分布Hn(φ);放電功率-相位分布Hp(φ)。另外還可以得到放電幅值分布H(q)。這四種分布對(duì)應(yīng)試驗(yàn)電壓正負(fù)半周都被分為兩種。為了分析這些特征分布本文選擇33個(gè)統(tǒng)計(jì)特征參數(shù)。

      3.3 基于PCPRA的特征提取

      基于PCPRA譜圖提取特征參數(shù)有:每一個(gè)放電簇的質(zhì)心,放電寬度,放電數(shù)量,相位中值,相位四分位數(shù),幅值四分位數(shù),如圖4所示。再計(jì)算出基于象限的參數(shù),包括質(zhì)心向量余弦相似度,幅值四分位數(shù)的比值A(chǔ)ratio1和Aratio1,以及基于統(tǒng)計(jì)理論的特征參數(shù)[11]。

      圖4 極坐標(biāo)相位分布局部放電分析譜圖特征參數(shù)示例Fig.4 Characteristic parameters examples of PCPRA pattern

      4 基于方差分析的隨機(jī)森林前向特征優(yōu)選

      4.1 隨機(jī)森林特征選擇算法原理及算法流程

      隨機(jī)森林(Random Forest,簡(jiǎn)稱RF)是以決策樹作為基學(xué)習(xí)器使用裝袋(Bagging)原理,又稱自助聚集(Bootstrap Aggregating)來處理訓(xùn)練數(shù)據(jù)集。具體做法是:隨機(jī)地從原訓(xùn)練集中有放回地選取N個(gè)樣本。即對(duì)于這N個(gè)樣本,隨機(jī)抽取N次,每次抽取都是從N個(gè)樣本中選一個(gè),然后“復(fù)制”出來,在下一次抽樣時(shí),樣本集仍為N個(gè)。由于抽樣過程是有放回的,則一些樣本可能被多次選中并在同一訓(xùn)練集中多次出現(xiàn),而其它一些卻可能一次也沒有被選中。而被忽略的樣本稱為“袋外數(shù)據(jù)(Out of Bag,OOB)”[16,17]。

      本文將隨機(jī)森林用于特征選擇,是通過采用對(duì)特征向量進(jìn)行重要性度量的方法,根據(jù)得到的該特征集的排序結(jié)果進(jìn)行特征選擇的。本文在構(gòu)建決策樹時(shí)使用的是分類回歸樹(Classification and Regression Tree,簡(jiǎn)稱CART)算法[18]。

      隨機(jī)森林的構(gòu)建步驟如下。原始樣本數(shù)目為N,特征維度為m。

      輸入:一組訓(xùn)練樣本集{(x1,y1′),…,(xN,yN)}。

      步驟1:生成一個(gè)大小為N的自助樣本集Dt。

      步驟2:在自助樣本集Dt上通過分類回歸樹CART算法得到gt。

      步驟4:判斷當(dāng)前樹的數(shù)目t是否滿足t≤ntree,如果滿足則重復(fù)步驟1~3;不滿足則停止循環(huán)。

      輸出:G=Uniform({gt})。

      4.2 特征重要度測(cè)量方法

      隨機(jī)森林算法中對(duì)特征重要度測(cè)量有兩種方式:一種是使用基尼指數(shù)(Gini Index)作為劃分函數(shù),計(jì)算特征的“Gini Importance”表明特征的重要性程度[19,20]。定義為

      (1)

      式中:D為樣本集合;pi為樣本集合D中屬于第i類的概率;C為樣本類別集合。在已知特征A的條件下集合D基尼指數(shù)定義為

      (2)

      式中:V為特征A取值個(gè)數(shù),即根據(jù)特征A取值將D劃分成了V個(gè)子集{D1,D2,…,DV},每個(gè)子集中的樣本在A上取值相同。在選擇屬性時(shí),選擇使得劃分后基尼指數(shù)最小的屬性作為最優(yōu)劃分屬性。當(dāng)一個(gè)結(jié)點(diǎn)中所有樣本都是一個(gè)類時(shí),基尼指數(shù)為零。

      另一種是使用袋外數(shù)據(jù)觀測(cè)量對(duì)特征向量進(jìn)行重要性度量。自助樣本聚集之后沒有被選中的樣本稱為“袋外數(shù)據(jù)(Out of Bag,簡(jiǎn)稱OOB)”。OOB具有驗(yàn)證集的特性,因此OOB誤差被用作驗(yàn)證隨機(jī)森林G的泛化誤差。如下式所示:

      (3)

      (4)

      最后每個(gè)特征的重要性分?jǐn)?shù)是所有樹的平均值:

      (5)

      4.3 基于方差分析的隨機(jī)森林前向特征選擇算法

      現(xiàn)有隨機(jī)森林特征選擇算法中,隨機(jī)排列重要性“Permutaion Importance”是以每一棵決策樹為出發(fā)點(diǎn)。為了計(jì)算每一棵決策樹對(duì)一個(gè)特征的重要性度量結(jié)果,需要保證在其它特征不發(fā)生變化的前提下,對(duì)該決策樹的OOB樣本在該特征上的取值分布進(jìn)行重排。通過隨機(jī)排列OOB樣本中特征變量xj,它與標(biāo)簽y的原始關(guān)聯(lián)被破壞。排列后的變量xj和剩下的沒有排列的變量一起被用于估計(jì)OOB樣本的誤差。針對(duì)特征xj,決策樹分別對(duì)原OOB樣本和重排后OOB樣本進(jìn)行預(yù)測(cè),兩個(gè)預(yù)測(cè)誤差的差值就是該決策樹對(duì)特征xj重要性的度量結(jié)果。特征的最終得分是所有決策樹共同作用的結(jié)果。

      4.3.1 基于方差分析的排列置換方案改進(jìn)

      如果原變量xj與y無關(guān)聯(lián),在新的OOB樣本上的錯(cuò)誤率不會(huì)發(fā)生變化,理論上VI(xj)=0 。如果原變量xj與y相關(guān)聯(lián),并且xj是具有區(qū)分度的好特征,重新排列之后使得區(qū)分度下降,OOB誤差上升,那么VI(xj)<0;若xj是不好的特征,重新排列之后有可能使得區(qū)分度增大,OOB誤差下降,則VI(xj)>0。重新排列的方式?jīng)Q定了OOB誤差,如果采用現(xiàn)有隨機(jī)森林特征選擇算法中的隨機(jī)排列方式,沒有使具有區(qū)分度的好特征排在前面。對(duì)于如何排列或者置換才能保證好的特征(與類標(biāo)號(hào)關(guān)聯(lián)性強(qiáng))的重要性得分取較高的值,相應(yīng)的不好的特征(與類標(biāo)號(hào)關(guān)聯(lián)性弱)的重要性得分取較低的值的這個(gè)問題,本文提出一種基于方差分析的方法度量特征在不同類別上的差異性,得到了修改之后的排列置換方案,用來指導(dǎo)某一個(gè)特征在OOB樣本上的取值順序的重新排列。

      方差分析又稱變異數(shù)分析,由英國(guó)統(tǒng)計(jì)學(xué)家R.A.Fisher提出,特征xj在不同類別上的差異通過方差分析度量:

      (6)

      對(duì)于具有區(qū)分度的特征,其在不同類別中存在顯著性差異,其取值順序是不可“交換”的;相反,對(duì)于不相關(guān)或冗余特征,其取值順序是可以“交換”的?;谠撍枷?,可以得到修改后的排列置換方案來檢驗(yàn)特征的區(qū)分能力。

      將F(xj)的值與給定的顯著性水平α(選取α=0.05)的臨界值Fα(K-1,n-K)(通過F分布表查得)進(jìn)行比較,做出某一個(gè)特征在OOB樣本上置換方式的指導(dǎo)。F(xj)值越大(F(xj)>Fα),特征在不同類別不同樣本的差異越大,而在相同類別不同樣本的差異越小,則該特征越重要,那么特征xj在OOB樣本上重排采用類間置換方式。如果F(xj) 值較小(F(xj)

      圖5 對(duì)于決策樹gt的OOB樣本示意圖Fig.5 OOB sample diagram for decision tree gt

      4.3.2 基于迭代特征評(píng)估分?jǐn)?shù)的特征優(yōu)選

      現(xiàn)有隨機(jī)森林算法在得到特征按其重要性降序排序之后,本文采用序列前向搜索方法(Sequential Forward Selection,簡(jiǎn)稱SFS),進(jìn)行特征選擇,得到迭代的特征評(píng)估結(jié)果,用來解決現(xiàn)有算法決定特征子集大小的隨意性及結(jié)果的不穩(wěn)定性問題。即依據(jù)特征重要性降序排序的結(jié)果,從位于第一位的特征開始加入下一個(gè)特征,然后對(duì)于每一個(gè)特征向量組合輸入到分類器,計(jì)算分類誤差概率,直到所有的特征都用于得到分類模型的分類誤差概率,選擇具有最小誤差概率的組合作為最終特征選擇結(jié)果。本文使用柵欄法分組策略把原始特征數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,每隔4個(gè)樣本取為測(cè)試集樣本,剩余部分為訓(xùn)練集樣本,即訓(xùn)練集和測(cè)試集樣本比例為4∶1。采用10折算法 進(jìn)行交叉驗(yàn)證,其中訓(xùn)練集中的數(shù)據(jù)被分成10組,其中9組作為用來訓(xùn)練模型,剩下的一組為用來驗(yàn)證模型,每次更換測(cè)試數(shù)據(jù)直至每一組數(shù)據(jù)都被測(cè)試過。交叉驗(yàn)證的過程依次重復(fù)10次,所得到的結(jié)果的平均值作為最后的分類結(jié)果。

      4.3.3 基于方差分析的隨機(jī)森林前向特征選擇算法流程

      本文所采用的的分類器為使用高斯核函數(shù)的支持向量機(jī)。本文在使用基于方差分析的隨機(jī)森林前向特征選擇方法中設(shè)置ntree=500。原始樣本數(shù)目為N,特征維度為m。基于方差分析的隨機(jī)森林前向特征選擇算法流程如下:

      輸入:一組訓(xùn)練樣本集{(x1,y1′),…,(xN,yN)}

      步驟1:初始化參數(shù),t=1,ntree=500,顯著性水平α=0.05,最大分類正確率Accmax=0。

      步驟2:生成一個(gè)大小為N的自助樣本集Dt。

      步驟3:在自助樣本集Dt上通過分類回歸樹CART算法得到gt。

      步驟5:計(jì)算決策樹gt的原OOB樣本上的誤差Eoob(G)。

      步驟6:通過計(jì)算特征xj在OOB樣本上的方差分析F(xj)度量其在不同類別上的差異。

      步驟9:對(duì)于決策樹gt得到特征變量xj的重要性。

      步驟10:判斷樹的棵樹是否滿足t≤ntree,滿足則重復(fù)步驟2~9;不滿足則結(jié)束循環(huán)。

      步驟11:計(jì)算每個(gè)特征的重要性分?jǐn)?shù)VI(xj):

      步驟12:對(duì)特征按重要性排序,得到FeaSort。

      步驟13:從FeaSort中取出位于第一位的特征,得到Fnew,通過使用高斯核函數(shù)的支持向量機(jī)得到分類正確率Acc。

      步驟14:判斷當(dāng)前Acc是否滿足Accmax≤Acc,滿足則Accmax=Acc,F(xiàn)inalFea=Fnew。

      步驟15:判斷當(dāng)前循環(huán)變量是否小于等于特征維度m,滿足則在Fnew中加入FeaSort中位于下一位的特征,重復(fù)步驟13~14;不滿足則停止循環(huán)。

      輸出:測(cè)試集上的最高分類正確率和對(duì)應(yīng)的特征集FeaSort。

      4.3.4 算法分析

      首先,本文提出的特征選擇算法通過測(cè)量特征向量的重要性來對(duì)特征向量進(jìn)行排序。通過隨機(jī)森林算法獲得重要性從高到低的特征后,使用順序前向選擇生成候選特征子集,用于解決現(xiàn)有算法在確定特征子集大小的隨意性和不穩(wěn)定性方面的問題。然后,將支持向量機(jī)用作分類器,分類器的分類準(zhǔn)確率被用作特征子集的評(píng)估標(biāo)準(zhǔn)。

      在特征篩選過程中,基于重要性度量和序列前向選擇方法訓(xùn)練分類器以形成特征優(yōu)選子集,并基于分類器在測(cè)試集上的性能,評(píng)估特征集。此方法是包裹式選擇策略。它的速度比過濾式慢,但是它選擇的優(yōu)化特征子集維度相對(duì)較低,這非常有利于關(guān)鍵特征的識(shí)別。但是其泛化能力較差,時(shí)間復(fù)雜度較高。因此,本文提出的算法適用于需要高精度的場(chǎng)合。

      (7)

      從等式(8)可以看出本文提出的算法的時(shí)間復(fù)雜度與特征維數(shù)具有近似平方關(guān)系,與數(shù)據(jù)集中的樣本數(shù)具有近似立方關(guān)系。

      5 實(shí)驗(yàn)結(jié)果與分析

      5.1 實(shí)驗(yàn)結(jié)果

      對(duì)單一特征集F1(600×15)、F2(600×33)和F3(600×34),分別使用現(xiàn)有隨機(jī)森林和基于方差分析的隨機(jī)森林前向特征選擇方法進(jìn)行特征選擇,為了得到分類正確率和特征向量個(gè)數(shù)的關(guān)系,對(duì)現(xiàn)有隨機(jī)森林特征選擇方法在得到特征重要性排序后,同樣使用序列前向搜索法進(jìn)行特征選擇。結(jié)果如圖6、圖7和圖8所示。三種單一特征集分別是基于脈沖序列相位分布分析譜圖提取特征參數(shù)構(gòu)成的F1(600×15)、基于局部放電相位分布譜圖提取特征參數(shù)構(gòu)成的F2(600×33)和基于極坐標(biāo)相位分布局部放電分析譜圖提取的特征參數(shù)構(gòu)成的F3(600×34)。從圖中可以看出,對(duì)于現(xiàn)有隨機(jī)森林特征選擇方法,當(dāng)分類正確率到達(dá)最高值84.58%、75%和84.58%時(shí)對(duì)應(yīng)的特征維度分別是12、21、14。對(duì)于基于方差分析的隨機(jī)森林前向特征選擇方法,當(dāng)分類正確率到達(dá)最高值85.00%、76.25%和85.00%時(shí)對(duì)應(yīng)的特征維度分別是10、20和12。可以看出,對(duì)于單一特征集F1(600×15)、F2(600×33)和F3(600×34),本文提出的特征選擇方法在分類正確率保持較高的條件下對(duì)應(yīng)的特征維度比現(xiàn)有隨機(jī)森林特征選擇方法低。這說明了基于方差分析的隨機(jī)森林前向特征選擇方法可以獲得較好的分類性能和較低維度的特征子集,基于方差分析的排列置換方案優(yōu)于完全隨機(jī)的方式。

      圖6 對(duì)于F1(600×15)特征集的分類正確率與特征維數(shù)之間的關(guān)系Fig.6 Relationship between classification accuracy and feature dimension for F1(600×15)

      圖7 對(duì)于F2(600×33)特征集的分類正確率與特征維數(shù)之間的關(guān)系Fig.7 Relationship between classification accuracy and feature dimension for F2(600×33)

      圖8 對(duì)于F3(600×34)特征集的分類正確率與特征維數(shù)之間的關(guān)系Fig.8 Relationship between classification accuracy and feature dimension for F3(600×34)

      如表1所示,將單一特征集使用現(xiàn)有隨機(jī)森林特征選擇方法得到的降維結(jié)果輸入到分類器,與使用基于方差分析的隨機(jī)森林前向特征選擇方法的降維結(jié)果輸入到分類器相比較。試驗(yàn)結(jié)果表明,基于方差分析的隨機(jī)森林前向特征選擇方法,用于局部放電單一特征集的特征降維,能夠獲得較高的分類正確率。

      表1 單一特征集降維結(jié)果及對(duì)應(yīng)的分類正確率Tab.1 Dimension reduction results and corresponding classification accuracy of single feature set

      如表2所示,將三種單一特征集兩兩組合或三種聯(lián)用得到組合特征集(F1,F2)、(F1,F3)、(F2,F3)和(F1,F2,F3)。對(duì)組合特征集使用現(xiàn)有隨機(jī)森林特征選擇方法、基于方差分析的隨機(jī)森林前向特征選擇方法進(jìn)行降維。對(duì)于現(xiàn)有隨機(jī)森林特征選擇方法,當(dāng)分類正確率到達(dá)最高值85.00%、85.00%、84.17%和88.33%時(shí)對(duì)應(yīng)的特征維度分別是17、18、14和20。對(duì)于基于方差分析的隨機(jī)森林前向特征選擇方法,當(dāng)分類正確率到達(dá)最高值85.42%、86.25%、84.17%和88.33%時(shí)對(duì)應(yīng)的特征維度分別是13、13、11和15。在選用組合特征集(F1,F2,F3) 得到的最高準(zhǔn)確率相應(yīng)的特征維度為15維,這15維特征分別為:基于PRPSA譜圖的放電起始相位、正半周放電相位重心、負(fù)半周放電相位重心、正半周放電寬度、兩個(gè)連續(xù)放電脈沖的時(shí)間間隔的數(shù)量、負(fù)半周放電幅值重心、放電幅值平均值、正負(fù)半周放電數(shù)量,平均脈沖高度-相位分布Hqn(φ)譜圖負(fù)半周的偏斜度、正半周的峰度、負(fù)半周的局部峰值個(gè)數(shù),放電功率-相位分布Hp(φ)譜圖負(fù)半周的峰度,放電幅值分布H(q)譜圖的局部峰值個(gè)數(shù),以及基于PCPRA譜圖提取的質(zhì)心的相角和質(zhì)心的幅值。

      表2 組合特征集降維結(jié)果及對(duì)應(yīng)的分類正確率Tab.2 Dimension reduction results and corresponding classification accuracy of combined feature set

      與現(xiàn)有隨機(jī)森林特征選擇方法相比,基于方差分析的隨機(jī)森林前向特征選擇方法,在分類正確率保持較高的條件下對(duì)應(yīng)的特征維度比現(xiàn)有隨機(jī)森林特征選擇方法低。

      5.2 實(shí)驗(yàn)結(jié)果分析

      從實(shí)驗(yàn)結(jié)果來看,對(duì)于單個(gè)特征集F1(600×15)、F2(600×33)和F3(600×34),所提出的基于方差分析的隨機(jī)森林前向特征選擇方法獲得的分類精度高的特征維度分別降低了16%,5%和14%。對(duì)于組合的特征集(F1,F2)、(F1,F3)、(F2,F3)和(F1,F2,F3),將特征維度減小了20%以上。這表明,對(duì)于高維特征變量,基于方差分析的隨機(jī)森林前向特征選擇方法的效果比現(xiàn)有的隨機(jī)森林特征選擇方法的效果要好,這表明基于方差分析的置換和替換方案優(yōu)于完全隨機(jī)方法。

      當(dāng)基于方差分析的隨機(jī)森林前向特征選擇算法使用袋外數(shù)據(jù)觀測(cè)值來度量特征向量的重要性時(shí),方差分析用于度量不同類別中特征的差異性。本文算法的思想是:對(duì)于具有區(qū)分度的特征,不同類別之間存在顯著差異,并且其取值順序不能“交換”。相反,對(duì)于不相關(guān)或多余的特征變量,可以“交換”其取值的順序。基于該思想,可以獲得改進(jìn)的置換方案以檢驗(yàn)特征的區(qū)分度。

      通過本文提出的方法可以獲取改進(jìn)的置換方案來測(cè)試特征的區(qū)分度。如圖8所示,為兩種特征選擇方法在組合特征集(F1,F2,F3)上的重要性得分結(jié)果,它表明方差分析使與類別標(biāo)簽具有強(qiáng)相關(guān)性的特征的重要性得分獲得了更高的值,與類別標(biāo)簽相關(guān)性較弱的相應(yīng)特征的重要性得分將獲得較低的值。在圖中虛線和曲線的交點(diǎn)處,特征維度減小了25%。

      圖9 使用兩種特征選擇方法的組合特征集的重要性得分結(jié)果對(duì)比Fig.9 Variable importance of combined feature set by two feature selection mehod

      6 結(jié) 論

      由于在評(píng)估電氣設(shè)備局部放電的絕緣狀態(tài)時(shí),通過超高頻方法收集的原始局部放電數(shù)據(jù)量非常大,很難直接確定放電類型并評(píng)估其嚴(yán)重性。為了有效地實(shí)現(xiàn)局部放電識(shí)別,需要將原始數(shù)據(jù)轉(zhuǎn)換以獲得各種放電譜圖。而每種類型的局部放電譜圖都有其不同的特征,因此,本文研究了適用于不同局部放電譜圖的特征集生成方法。不僅可以充分利用放電數(shù)據(jù)信息,而且可以從不同方面獲得多種類型的特征集來表征局部放電,這也為保證獲取具有辨識(shí)力的特征集提供了保證;本文針對(duì)局部放電絕緣缺陷譜圖識(shí)別中特征維數(shù)降低的問題,提出了一種基于方差分析的隨機(jī)森林前向特征選擇方法。該方法從兩個(gè)方面進(jìn)行了改進(jìn):一是提出一種基于方差分析的方法度量特征在不同類別上的差異性,得到了修改之后的排列置換方案,用來指導(dǎo)某一個(gè)特征在袋外數(shù)據(jù)樣本上的取值順序的重新排列;二是采用序列前向搜索方法得到迭代的特征評(píng)估結(jié)果,解決了現(xiàn)有算法決定特征子集大小的隨意性及結(jié)果的不穩(wěn)定性問題。

      根據(jù)絕緣缺陷的特點(diǎn)和現(xiàn)場(chǎng)工作人員豐富的經(jīng)驗(yàn),本文設(shè)計(jì)了四種人工絕緣缺陷。通過局部放電超高頻檢測(cè)系統(tǒng),在不同的測(cè)試電壓下放電穩(wěn)定時(shí),獲得了每個(gè)缺陷的相位相關(guān)脈沖序列數(shù)據(jù)集。并以此為基礎(chǔ),研究有效的特征參數(shù)提取方法和特征選擇算法。通過將現(xiàn)有隨機(jī)森林特征選擇方法和和本文提出的基于方差分析的隨機(jī)森林前向特征選擇方法,對(duì)單一特征集和組合特征集進(jìn)行降維的結(jié)果,輸入到分類器得到的結(jié)果相比,本文提出的特征選擇方法可用于降低特征維數(shù),從而有效提高局部放電缺陷類型的識(shí)別率。

      本文提出的基于方差分析的隨機(jī)森林前向特征選擇方法被用于優(yōu)化局部放電特征集,并實(shí)現(xiàn)GIS中的局部放電識(shí)別。它以更高的識(shí)別率顯示了其有效性。而且,這是解決不同單個(gè)特征集下識(shí)別結(jié)果沖突的有效解決方案。對(duì)于沒有足夠先驗(yàn)知識(shí)的現(xiàn)場(chǎng)應(yīng)用情況,即使它們?cè)谠紨?shù)據(jù)集中沒有得到充分的訓(xùn)練,這也是一種識(shí)別未知缺陷的有前景的方法。

      猜你喜歡
      特征選擇特征參數(shù)正確率
      故障診斷中信號(hào)特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      生意
      品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
      生意
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      統(tǒng)計(jì)特征參數(shù)及多分類SVM的局部放電類型識(shí)別
      乐山市| 临城县| 公安县| 乌苏市| 崇义县| 无极县| 孝感市| 衡山县| 元朗区| 长白| 喀喇| 定襄县| 手游| 咸宁市| 延川县| 无极县| 梁河县| 祁连县| 天峨县| 营口市| 巴东县| 邮箱| 罗山县| 穆棱市| 常熟市| 平湖市| 沙湾县| 东丰县| 礼泉县| 通道| 和林格尔县| 皮山县| 寿宁县| 通榆县| 蓬溪县| 麻城市| 永新县| 东辽县| 固始县| 乌鲁木齐市| 沙湾县|