董小泊
(中國華電集團(tuán)有限公司甘肅公司,甘肅 蘭州 730000)
風(fēng)能作為一種環(huán)保、綠色、可再生的清潔能源,在全球節(jié)能減排進(jìn)程中起到了越來越重要的作用。我國風(fēng)資源主要分布于沿海、西部內(nèi)陸等偏遠(yuǎn)、氣候環(huán)境惡劣的區(qū)域,因此在此惡劣環(huán)境中,風(fēng)電機(jī)組的葉片極易遭受環(huán)境侵蝕,產(chǎn)生裂紋、磨損、沙眼等情況,因此如何檢測葉片質(zhì)量成為了一項重要工作。傳統(tǒng)模式下的人工定期巡檢方式,對于大多地處偏遠(yuǎn)區(qū)域、海上區(qū)域等的風(fēng)場,在風(fēng)電機(jī)組數(shù)眾多的情況下,效率與時效性極低。因此,基于數(shù)字化、網(wǎng)絡(luò)化的自動遠(yuǎn)程葉片監(jiān)測技術(shù),正越來越受到人們的重視。
目前,對于葉片的自動化監(jiān)測,普遍采取一種不影響風(fēng)機(jī)正常運(yùn)作的無損檢測方法,選擇合適的拾音器,安裝在塔筒底部塔壁上,采集并分析葉片旋轉(zhuǎn)時的掃塔聲。
本文基于葉片運(yùn)轉(zhuǎn)與未運(yùn)轉(zhuǎn)2種類別的音頻數(shù)據(jù)進(jìn)行分類??刹扇∪斯ざ牪θ~片音頻貼標(biāo)簽的方式構(gòu)建監(jiān)督分類模型,但由于音頻持續(xù)采集,數(shù)據(jù)量較大,采取人工方式,效率極低,因此嘗試基于無監(jiān)督的DBSCAN聚類方式進(jìn)行分類。
DBSCAN基于密度聚類,不需要預(yù)先指定聚類簇數(shù),它可發(fā)現(xiàn)任意形狀的聚類,作為基于密度算法的經(jīng)典代表,在聚類分析中得到越來越多的應(yīng)用。
DBSCAN算法需要設(shè)定兩個參數(shù):Eps(定義密度時的鄰域半徑參數(shù),記為ε)和MinPts(鄰域密度閾值,記為M)。記數(shù)據(jù)集合X={x(1),x(2),…,x(N)},基本概念如下:
(1)ε鄰域:設(shè)x∈X,稱Nε(x)={y∈X;d(y,x)≤ε}為x的ε鄰域,顯然x∈Nε(x)。
(2)密度:設(shè)x∈X,稱ρ(x)=|Nε(x)|為x的密度,是一個整數(shù)值,且依賴于半徑ε。
(3)核心點:設(shè)x∈X,若ρ(x)≥M,則稱x為X的核心點。記由X中所有核心點構(gòu)成的集合為Xc,并記Xnc=XXc表示由X中的所有非核心點構(gòu)成的集合。
(4)邊界點:設(shè)x∈Xnc,且?y∈X,滿足y∈Nε(x)∩Xc,即x的ε鄰域中存在該核心點,則稱x為X的邊界點,記由X中所有邊界點構(gòu)成的集合為Xbd。
(5)噪聲點:記Xnoise=X(Xc∪Xbd),若x∈Xnoise,則稱x為噪音點。
(6)直接密度可達(dá):設(shè)x,y∈X,若滿足x∈Xc,y∈Nε(x),則稱y是從x直接密度可達(dá)的。
(7)密度可達(dá):設(shè)P(1),P(2),…,P(m)∈X,其中m≥2,若它們滿足:P(i+1)是從P(i)直接密度可達(dá)的,i=1,2,…,m-1,則稱P(m)是從P(1)密度可達(dá)的。
(8)密度項鏈:設(shè)x,y,z∈X,若y和z均是從x密度可達(dá)的,則稱y和z是密度相連的,顯然密度相連具有對稱性。
(9)類:稱非空集合C?X是X的一個類,如果它滿足:對于x,y∈X
若x∈X,且y是從x密度可達(dá)的,則y∈C;
若x∈C,y∈C,則x,y是密度相連的。
它的具體步驟:
輸入:數(shù)據(jù)集X,半徑參數(shù)ε,密度閾值M
輸出:聚類結(jié)果及噪聲數(shù)據(jù)
步驟1:從數(shù)據(jù)集X中隨機(jī)抽取一個未被處理的對象x,且在它的ε-鄰域滿足目睹閾值要求,稱為核對象;
步驟2:遍歷整個數(shù)據(jù)集,找到所有從對象x的密度可達(dá)對象,形成一個新的簇;
步驟3:通過密度相連產(chǎn)生最終簇結(jié)果;
步驟4:重復(fù)執(zhí)行步驟2和步驟3,直到數(shù)據(jù)集中所有對象都為“已處理”。
因此,基于密度的聚類就是一組“密度相連”的對象,以實現(xiàn)最大化的“密度可達(dá)”,不包含在任何聚類中的對象就是噪聲數(shù)據(jù)。
在對葉片音頻進(jìn)行DBSCAN之前,需要進(jìn)行特征提取。葉片音頻本質(zhì)上屬于時域信號,但由于它又屬于信號數(shù)據(jù),可從頻域上提取特征。設(shè)信號為xi。
時域特征
(2)1/3倍頻程:1/3倍頻程可以簡化頻譜的分析過程,無需分析每個頻率成分的聲能量,將信號的頻譜劃分為若干個頻帶,每個頻帶的頻率上下限之比恒定為21/3,分析不同頻帶的能量分布情況。
(3)MFCC:捕捉音頻信號的能量在不同頻率范圍內(nèi)的分布。
利用某風(fēng)場2.5MW機(jī)型采集的164個葉片音頻數(shù)據(jù)(其中葉片運(yùn)轉(zhuǎn)82個,葉片未運(yùn)轉(zhuǎn)82個,包含在其中的含噪音頻10個),提取特征(共48個),進(jìn)行DBSCAN聚類。聚類結(jié)果可視化如圖1所示。
圖1 DBSCAN聚類可視化
圓點代表風(fēng)電機(jī)組葉片未運(yùn)轉(zhuǎn),五角星點代表風(fēng)電機(jī)組葉片運(yùn)轉(zhuǎn);正方形點代表噪聲點。
從圖1可以看出,DBSCAN聚類可將機(jī)組葉片旋轉(zhuǎn)與未旋轉(zhuǎn)準(zhǔn)確區(qū)分開來,但其中存在一些噪聲,通過人工耳聽這些噪聲音頻,接近圓點部分的音頻主要包含路過人員的說話聲、棲息在拾音器上鳥的鳴叫;接近五角星點部分的音頻主要包含冷卻風(fēng)扇開啟后的噪聲,淹沒了部分葉片旋轉(zhuǎn)的掃塔聲。
從總體上來說,DBSCAN對葉片音頻分類的效果較好,混淆矩陣見表1。
表1 混淆矩陣
從表1中可以看出,原始葉片運(yùn)轉(zhuǎn)與葉片未運(yùn)轉(zhuǎn)的音頻分別有82個,聚類后,葉片運(yùn)轉(zhuǎn)的音頻分類正確的有69個,分類成含噪音頻的有8個,其中分類成葉片未運(yùn)轉(zhuǎn)(即分類錯誤)的有5個;葉片未運(yùn)轉(zhuǎn)的音頻分類正確的有80個,分類成含噪音頻的有2個,其中分類成葉片運(yùn)轉(zhuǎn)(即分類錯誤)的有4個。
分類結(jié)果見表2。
表2 分類結(jié)果
從表2中可以看出,預(yù)測的ROC值達(dá)93%,準(zhǔn)確率達(dá)94%。
后續(xù)工作將對含噪音頻進(jìn)行處理,將音頻中的噪聲過濾,得到純凈的葉片掃塔聲。
圖2展示了葉片運(yùn)轉(zhuǎn)圖2(a)、葉片未運(yùn)轉(zhuǎn)圖2(b)、噪聲圖2(c)的典型波形圖。
圖2 葉片運(yùn)轉(zhuǎn)、葉片未運(yùn)轉(zhuǎn)與噪聲的波形圖
本文從時域與頻域的角度,分別對采集到的風(fēng)電機(jī)組葉片音頻提取特征,然后再進(jìn)行無監(jiān)督的DBSCAN聚類,最終給出聚類結(jié)果,避免了人耳聽音頻確定標(biāo)簽的低效率,通過實例對比研究,發(fā)現(xiàn)聚類效果較好,能發(fā)現(xiàn)其中的噪聲點。有利于對含噪音頻進(jìn)行去噪濾波,得到純凈的葉片音頻,并用于后續(xù)葉片狀態(tài)的感知判斷。