宋坤等
摘 要: 提出一種基于聲譜圖的特征提取方法,獲取沖擊聲的聲譜圖,預(yù)處理后將其轉(zhuǎn)換為偽彩色圖,提高聲譜圖細(xì)節(jié)表現(xiàn)力,進(jìn)而提取局部區(qū)域k階矩作為特征;將該特征的識別效果與MFCC等傳統(tǒng)特征進(jìn)行了對比和分析。實驗結(jié)果表明,該方法對相似板材沖擊聲有較好的識別效果,并且具有較好的噪聲魯棒性。
關(guān)鍵詞: 沖擊聲; 聲譜圖; 偽彩色映射; 特征提取
中圖分類號: TN964?34 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2015)08?0008?04
Method of impact sound feature extraction based on spectrogram
SONG Kun1, YIN Xue?fei1, CHEN Ke?an2
(1. School of Electronics and Information, Northwestern Polytechnical University, Xian 710129, China;
2. School of Marine Science and Technology, Northwestern Polytechnical University, Xian 710072, China)
Abstract: A new method of feature extraction based on spectrogram is proposed. With the method, the spectrogram of impact sound can be obtained, and converted into pseudo?color image after preprocessing to improve the expressive force spectrogram details and realize extraction of k?th moment in partial region as the feature. The recognition result of the proposed features, MFCCs and other traditional features are compared and analyzed. The experimental results show that the proposed method can accurately distinguish impact sound of similar sheet material and has nice noise robustness.
Keyword: impact sound; spectrogram; pseudo color Mapping; feature extraction
0 引 言
沖擊聲是瞬態(tài)聲的一種,是物體受到?jīng)_擊作用發(fā)出的聲音,與沖擊響應(yīng)類似,物體的沖擊聲包含著許多聲源信息,如物體的結(jié)構(gòu)、材質(zhì)屬性等,其在設(shè)備故障的無損檢測、公共安全事件監(jiān)測、軍事斗爭領(lǐng)域具有重要意義,因此針對沖擊聲的自動識別技術(shù)收到人們廣泛重視[1]。沖擊聲識別不同于以往的語音識別技術(shù),例如,考慮到背景聲音的復(fù)雜性,識別系統(tǒng)需要更高的噪聲魯棒性,另外沖擊聲具有強烈的非穩(wěn)態(tài)性,以往針對語音識別的方法不再合適。聲譜圖是一類表示聲音時頻結(jié)構(gòu)的灰度圖,其橫縱坐標(biāo)代表時間和頻率,灰度代表聲信號的幅值,自1 940 s出現(xiàn)以來,聲譜圖作為水下聲目標(biāo)探測的重要手段吸引著來自各領(lǐng)域的人們的興趣,但主要集中在如何從背景聲中區(qū)別出可疑目標(biāo)聲(低水平特征檢測)[2]。隨著圖像處理技術(shù)的發(fā)展和新的聲目標(biāo)識別任務(wù)的出現(xiàn),人們嘗試從聲譜圖中提取更多的聲信息。如梁澤等將PCNN應(yīng)用語音信號的情感識別中,通過實驗發(fā)現(xiàn)同一說話人的同一句話在不同的情感下有不同的語譜圖,提取的特征序列存在差異并且具有某種規(guī)律性[3];曾向陽等人采用脈沖耦合網(wǎng)絡(luò)提取語音和多種噪聲的特征[4]取得了較好的識別率,并發(fā)現(xiàn)可以該特征可以對說話人進(jìn)行識別;Souli Sameh等人使用log?gabor濾波器提取聲譜圖特征,采用10種環(huán)境噪聲數(shù)據(jù)庫,證明了其方法的有效性[5]。
本文利用聲譜圖提出一種沖擊聲特征提取方法。以板材沖擊聲為對象,提取多種聲譜圖特征進(jìn)行目標(biāo)識別,并對結(jié)果進(jìn)行比較分析。特征提取流程如圖1所示,首先對取沖擊聲信號的進(jìn)行降噪和端點檢測,然后獲取灰度聲譜圖,利用偽彩色映射將其轉(zhuǎn)換為彩色聲譜圖,增加聲譜圖細(xì)節(jié)表現(xiàn)力,然后對其分塊,最后計算各塊局部圖像的k階中心矩作為聲譜圖特征。并將這種特征與MFCC等傳統(tǒng)特征進(jìn)行比較,評價特征性能。
1 聲譜圖的生成
1.1 沖擊聲的預(yù)處理
在利用聲譜圖提取聲音特征,信號的無聲段和噪聲都會影響特征的性能,無聲段會影響聲信號在聲譜圖中的位置,而噪聲將會湮沒信號的部分信息,因此在產(chǎn)生聲譜圖之前需要進(jìn)行降噪和無聲段檢測。本文著重從噪聲對識別精度方面來分析特征的性能,因此這里只對端點檢測技術(shù)進(jìn)行敘述。如圖2所示,沖擊聲在起始點附近會有一個極大的峰值,然后迅速衰減為0,本文利用沖擊聲的這個性質(zhì)進(jìn)行端點檢測。取每30 ms為一幀(這個長度包含從無聲段到最大值的變化的時間范圍),計算每幀的能量,求這些幀的能量與最開始的一幀的平均能量的比值,當(dāng)比值大于設(shè)定的閾值[c0]時,即認(rèn)為該幀包含沖擊聲的起始點,當(dāng)比值小于設(shè)定閾值[c1]時認(rèn)為該幀包含生信號的結(jié)束點。
1.2 聲譜圖的生成
聲譜圖是一類按照頻率和時間對聲音進(jìn)行二維可視化得到的圖像。按照頻率的種類,有如下幾類聲譜圖:短時傅里葉變換時頻圖、gammatone濾波器組聲譜圖、梅爾頻率聲譜圖、小波變換尺度圖。
本文以短時傅里葉變換時頻圖為對象提取特征,其生成過程如下。
設(shè)沖擊聲的離散時域采樣信號為[x(n)],采樣頻率為[fs],n為時域采樣點序列,[n=0,1,2,…,N-1],N為信號長度。對信號分幀處理得[xn(m),m=0,1,…,M-1],其中n是幀序號;m是幀同步時間序號;M為幀長(1幀內(nèi)的采樣點數(shù));于是信號的短時離散傅里葉變換定義
[X(n,k)=m=0M-1xn(m)w(m)e-j2πkm] (1)
式中:[0≤k≤N-1];[wm,m=1,2,…,][M-1]為窗函數(shù)。[X(n,k)]為[x(n)]的短時幅度譜估計,取[f=k?fs],[t=n?Ts],有[Slin(f,t)=X(n,k)],將其以灰度圖像表現(xiàn)出來即得到聲譜圖,這種聲譜圖也叫幅度譜圖,當(dāng)取[Slin(f,t)=X(n,k)2]時,得到能量譜圖,如圖3所示,為玻璃板沖擊聲的聲譜圖。
1.3 聲譜圖的預(yù)處理
使用聲譜圖提取特征時,通常要根據(jù)使用的方法需求對聲譜圖進(jìn)行預(yù)處理,將聲譜圖映射到[0,1]區(qū)間時,聲譜圖中的某些異常大的點將會將其他的點的灰度值往0附近擠壓,這樣會造成偽彩色變換時對比度的下降。因此本文設(shè)計了一種對數(shù)映射方法,式(2),對聲譜圖進(jìn)行預(yù)處理,降低異常點對對比度的影響。圖3是對聲譜圖進(jìn)行預(yù)處理前后的效果圖,可以看出預(yù)處理后的能量譜變得更加清晰。
[S(f,t)=log(Slin(f,t)+e)-1] (2)
2 基于偽彩色映射的聲譜圖特征提取
2.1 偽彩色處理
偽彩色處理是將灰度圖像線性或非線性映射到一定的調(diào)色板上,以達(dá)到彩色顯示效果的處理方式。由于人眼對彩色的分辨率遠(yuǎn)遠(yuǎn)高于對灰度的分辨率,所以可用于識別灰度較小的像素。偽彩色處理的關(guān)鍵在于調(diào)色板的編碼方式,常用的RGB空間的編碼方式有兩種:灰度分割法和空間域?彩色變換法?;叶确指罘ㄆ鋵D像灰度值劃分若干段,每一段對應(yīng)一種顏色,其形成的色彩是不連續(xù)的,這將丟失聲譜圖上很多細(xì)節(jié)信息。空間域?彩色變換法,通過紅、綠、藍(lán)(RGB)三個顏色映射[qc(x),c∈(red,blue,green)]將每個像素灰度值對應(yīng)到紅、綠、藍(lán)(RGB)色彩空間三個分量,從而只要保證映射函數(shù)的連續(xù)性,彩色編碼就是連續(xù)的[6]。如圖4所示本文采用JET映射進(jìn)行偽彩色處理。
首先,將聲譜圖[S(f,t)]按照式(3)進(jìn)行歸一化,使其灰度變化范圍為[0,1],得到歸一化后的圖像[I(x,y)]。
[I(x=f,y=t)=S(f,t)-min(S(f,t))max(S(f,t))-min(S(f,t))] (3)
然后將用使用三元色映射[qc(x)]將[I(x,y)]映射
到RGB多色空間,得到[mc(x,y)]。
[mc(x,y)=qc(I(x,y)),?c∈(r,g,b)] (4)
[qc(I(x,y))=I(x,y)-l1l2-l1, l1
這里[l1,l2,u1,u2]的取值不同將得到不同的偽彩色映射,當(dāng)取[r=38,58,78,98],[g=18,38,58,78],[b=-18,18,38,58]為JET映射,其函數(shù)如圖4所示。
2.2 基于偽彩色聲譜圖的特征提取的方法
首先將聲譜圖進(jìn)行分塊,如圖5所示,沿著圖像的x軸化分為[Dx]份,y軸分為[Dy]份,整幅圖像可以得到[Dx×Dy]個局部塊,每一個小塊表示為[Lij]。將每個局部區(qū)域[Lij]看為一個隨機(jī)變量,則其中的每個像素可以看做隨機(jī)變量的一個樣本,這樣就可以用[Lij]的統(tǒng)計參數(shù)來描述聲譜圖的局部區(qū)域,這里采用多個k階中心矩來描述[Lij],如式(6)所示。
[xki,j=E[Li,j], k=1E[(Li,j-E[Li,j])k], k=2,3,...] (6)
當(dāng)是彩色圖像時,分別對三個顏色分量做同樣的處理,計算同樣的局部k階矩,然后將所有的結(jié)果依次排列成向量,即得到彩色聲譜圖的特征向量。如圖5所示的分塊,當(dāng)選擇[k=1,k=2],得到特征向量的維數(shù)為[3*Dx*Dy*2=54]。在完成所有樣本的特征變量的計算后,使用主成份分析(PCA)進(jìn)行降維。
3 實驗結(jié)果與分析
3.1 沖擊聲樣本的獲取
本文以板材沖擊聲為對象進(jìn)行實驗,為了更好地評價彩色聲譜圖特征對沖擊聲的識別效果,這里使用兩種不同的聲樣本進(jìn)行實驗:虛擬板材沖擊聲與真實板材沖擊聲。使用虛擬沖擊聲有兩個好處:
(1) 可以得到任意參數(shù)的板材沖擊聲樣本,這樣可以得到非常相似的聲樣本;
(2) 可以控制單一變量進(jìn)行設(shè)計實驗,可以驗證特征對材料的哪些屬性有效。由于虛擬沖擊聲忽略了一些諧波,最后需要通過真實材料沖擊聲對實驗結(jié)果進(jìn)行驗證。
虛擬沖擊聲:隨機(jī)選擇3個阻尼系數(shù),分為3類,A類0.795區(qū)性2,B類0.765 2,C類0.823 4,采樣頻率為10 kHz,每類板材樣本30個。
實驗錄取沖擊聲:選擇玻璃板、木板、鋁板三種材料,獲取消聲室、混響室、教室三種條件下的聲樣本,采樣率為65.536 kHz,每類板材樣本30個。
3.2 實驗參數(shù)設(shè)置
圖像分塊的數(shù)目和k階矩與個數(shù)的選擇,都會影響實驗的結(jié)果,通過實驗選擇最優(yōu)的參數(shù),取[Dx=9,Dy=9,k=1,k=2],PCA閾值設(shè)置為0.99。
本文以支持向量機(jī)作為分類器,采用10次十字交叉驗證法和100次蒙特卡羅方法獲得平均識別率,訓(xùn)練樣本和測試樣本數(shù)如表1所示。
3.3 實驗結(jié)果對比及分析
為了充分評價特征的性能,以幅度聲譜圖和能量聲譜圖為原始聲譜圖,分別將預(yù)處理前后彩色特征和灰度特征的分類性能相比較,再將彩色特征與MFCC等傳統(tǒng)聲學(xué)特征進(jìn)行比較。
由表2和表3可以看出,無論是幅度譜圖和能量譜圖,基于偽彩色映射的聲譜圖特征在各個噪聲環(huán)境下識別率均優(yōu)于灰度圖特征,證明偽彩色變換顯著地提高了灰度聲譜圖的表現(xiàn)力。經(jīng)過log映射處理后的聲譜圖的在搞信噪比(大于20 dB)情況下優(yōu)于未經(jīng)過預(yù)處理的聲譜圖,這是因為log映射處理后的聲譜圖相對于未處理的情況,增加了聲譜圖的對比度[7],如圖6所示,(b)中的各個灰度級的頻率比(a)中的要更均衡,因此在高信噪比下,均優(yōu)于未處理的情況。而當(dāng)在低信噪比(0 dB)時,由于噪聲的污染,聲譜圖中信息體現(xiàn)在高亮度點上,而log映射降低了高亮度的點在聲譜圖中的表現(xiàn)力,因此log聲譜圖的性能低于未處理的聲譜圖。
4 結(jié) 語
本文在分析沖擊聲信號的時頻特性的基礎(chǔ)上,提出一種基于聲譜圖的特征提取方法。該方法采用偽彩色映射將聲譜圖映射為偽彩色圖,提高聲譜圖細(xì)節(jié)分辨率,然后對聲譜圖分塊計算局部k階矩作為特征。實驗中采用三種虛擬材料和真實材料的沖擊聲作為目標(biāo)對象,驗證了基于聲譜圖特征的對于沖擊聲的有效性,結(jié)果表明該特征對板材沖擊聲具有較好的識別效果,尤其在低信噪比下,該方法具有較好的噪聲穩(wěn)健性。
參考文獻(xiàn)
[1] 張冰瑞.沖擊聲的特征提取及其在聲源材料識別中的應(yīng)用[J].噪聲與震動控制,2012(S1):152?156.
[2] LAMPERT T A. On the detection of tracks in spectrogram images [J]. Pattern Recognition, 2013, 46: 1396?1408.
[3] 梁澤.一種基于脈沖耦合神經(jīng)網(wǎng)絡(luò)的語音情感識別新方法[J].計算機(jī)應(yīng)用,2008,28(3):710?713.
[4] 何佳若,曾向陽.聲信號的可視化特征提取方法[J].數(shù)字信號處理,2011,35(7):61?74.
[5] SAMEH Souli, LACHIRI Zied. Multiclass wupport vector machines for environmental sounds classification in visual domain based on log?gabor filters [J]. International Journal of Speech Technol, 2013, 16: 203?213.
[6] 李全越,王芳.偽彩色圖像在醫(yī)學(xué)上的應(yīng)用[J].微計算機(jī)信息,2008(3):299?300.
[7] RAFAEL C. Gonzalez digital image processing second edition [M].北京:電子工業(yè)出版社,2009.