張 勇, 張 溯, 王旭東, 路 陽, 王 臣
(1. 東北石油大學(xué) a. 電子科學(xué)學(xué)院; b. 黑龍江省網(wǎng)絡(luò)化與智能控制重點實驗室, 黑龍江 大慶 163318;2. 大慶油田有限責(zé)任公司第一采油廠 儀表安裝維修大隊, 黑龍江 大慶 163453;3. 黑龍江八一農(nóng)墾大學(xué) 電氣與信息學(xué)院, 黑龍江 大慶 163319)
隨著計算機科學(xué)與人工智能的飛速發(fā)展, 人們對聲音的研究變得越來越深入, 同時將語音作為信號的一種, 進行數(shù)字化處理, 逐步發(fā)展出龐大的學(xué)科體系[1]。經(jīng)過多年的探索, 對語音的研究已經(jīng)無法滿足人類社會的需求, 人們的目光開始轉(zhuǎn)向了非語音的環(huán)境聲音, 并從中可獲取大量有價值的信息。對其所處場景的研究可以幫助人們從海量的數(shù)據(jù)中抽取有用的信息, 并應(yīng)用于現(xiàn)代農(nóng)業(yè)、 地質(zhì)勘探、 軍事科研等領(lǐng)域[2], 具有十分重要的意義。
當(dāng)前對場景音頻的分析可以從時域、 頻域兩方面入手。在時域分析方面, 無論待分析的場景音頻是數(shù)字量還是模擬量, 以時間為自變量的時域信號都是其原有的表達形式。時域分析的波形簡潔易懂, 但含有的有效信息較少, 常選取的特征有過零率、 短時能量和自相關(guān)函數(shù)等。而頻域分析則包含了更多的感知性能和聲學(xué)特征, 對外界環(huán)境變化的抗干擾能力和適應(yīng)性更強, 其中使用最廣泛的聲學(xué)特征是梅爾頻率倒譜系數(shù)(MFCC: Mel Frequency Cepstrum Coefficient)[3]。它結(jié)合了人耳的聽覺特征和語音產(chǎn)生原理, 與頻率呈非線性對應(yīng)關(guān)系, 對結(jié)構(gòu)性突出的音頻(比如語音)有著出色的刻畫能力。但是場景音頻一般時長較長, 頻率變化比語音音頻劇烈得多, 在非平穩(wěn)態(tài)噪聲條件下, 性能會急劇下降, 影響聲學(xué)特征的提取[4]。如果使用短時特征, 就不能完整的刻畫出場景音頻的聲學(xué)特征; 如果使用長時統(tǒng)計值, 會造成特征的局部結(jié)構(gòu)性信息的丟失[5]。時域信號和頻域信號都是一維信號, 如果將這兩者聯(lián)合, 將時間和頻率同時作為自變量, 而將對應(yīng)的能量值當(dāng)作因變量, 這既可反映音頻信號的長時特征, 也能反映其局部特性, 使場景音頻的時頻域特征得到完整的保留。
筆者通過對場景音頻的時頻域特征進行提取, 得到待分析信號的語譜圖, 對于其中涉及到的重要參數(shù)進行調(diào)整, 使其中的聲學(xué)特征得到完整保留, 使語譜圖的表現(xiàn)效果達到最佳狀態(tài), 進而可應(yīng)用于場景音頻的分類處理及模式識別等研究方向[6]。
語譜圖是一種可視化語言, 能描述聲音時間-頻率-頻譜能量密度的變化, 被廣泛應(yīng)用于音頻識別及去噪領(lǐng)域[7,8]。語譜圖的顯示簡潔明了, 灰度語譜圖上會用深淺不同的黑灰色條紋呈現(xiàn)出有規(guī)律的形狀, 即聲紋, 它反映音頻信號的變化規(guī)律。語譜圖的橫坐標(biāo)為時間, 縱坐標(biāo)為頻率, 而對應(yīng)點的顏色深淺則表示在該時間、 頻率上頻譜能量的大小[9]。
繪制語譜圖的核心思想是假設(shè)音頻信號在一定時間內(nèi)是穩(wěn)定的, 對音頻信號進行分段, 將每段音頻當(dāng)做平穩(wěn)時間信號處理。關(guān)鍵算法為短時傅立葉變換(STFT: Short Time Fourier Transform)和離散傅里葉變換(DFT: Discrete Fourier Transformation)。STFT又叫窗式傅里葉變換, 它將非平穩(wěn)過程看成是一系列短時平穩(wěn)信號的疊加, 短時性可通過在時間上加窗實現(xiàn)??焖俑道锶~變換為離散傅里葉變換的一種快速高效的算法, 因此一般在實際操作時, 使用快速傅里葉變換。
假設(shè)離散時域信號為x(n),n=0,1,…,N-1, 其中n為時域采樣點序號,N是信號長度。然后對信號進行分幀處理, 則x(n)表示為xq(m),q=0,1,…,Q-1, 其中q是幀序號,m是幀同步的時間序號,Q為幀長(一幀內(nèi)的采樣點數(shù))。信號x(n)的STFT為
(1)
其中w(q)為窗序列[10], 則信號x(n)的離散時間傅里葉變換(DTFT: Discrete Time Fourier Transform)為
(2)
DTF由DTFT采樣得到, 采用DFT, 則x(n)的短時幅度譜估計為
(3)
假設(shè)信號x(n)的傅里葉變換為X(w), 則x(n)的自相關(guān)函數(shù)的傅里葉變換可以表示為X(q)與共軛變換conj(X(q))的乘積[11]。則時間m處的頻譜能量密度函數(shù)P(q,k)可表示為
(4)
頻譜能量密度函數(shù)P(q,k)的分貝(dB)表示為
P(q,k)(dB)=10Log10(P(q,k))
(5)
其中以q為橫坐標(biāo),k為縱坐標(biāo), 以P(q,k)(dB)為表示對應(yīng)點上的灰度值, 所得的二維圖像就是時間信號x(n)的語譜圖。
加窗是對音頻進行語譜圖提取過程中的重要步驟。當(dāng)使用軟件對音頻信號進行分析和處理時, 不可能使用無限長的音頻信號, 而是要截取部分有效的片段進行操作。因此, 需從待分析音頻中截取一個片段, 對該片段進行周期延拓處理, 從而得到虛擬的無限長的音頻信號, 就可以對該信號進行分析和處理。無限長的音頻信號被截斷以后, 其頻譜會發(fā)畸變, 從而造成頻譜能量泄露。為減少頻譜能量泄漏, 可采用不同的截取函數(shù)對信號進行截斷[12], 截斷函數(shù)稱為窗函數(shù), 簡稱為窗。
不同的窗函數(shù)對信號頻譜的影響不同, 控制頻譜能量泄漏的能力不同, 頻率識別精度和幅值識別精度也不同。對于場景音頻, 一般其頻譜表現(xiàn)都十分復(fù)雜, 包含多個頻率分量, 周期性較差, 隨機性較強, 因此在窗函數(shù)的選擇方面, 需遵循主瓣寬度窄, 旁瓣衰減速度快的原則[13]。在這種情況下, 漢寧窗(Hanning)和海明窗(Hamming)都是不錯的選擇。
漢寧窗又被稱為升余弦窗[14], 可將其看為3個矩形時間窗的頻譜和, 它可使旁瓣互相抵消, 衰減速度較快, 可消除干擾和能量泄漏。其表達式為
(6)
其中whn(n,τ)表示窗函數(shù),n=1,2,3,…,Nwin,n為窗函數(shù)采樣點序號,τ表示窗的中間位置,Nwin為窗長。漢寧窗輸出的波形圖如圖1所示。
海明窗也是余弦窗的一種, 又被稱為改進的升余弦窗, 漢寧窗和海明窗都是升余弦窗, 只是加權(quán)系數(shù)不同, 海明窗的加權(quán)系數(shù)能使旁瓣達到更小。其表達式為
(7)
其中whm(n,τ)表示窗函數(shù),n=1,2,3,…,Nwin,n為窗函數(shù)采樣點序號,τ表示窗的中間位置,Nwin為窗長。海明窗輸出的波形圖如圖2所示。
圖1 漢寧窗波形圖 圖2 海明窗波形圖 Fig.1 The waveform of hanning window Fig.2 The waveform of hamming window
圖3 語譜圖提取流程圖Fig.3 The flow chart of the extraction of spectrogram
語譜圖提取流程如圖3所示。該過程的具體算法及操作步驟:
1) 在Matlab中, 使用wavread函數(shù)讀取待分析場景音頻, 并將音頻數(shù)據(jù)賦值給Sg, 將采樣率賦值給Fs;
2) 設(shè)置窗長Nwin和幀移Nshift, 根據(jù)窗長及信號長度確定分幀數(shù)n, 考慮到后續(xù)步驟中FFT的使用,Nwin最好設(shè)置為2的冪次[15], 若128/256/512/1 024, 本實驗中選取1 024, 取得了較好效果, 幀移的選擇影響時域分辨率和計算量[16], 則幀移Nshift可設(shè)置為窗長的二分之一;
3) 生成一個空矩陣A, 矩陣大小為n(1/2Nwin+1);
4) 對音頻信號Sg進行分幀處理, 假設(shè)Si為第i幀信號的數(shù)據(jù);
5) 對Si進行加窗處理, 窗函數(shù)的選擇參考前文1.2;
6) 對加窗后的數(shù)據(jù)進行快速傅里葉變換, 即FFT, 變換后的數(shù)據(jù)用Zi表示;
8) 將第i幀的頻譜能量密度Pi數(shù)據(jù)賦值給矩陣A的第i列;
9) 滑動窗向右移動Nshift個采樣點, 獲得第i+1幀個音頻信號數(shù)據(jù)Si+1, 重復(fù)步驟4)~8), 直到處理完所有分幀數(shù)據(jù);
10) 將矩陣A映射為灰度圖, 得到原始音頻信號的語譜圖。
對本實驗所需的場景音頻數(shù)據(jù), 可通過兩種方式獲?。?1) 使用麥克風(fēng)及聲卡自行收集; 2) 從網(wǎng)絡(luò)上的開源數(shù)據(jù)庫中獲取所需音頻數(shù)據(jù)。本次實驗的場景音頻通過網(wǎng)絡(luò)數(shù)據(jù)庫下載獲得, 共11個場景, 具體場景如圖4所示。
圖4 收集到的11種場景音頻Fig.4 The collected 11 scene audio
獲得場景音頻后, 通過Adobe Audition軟件對音頻進行剪輯, 音頻長度均不超過30 s, 單聲道, 采樣率為44 100 Hz。
在對場景音頻提取語譜圖的過程中, 由于設(shè)置的窗長不同, 可將語譜圖分為寬帶語譜圖和窄帶語譜圖兩種。寬帶語譜圖的窗長較短, 時間分辨率好, 頻率分辨率低, 不能反映出聲音的紋理特性。窄帶語譜圖的窗長較長, 頻率分辨率好, 但時間分辨率不理想。圖5~圖10分別給出籃球場、 海灘和高速公路3個場景的音頻寬帶語譜圖和窄帶語譜圖。
由圖5~圖10可見, 每個對應(yīng)點的值表示對應(yīng)時間和頻率上的頻譜能量密度, 實際效果為頻譜能量密度越大的點, 顏色越深??梢钥闯? 場景音頻語譜圖包含著豐富的紋理信息, 其中有與頻率軸平行的豎直條紋, 由若干點組成的有規(guī)律的散沙狀圖案, 以及一些單獨的沒有特定規(guī)則的條紋。這些條紋及形狀可以將其理解為場景音頻中的聲學(xué)事件在語譜圖上的具體表現(xiàn)。
根據(jù)對圖5、 圖7和圖9的觀察可見, 寬帶語譜圖雖然時間方面的分辨率較強, 但無法將聲學(xué)事件完整提取, 很難在語譜圖上直觀表現(xiàn)出場景音頻的聲學(xué)特性。而圖6、 圖8和圖10等窄帶語譜圖則將場景音頻中的聲學(xué)事件完整的提取出來, 表達了聲學(xué)事件具有的重復(fù)性、 連貫性以及趨勢等。圖6中的有規(guī)律的豎條紋為籃球拍擊地面的聲音, 若干個這樣的聲學(xué)事件組成了一個完整的籃球場場景音頻。圖8海灘場景語譜圖則很好的將連貫的海浪聲和比海浪聲音略高頻的海鷗叫聲這兩個聲學(xué)事件完整提取。圖10高速公路場景語譜圖則完整的反映了高速路上車輛轟鳴聲由遠及近的聲學(xué)事件。
圖5 籃球場場景音頻寬帶語譜圖顯示 圖6 籃球場場景音頻窄帶語譜圖顯示 Fig.5 The basketball court scene audio wideband spectrogram display Fig.6 The basketball court scene audio narrowband spectrogram display
圖7 海灘場景音頻寬帶語譜圖顯示 圖8 海灘場景音頻窄帶語譜圖顯示 Fig.7 The beach scene audio wideband spectrogram display Fig.8 The beach scene audio narrowband spectrogram display
圖9 高速公路場景音頻寬帶語譜圖顯示 圖10 高速公路場景音頻窄帶語譜圖顯示 Fig.9 The highway scene audio wideband spectrogram display Fig.10 The highway scene audio narrowband spectrogram display
當(dāng)前用于場景類音頻的聲學(xué)分析方式均存在不足, 使用時頻域特征分析更加適合場景音頻, 語譜圖分析能夠反映待分析信號的時頻域特征。筆者提出了一種使用語譜圖對場景音頻進行分析的方法, 闡述了語譜圖的產(chǎn)生機制以及提取語譜圖的基本流程, 并給出具體算法。對操作過程中窗函數(shù)的選擇、 提取過程中的注意事項進行了簡要分析, 并給出參考性意見。最后對不同場景的音頻進行語譜圖提取, 分別得到其寬帶語譜圖及窄帶語譜圖, 并分析了窗長對于音頻場景語譜圖提取效果的影響, 得出了對于場景音頻分析, 更適合使用窄帶語譜圖的結(jié)論。筆者的研究內(nèi)容有助于完整提取待分析信號的聲學(xué)特征, 加深對于場景音頻分析和處理的研究, 可應(yīng)用于場景音頻的識別和分類, 具有一定的科學(xué)意義和參考價值。
參考文獻:
[1]陳瑩, 鐘菲, 郭樹旭, 等. 基于塊對角結(jié)構(gòu)的語音信號盲壓縮重構(gòu) [J]. 吉林大學(xué)學(xué)報: 信息科學(xué)版, 2016, 34(4): 491-495.
CHEN Ying, ZHONG Fei, GUO Shuxu, et al. Blind Compressed Sensing Reconstruction of Speech Signal Based on Block Diagonal Structure [J]. Journal of Jilin University: Information Science Edition, 2016, 34(4): 491-495.
[2]王霏, 何東超, 李月. 陸地地震勘探環(huán)境噪聲的混沌性建模研究 [J]. 吉林大學(xué)學(xué)報: 信息科學(xué)版, 2016, 34(3): 320-326.
WANG Fei, HE Dongchao, LI Yue. Modeling Study of Chaotic Ambient Noise in Land Seismic Exploration [J]. Journal of Jilin University: Information Science Edition, 2016, 34(3): 320-326.
[3]李姍, 徐瓏婷. 基于語譜圖提取瓶頸特征的情感識別算法研究 [J]. 計算機技術(shù)與發(fā)展, 2017, 27(5): 82-86.
LI Shan, XU Longting. Research on Emotion Recognition Algorithm Based on Spectrogram Feature Extraction of Bottleneck Feature [J]. Computer Technology and Development, 2017, 27(5): 82-86.
[4]尚永強, 殷未來, 姜雙雙, 等. 基于相位調(diào)制特征的語音活動檢測 [J]. 吉林大學(xué)學(xué)報: 信息科學(xué)版, 2016, 34(1): 29-33.
SHANG Yongqiang, YIN Weilai, JIANG Shuangshuang, et al. Voice Activity Detection Based on Phase Modulation Feature [J]. Journal of Jilin University: Information Science Edition, 2016, 34(1): 29-33.
[5]王乃峰. 基于深層神經(jīng)網(wǎng)絡(luò)的音頻特征提取及場景識別研究 [D]. 哈爾濱: 哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院, 2015.
WANG Naifeng. Research on Audio Feature Extraction and Context Recognition Based on Deep Neural Networks [D]. Harbin: School of Computer Science and Technology, Harbin Institute of Technology, 2015.
[6]PEERAPOL KHUNARSAL, CHIDCHANOK LURSINSAP, THANAPANT RAICHAROEN. Very Short Time Environmental Sound Classification Based on Spectrogram Pattern Matching [J]. Information Sciences, 2013, 243: 57-74.
[7]蔣錦剛, 邵小云, 萬海波, 等. 基于語譜圖特征信息分割提取的聲景觀中鳥類生物多樣性分析 [J]. 生態(tài)學(xué)報, 2016, 36(23): 7713-7723.
JIANG Jingang, SHAO Xiaoyun, WAN Haibo, et al. Bird diversity Research Using Audio Record Files and the Spectrogram Segmentation Method [J]. Acta Ecologica Sinica, 2016, 36(23): 7713-7723.
[8]鄭黨, 鮑鴻, 張晶. 基于小波語譜圖分析的語音去噪技術(shù) [J]. 計算機工程與應(yīng)用, 2016, 52(4): 94-98.
ZHENG Dang, BAO Hong, ZHANG Jing. Speech De-Noising Technology Based on Wavelet-Speech Spectrogram [J]. Computer Engineering and Applications, 2016, 52(4): 94-98.
[9]THOMAS A LAMPERT, SIMON E M O’KEEFE. A Survey of Spectrogram Track Detection Algorithms [J]. Applied Acoustics, 2010, 71(2): 87-100.
[10]LI Jiarui, HONG Ying. Wheeze Detecting Method Based on Spectrogram Entropy Analysis [J]. Chinses Journal of Acoustics, 2016, 35(4): 508-515.
[11]李富強, 萬紅, 黃俊杰. 基于MATLAB的語譜圖顯示與分析 [J]. 微計算機信息, 2005, 21(20): 172-174.
LI Fuqiang, WAN Hong, HUANG Junjie. The Display and Analysis of Sonogram Based on MATLAB [J]. Microcomputer Information, 2005, 21(20): 172-174.
[12]崔璨, 袁英才. 窗函數(shù)在信號處理中的應(yīng)用 [J]. 北京印刷學(xué)院學(xué)報, 2014, 22(4): 71-77.
CUI Can, YUAN Yingcai. Application of Window Function in Signal Processing [J]. Journal of Beijing Institute of Graphic Communication, 2014, 22(4): 71-77.
[13]毛青春, 徐分亮. 窗函數(shù)及其應(yīng)用 [J]. 中國水運, 2007, 7(2): 230-232.
MAO Qingchun, XU Fenliang. The Window’s Function and it’s Application [J]. China Water Transport, 2007, 7(2): 230-232.
[14]王愛娟, 邢艷秋, 邱賽, 等. 基于窗函數(shù)的林區(qū)ICESat-GLAS波形數(shù)據(jù)消噪研究 [J]. 西北林學(xué)院學(xué)報, 2016, 31(1): 214-220.
WANG Aijuan, XING Yanqiu, QIU Sai, et al. Denoising of Forest ICESat-GLAS Waveform Data Based on Window Function [J]. Journal of Northwest Forestry University, 2016, 31(1): 214-220.
[15]楊春風(fēng). 基于語譜圖的音頻數(shù)字水印算法 [D]. 蘭州: 西北師范大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院, 2009.
YANG Chunfeng. Audio Digital Watermarking Algorithm Based on Spectrogram [D]. Lanzhou: College of Mathematics and Statistics, Northwest Normal University, 2009.
[16]肖純智, 孫大飛, 高勇. 一種基于語譜圖分析的語音增強算法 [J]. 電聲技術(shù), 2012, 36(9): 44-48.
XIAO Chunzhi, SUN Dafei, GAO Yong. A Speech Enhancement Algorithm Based on Speech Spectrogram [J]. Audio Engineering, 2012, 36(9): 44-48.