孫學(xué)明,張大華,周志全,趙張美,胡榮磊
(北京電子科技學(xué)院,北京 100070)
激光麥克風(fēng)是以激光為載波遠(yuǎn)程捕獲聲音的設(shè)備,由于其非接觸、無損傷、隱蔽性強(qiáng)等優(yōu)勢(shì),在軍事、公共安全等領(lǐng)域有廣泛應(yīng)用。其基本原理是通過激光遠(yuǎn)程檢測(cè)目標(biāo)物體因聲波激勵(lì)而產(chǎn)生的微振動(dòng),再將微振動(dòng)還原為聲音。激光麥克風(fēng)最早出現(xiàn)于20世紀(jì)80年代的美國(guó)[1],由激光發(fā)射器、接收器和信息處理模塊組成,室內(nèi)談話激勵(lì)窗戶玻璃產(chǎn)生微振動(dòng),監(jiān)聽者以激光照射窗玻璃,反射光就攜帶了該振動(dòng)信息,經(jīng)接收器處理后就可以還原室內(nèi)談話。但該激光麥克風(fēng)要求鏡面反射,易受激光收發(fā)模塊位置、反射物體表面平整度等條件限制,后被基于多普勒效應(yīng)和光外差干涉的激光麥克風(fēng)替代[2-],不受目標(biāo)物體反射面限制且靈敏度高,是目前激光麥克風(fēng)的主流。近年來,隨著機(jī)器視覺技術(shù)的發(fā)展,又出現(xiàn)了一種基于激光散斑測(cè)量的視覺激光麥克風(fēng),利用高速攝像機(jī)記錄聲場(chǎng)中目標(biāo)物體表面的激光散斑動(dòng)態(tài)變化,從激光散斑視頻中提取目標(biāo)物體微振動(dòng)信息,實(shí)現(xiàn)語(yǔ)音重建[7]。它的優(yōu)點(diǎn)是結(jié)構(gòu)簡(jiǎn)單,便于模塊化,對(duì)大氣波動(dòng)不敏感,可以同時(shí)從多點(diǎn)提取聲音,缺點(diǎn)是計(jì)算量大,提取時(shí)間取決于算法,并且重建語(yǔ)音質(zhì)量受散斑顆粒大小與強(qiáng)度分布的影響。目前視覺激光麥克風(fēng)的語(yǔ)音提取算法主要分為兩類:一類是利用模板匹配、質(zhì)心跟蹤等方法計(jì)算像素位移[8-10],另一類方法是利用圖像中像素灰度值的大小或方差變化提取語(yǔ)音信息[11-13]。文獻(xiàn)[8]比較了基于高速視覺的振動(dòng)測(cè)量與多普勒測(cè)振儀的優(yōu)缺點(diǎn)和局限性,對(duì)兩者在短距離和中長(zhǎng)距離的靈敏度和適應(yīng)性做了詳細(xì)對(duì)比,證實(shí)高速視覺測(cè)振比多普勒測(cè)振儀靈敏度低但在數(shù)據(jù)采集方面具有優(yōu)勢(shì)。文獻(xiàn)[9]~[10]研究了數(shù)字散斑相關(guān)方法測(cè)量物體表面振動(dòng)誤差最小時(shí)的最佳散斑圖案模板尺寸,得出最佳模板尺寸在 30×30 像素到 100×100 像素的范圍內(nèi)。文獻(xiàn)[11]提出了使用自適應(yīng)選擇種子點(diǎn)的像素灰度變化來恢復(fù)振動(dòng)信息和音頻信號(hào),并將多個(gè)種子點(diǎn)的信息有效地融合在一起的新模型。文獻(xiàn)[12]提出了基于像素灰度的方差從散斑圖案中恢復(fù)聲音,該方法允許從散斑圖案的一個(gè)小區(qū)域中選擇適當(dāng)?shù)南袼?但要求這些像素灰度值在振動(dòng)方向上呈線性分布。文獻(xiàn)[13]應(yīng)用光流法計(jì)算相鄰兩幀散斑圖像之間位移實(shí)時(shí)恢復(fù)聲音,但受數(shù)據(jù)采集時(shí)間與算法限制,只能實(shí)時(shí)恢復(fù)500Hz以下的音頻信號(hào)。除此之外,還出現(xiàn)了只依靠圖像紋理變化提取聲音信號(hào)的視覺麥克風(fēng)[14-15],但是文獻(xiàn)[14]方法復(fù)雜,計(jì)算成本很高。文獻(xiàn)[15]利用奇異值分解得到了音頻信號(hào),但沒能給出合理的物理解釋。文獻(xiàn)[16]比較了過去出現(xiàn)的6種方法,但都是視頻后處理方式。針對(duì)以上情況,本文提出應(yīng)用傳統(tǒng)的PCA法從高速激光散斑視頻中提取語(yǔ)音信息,PCA法對(duì)像素選擇沒有過多限制,計(jì)算成本低,極大縮短了音頻提取時(shí)間。而且可以選取視頻前期部分圖像數(shù)據(jù),快速提取含有語(yǔ)音信息的主成分投影基,后續(xù)散斑圖像直接在該方向投影即可實(shí)時(shí)獲取語(yǔ)音信號(hào)。
激光照射粗糙物體表面時(shí),散射光因隨機(jī)干涉在空間分布上形成明暗變化的顆粒圖樣,稱為激光散斑。當(dāng)物體受聲波激勵(lì)產(chǎn)生微振動(dòng)時(shí),激光散斑也會(huì)隨物體形變發(fā)生人眼不易覺察的形變或位移。利用高速攝像機(jī)記錄散斑的動(dòng)態(tài)變化,體現(xiàn)在每幀圖像上就是像素點(diǎn)的灰度隨時(shí)間不斷變化,當(dāng)散斑顆粒大小滿足一定條件時(shí),部分像素點(diǎn)的灰度變化與聲源的振動(dòng)線性相關(guān),只要能夠找到這些像素點(diǎn)并計(jì)算出其灰度的時(shí)變,就可以提取聲源的振動(dòng)信息,重建語(yǔ)音信號(hào)。然而,由于激光散斑的隨機(jī)性,當(dāng)散斑圖案因振動(dòng)而變化時(shí),圖案的像素灰度變化有三種可能情況:或正或負(fù),或者還有的根本沒有明顯變化。所以要從大量像素中選擇性的挑出灰度線性變化且幅值較大的像素點(diǎn)并非易事,如文獻(xiàn)[1]通過復(fù)雜的模型在空間上自適應(yīng)選擇的種子點(diǎn)的強(qiáng)度變化,將多個(gè)種子點(diǎn)的信息有效地融合一起再來恢復(fù)振動(dòng)信息和音頻信號(hào)。文獻(xiàn)[12]通過在時(shí)間上計(jì)算相同像素點(diǎn)的灰度值方差變化并排序,最終融合相關(guān)性較大的部分像素點(diǎn),根據(jù)它們的像素灰度變化重建音頻信號(hào)。然而這些尋找種子像素點(diǎn)的過程本身就是要耗時(shí)的。本文提出PCA提取語(yǔ)音信號(hào)無需此過程,不僅能夠直接得到散斑圖像灰度的最大方差變化,還可以利用部分視頻圖像提取主成分空間含有語(yǔ)音信息分量的投影基矢量,實(shí)現(xiàn)語(yǔ)音信號(hào)的快速提取。
PCA是機(jī)器學(xué)習(xí)中的一種常見數(shù)據(jù)分析方式,可以提取數(shù)據(jù)的主要特征分量,常用于高維數(shù)據(jù)的降維,基本思想是通過正交化線性變換將高維數(shù)據(jù)映射到低維子空間而不丟失太多信息,目的是去除噪音和冗余,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)[17]。低維子空間的向量就是主成分,它是原有高維數(shù)據(jù)在新坐標(biāo)系中的投影,第一主成分就是使原始數(shù)據(jù)方差最大的投影,第二主成分是方差次之與第一主成分正交的坐標(biāo)軸上的投影,其他主成分依次類推。PCA法從激光散斑視頻中提取聲音的目的不是降維,而是從方差較大的主成分中尋找含有語(yǔ)音信息的分量?;舅枷胧菍⒓す馍咭曨l中的每幀子圖像視為高維空間中的一點(diǎn),子圖像的像素?cái)?shù)就是高維空間的維度,像素灰度表示該點(diǎn)在高維空間中的向量,將激光散斑視頻中所有幀的子圖像構(gòu)成的向量順序堆棧成原始數(shù)據(jù)矩陣,利用PCA就可以計(jì)算出視頻的主成分,這些主成分就是視頻圖像在新坐標(biāo)系中按方差降序排列的正交投影,方差較大的主成分表示每幀圖像灰度信息變化較大,這些變化與聲源振動(dòng)線性相關(guān),對(duì)其進(jìn)行音頻轉(zhuǎn)換和降噪處理,就可以重建語(yǔ)音信號(hào)。PCA法提取聲音的具體步驟如下:
假設(shè)激光散斑視頻共有n幀圖像,首先在激光散斑視頻中每一幀圖像上相同位置截取子圖像進(jìn)行采樣,如果采樣區(qū)域內(nèi)有p個(gè)像素點(diǎn),則令這些像素點(diǎn)的灰度x構(gòu)成一個(gè)p維向量X,然后再將n幀子圖像的向量順序堆棧成矩陣G:
G=[X1,X2,…,Xn]∈p×n
(1)
其中,Xi=[xi1,xi2,…,xip]∈p×1,而G的行向量則表示采樣區(qū)域內(nèi)某個(gè)像素灰度隨振動(dòng)的時(shí)變。
對(duì)數(shù)據(jù)集G進(jìn)行PCA分析,即先將G中心化再求其協(xié)方差矩陣Σ,得:
(2)
對(duì)協(xié)方差矩陣Σ進(jìn)行特征值分解得到特征值與特征向量Ei=[e1,e2,…,ep]∈p×1,將特征向量作為行向量按照特征值順序排列得到特征向量矩陣P:
P=[E1,E2,…Ep]T
(3)
利用該矩陣對(duì)原始數(shù)據(jù)G進(jìn)行線性變換即可得到主成分矩陣Y:
Y=PG=[E1,E2,…Ep]T[X1,X2,…,Xn]
(4)
其中第k主成分:
Yk=EkX∈1×n
(5)
按照k值升序各主成分方差變化依次變小,聲源的振動(dòng)信息就體現(xiàn)在前面方差較大的部分主成分中,將其轉(zhuǎn)換為音頻并濾波降噪即可重建語(yǔ)音信號(hào)。由于目標(biāo)物體的振動(dòng)幅度和表面粗糙程度不同,散斑圖像像素信息變化程度也不同,所以不同材質(zhì)目標(biāo)物體或不同距離條件下,能夠提取音頻的主成分?jǐn)?shù)目也不相同。PCA法從高速視頻提取語(yǔ)音信號(hào)的流程如圖1所示。
圖1 高速視頻提取音頻信號(hào)處理流程Fig.1 Flow chart of extraction audio signal from high-speed video with PCA
人類語(yǔ)音頻率大約介于300~3400 Hz之間,根據(jù)奈奎斯特采樣定理,重建可理解的語(yǔ)音信號(hào),攝像機(jī)頻率至少應(yīng)在600 f/s以上,所以通常使用高速攝像機(jī)記錄激光散斑變化。實(shí)驗(yàn)裝置如圖2所示。
圖2 基于高速攝像機(jī)的激光麥克風(fēng)系統(tǒng)示意圖Fig.2 Experimental set-ups of laser microphone system based on high-speed camera
實(shí)驗(yàn)所用激光器是普通的650 nm半導(dǎo)體激光器,高速攝像機(jī)為百萬像素的Mega Speed MS90K,配備Nikon180 mm的遠(yuǎn)焦鏡頭,計(jì)算機(jī)8G內(nèi)存,CPU為CORE i7 2.20G,采用MATLAB R2018a進(jìn)行數(shù)據(jù)處理。激光照射揚(yáng)聲器表面形成散斑,揚(yáng)聲器距離10 m,循環(huán)播放錄音“北京電子科技學(xué)院”,時(shí)長(zhǎng)2 s左右,聲級(jí)范圍41~65分貝(圖3(a))。
圖3 揚(yáng)聲器循環(huán)播放時(shí)的聲級(jí)和揚(yáng)聲器表面激光散斑和采樣區(qū)域Fig.3 Sound level of the loudspeaker during cyclic playback Laser speckle and sampling area on the loudspeaker surface
激光照射循環(huán)播放錄音的揚(yáng)聲器振動(dòng)膜,在其不斷振動(dòng)的粗糙表面形成時(shí)變的激光散斑,高速攝像機(jī)幀率3000 f/s,拍攝一段聲音循環(huán)周期內(nèi)的散斑視頻。以圖1流程提取音頻信號(hào),采樣區(qū)域30×30像素(圖3(b)),所有像素灰度構(gòu)成900維度的列向量,對(duì)散斑視頻所有幀圖像向量堆棧成的數(shù)據(jù)集進(jìn)行主成分分析,在主成分空間投影可得到900個(gè)新的分量,前面的分量就是主成分。
提取第一主成分并轉(zhuǎn)換為語(yǔ)音信號(hào),重建的語(yǔ)音信號(hào)確為揚(yáng)聲器播放語(yǔ)音且可以清晰分辨。分析其他主成分發(fā)現(xiàn),前100個(gè)主成分皆可提取出語(yǔ)音信號(hào),只是隨著主成分序號(hào)增加,高階主成分分量方差變化減小,所含語(yǔ)音信息明顯減少,噪音增大,恢復(fù)的語(yǔ)音清晰度明顯降低,高于100的主成分分量重建的語(yǔ)音信號(hào)人耳幾乎不能分辨,原始語(yǔ)音、不同主成分分量提取的語(yǔ)音波形和語(yǔ)譜圖比較見圖4。對(duì)于重建語(yǔ)音信號(hào),這些主成分已沒有實(shí)際意義,只需要從第一主成分恢復(fù)語(yǔ)音信號(hào)即可。
圖4 原始語(yǔ)音信號(hào)及不同主成分分量提取語(yǔ)音信號(hào)的波形圖與語(yǔ)譜圖Fig.4.Waveform and spectrogram of original signal andextraction signal from different principal components
采樣區(qū)域的像素?cái)?shù)量p越大,像素灰度越趨向高斯分布,PCA方法越有效,重建的語(yǔ)音信號(hào)質(zhì)量越好,但p增大也隨之導(dǎo)致計(jì)算量增加而影響計(jì)算效率,同樣以時(shí)長(zhǎng)2 s,3000 f/s揚(yáng)聲器振動(dòng)膜反射的激光散斑視頻為研究對(duì)象,采樣區(qū)域大小分別為5×5、10×10、20×20、30×30,從第一主成分提取語(yǔ)音信號(hào),比較發(fā)現(xiàn)隨著像素?cái)?shù)量增大,語(yǔ)音清晰度越高,但增加到一定程度后,語(yǔ)音清晰度不再有明顯變化,而提取時(shí)間指數(shù)增長(zhǎng)(圖5)。如果對(duì)語(yǔ)音質(zhì)量沒有要求,只為理解語(yǔ)意,5×5像素的采樣區(qū)域即可滿足要求。
圖5 不同采樣區(qū)域第一主成分恢復(fù)的語(yǔ)音信號(hào)Fig.5 Extraction signals from first principal component in different sampling areas
揚(yáng)聲器作為激光照射的目標(biāo)物體時(shí)重建的語(yǔ)音信號(hào)清晰度較高,但對(duì)于其他的目標(biāo)物體,由于材質(zhì)和厚度不同,相同聲波激勵(lì)下產(chǎn)生微振動(dòng)的振幅也不同。高速攝像機(jī)以3000 fps幀率記錄距揚(yáng)聲器5厘米聲場(chǎng)中紙巾、A4紙、植物葉片、15 mm石膏板等物體表面的激光散斑視頻,利用PCA提取音頻信號(hào),采樣區(qū)域30×30像素,第一主成分恢復(fù)的語(yǔ)音信號(hào)波形和語(yǔ)譜圖如圖6所示。
圖6 不同材質(zhì)物體第一主成分恢復(fù)的語(yǔ)音信號(hào)Fig.6 Voice signals reconstructed by first principal component of different materials
可以看出越輕薄的物體,被聲波激勵(lì)的微振動(dòng)振幅越大,恢復(fù)的語(yǔ)音信號(hào)質(zhì)量越好。即使較厚的石膏板為反射物體,重建后語(yǔ)音信號(hào)雖然噪音很大,但語(yǔ)意仍可被理解,由此可見PCA法提取聲音的實(shí)效性。
主成分是原始數(shù)據(jù)在新空間坐標(biāo)系中的投影,投影基向量是原始數(shù)據(jù)協(xié)方差矩陣的特征向量。由于聲波激勵(lì)的物體微振動(dòng)振幅一般在微米級(jí)別以下,高速激光散斑視頻的各幀圖像變化很小,人眼幾乎無法分辨。可以推斷,當(dāng)原始數(shù)據(jù)集的樣本數(shù)量達(dá)到某一閾值時(shí),主成分空間的特征向量應(yīng)該趨于穩(wěn)定。為了驗(yàn)證這一推斷,我們將高速激光散斑視頻的前1000、2000、3000、4000幀中的像素采樣區(qū)域組成數(shù)據(jù)集,分別提取這些數(shù)據(jù)集的第一主成分的特征向量,為方便觀察,我們降低了維度,采樣區(qū)域10×10像素(圖7)。
圖7 不同訓(xùn)練集下的第一主成分本征向量Fig.7.Eigenvectors of first principal component in different training sets
可以發(fā)現(xiàn),四種不同數(shù)量樣本構(gòu)成數(shù)據(jù)集的第一主成分的特征向量變化趨勢(shì)幾乎一致,除1000幀圖像樣本的特征向量在小范圍(如50~60之間)變化趨勢(shì)相反外,當(dāng)樣本數(shù)量大于2000時(shí),第一主成分方向的特征向量趨于恒定,樣本數(shù)量不再影響主成分的特征向量。由此得到PCA快速提取音頻信號(hào)的方法,將高速視頻開始部分的幀圖像作為原始數(shù)據(jù)集,提取主成分空間的第一特征向量E1,t時(shí)刻的圖像向量Xt直接向該方向投影,即可得到含有振動(dòng)信息的主成分分量Yt:
Yt=E1Xt∈
(6)
快速提取流程見圖8。
圖8 PCA快速音頻提取流程圖Fig.8 Fast audio extraction process with PCA
為觀察樣本數(shù)量對(duì)快速提取語(yǔ)音信號(hào)的影響,我們分別以高速激光散斑視頻的前1000、2000、3000、4000、5000和6000圖像構(gòu)建數(shù)據(jù)集,提取第一主成分的特征向量作為投影基,后續(xù)散斑圖像向該方向投影快速提取音頻信號(hào),通過譜減法降噪后重建的語(yǔ)音信號(hào)波形圖見圖9。發(fā)現(xiàn)除訓(xùn)練樣本數(shù)量為視頻的前1000幀圖像序列時(shí)提取的語(yǔ)音略有失真外,訓(xùn)練樣本數(shù)量只要在2000幀以上都幾乎完美的重建了語(yǔ)音信號(hào)。由此看出快速提取方法與視頻后處理方法得到的語(yǔ)音信號(hào)幾乎沒有區(qū)別,都具有很高的清晰度,而快速提取法可以提高計(jì)算效率,實(shí)時(shí)獲取音頻信號(hào)。
圖9 不同數(shù)量樣本圖像快速提取音頻信號(hào)的比較Fig.9 Comparison of audio signals extracted quickly with different numbers of training samples
本文提出了一種基于高速視覺的激光麥克風(fēng)語(yǔ)音信號(hào)提取算法,將PCA用于微振動(dòng)信息提取。對(duì)從高速激光散斑視頻中提取語(yǔ)音信號(hào)進(jìn)行了理論分析和實(shí)驗(yàn)驗(yàn)證,相比于其他算法,PCA對(duì)于激光散斑顆粒大小、采樣區(qū)域像素灰度分布沒有過多限制。該算法流程簡(jiǎn)單,計(jì)算成本低,處理時(shí)間短,存在多個(gè)可用于提取語(yǔ)音信號(hào)的主成分,通常以第一主成分重建的語(yǔ)音信號(hào)最為清晰。若只是要求重建人耳可分辨恢復(fù)的語(yǔ)音信號(hào),則只需以聲源附近的輕薄物體為目標(biāo),高速攝像機(jī)高于1000 f/s的幀率,采樣區(qū)域10×10像素即可?;赑CA的無監(jiān)督機(jī)器學(xué)習(xí)算法特性,進(jìn)一步提出了選取高速激光散斑視頻開始部分幀圖像作為訓(xùn)練集,提取含有語(yǔ)音信息的第一主成分分量的特征向量,后續(xù)視頻幀直接向該方向投影可快速重建語(yǔ)音信號(hào),該方法在遠(yuǎn)程監(jiān)聽、微振動(dòng)檢測(cè)等方面具有實(shí)際應(yīng)用價(jià)值。