曹 潔, 吳堯帥, 李 偉2,, 王進(jìn)花
(1.蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,甘肅 蘭州 730050; 2.甘肅省制造業(yè)信息化工程研究中心,甘肅 蘭州 730050;3蘭州理工大學(xué) 電氣工程與信息工程學(xué)院,甘肅 蘭州 730050)
基于麥克風(fēng)陣列的聲源跟蹤技術(shù),一直是聲學(xué)領(lǐng)域重要的研究課題,可廣泛應(yīng)用在電視電話會(huì)議[1]、海洋偵察[2]、智能機(jī)器人[3]等領(lǐng)域。傳統(tǒng)的聲源跟蹤方法是連續(xù)的聲源定位,但受不定因素的影響,聲源位置的估計(jì)存在較大誤差[4],致使跟蹤算法精度較低。近些年,建立狀態(tài)空間的跟蹤方法被提出,比傳統(tǒng)的連續(xù)聲源定位方法跟蹤效果更穩(wěn)健。
聲源狀態(tài)空間相當(dāng)于一個(gè)動(dòng)態(tài)非線性系統(tǒng),基于貝葉斯框架的濾波算法是解決聲源跟蹤的最常用方法。Dvorkind T G等人[5]利用擴(kuò)展卡爾曼濾波(extended Kalman filtering,EKF)進(jìn)行聲源跟蹤,改善了跟蹤效果。但擴(kuò)展卡爾曼濾波是利用一階泰勒級(jí)數(shù)對(duì)非線性系統(tǒng)線性化,均值與方差的遞推估計(jì)誤差較大,致使跟蹤誤差較大。胡振濤等人[6]在容積卡曼濾波(cubature Kalman filtering,CKF)框架下實(shí)現(xiàn)對(duì)動(dòng)態(tài)聲源波達(dá)方向(direction of arrival,DOA)的自動(dòng)跟蹤,效果較好,但需要依靠矢量傳感器本身固有的方向敏感性。Kawanishi M等人[7]將粒子濾波(particle filtering,PF)應(yīng)用到三維空間的聲源跟蹤中,取得了一定效果。Zhong X等人[8]提出了基于擴(kuò)展卡爾曼粒子濾波(extended Kalman PF,EKPF)的聲源跟蹤算法,減輕了混響對(duì)跟蹤效果的影響。文獻(xiàn)[5~8]均是將改進(jìn)的貝葉斯濾波跟蹤算法引入到聲源跟蹤中,在聲源持續(xù)移動(dòng)情況下,運(yùn)動(dòng)軌跡估計(jì)效果較好,但在有靜音期出現(xiàn)的交互式聲源[9]運(yùn)動(dòng)場(chǎng)景時(shí),跟蹤系統(tǒng)的魯棒性較差。Lehmann E A等人[10]將靜音檢測(cè)(voice activity detector,VAD)融合到粒子濾波聲源跟蹤算法中,有效減小了靜音造成的跟蹤誤差,但當(dāng)靜音期較長(zhǎng)時(shí),極易跟丟目標(biāo)。
基于上述分析,本文提出了一種基于容積粒子濾波的交互式聲源跟蹤方法,并通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了本文方法的有效性。
當(dāng)目標(biāo)聲源在空間中運(yùn)動(dòng)時(shí),其狀態(tài)信息可由多種狀態(tài)模型表示,其中,Vermaak J等人[11]提出的郎之萬(wàn)(Langevin)模型結(jié)構(gòu)簡(jiǎn)單,易于實(shí)現(xiàn),在實(shí)際應(yīng)用效果較好。在郎之萬(wàn)模型中,構(gòu)建一個(gè)關(guān)于聲源的笛卡爾坐標(biāo)系,沿x方向、y方向以及z方向是獨(dú)立同分布的。
(1)
令rk=[xk,yk,zk]T表示k時(shí)刻聲源的位置信息,則
(2)
聲源的狀態(tài)信息可以由以下的離散方程來(lái)描述[12]
(3)
麥克風(fēng)陣列接收的音頻信號(hào)不僅包含時(shí)頻信息,也包含聲源的空間信息。以麥克風(fēng)陣列中心為坐標(biāo)原點(diǎn)構(gòu)建笛卡爾坐標(biāo)系,利用各路音頻信號(hào)得到麥克風(fēng)之間的到達(dá)時(shí)間差(time difference of arrival,TDOA),再采用最小二乘算法得到當(dāng)前時(shí)刻的坐標(biāo)[13]。此坐標(biāo)便可作為目標(biāo)聲源的量測(cè)信息,郎之萬(wàn)模型描述聲源的運(yùn)動(dòng)特征,選擇先驗(yàn)概率密度作為重要密度函數(shù),將重采樣[14]加入到框架中以減輕粒子退化對(duì)狀態(tài)估計(jì)的影響,最終可得到一個(gè)基于粒子濾波的聲源跟蹤框架。其基本步驟如下:
2)迭代:k=1,2,3…
a.利用聲源定位算法得到量測(cè)信息zk;
c.利用粒子濾波算法更新權(quán)重,并歸一化權(quán)重;
設(shè)置基本容積點(diǎn)
(4)
式中j=1,2,3…,2ξ,ξ為系統(tǒng)的狀態(tài)維數(shù),E為單位矩陣。
(5)
k時(shí)刻的狀態(tài)誤差協(xié)方差矩陣
(6)
(7)
k時(shí)刻的量測(cè)誤差協(xié)方差矩陣
(8)
k時(shí)刻的互相關(guān)協(xié)方差矩陣
(9)
在交互式聲源跟蹤中,如果目標(biāo)聲源在靜音期移動(dòng)位置,當(dāng)目標(biāo)聲源重新出現(xiàn)時(shí),再將靜音期之前的先驗(yàn)信息融合到狀態(tài)空間中,會(huì)影響跟蹤精度,甚至估計(jì)出的運(yùn)動(dòng)軌跡嚴(yán)重偏離目標(biāo)。因此,長(zhǎng)時(shí)間的靜音期之后,舍棄之前的先驗(yàn)信息,重置跟蹤算法參數(shù),將會(huì)有效改善這一現(xiàn)象。
本文將位置移動(dòng)判定因子ψ加入到交互式聲源跟蹤框架中,判斷聲源位置在靜音期前后是否移動(dòng)
ψ=Sgn(‖xp-xq‖2-ε)
(10)
式中 Sgn(·)為符號(hào)函數(shù),xp為靜音期之前狀態(tài)的估計(jì)值,xq為靜音期之后聲源定位結(jié)果,ε為判定閾值。若ψ=1,則判定目標(biāo)聲源已經(jīng)移動(dòng),將當(dāng)前幀的聲源定位結(jié)果作為初始狀態(tài),p(xq)粒子采樣。然后跟新迭代;若ψ≠1,則判定目標(biāo)聲源未移動(dòng),狀態(tài)更新繼續(xù)按照靜音期之前迭代。本文基于容積粒子濾波的交互式聲源跟蹤流程如圖1所示。其中,N(·)為高斯函數(shù),km為所選取的音頻信號(hào)的總幀數(shù),若要進(jìn)行實(shí)時(shí)跟蹤,則令km=+∞。
圖1 交互式聲源跟蹤流程
圖2 八元圓形麥克風(fēng)陣列
本文采用均方根誤差(root mean square error,RMSE)度量跟蹤效果,定義為
(11)
為驗(yàn)證本文提出方法的有效性,分別在動(dòng)態(tài)聲源與交互式聲源環(huán)境下,與文獻(xiàn)[7]中基于粒子濾波算法的聲源跟蹤方法,文獻(xiàn)[8]提出的基于擴(kuò)展卡爾曼粒子濾波的聲源跟蹤方法作對(duì)比。在不同的信噪比下,對(duì)比3種跟蹤算法的跟蹤效果。其中,信噪比以5 dB為步長(zhǎng)從5 dB到30 dB,3種方法分別進(jìn)行50次蒙特卡洛實(shí)驗(yàn)。
實(shí)驗(yàn)1動(dòng)態(tài)聲源。如圖3所示為實(shí)驗(yàn)中目標(biāo)聲源的路徑軌跡。沿曲線x2+y2+z2=1,y=2z,y≥0移動(dòng),以坐標(biāo)(-1,0,0)m為起點(diǎn),坐標(biāo)(1,0,0)m點(diǎn)結(jié)束。圖4為不同信噪比下3種跟蹤方法的RMSE值,圖5為SNR=30時(shí)3種跟蹤方法對(duì)動(dòng)態(tài)聲源跟蹤效果。
圖3 聲源運(yùn)動(dòng)軌跡
圖4 不同信噪比下3種跟蹤方法的RMSE值
圖5 SNR=30時(shí)3種跟蹤方法對(duì)動(dòng)態(tài)聲源跟蹤效果
從圖4中可以觀察到,在不同的信噪比環(huán)境下,本文算法的RMSE均比文獻(xiàn)[7]方法的RMSE減小50 %左右,均比文獻(xiàn)[8]方法的RMSE減小10 %以上。而且隨著信噪比的提高,3種方法的RMSE均在減小,文獻(xiàn)[7]方法在SNR=30 dB環(huán)境下的RMSE比SNR=5 dB下的減小了58.2 %,文獻(xiàn)[8]方法在SNR=30 dB環(huán)境下的RMSE比SNR=5 dB下的減小了53.4 %,本文方法在SNR=30 dB環(huán)境下的RMSE比SNR=5 dB下的減小了63.6 %。由于本文方法選取了更加合適的重要密度函數(shù),粒子狀態(tài)更加接近真實(shí)目標(biāo),收斂速度明顯高于文獻(xiàn)[7]方法、文獻(xiàn)[8]方法,如圖5所示。綜合圖4和圖5可知,在不同的背景噪聲環(huán)境下動(dòng)態(tài)聲源跟蹤中,本文跟蹤方法均優(yōu)于文獻(xiàn)[7]方法、文獻(xiàn)[8]方法;且隨著信噪比的提高,本文方法跟蹤效果提升速率也高于其他兩種跟蹤算法。
實(shí)驗(yàn)2交互式聲源。如圖6所示為實(shí)驗(yàn)中目標(biāo)聲源的路徑軌跡表達(dá)式同圖3。
圖6 交互式聲源運(yùn)動(dòng)軌跡
其中,0 圖7 不同信噪比下3種跟蹤方法的RMSE值 從圖7中可知,在不同的信噪比環(huán)境下,本文算法的RMSE均比文獻(xiàn)[7]方法的RMSE減小55 %以上,均比文獻(xiàn)[8]方法的RMSE減小50 %以上。而隨著信噪比的提高,只有本文方法的RMSE一直在減小。由于文獻(xiàn)[7]方法與文獻(xiàn)[8]方法融合了靜音期之前的先驗(yàn)信息,致使兩種方法在靜音期結(jié)束后的跟蹤誤差變大,而本文方法舍棄了錯(cuò)誤的先驗(yàn)信息,因此仍能保持較好的跟蹤效果,如圖8所示。綜合圖7和圖8可知,本實(shí)驗(yàn)驗(yàn)證了在不同的背景噪聲環(huán)境下交互式聲源跟蹤中,本文跟蹤方法優(yōu)于文獻(xiàn)[7,8]方法。 圖8 SNR=30時(shí)3種跟蹤方法對(duì)交互式聲源跟蹤效果 本文提出了一種基于容積卡爾曼粒子濾波的交互式聲源跟蹤方法。相對(duì)于基于粒子濾波的聲源跟蹤方法,該方法通過(guò)容積卡爾曼處理粒子,得到對(duì)應(yīng)的重要密度函數(shù),增強(qiáng)了最新量測(cè)信息對(duì)粒子的修正作用;同時(shí),通過(guò)引入移動(dòng)判定因子,構(gòu)建了交互式聲源跟蹤框架,有效減輕了靜音期對(duì)聲源跟蹤系統(tǒng)的影響。理論分析和實(shí)驗(yàn)結(jié)果均證明了本文提出的方法的優(yōu)越性。下一步的工作將研究如何將本文定位方法與定向語(yǔ)音增強(qiáng)技術(shù)相結(jié)合,跟蹤特定目標(biāo)聲源。4 結(jié) 論