馬耀國,梁晉韶,何 璐
(中國移動(dòng)通信集團(tuán)廣西有限公司,廣西 南寧 530000)
在科技發(fā)展迅速的今天,視頻會(huì)議普及度越來越高,尤其在后疫情時(shí)代,線上視頻會(huì)議有效地降低了疫情傳播風(fēng)險(xiǎn),并且提高了協(xié)同工作的效率[1]。如今,線上視頻會(huì)議已經(jīng)融入各行各業(yè),得到了企業(yè)和個(gè)人的認(rèn)可。視頻通話過程中,用戶端的揚(yáng)聲器和麥克風(fēng)的非線性特性[2-4],會(huì)使麥克風(fēng)采集的回聲信號(hào)失真明顯,單通道的聲學(xué)回聲消除(Acoustic Echo Cancellation,AEC)方案在線性回聲處理之后仍殘留大量非線性回聲,且能量與近端語音相當(dāng)。此時(shí)需要高強(qiáng)度的非線性回聲抑制(Non-Linear Processing,NLP),但對(duì)近端語音也會(huì)產(chǎn)生嚴(yán)重抑制,甚至完全消音,影響用戶體驗(yàn)。
對(duì)于單通道AEC 方案在雙工場(chǎng)景下近端語音被抑制的難點(diǎn),本文引入環(huán)形4 麥克風(fēng)陣列,提出基于最小無失真方差響應(yīng)(Minimum Variance Distortionless Response,MVDR)[4-5]后置濾波的多通道回聲消除方案,對(duì)各通道采集信號(hào)分別線性回聲處理后,使用MVDR 后置濾波提升近端語音能量、抑制殘留非線性回聲[7],最后只需低強(qiáng)度非線性回聲處理即可消除殘留回聲,進(jìn)而保留更多的近端語音能量,改善近端語音通透性,增強(qiáng)視頻通話體驗(yàn)。
圖1 所示為免提語音通信系統(tǒng),麥克風(fēng)采集信號(hào)中包含了近端語音信號(hào)、揚(yáng)聲器播放信號(hào)直達(dá)聲及反射聲,如果不加處理直接返回給遠(yuǎn)端,遠(yuǎn)端就會(huì)聽到對(duì)方的聲音以及自己延遲后的聲音,會(huì)造成困擾,干擾通話的進(jìn)行。因此需要回聲消除算法將麥克風(fēng)采集信號(hào)中的遠(yuǎn)端信號(hào)消除掉,再發(fā)送給遠(yuǎn)端,這樣,遠(yuǎn)端就只會(huì)聽到對(duì)方的聲音,而沒有自己的聲音干擾。
圖1 免提語音通信系統(tǒng)
傳統(tǒng)的回聲消除算法包含了延時(shí)校準(zhǔn)模塊、線性回聲消除模塊以及非線性回聲消除模塊[2-3]。遠(yuǎn)端信號(hào)在播放前可能存在緩沖導(dǎo)致延遲播放,遠(yuǎn)端信號(hào)在空氣中傳播反射再被麥克風(fēng)采集也需要一定時(shí)間,導(dǎo)致遠(yuǎn)端信號(hào)和采集信號(hào)中的遠(yuǎn)端信號(hào)并不是時(shí)間序列對(duì)齊的,此時(shí)需要進(jìn)行延時(shí)校準(zhǔn)才能讓遠(yuǎn)端信號(hào)和采集信號(hào)中的遠(yuǎn)端信號(hào)處于合理的范圍,便于歸一化最小均方自適應(yīng)濾波器(the Normalized Least-Mean-Squares,NLMS)消除線性回聲,否則會(huì)導(dǎo)致NLMS 收斂慢,影響線性回聲消除效果。設(shè)備的擺放位置、房間的混響、噪聲等均會(huì)對(duì)延時(shí)校準(zhǔn)模塊效果產(chǎn)生一定波動(dòng),為了控制變量,本文的測(cè)試數(shù)據(jù)均為延時(shí)校準(zhǔn)后的數(shù)據(jù),所以不包含延時(shí)校準(zhǔn)模塊。
如圖2 所示為單通道回聲消除框圖。單通道回聲消除方案采用歸一化最小均方自適應(yīng)濾波器算法(the Normalized Least-Mean-Squares,NLMS)作為線性回聲消除模塊,消除信號(hào)中的線性回聲之后,通過高強(qiáng)度NLP 進(jìn)行殘留非線性回聲抑制,得到回聲消除后的語音信號(hào)[2-4]。
圖2 單通道回聲消除框圖
然而,揚(yáng)聲器、麥克風(fēng)中存在非線性失真[4],使得麥克風(fēng)采集的回聲信號(hào)產(chǎn)生明顯非線性失真,NLMS 處理后仍然會(huì)殘留大量非線性回聲,能量和近端語音相當(dāng)。此時(shí)進(jìn)行高強(qiáng)度的NLP 處理,近端語音也會(huì)受到嚴(yán)重抑制甚至消音,產(chǎn)生所謂“吃音”現(xiàn)象,雙工的語音通透性受到挑戰(zhàn)。
針對(duì)單通道AEC 方案的局限性,即殘留非線性回聲大、能量和近端語音能量相當(dāng)、需要高強(qiáng)度NLP,本文引入多通道AEC 處理方案,采用MVDR作為后置濾波器提升近端語音能量、抑制非線性殘留回聲[7],只需低強(qiáng)度NLP 處理即可消除殘留回聲,進(jìn)而保留更多的近端語音能量,改善雙工場(chǎng)景下的語音通透性[8-10]。
MVDR 為固定系數(shù)的波束成形,最優(yōu)權(quán)重系數(shù)如下所示:
式中:Wo H(w)是頻域單通道信號(hào)各頻點(diǎn)的最優(yōu)權(quán)重系數(shù),vH(w)是導(dǎo)向向量,Sn-1(w)是噪聲的自功率譜函數(shù)。
于是,MVDR 濾波處理后的信號(hào)如式(3):
式中:Y(w)為MVDR后置濾波輸出信號(hào)的頻域表示,X(w)為輸入信號(hào)的頻域表示,最后Y(w)經(jīng)過低強(qiáng)度的NLP 處理,得到最終的輸出信號(hào)。
本文提出的方案結(jié)構(gòu)如圖3 所示。
圖3 基于MVDR 后置濾波的多通道回聲消除算法框圖
4通道采集信號(hào)分別通過NLMS濾除線性回聲,接著經(jīng)過MVDR 后置濾波,提升近端語音能量、抑制殘留非線性回聲,最后通過低強(qiáng)度NLP 處理消除回聲,得到增強(qiáng)信號(hào)。
相比單通道AEC 方案,本文方案使用了MVDR 后置濾波提升近端語音能量和抑制殘留非線性回聲,只需低強(qiáng)度的NLP 消除回聲,最終近端語音能量可以保留更多,改善“吃音”問題,提升了會(huì)議通話體驗(yàn)。
本文實(shí)驗(yàn)音頻采集均來自Respeaker_circle 的環(huán)形4 麥陣列設(shè)備,放音采用TCL F165C 32 寸電視放音,搭建視頻會(huì)議場(chǎng)景進(jìn)行仿真測(cè)試。仿真實(shí)驗(yàn)分為實(shí)時(shí)性驗(yàn)證、殘留回聲抑制能力、近端語音能量提升以及最終處理結(jié)果對(duì)比。其中殘留回聲抑制能力、近端語音能量提升的實(shí)驗(yàn),對(duì)照組是單通道(單麥)信號(hào)進(jìn)行NLMS 處理,實(shí)驗(yàn)組是4 通道信號(hào)進(jìn)行NLMS 加MVDR 后置濾波器處理;最終處理結(jié)果對(duì)比的實(shí)驗(yàn),對(duì)照組是單通道(單麥)信號(hào)進(jìn)行NLMS 加NLP 處理,實(shí)驗(yàn)組是4 通道信號(hào)進(jìn)行NLMS 加MVDR 加NLP 處理。
實(shí)時(shí)性要求指的是處理10 ms 的音頻數(shù)據(jù)耗時(shí)需要在10 ms 以內(nèi)。本文提出的算法在較低性能、低成本方案的移動(dòng)平臺(tái)上也能滿足實(shí)時(shí)性要求。rk3399 的CPU 是由4 個(gè)小核(A53@1.5 GHz)和2 個(gè)大核(A72@2.0 GHz)構(gòu)成的高性能移動(dòng)平 臺(tái),mt6735 的CPU 是 由4 個(gè)小核(A53@1.3 GHz)構(gòu)成的較低性能的移動(dòng)平臺(tái)。在兩個(gè)平臺(tái)上分別進(jìn)行實(shí)時(shí)性測(cè)試,結(jié)果均能滿足要求。具體地,本文算法的可執(zhí)行腳本在各平臺(tái)上分別處理事先錄好的音頻文件,統(tǒng)計(jì)總時(shí)長,將總時(shí)長除以分幀數(shù)量(每10 ms 為一幀),得到每幀的處理耗時(shí),具體數(shù)據(jù)如表1 所示。
表1 各個(gè)處理器平臺(tái)實(shí)時(shí)性分析
對(duì)照組是單通道(單麥)信號(hào)進(jìn)行NLMS 處理,實(shí)驗(yàn)組是4 通道信號(hào)進(jìn)行NLMS 加MVDR 后置濾波器處理,對(duì)比非線性殘留回聲能量如圖4所示。其中,單麥NLMS 方案殘留回聲能量均值為-83.53 dB;本文方案殘留回聲能量均值為-88.58 dB,殘留回聲減小了6.05%。
圖4 殘留回聲能量對(duì)比圖
對(duì)照組是單通道(單麥)信號(hào)進(jìn)行NLMS 處理,實(shí)驗(yàn)組是4 通道信號(hào)進(jìn)行NLMS 加MVDR 后置濾波器處理,近端語音能量對(duì)比如圖5 所示。其中,單麥NLMS 方案近端語音能量均值為-89.70 dB,本文方案近端語音能量均值為-77.58 dB,提升了13.51%,并且4~8 kHz 頻段抬升均值18 dB,提升了語音高頻的清晰度。
圖5 近端語音能量對(duì)比圖
對(duì)照組是單通道(單麥)NLMS 加NLP,實(shí)驗(yàn)組是4 通道NLMS 加MVDR 加NLP,最終處理結(jié)果對(duì)比如圖6 波形對(duì)比所示。兩個(gè)方案均沒有漏回聲,其中單通道(單麥)NLMS 加NLP 方案對(duì)近端語音抑制明顯,能量波動(dòng)大,甚至產(chǎn)生消音現(xiàn)象;本文方案對(duì)近端語音能量保持較為完整,幅值較為平穩(wěn),明顯優(yōu)于單通道(單麥)NLMS 加NLP 方案。
圖6 最終處理結(jié)果對(duì)比
本文針對(duì)單麥AEC 方案的局限性,針對(duì)視頻會(huì)議場(chǎng)景下近端語音通透性差的痛點(diǎn),引入多通道AEC 方案,提出了一種基于MVDR 波束成形后置濾波器的多通道回聲消除算法方案,將4 通道采集信號(hào)分別進(jìn)行NLMS 濾除線性回聲,然后通過MVDR后置濾波提升近端語音能量、抑制殘留回聲,最后只需低強(qiáng)度的NLP 消除殘留回聲,保留了更多的近端語音能量,提升了視頻會(huì)議通話體驗(yàn)。
在實(shí)際會(huì)議場(chǎng)景下仿真測(cè)試發(fā)現(xiàn),本文方案多抑制了6.05%的殘留非線性回聲,提升了13.51%的近端語音能量,并且只需低強(qiáng)度的NLP 即可消除回聲,保留了較多的近端語音能量,提升了視頻會(huì)議通話體驗(yàn),最后還進(jìn)行了實(shí)時(shí)性分析,本文算法可以在低成本移動(dòng)平臺(tái)上實(shí)時(shí)運(yùn)行,具有很高的實(shí)用價(jià)值。