基于Householder矩陣和Butterworth濾波器組的反饋延遲網(wǎng)絡(luò)人工混響

2020-10-30 00:53:20吳禮福陶明明申浩郭業(yè)才

南京信息工程大學(xué)學(xué)報(bào) 2020年5期

吳禮福陶明明申浩郭業(yè)才

0 引言

人工混響(artificial reverberation)是指人為地對(duì)原始聲音信號(hào)進(jìn)行處理，使其能夠具有適當(dāng)?shù)幕祉懶Ч鸞1-2].在音樂、廣播、電視和電影制作過程中，人工混響是不可缺少的部分.混響處理方法可以采用數(shù)字人工混響方法或模擬技術(shù)，其中數(shù)字人工混響方法是利用電聲學(xué)知識(shí)以數(shù)字信號(hào)處理手段來模擬混響效果[2].

數(shù)字人工混響方法主要有3種：一是反饋延遲網(wǎng)絡(luò)(Feedback Delay Network，F(xiàn)DN)，它將輸入信號(hào)(干凈無(wú)混響)延遲、濾波并根據(jù)參數(shù)化混響特性沿著多個(gè)路徑反饋給前端，疊加后得到混響信號(hào)；二是卷積方法，它將輸入信號(hào)與房間脈沖響應(yīng)卷積得到混響信號(hào)；三是基于計(jì)算聲學(xué)的方法，將輸入信號(hào)模擬聲能在幾何模型中傳播，從而得到混響信號(hào)[3].反饋延遲網(wǎng)絡(luò)方法在音樂技術(shù)領(lǐng)域使用較多.計(jì)算聲學(xué)方法通常可用于聲學(xué)設(shè)計(jì)和場(chǎng)景分析.而卷積方法在實(shí)時(shí)實(shí)現(xiàn)方面非常困難，脈沖響應(yīng)的計(jì)算很耗時(shí).本文主要研究?jī)?nèi)容是反饋延遲網(wǎng)絡(luò).

1971年，反饋延遲網(wǎng)絡(luò)首先由Gerzon提出用于人工混響[4]，他指出單個(gè)反饋梳狀濾波器質(zhì)量很差，但是當(dāng)交叉耦合時(shí)，使用幾個(gè)反饋梳狀濾波器效果會(huì)好很多.1996年，Jot等[5]提出了一種反饋延遲網(wǎng)絡(luò)(FDN)方法來處理數(shù)字混響，將FDN方法發(fā)展到目前的應(yīng)用水平.Jot等[5]提出的反饋延遲網(wǎng)絡(luò)方法目前被認(rèn)為是高質(zhì)量人工混響的最佳選擇之一，其中，正交反饋矩陣的選擇是一個(gè)特別有趣的話題，它顯著影響所獲得的混響質(zhì)量[6-8].1998年，Piiril等[9]已經(jīng)提出了如何使用2個(gè)具有稍微不同參數(shù)的FDN或其他修改的梳狀濾波器結(jié)構(gòu)來產(chǎn)生非指數(shù)衰減的混響響應(yīng).2011年，Sana等[10]通過結(jié)合頻率相關(guān)的墻壁吸收、信源和接收器的方向性進(jìn)一步擴(kuò)展了FDN概念.

2010年，Smith教授提出了反饋延遲網(wǎng)絡(luò)的一種算法[11]，它是基于Hadamard反饋矩陣和Butterworth濾波器的，混響程度很深，但是延遲線個(gè)數(shù)的選擇有限制.2017年，美國(guó)蘋果公司發(fā)布一個(gè)名為SoundSoup的應(yīng)用程序，它是基于Householder反饋矩陣和單零點(diǎn)極點(diǎn)的濾波器，運(yùn)算量小、處理時(shí)間短[12]，但是需要提供混響室的具體長(zhǎng)寬高和墻壁的吸聲系數(shù)，通過Sabine公式來計(jì)算混響時(shí)間T60，無(wú)法精確設(shè)定子帶的混響時(shí)間.

為了克服以上2種方法的缺點(diǎn)，本文研究了一種新的反饋延遲網(wǎng)絡(luò)方法，它基于Householder反饋矩陣和Butterworth濾波器組,延遲線的個(gè)數(shù)選擇相對(duì)自由，可以精確設(shè)定子帶混響時(shí)間.

1 反饋延遲網(wǎng)絡(luò)

圖1所示是用于人工混響的反饋延遲網(wǎng)絡(luò)，它是一個(gè)使用3條延遲線的反饋延遲網(wǎng)絡(luò)的例子.x(n)表示輸入信號(hào)(干凈無(wú)混響)，s1(n)，s2(n)，s3(n)是經(jīng)過延遲線的信號(hào)，b1，b2，b3表示輸入因子，c1，c2，c3表示輸出因子，g1，g2，g3表示頻帶增益，q11等表示反饋矩陣的元素，y(n)則表示輸出的混響信號(hào).

對(duì)于N=3，圖1所示FDN的關(guān)系式可以寫成：

(1)

輸出結(jié)果為

(2)

推廣到N=n時(shí)，F(xiàn)DN的關(guān)系式可以表示為

(3)

(4)

或者，使用z變換，在頻域中寫為

S(z)=D(z)[GQS(z)+bX(z)],

(5)

Y(z)=cTS(z)+dX(z),

(6)

其中G=diag(g1,g2,…,gn)為增益組成的對(duì)角矩陣，Q=[qi,j]N×N為反饋矩陣，b=[b1,b2,…,bn]為輸入因子組成的列向量，c=[c1,c2,…,cn]為輸出因子組成的列向量，D(z)=diag(z-M1,z-M2,…,z-Mn)為延遲線組成的對(duì)角矩陣.

脈沖響應(yīng)的后期混響部分理想情況下應(yīng)該類似于指數(shù)衰減的隨機(jī)噪聲[13].一旦在無(wú)損的脈沖響應(yīng)中聽到平滑的噪聲，就可以在每個(gè)頻帶中獲得期望的混響時(shí)間，而噪聲的平滑性受FDN反饋矩陣以及延遲線長(zhǎng)度的影響.

1.1 延遲線

平均延遲線的長(zhǎng)度通常粗略地等于混響環(huán)境下的平均自由程.平均自由程的定義為聲波在傳播并衰減的過程中，經(jīng)過每?jī)蓚€(gè)界面之間的平均距離.平均自由程ρ近似為

ρ=4V/S,

(7)

其中V表示的是房間的體積，S表示房間的表面積.如果將每條延遲線視為平均自由程延遲，則可將延遲平均值設(shè)為平均自由程：

(8)

其中c表示聲速，T表示采樣周期.給定ρ的值，選擇一組具有預(yù)設(shè)的最小間距素?cái)?shù)，其平均值盡可能接近所需值[10 ].

(9)

其中mi的計(jì)算方法如下：

(10)

其中Mi為所需延遲線的長(zhǎng)度，pi為使用自然順序的素?cái)?shù).round()表示對(duì)數(shù)值進(jìn)行四舍五入運(yùn)算，floor()表示對(duì)數(shù)值進(jìn)行向下取整.

1.2 Butterworth濾波器組

當(dāng)房間的具體幾何模型和墻壁的吸聲系數(shù)未知時(shí)，就無(wú)法使用Sabine公式計(jì)算出所需的混響時(shí)間.多頻帶FDN延遲濾波器可以克服這個(gè)困難，它可以單獨(dú)設(shè)置混響時(shí)間，混響時(shí)間應(yīng)該至少在3個(gè)頻段內(nèi)獨(dú)立可調(diào)[14].相對(duì)于一階延遲濾波器，更多地使用多頻帶FDN延遲濾波器，通常可以使用濾波器組來實(shí)現(xiàn)多頻帶延遲濾波器.例如，每條延遲線的輸出被分成K(K≥3)個(gè)頻帶，那么長(zhǎng)度為Mi的延遲線的第k個(gè)頻帶的增益為

(11)

其中n60(ωk)=t60(ωk)/T，t60(ωk)表示頻率ωk的混響時(shí)間.

本文在反饋延遲網(wǎng)絡(luò)中選用的是Butterworth濾波器組.Butterworth濾波器是一種通帶頻率響應(yīng)曲線很平坦的濾波器,是使用低通和高通Butterworth濾波器來實(shí)現(xiàn)所需特性的濾波器組.也就是說，整個(gè)頻譜在最高的交叉頻率被分割，在下一個(gè)交叉頻率將低通區(qū)域再分割成2個(gè)頻帶.本文設(shè)置S個(gè)交叉頻率，整個(gè)頻帶就被分成S+1個(gè)頻帶，那么就需要2S個(gè)Butterworth濾波器組成濾波器組.例如，設(shè)置2個(gè)交叉頻率，那么整個(gè)頻帶就被分成3個(gè)頻帶，就需要4個(gè)濾波器組成濾波器組.

圖2所示的是N=3，基于Butterworth濾波器組的FDN.x(n)為輸入信號(hào)(干凈無(wú)混響)，filter1～filter4為Butterworth濾波器組，y(n)為輸出信號(hào).

1.3 Householder反饋矩陣

Householder反饋矩陣QN的另一個(gè)很好的特性就是，當(dāng)N≠2時(shí)，矩陣中的所有數(shù)都是非零的，這就意味著每條延遲線都會(huì)反饋給其他延遲線，從而有助于盡可能地最大化回聲密度.例如，當(dāng)N=4時(shí)，Householder反饋矩陣為

(12)

由于N=4的Householder反饋矩陣的平衡性，Jot等[14]在此基礎(chǔ)上提出了一種N=16的反饋矩陣嵌入FDN內(nèi)：

(13)

本文也采用式(13)的反饋矩陣.

2 實(shí)驗(yàn)及分析

在實(shí)驗(yàn)仿真中，將一段采樣率為8 000 Hz的干凈語(yǔ)音依次通過延遲線、濾波器組，產(chǎn)生所需要的混響時(shí)間，再通過反饋矩陣，最后得到混響信號(hào).表1為仿真中的基本參數(shù)設(shè)置.其中房間(學(xué)校體育館)的長(zhǎng)為48 m，寬為19 m，高為18 m，聲源位置的三維坐標(biāo)為[18,11,12],傳聲器位置的三維坐標(biāo)為[18,8,12].

表1 仿真實(shí)驗(yàn)中的基本參數(shù)設(shè)置Table 1 Basic parameter settings in the simulation experiment

Smith[11]的FDN的方法使用16條延遲線，設(shè)定3個(gè)子帶的混響時(shí)間，SoundSoup使用16條延遲線，一個(gè)總的混響時(shí)間，而本文的方法是用18條延遲線(延遲線不必是2的整數(shù)次冪，選擇自由)，設(shè)定3個(gè)子帶的混響時(shí)間.

圖3a—3d分別為真實(shí)房間產(chǎn)生的混響信號(hào)、Smith[11]方法處理后的信號(hào)、SoundSoup處理后的信號(hào)以及本文方法處理后的信號(hào)的語(yǔ)譜圖.對(duì)比圖3a、圖3b和圖3c可以看出Smith[11]方法、SoundSoup處理過的信號(hào)能量強(qiáng)的頻率衰減過程變得不清楚.

為了進(jìn)一步評(píng)價(jià)加混響的效果，采用語(yǔ)音質(zhì)量感知評(píng)價(jià)[15](Perceptual Evaluation of Speech Quality,PESQ)對(duì)混響效果進(jìn)行評(píng)價(jià)，ITU-T(國(guó)際電信聯(lián)盟電信標(biāo)準(zhǔn)化部)的相關(guān)資料已經(jīng)證明：PESQ能夠精確地給出編碼失真、傳輸丟失、環(huán)境噪聲和時(shí)間扭曲的預(yù)測(cè)值.PESQ得分的高低可以用來評(píng)價(jià)信號(hào)的好壞，通常情況下，PESQ的得分在1.0～4.5之間.

本文選用了10條測(cè)試語(yǔ)音和10個(gè)房間脈沖，分別通過3種方法處理共得到300個(gè)混響信號(hào).對(duì)比混響信號(hào)和真實(shí)房間產(chǎn)生的信號(hào)，得到3種方法PESQ得分的平均值.圖4所示的是3種處理方法得到的混響信號(hào)的PESQ得分情況.Smith[11]的FDN方法得到的混響信號(hào)PESQ的平均值為2.48，SoundSoup方法得到的混響信號(hào)PESQ的平均值為2.36，而經(jīng)過本文方法處理得到的混響信號(hào)的PESQ的平均值為2.55.圖4表明經(jīng)過本文方法處理過的信號(hào)的PESQ得分較高，比Smith[11]方法提高了0.07，比SoundSoup方法提高了0.19.

聽者的主觀感覺是判斷混響感的重要評(píng)價(jià)標(biāo)準(zhǔn)[16].因此，本文還采用聽音實(shí)驗(yàn)來評(píng)價(jià)3種不同的人工混響信號(hào).測(cè)試中音頻文件采樣率為8 kHz，單聲道，分別經(jīng)過3種方法進(jìn)行處理得到的混響信號(hào).實(shí)驗(yàn)中選擇10名聽眾，均為在校研究生，聽力正常，對(duì)處理后的混響信號(hào)和真實(shí)房間產(chǎn)生的信號(hào)進(jìn)行試聽，選出3種方法中最佳、最接近真實(shí)房間產(chǎn)生的混響信號(hào).10名聽眾選出來的100條中語(yǔ)音中，Smith[11]的FDN方法處理的語(yǔ)音有26條，占26%；SoundSoup方法處理的語(yǔ)音有2條，占2%；本文方法處理的語(yǔ)音有72條，占72%.大部分聽者選擇了本文方法，表明了在3種方法中，本文方法能產(chǎn)生最佳且最接近真實(shí)房間的混響信號(hào).

表2將3種方法的組成結(jié)構(gòu)和優(yōu)缺點(diǎn)進(jìn)行了比較，可以看出本文的FDN方法更便于進(jìn)行參數(shù)的設(shè)置.

表2 3種方法對(duì)比結(jié)果Table 2 Comparison of three methods

3 結(jié)論

本文在Smith[11]FDN方法和蘋果公司推出的SoundSoup基礎(chǔ)上，提出了一種基于Householder反饋矩陣和Butterworth濾波器組的人工混響方法.語(yǔ)譜圖、語(yǔ)音質(zhì)量感知評(píng)價(jià)和主觀評(píng)價(jià)結(jié)果表明，本文方法能產(chǎn)生比其他2種方法更加接近真實(shí)房間的混響信號(hào)，證明了本文方法的有效性.