數(shù)字化革命到來以后,本來只存在于科幻小說中的技術(shù)進入了日常生活,并且迅速普及開來。3D可視化,或者說呈現(xiàn)景深的視效技術(shù)也實現(xiàn)了。不過10年,首先是電影,緊接著電視和游戲都紛紛被3D可視化技術(shù)攻城略地。我們也見證了虛擬現(xiàn)實頭盔的輝煌崛起。戴著這種頭盔,佩戴著就沉浸在逼真的視覺場景中,而且還能在這個虛擬世界中四處走動。
這些技術(shù)在娛樂以外的應(yīng)用,如電腦輔助設(shè)計、醫(yī)療診斷鋪助、外科醫(yī)生訓(xùn)練,還在研發(fā)之中,但毫無疑問這些系統(tǒng)的前景一片光明。
對我們的視覺系統(tǒng)來說,沉浸式的可視化頭盔提供的視覺圖像已經(jīng)開始令人難辨真?zhèn)?。但?對于我們的聽覺系統(tǒng)來說,相關(guān)技術(shù)還遠不夠理想。
為什么會這樣呢?如同我們的雙眼能夠看見三維物體一樣,我們的耳朵也在無意識地為我們持續(xù)提供著聲音的空間信息,尤其是聲源的位置和動作。
我們的認知系統(tǒng)難以忍受沒有聲音,或是聲音和視覺相悖的情況,有時還會因此拒絕接受虛擬現(xiàn)實設(shè)備營造的視覺圖像。這會讓用戶體驗變差,甚至引發(fā)用戶惡心、嘔吐。所以,在設(shè)計虛擬現(xiàn)實頭盔時,必須考慮用戶的聲音體驗。
如果不了解聲音空間定位的物理和生理機制,我們就無法營造出使人信服并令人沉醉的虛擬現(xiàn)實體驗。人的雙眼看到的事物略有不同,這件事比較容易理解。但是,在一個聲學(xué)場景中,弄清楚人的雙耳到底聽到了什么信息卻不是一件簡單的事情。
在所有相關(guān)研究中,有一類研究采用數(shù)學(xué)模型,對聲波從聲源到耳道的傳播過程進行計算機模擬。
模擬得到的結(jié)果,其準(zhǔn)確程度可以與實驗測量相媲美,并且有著更大的靈活性和可重復(fù)性,成本也更低。這些“數(shù)字實驗”可用來比較不同的假說,證實或證偽相關(guān)的理論模型,還能為面向大眾的應(yīng)用提供實用的數(shù)據(jù)。
為了更好地理解立體聲研究,以及數(shù)字模擬方法的意義,我們來了解一下市面上已出現(xiàn)的一些立體聲裝置。這些裝置借助一組不同聲道的揚聲器來產(chǎn)生立體聲,家底影院5.1或7.1聲道的套裝音箱,以及杜比全景聲(Dolby Atmos)的64聲道系統(tǒng)都在此列。這些裝置通過不同場聲器的音強差,或是通過延時或混響效果,讓聽眾對虛擬聲源進行定位。
近期出現(xiàn)的其他聲音技術(shù),如高階環(huán)繞聲(High Order Ambisonics,HOA)或波場合成(Wave Field Synthesis)也利用了相同的原理,只不過它們的數(shù)學(xué)表達形式更為復(fù)雜而已。
不過,所有這些系統(tǒng)都面對一個共同的限制:立體聲的效果和揚聲器的數(shù)量成正比。盡管工程技術(shù)人員在音箱微型化上已付出了諸多努力,但這些立體聲系統(tǒng)還是太笨重了。另外,雖然這些裝置完全適用于大型場地(影院、階梯教室、劇院等),但它們和可以隨身攜帶的虛擬現(xiàn)實頭盔并不匹配。因此、必須研發(fā)針對耳機的立體聲技術(shù),即“雙耳信號合成”技術(shù)。
雙耳聽力是指聲波刺激雙耳形成的聲音感知,雙耳信號合成就是為每只耳朵各自合成聲音。
當(dāng)聲音在空間中傳播時,由于兩只耳朵與聲源間的距離存在細微的差異,一般有一只耳朵接收到的信號更早、強度更大。雙耳的差異為人的認知系統(tǒng)提供了確定聲源方位的兩個指標(biāo),分別叫做“雙耳時間延時”(Interaural Time Difference,ITD)和“雙耳聲強差”(Interaural Level Difference,ILD)。
但是,當(dāng)聲源在人體的正中矢狀面上,和雙耳的距離相等,聲音同時抵達兩只耳朵,雙耳接收到的聲強也無差異,只有這兩個指標(biāo)并不能判斷聲源方位。不過,在這種情況下,我們還是可以有效地分辨聲音來自于上方、下方、前方還是后方。大腦是怎么做到的呢?
要解釋這一點,首先要認識到,所有的聲音都可以看作是正弦聲波疊加而成的復(fù)合波。復(fù)合波在介質(zhì)中的傳播,會受到傳播路徑上障礙物的幾何特征的干擾,這就是聲波的衍射。聲波的衍射取決于波長(正弦波中兩個連續(xù)波峰間的距離)∶如果跟波長相比,障礙物較小,那么聲波的傳播就不會受到太大影響,也就是說聲波對這個障礙物不敏感。反過來,如果障礙物的大小與波長接近,甚至大于波長,那么聲波的傳播就會發(fā)生改變,聲波的聲學(xué)性質(zhì)也會受到影響。如果障礙物的形狀復(fù)雜多變(如人的外耳廓),那么聲波受到的影響就更大了。
當(dāng)聲音從聲源傳播到鼓膜時,聽眾的頭和耳朵的形狀會使復(fù)合波中波長小于1米的成分波發(fā)生衍射。在頻率上,聲波頻譜中高于幾百赫茲的部分將發(fā)生改變,即某些頻率的波的振幅和相位會發(fā)生變化。
因此,在聽眾聽到的聲音中,某些成分波的強度和初始聲音信號已經(jīng)不相同了。從兩個聲源發(fā)出的兩個聲音信號不會遇到一模一樣的障礙物,同時障礙物的幾何特征也不會一模一樣,因此它們會發(fā)生不同的變化,這就是我們聰明的大腦采用的第三個指標(biāo)。這個指標(biāo)武裝了我們的感官,極大地提升了我們定位聲源的能力。
圖片來自網(wǎng)絡(luò)
此外,兩個有著不同外觀形態(tài)(尤其是耳朵)的人聽到的聲音也不一樣,尤其是在高頻部分??梢哉f,每個人都生活在各自的聲學(xué)世界里。
雙耳信號合成技術(shù)就是,利用ITD、ILD和上述頻率變化攜帶的定位信息,人工合成立體聲。這三個指標(biāo)可以用 “頭相關(guān)傳輸函數(shù)”(Head-Related Transfer Functions,HRTF)編碼。
具體地說,就是在聽眾頭部所在的空間里,基于每個聲音的頻率和入射角,HRTF函數(shù)將聽眾耳道開口處的聲壓和該處沒有聽眾時的聲壓聯(lián)系起來。HRTF函數(shù)就像是“濾波器”,將聽眾腦袋形態(tài)引起的聲學(xué)變化通過數(shù)學(xué)方式表現(xiàn)出來。HRTF函數(shù)是雙耳信號合成的基石,通過它,我們可以為聽眾的每只耳朵單獨合成立體聲,與真實的聲音并無差異。
在進一步解釋雙耳信號合成之前,我們先簡略地回顧一下它的前世今生。歷史上第一個立體聲實驗,可追溯至19世紀(jì)克雷芒·阿德爾 (CIément Ader)發(fā)明的劇場電話(theatrophone,1881年)。劇場電話結(jié)合了電話和立體聲技術(shù)是人類歷史上首次對舞臺表演進行實況轉(zhuǎn)播。
在20世紀(jì)30年代,英國工程師艾倫·布萊姆林(Alan Blum lein)發(fā)明了立體聲錄音技術(shù),而美國物理學(xué)家哈維·福萊柴爾(Harvey Fletcher)則發(fā)明了一項雙耳電話系統(tǒng)的專利。
福萊柴爾的立體聲電話系統(tǒng)的原理是,在一個人體頭部模型的雙耳耳廓里各埋設(shè)一個話筒,然后利用這兩個話筒記錄雙耳聽到的聲音。這個方法較好地模擬了人體的形態(tài)學(xué)特征。聲波受到人體模型形態(tài)的影響發(fā)生了衍射,變化后的聲音被兩個話筒記錄下來。任何耳機都可以播放這種立體聲錄音,而且它的聲音效果非常精彩。你可以在網(wǎng)上搜索Virtual Barber Shop收聽。
要強調(diào)的是,福萊柴爾的裝置營造的立體聲效僅僅存在于知覺層面,它并沒有重建聲場(sound field)的物理學(xué)性質(zhì)。在原理上,它和前文提到的用揚聲器組產(chǎn)生環(huán)繞聲不同。雖然從音色和立體聲效而言,福萊柴爾的方法具有無與倫比的高保真度,但它要求必須提前錄音,只能重現(xiàn)固定不變的情景。從這點上看,這一技術(shù)并不具有交互性,因此無法在虛擬現(xiàn)實場景中使用。在虛擬現(xiàn)實場景中,音響系統(tǒng)必須是動態(tài)的,能夠?qū)β曉春陀脩舻奈恢脤崟r響應(yīng)。
從2000年左右開始,隨著計算機計算能力的飛躍,我們對聲音的處理方式也發(fā)生了改變。不少機構(gòu),如法國音樂聲學(xué)研究中心(IRCAM).法國電信、Bili項目(http∶//www.bili-project.org)、德國弗勞恩霍夫應(yīng)用研究促進協(xié)會(Fraunhofer-Gesellschaft)、美國加利福尼亞大學(xué)戴維斯分校、奧菲斯計劃(project O rpheus)相繼研發(fā)出了第二種立體聲技術(shù),這就是雙耳信號合成。
雙耳信號合成技術(shù)的首要步驟,就是為某個聽眾(或形態(tài)相似的人體模型)定制HRTF濾波器。在操作時,需要讓所眾位于一個圓球的中心。圓球的直徑大概有幾米,在球體上分布著一些揚聲器。聽眾(或模型)耳朵里的話筒,會記錄下圓球上每個揚聲器發(fā)出的聲音。對這些錄音整合之后,就可以推導(dǎo)出HRTF函數(shù)。
接下來,就要進行嚴(yán)格意義上的雙耳信號合成了。想要讓聽眾感到聲音來自某個方向,只需要用這個方向上相應(yīng)的HRTF濾波器對聲音進行處理。對于數(shù)字聲音,只需用HRTF函數(shù)進行計算,然后將輸出的聲音傳遞給聽眾的耳機可以了。
通過這種方法,任何聲音都可以變成立體聲,只不過計算過程比較費勁。但是,這個計算量也不是大得離譜,一臺標(biāo)準(zhǔn)電腦,基至一個手機就能進行處理。
另外,除了實時進行上述計算以外,雙耳信號合成技術(shù)還能夠同時考慮聽眾的位置、聲源的位置和聲音相對于聽眾的朝向。有了這些功能,雙耳信號合成技術(shù)就能完美對接虛擬現(xiàn)實系統(tǒng)。
雖然雙耳信號合成技術(shù)看起來很誘人,但它至今還沒有走出實驗室。原因是多方面的。首先,因為不能在聽眾所在的球體的每個點都安裝一個揚聲器,也就不可能測量出完整的HRTF濾波器數(shù)值。HRTF濾波器在本質(zhì)上是離散的,局部的,不能覆蓋所有的空間。因此,需要為HRTF濾波器插值(內(nèi)插或外插),而這會影響最終的立體聲效果。此外,由于測量聲音所用的裝置本身非常復(fù)雜,上述測量方法會產(chǎn)生很大的誤差。
另外,測量一般是在受到嚴(yán)格控制的聲學(xué)環(huán)境中進行,如四壁能夠吸收聲音的消音室。在這種環(huán)境中,只有聲源的信號得到了測量,而環(huán)境本身則被忽略了。但是正因為聲音在房間的墻壁和物體上來回反射,我們的大腦才能獲得更多線索,提高我們的定位能力,從而實觀更快、更準(zhǔn)的定位。因此,環(huán)境也是需要考慮的因素之一。
圖片來自網(wǎng)絡(luò)
為了擺脫雙耳信號模擬在實驗測量方面的諸多限制,我們選擇用數(shù)字技術(shù)模擬聲音的傳播。聲音傳播的物理性質(zhì)可用數(shù)學(xué)公式表達,其中最著名的、也是最簡潔的當(dāng)屬達朗貝爾方程(d'Alembert equation)和亥姆霍茲方程(Helmholtzequation,)。向頭部傳播的聲波也可以進行數(shù)字建模。通過求解上述方程的數(shù)值解,就能得到合適的HRTF濾波器。用這種方法,我們就不再需要在實驗室進行“模擬測量”了,“數(shù)字測量”就能幫助我們得到HRTF濾波器并直接應(yīng)用。阻礙雙耳信號合成的前兩個限制,離散、非連續(xù)的實驗室測量和測量誤差也就迎刃而解了。
數(shù)字模擬的魅力還在于,它既不需要復(fù)雜的測量器材,也不需要性能強大的計算機。另外,我們根據(jù)用戶的頭部模型為他量身定制算法,得到的聲效足夠細膩,從而不需要對HRTF進行內(nèi)插值。
雙耳信號合成的第三個限制是混響(reverberation),即聲波的反射。通過對聲波在室內(nèi)的傳播進行建模和求解,這個問題也可以解決。根據(jù)選擇的模型以及對聲學(xué)場景的物理特征進行簡化,我們甚至可以進行實時計算讓聽眾聽到的聲音更具互動性。
在實際作中,聲波傳播方程的解的精度決定了HRTF慮波器的精度?;祉懙挠嬎憧梢陨晕⒋致砸恍?因為建模物體的幾何特征不同:耳廓比較小,構(gòu)造更為精巧,墻壁則更大、更粗曠。
為了得到精確、可靠的數(shù)值解,就必須先了解我們使用的建模方法和它的缺陷,這就需要對我們采用的數(shù)學(xué)模型(聲波的傳播),以及模型代表的物理現(xiàn)象 (如衍射和反射等)有深刻的理解。
一般來說,我們無法找到波傳播公式的解析解 (嚴(yán)格的數(shù)學(xué)表達式)。 所以,我們需要用合適的方法求解數(shù)值解。具體的操作方法就是,用計算機運行軟件,找到精確理論解的近似解。很多科學(xué)領(lǐng)域都采用這種方法,這正是應(yīng)用數(shù)學(xué)的特色。
聲波傳播的數(shù)字模擬技術(shù)得到了大量研究,因為它有著廣闊的應(yīng)用前景,包括在建筑聲學(xué)、軍事隱形車設(shè)計、風(fēng)電場對雷達的影響、噪聲污染等領(lǐng)域的應(yīng)用。另外,和聲波或電磁波傳播有關(guān)的研究課題多不勝數(shù)。數(shù)字模擬技術(shù)提供的有價值的信息,可以幫助研究人員省去難以實現(xiàn)或成本高昂的實驗。
如何求解波的傳播方程呢?波的傳播方程實際上是一種偏微分方程,偏微分方程描述的是待求解的未知函數(shù)(包含多個自變量)及其偏導(dǎo)數(shù)的關(guān)系。
從1950年開始,一種叫做有限元分析的方法為求解偏微分方程的近似解提供了一套堅實的數(shù)學(xué)框架。
有限元分析的原理是,首先將空間分割成小塊,也就是讓區(qū)域離散化。這樣一來,偏微分方程就被定義在一個有足夠精度,并且和原研究區(qū)域形狀近似的離散幾何空間中。在這樣的網(wǎng)格節(jié)點上,我們可以求解待求函數(shù)的近似解。然后,根據(jù)待求函數(shù)的近似解是一系列來自某個集合的簡單連續(xù)函數(shù)的和這一假定,我們就能找到待求函數(shù)的近似解。同時,對于有限元分析方法,我們可以在數(shù)學(xué)上證明存在唯一的近似解?,F(xiàn)在,有限元分析已經(jīng)成為工業(yè)界基本的數(shù)字計算工具了。
舉例來說,在我們用頻域(frequency domain)描述聲學(xué)問題時,假設(shè)某個正弦聲波在空間中傳播,而它的頻率可以用亥姆霍茲方程描述。有限元分析要求先定義聲傳播空間的網(wǎng)格,這些網(wǎng)格就是聲壓近似解的計算基礎(chǔ)。
由于待求的解具有振蕩性,如果要追求一定的精度,那么網(wǎng)格棱邊的邊長應(yīng)該位于λ/6和λ/12之間,這里的λ是波長。
這樣一來,對于高頻波(波長短)來說,網(wǎng)格頂點的數(shù)量就非常巨大了。如果用邊長為0.5厘米的小立方體將一個大小為3米×4米×2.5米的房間劃分成很多網(wǎng)格,那么,這些網(wǎng)格將包含約2.4億個頂點,產(chǎn)生一個包含2.4億個未知數(shù)的方程組!
好在有辦法化繁為簡。實際上,可以用一些數(shù)學(xué)方法將波的偏微分方程轉(zhuǎn)化為積分方程,這樣的話,只有待求的未知函數(shù)在傳播區(qū)域邊界的取值會影響方程。對于在開放介質(zhì)中傳播的聲波而言,能夠影響積分方程的,僅僅是未知函數(shù)在聽眾體表的取值。
跟體積法相比,求解表面積分方程的數(shù)值解需要更加復(fù)雜的數(shù)學(xué)表達和計算。但是,這種方法的優(yōu)點在于,只要求對接觸聲波的物體表面進行離散化,并不需要切割整個傳播空間。
在上文提到的房間中。表面積分方程可以將未知數(shù)的數(shù)量從2.4億個減少到幾百萬個。一般情況下,由于積分方程將一個無限空間問題轉(zhuǎn)化為了有限曲面間題,因此它的數(shù)值解將比偏微分方程精確得多。
早在20世紀(jì)末,數(shù)學(xué)家對積分方程的數(shù)值解的探索就開始了。直到現(xiàn)在,它仍然是一個活躍的研究領(lǐng)域。我們在此羅列3種適用于波的傳播問題的方程快速解法,目前產(chǎn)業(yè)界和學(xué)術(shù)界都在使用它們∶快速多極法(fas tmultipole method),1988年由耶魯大學(xué)的萊斯利·格林加德 (Leslie Greengard)和弗拉基米爾·羅克林(Vladimir Rokhlin)發(fā)明;遞階矩陣法(hierarchical matrix method),1999年由德國萊比錫馬普數(shù)學(xué)研究所的沃爾夫?qū)す瞬际?Wolfgang Hackbusch)發(fā)明;最后一個方法是本文作者于2013年發(fā)明的,叫做稀疏基數(shù)正弦分解法(sparse cardinal sine decomposition)。所有這些方法都能顯著減少波傳播積分方程的計算時間和內(nèi)存需求,使得在普通計算機上求解HRTF的數(shù)值解成為可能。不過,要計算出所有具有足夠精度的HRTF濾波器,計算機得運行十幾個小時。
HRTF函數(shù)的數(shù)值解讓我們能夠更好地理解,聽眾的形態(tài)特征(尤其是耳朵和頭的形狀)和他聽到的聲音之間的關(guān)系。利用數(shù)字模型,我們可以輕而易舉地改變虛擬模特的耳朵和頭部的形狀,從而構(gòu)造出一個包羅萬象的形態(tài)數(shù)據(jù)庫。接著,我們可以為每個虛擬聽眾定制一套HRTF濾波器組。這些數(shù)字計算不僅能夠改善虛擬現(xiàn)實頭盔的立體聲效果,甚至還能改良助聽器或視障人士的導(dǎo)航裝置。
另一方面,在立體聲研究中開發(fā)的數(shù)學(xué)工具具有普適性,可以應(yīng)用到其他的波傳播問題中去。HRTF的軟件和算法也可以用來有效地模擬劇場內(nèi)的聲波、水下聲納發(fā)出的聲波、隱形飛機想要躲避的雷達波(電磁波)的傳播等。
立體聲技術(shù)的應(yīng)用前景十分光明。
(摘自《環(huán)球科技》2018年3月號總第147期)