●劉 灝
(上海音樂學院,上海,200031)
虛擬現(xiàn)實技術是當下最前沿并最具實用價值的研究方向和重要課題之一。虛擬現(xiàn)實技術英文簡稱 Virtual Reality,是一項針對用戶感官體驗的模擬技術。[1]VR技術具有極強的專業(yè)交叉性,一個完整的VR空間的構成涵蓋了交互傳感技術、網(wǎng)絡傳輸技術、多媒體設計技術等多種不同的技術。VR簡單的來說,就是通過計算機終端進行信息采集、匯編、轉換來進行模擬的技術手段,在技術飛速發(fā)展的今天,VR技術已經(jīng)被運用到了非常多的現(xiàn)實領域當中,對于音樂空間的多維度音響描述就顯得格外有意義。
VR技術的技術核心理念在于:模擬。這是一種類似于仿生學的概念,通過信息技術手段用數(shù)據(jù)對我們所認知的物理信息進行有機重建。現(xiàn)階段,VR技術已經(jīng)被投入到了許多的領域當中。在醫(yī)學領域中,通過 VR3D建模可以精確的模擬出人體的模型器官,醫(yī)者可以通過VR技術對人體器官進行解剖分析,也可將此投入到醫(yī)學教學中。在軍事領域中,通過VR技術塑造出極為逼真的戰(zhàn)爭場景,用于軍事演練,比起傳統(tǒng)的軍事演練更具有安全性與針對性。在藝術領域中,藝術家通過VR技術讓用戶得到一種沉浸式的藝術體驗,藝術家通過數(shù)字化信息對用戶的感官進行深度的刺激,讓平面的藝術欣賞形式多維化、立體化。[2]
對于VR技術來說,模擬環(huán)境、感知的深度決定了模擬化技術的成熟與否。如何真正的讓用戶覺得“真實”是VR技術所面對的最大的問題與挑戰(zhàn)。人的感官是多種多樣的,就目前的VR技術來說,VR目前著眼于對于用戶視覺與聽覺的模擬探索中。Janut公司是著名的VR制作研發(fā)公司,其針對VR技術進行了大量的制作與研究,而該公司的首席音頻工程師亞當·桑默曾說過:“VR技術中,視覺占據(jù)一半的地位,而聽覺占據(jù)剩下一半的地位”通過用戶親臨現(xiàn)場對個體之間的交互進行實際觀察,這種方法也是人類學家 Bronislaw Malinowski提出和推行的,這從某種意義上決定了交互的本質(zhì)性概念。[3](P12)。本文我們將著眼于 VR技術中聽覺模擬技術層面進行更深入的探索與研究。
在虛擬空間的技術領域中,聽覺的信息處理占非常大的比重和抽象想象空間的構建。聽覺是人的重要感官之一,具有接收物理世界中聲波信息的重要屬性。聽覺決定了人們對于空間的定位認知以及物理聲源的方位感知,視覺通過圖形的具現(xiàn)化信息來提供空間的構成而聽覺則是通過人對于聲波的物理反饋來進行的,在構筑虛擬空間時,視覺通過三維繪制直觀的成像體驗進行塑造,而聽覺則完全是通過技術手段來間接性的塑造虛擬空間。
隨著技術的不斷發(fā)展更新,音頻已經(jīng)不再簡單的是我們傳統(tǒng)上所謂的聲音波形,聲音頻譜,在虛擬技術不斷發(fā)展的今天,音頻已經(jīng)正式升級成為了 3D音頻。3D音頻技術是對聲場還原度要求最高的技術。例如一位著名音樂家進行了一場音樂會,3D音頻技術的目的不是在于簡單勾勒出這場音樂會的聲場、聲像等信息,而是完完全全的為用戶模擬再現(xiàn)出音樂會的現(xiàn)場,真正創(chuàng)造出“現(xiàn)實”的聽覺體驗。
3D音頻技術的基礎就在于如何模擬還原出“現(xiàn)實”的聲音感覺,這里就要提到一個重要的聽覺概念-HRTF函數(shù)。HRTF函數(shù)的英文全名是 Head Related Transfer Function,直譯為頭部相關傳輸函數(shù)。這個函數(shù)定義了聲音到雙耳傳輸?shù)恼麄€過程,在物理學上,聲源通過振動發(fā)出聲音信息后,聲音在普通空氣的介質(zhì)中以大約340m/s的速度進行傳播,人耳在接收到聲波后,聲音信息還會通過耳廓、耳道、鼓膜等一系列過濾后才能讓人接收到最終的聲音信息素材。我們真正意義上可以用耳朵來觀察這個世界。[4](P15)音信息進行反饋分析,包括分析聲音的方位、強弱等。人的大腦像一個巨大的機器終端,而人耳作為這個終端的部件之一,具有一套獨特的聲音信息過濾采集分析系統(tǒng),這個系統(tǒng),就是所謂的HRTF系統(tǒng),也是一種音效定位算法。
圖1、HRTF計算圖示①
圖2、HRTF函數(shù)圖示化演示①
這個公式就是HRTF在普通情況下的算法公式。在很多定義HRTF的定義中都會出現(xiàn)這個一樣問題,那就是人只有兩個耳朵,卻能定位來自空間中四面八方的聲音,這全部得益于這個分析系統(tǒng)。我們從公式中不難發(fā)現(xiàn),人的左耳與右耳對于聲音的感知是分離的,也就是說,左耳與右耳所接收到的音源信號是互有差異的。聲音的方位也正是因為同樣的聲源到達兩耳之間的信號強度、時間存在差別,所以人能夠通過聲音來辨別聲源的方位。聽覺系統(tǒng)理論上比視覺系統(tǒng)要強的多,在黑暗的環(huán)境中,一個發(fā)聲體向你靠近,你無法用視覺直接捕捉到聲源的方位,但是你卻可以用聽覺來辨別這個聲源的具體位置、遠近等,從而作出反應。
我們?nèi)绻胍@取多維聲音信息,獲得有效的聲音方位參數(shù)以此創(chuàng)造最為貼近真實的虛擬聲音方位,就必須對人體獲取聲音位置的原理進行掌握。聲音定位在聲學中最基本的概念就是雙耳效應,雙耳效應的基本原理在于人們依靠聲音信息到達雙耳之間的差異值來感知具體聲源所在方位。我們再具體的分解雙耳效應的理念,其中最重要的概念就是“差值”。
圖3、雙耳效應概念圖①
從圖 3看,我們能很直觀的感受到聲源發(fā)出的聲音信號到達雙耳是存在差異的,能體會到聲音信號到達人耳的距離存在差異。這是聲音定位的第一個重要的原理,即是ITD(Inter Aural Time Delay)兩耳時間延遲量差。這是聲音定位中運用兩耳時間差的效應,聲音在空氣中的傳播速度大約為 340m/s,我們假設兩耳之間的距離大約為30cm,聲源在人面對的右側,聲源如圖3所示會先到達右耳,而后到達左耳,根據(jù)時間與傳播速度的關系能得到一個Δt(時間差)除非聲源在人面前的正前方位置,那么聲源到達雙耳的距離相等,聲音信息會同時被雙耳所接收,所得到的Δt為0,這是聲源在人耳正前方的情況,而其他的情況Δt都不會為0。在聲學范疇中,著名的哈斯效應曾針對性的對于聲音的時間差值進行了研究,這也是許多劇院、舞臺設置聲音音響系統(tǒng)的重要參照與依據(jù)。[5](P20)
對于聲音定位信息還有一個重要的差值信息就是音量差。這個差值概念也非常好理解。聲音是會衰減的信號。聲波在任何介質(zhì)中傳播時,會受到諸如反射、散射等物理影響從而造成聲音的衰減。同樣的聲源所發(fā)出來的聲音你站在距離1M和距離10M所聽到的聲音響度是完全不同的,這個聲音音量的差值信號在聲音定位中這是一個重要的參數(shù)信息,稱為IAD(Inter Aural Amplitude Difference)兩耳音量大小差。同樣以圖 3為例,聲源在我們右側,除了聲音信號的距離因素影響了音量的大小之外,聲波傳達到左耳時,人腦對聲波信號進行了一定量的吸收,自然就存在了一定量的音量差值。
圖4、人耳對待聲音信息的接收解剖圖①
從理論的角度看,ITD和IAD分別從時間差與音量差兩個差值量闡述了聲音信號的方位信息,大腦對ITD與IAD兩種信號進行有機分析與整理能夠辨別出聲源所在的方向,但是這存在一個頗為致命的問題,就是僅采用這兩種參數(shù)在進行聲音定位時,往往無法對正前方、正后方、頭頂以及腳下進行很好的聲音信息辨別。從理論數(shù)據(jù)上來看,聲音在這幾個方位時到達兩耳的信息差為0,這也直接導致了無法從這兩個信息差值得出這幾個位置的具體方位,此時,耳廓的作用就體現(xiàn)了出來。聲音波形是物理世界中的一種基本的波形,遇到物體會發(fā)生反射的情況,不同的波形在通過外耳、鼓膜與耳廓時會發(fā)生反射形成不同的頻率回饋。而耳廓的存在,使得人腦能夠分辨出從前方與后方傳來的聲音信息的不同。ITD、IAD、人的耳廓頻率振動參數(shù),組成了聲音參數(shù)的三個基本概念點,也是3D音效所要考慮的最基本的概念參數(shù)。這三個元素是HRTF的重要組成參數(shù)。
圖5、人耳的構造②
HRTF作為人耳認知聲音的重要函數(shù),能夠精確地反應聲源到達人耳感知的過程與信息,這也是3D音頻技術的核心算法概念。如果營造一個虛擬空間,想要完整地重塑出這個空間的聲場以及聲音信息,就要得到這個空間中所有的 HRTF濾波函數(shù)曲線,將這些曲線進行整理得到的濾波矩陣就可以還原出整個聲音空間。由于人體的構成各不相同,同樣的聲源傳達到不同的人耳中就會發(fā)生變化,所以 HRTF極具個人性與個性化,如何采集到具有一定固定標準的 HRTF函數(shù)信息從而制造最為真實的聲音空間一直是音樂工程師所研究的課題之一。
早在20世紀90年代,就有人采用了物理模擬的方式來進行錄音以求得真實的 HRTF函數(shù)信息,這也就是演變成了“雙耳錄音”的技術手段。
圖6、“雙耳錄音”演示③
雙耳錄音的執(zhí)行方法是采用一個模擬的人形頭部來進行演繹的。這種錄音方法最早是由 AT&T實驗室在1933年創(chuàng)造性地提出。當時AT&T實驗室通過模擬制作出了一個類人頭的模型,然后以這個人頭模擬用戶的頭部位置進行錄音制作。[6](P39)
這是雙耳錄音的一個基本雛形,經(jīng)過時間的推移以及演變,雙耳錄音的錄音方式逐漸成熟并且成為了3D音頻制作的一種重要的技術手段。
圖7、雙耳錄音所制作的假的人頭模型②
雙耳錄音不同于傳統(tǒng)的錄音方式,最顯而易見的就是這種錄音方式可以直接從物理角度模擬出人耳聽到聲音的方式。前文提到的HRTF函數(shù)展示了聲音到達人耳需要經(jīng)過諸多因素的影響,而傳統(tǒng)的錄音方法不管是再怎么增加麥克風的數(shù)量,改變麥克風錄音的位置,也無法完全再現(xiàn)人腦對于聲音信號的接收方式。而“人頭錄音”將仿真人頭作為人來錄制聲音,所取得的聲音素材進一步接近真人真實聽到的聲音情況。仿真人頭在制作上的構造、形狀、密度都是仿造真人來制作的,這個仿真人頭有完整的耳部構造,有整個頭顱,后來甚至有的仿真人頭設計出了肩膀、身體等完整的身體部件,在錄音的過程中,兩支麥克風被設置在仿真人頭的耳部位置。采用仿真人頭進行錄音時,聲源的聲音信息傳播過來會像傳播到真人的耳朵中一樣,經(jīng)過耳部結構的摩擦、肩膀,腦袋等因素的影響傳達到耳部中的麥克風中,這樣所得到的聲音是無限接近于真人所得到的聲音的,也可以得到最為逼真的HRTF參數(shù)。
人頭錄音由于使用了兩支麥克風進行錄音,所以它屬于標準的兩聲道錄音方法,所得到的最終音頻是標準的兩聲道,這也就是說,如果我們使用耳機進行感受的話,我們所得到的就是完美的“三維空間音場”。這種所謂的“三維空間音場”能讓我們用戶準確地感知到聲音的方位。這種方位是360度的聽覺體驗,我們不僅僅是能聽到聲音“左邊”或“右邊”的聲音,更可以感知到“頭頂”、“身后”、“兩側”等多方位的音響信號,這種體驗帶給用戶的沉浸感是非常好的,就好比在錄制聲音的過程中,讓用戶直接親臨錄制現(xiàn)場,錄制的過程模擬了用戶大腦記憶的過程,最后在體驗的過程中,能夠得到無限接近于“現(xiàn)實”的真實感。
圖8、360度沉浸式的試聽體驗③
但是雙耳效應錄制最大的弊端與現(xiàn)在沒有普及開來的原因就在于耳機的欣賞模式。由于雙耳效應模擬人腦的左右耳進行錄制雙聲道,所以想到進行最好的3D音效體驗只能通過佩戴耳機的模式,如果使用音箱外放,則會完全失去 360度音效環(huán)繞的意義。這也是現(xiàn)如今雙耳效應所錄制的作品所帶來的局限性。這一點也造成了雙耳錄音的模式并沒有被廣泛地應用到大部分的音像制品中,使用耳機才能得到最佳的聽覺效果這一局限性阻礙了雙耳錄音作品的推廣。
目前大部分影院中使用的音響系統(tǒng)為杜比實驗室所研發(fā)的Dolby Atmos(杜比全景聲)系統(tǒng)。這種音響系統(tǒng)不局限于 5.1、7.1聲道概念,能夠配合電影的實際演出效果來呈現(xiàn)更具有動態(tài)的聲音效果,營造出更為逼真的效果。[7](P69)例如,電影中的情節(jié)是,畫面的左側發(fā)生著劇烈的爆炸,右側是槍林彈雨的畫面,那么影院會針對電影的情節(jié)讓與之對應的音箱發(fā)出對應的聲音。但是雙耳錄音所得到的 3D全方位音頻完全是根據(jù)你的“耳朵”所定制的音響聲音,這種定制音頻精確地重塑了用戶的聽覺系統(tǒng)所捕捉到的聲音素材,相比與全景聲,沒有數(shù)量眾多的擴聲設備,就可以再現(xiàn)出自然的3D聲音。
圖9、杜比全景聲的影院設置③
從雙耳錄音能夠完全基于用戶聽覺體驗的錄音方式來看,這是對VR技術在聽覺領域中最強有力的刺激。這種設計下的音頻素材有一種絕對的真實性。這種錄音方法似乎在告訴用戶,環(huán)境、此虛擬空間就是你所親身經(jīng)歷的現(xiàn)實世界,這樣所帶來的虛擬體驗的可信度將會極大增加,其模擬空間的效果與深度將極大的加強。
藝術家在追求藝術化作品的同時越來越在乎欣賞用戶對于藝術作品的聽覺體驗。許多電子音樂、舞臺藝術家已經(jīng)把眼光放在了藝術的表現(xiàn)力上。法國籍希臘作曲家Iannis Xenakis是早期先鋒派的電子音樂作曲家之一。在他的作品中,他會動用幾個設置上百個揚聲器來進行演繹。這是一種很直白的藝術表現(xiàn)手法,這種藝術表現(xiàn)手法直白的告訴聽眾,“我想要制造一個多維度全方位的音響空間”。受限于硬件與環(huán)境的束縛,這種全方位的布置是不可能的。由此,3D音頻技術登上了舞臺。[8](P99)
隨著技術的不斷更迭,目前的藝術作品也以全新的姿態(tài)呈現(xiàn)在世人的面前。越來越多的藝術家在將藝術思維進行呈現(xiàn)的同時也追求著用戶所能得到的最佳體驗。3D音頻技術也同樣被運用在目前許多現(xiàn)代化的藝術舞臺作品之中。
《開天》是上海音樂學院團隊創(chuàng)作的交互式多媒體舞臺作品。這部作品取材于中國古典神話,使用兩支巴松管、中國大鼓、電子音樂與多媒體實時交互向觀眾呈現(xiàn)了盤古開天辟地的雄偉場景④。整個作品貫穿3D音頻制作的理念,意圖為觀眾創(chuàng)造一個全方位的試聽空間。以往的舞臺藝術作品,無論是使用預置的音響素材還是舞臺現(xiàn)場的實時表演,所提供給觀眾的藝術感覺始終是平面化的,具有空間上的局限性。
《開天》在創(chuàng)作中十分注重“聲音”與“畫面”、“演員”與“觀眾”、“舞臺”與“聽眾席”的交互關系?!堕_天》在舞臺中設置2到3支立麥、投影屏幕,構建了一個完整的立體聲回放系統(tǒng)。鼓手與大管手演繹的聲音通過立麥采集聲音元素后回路進入計算機終端,計算機終端中,經(jīng)過MAX/MSP以及宿主軟件Cubase的實時處理響應得到處理好的聲音信號,再通過回路播放來得到最終需要的聲音效果。在這個過程中,《開天》為了使觀眾收到的不僅僅是平面的聲音,活用了3D音頻技術思維,設計一條音響回路將舞臺中演員所感知到的音響素材回放給觀眾欣賞。這是一個大膽的嘗試,在舞臺演藝中,舞臺中的聽覺感知與觀眾席的音樂感知是有本質(zhì)區(qū)別的。《開天》以舞臺作為基準構建聲音空間,所有的聲音方位信號以舞臺為基準而不是以觀眾看過去的平面為基準,這樣帶給觀眾的試聽體驗更具有代入感,而不是傳統(tǒng)意義上的平面欣賞(見譜例①)。
《開天》在實際創(chuàng)作中加入了非常多的電子音色技法。這些電子化的寫作技法突破傳統(tǒng)的音樂寫作思維,加入了大量的頻段化的音樂素材以及音樂效果,這些效果想要通過樂器單獨發(fā)出是不現(xiàn)實的,現(xiàn)場演出時,現(xiàn)場采集到的聲音素材經(jīng)過電腦終端的處理,效果器的控制最后得到藝術家想要的聲音效果??梢哉f,藝術家不僅僅是樂隊的指揮家,同時也是控制電腦終端處理的工程師。
圖10、MAX/MSP音響控制工程圖①
隨著技術的不斷更新,硬件軟件的日益更新,越來越多的廠商把焦點距離到了3D音頻的制作之中。VR技術的大熱以及用戶對于試聽體驗要求的不斷提高,音頻制作的技術要求也越來越高,能否真實地還原現(xiàn)實的聲音狀態(tài)成為了一些3D音頻公司的重要評判標準。
在3D音頻核心算法中存在許多重要的算法指標,制作3D音頻的根本還是以計算機計算為主,如何取得算法中的準備數(shù)據(jù)成為了技術突破的重中之重,對于信息的采集程度與精度也成為評判 3D音頻技術程度的重要指標。最為基礎的指標之一就是 Localization。Localization是定位信號的意思。目前對于聲音信號定位的研究,環(huán)繞立體聲相對比較成熟,可以對 360度的聲音環(huán)境進行一個優(yōu)秀的模擬,而目前技術上的難點就在于定位上下360度的聲音模擬。VR的最終呈現(xiàn)度是呈現(xiàn)出“現(xiàn)實”,3D音頻、音效目前對于平面360度的聲音可以進行非常好的模擬,但是對于空間化的360度的模擬還存在問題,如何將空間環(huán)繞式的聲音模擬做好是行業(yè)技術先進的一大標準。
圖11、聲音定位的標準①
在 Localization參數(shù)的指標之外,Propagation與Occlusion也是音頻公司技術水平的重要指標。這兩個指標分別代表了傳輸與阻塞兩個重要理念。3D音頻技術的根本理念是模擬現(xiàn)實中的聲音波形,其傳輸規(guī)律也要遵循物理世界的基本規(guī)則。聲音在物理學傳播中會產(chǎn)生反射的效果,在模擬技術中也必然要將這些反射效果給制作出來,這有點類似于對于混響的模擬制作,一個封閉的房間所獲取到的反射信號與開闊的環(huán)境所得到的反射信號是完全不相同的。Propagation是反應對這些聲音反射信號處理的能力參數(shù),目的是為用戶提供一個逼真的空間感。Occlusion這個指標比較特殊,它不是單純的反應聲音的物理屬性的參數(shù),而是一種映射物理世界的參數(shù)信號。舉個例子,一個聲源發(fā)聲,你在房間內(nèi)聆聽以及面對面聆聽的區(qū)別在于你與聲源之間有一面墻壁阻斷。你與聲源之間的交互關系存在著根本的障礙物—墻,有了障礙物的存在,聲音信號在傳達到人耳的過程中會產(chǎn)生天翻地覆的變化,而這種障礙物對于聲音的影響要素就是所謂的 Occlusion因素,目前如果能將 Occlusion做的非常到位,那么這個3D音頻所達到的真實程度是非常高的,其技術也是非常領先的。[9](P129)
3D音頻技術在設計與創(chuàng)造時的根本在于模擬與還原,在視覺畫面中存在有清晰度的概念,而聽覺領域中同樣存在這種聽覺概念。我們能給出高分辨率的圖形和像素之間明顯的差異,同樣音頻也存在有這樣的對比梯度。目前對于聲音素材處理較好的是Ambisonic系統(tǒng)。這個系統(tǒng)于1974年被提出并一直研究發(fā)展到今天,其根本算法是基于矢量合成的一種多通路聲音系統(tǒng)。這個系統(tǒng)是一個計算系統(tǒng),它在空間中模擬了足夠多的揚聲器系統(tǒng),然后設置一個目標指向,然后讓揚聲器發(fā)出聲音記錄這些聲波對于目標的作用效果,然后搜集數(shù)據(jù)還原HRTF信息。這類比于視覺領域有點像像素點組合成高清圖像的概念,所得到的音頻也是非?!扒逦钡摹?/p>
隨著VR技術的日益完善,用戶體驗要求的日益提高,3D音頻技術的發(fā)展是目前音響工程發(fā)展的必然趨勢之一。無論是目前大熱的VR視頻影視,又或者是現(xiàn)在的游戲作品,聲音元素已經(jīng)成為了無可或缺的因素。用戶不僅僅是局限于逼真的視覺元素的呈現(xiàn),對于聲音環(huán)境的真實還原要求也非常的高,例如現(xiàn)在市場上非?;馃岬能娛履M游戲絕地求生,完完全全地將聲場聲音元素作為游戲的一大部分去制作完善了。如何將現(xiàn)實中物理化的聲場原汁原味地呈現(xiàn)在電子化的世界中,依然是音響工程師所要探索的重要課題。
注釋:
①圖示與譜例作者自制。
②圖示源于姚國強《電影電視聲音創(chuàng)作與錄音制作教程》第21頁與第39頁,北京中國電影出版社2011年版。
③圖片來源于網(wǎng)絡。
④國家藝術基金項目支持作品,于2017年10月在上海音樂學院學術廳演出。