王藝霖,陳思涵
(1.湖南省廣播電視集團(tuán),湖南 長(zhǎng)沙 410000;2.湖南省藝術(shù)職業(yè)學(xué)院,湖南 長(zhǎng)沙 410000)
由湖南廣播電視集團(tuán)重點(diǎn)打造的芒果TV 旗下音樂(lè)IP 項(xiàng)目“馬欄山音樂(lè)節(jié)”,已持續(xù)舉辦多年,期間進(jìn)行了許多錄制并傳輸至互聯(lián)網(wǎng)端的探索,并積累了大量音樂(lè)類節(jié)目相關(guān)制作經(jīng)驗(yàn)。相比其他非音樂(lè)類節(jié)目,這類節(jié)目的音樂(lè)演出環(huán)節(jié)往往占有較大比重,同時(shí)對(duì)聽(tīng)感的要求也比其他類型節(jié)目要求更高。因此,如何更好地保留音樂(lè)現(xiàn)場(chǎng)的聽(tīng)感并將信號(hào)傳輸給互聯(lián)網(wǎng)觀眾是至關(guān)重要的。
本文就近年來(lái)湖南廣播傳媒中心對(duì)音樂(lè)直播所作的技術(shù)創(chuàng)新為例,闡述如何在不改變傳統(tǒng)廣播電臺(tái)傳輸路徑的前提下,利用雙耳立體聲技術(shù)保留音樂(lè)節(jié)現(xiàn)場(chǎng)聽(tīng)感并傳輸至互聯(lián)網(wǎng)平臺(tái),讓用戶僅通過(guò)一副耳機(jī)就能感受到更加自然、沉浸式的音樂(lè)體驗(yàn)。
雙耳立體聲(binaural)技術(shù)是一種通過(guò)頭部相關(guān)函數(shù)(HRTFs)[1]過(guò)濾聲波來(lái)模擬人耳聽(tīng)到的聲音效果的3D 聲場(chǎng)重建技術(shù)[2]。隨著音頻制作技術(shù)的發(fā)展,使用頭部相關(guān)函數(shù)作為聲波過(guò)濾算法的軟插件很多,但主要多用于后期制作,并不適合直播和現(xiàn)場(chǎng)混音。此外,目前已有的大型直播比如東京奧運(yùn)會(huì)直播、春節(jié)聯(lián)歡晚會(huì)直播以及《我是歌手》節(jié)目[3]等,主要是借助杜比編碼器、內(nèi)置沉浸式混音以及下變換模塊的調(diào)音臺(tái)如SSl System T、Calerc等[4],完 成5.1,5.1.2,5.1.4,7.1,7.1.2 及7.1.4格式的混音和直播任務(wù)[4],也可將多通道音頻下變換為立體聲(stereo),但并不能實(shí)現(xiàn)雙耳立體聲(binaural)的混音與直播需求。此外,對(duì)用戶來(lái)說(shuō),如果直接將傳輸多通道格式的音頻呈現(xiàn)在互聯(lián)網(wǎng)平臺(tái)的節(jié)目當(dāng)中,需要配備相同通道數(shù)的環(huán)繞聲音響系統(tǒng)才能體驗(yàn)到節(jié)目中的環(huán)繞聲音樂(lè),相較于通過(guò)耳機(jī)便能收聽(tīng)3D 聲的雙耳立體聲(binaural)來(lái)說(shuō),缺乏便捷性與可移動(dòng)性。
針對(duì)上述問(wèn)題,本文基于Max/Msp 編程平臺(tái)開(kāi)發(fā)一套實(shí)時(shí)混音程序,用于實(shí)現(xiàn)以下播出目標(biāo):
(1)良好的音樂(lè)傳輸質(zhì)量,電平符合播出標(biāo)準(zhǔn),音樂(lè)音質(zhì)清晰;
(2)良好的環(huán)繞聲效果,音源定位清晰,具有空間感、沉浸感;
(3)可實(shí)現(xiàn)雙耳立體聲實(shí)時(shí)混音。
要實(shí)現(xiàn)這幾個(gè)目標(biāo),需要針對(duì)性地給出解決方案。
首先是音樂(lè)質(zhì)量的保證。音樂(lè)節(jié)因?yàn)槿巳罕姸嗉又F(xiàn)場(chǎng)有主擴(kuò)音箱,現(xiàn)場(chǎng)錄音難免出現(xiàn)雜音過(guò)多、電平過(guò)載的問(wèn)題。因此,在選擇拾音位置時(shí)需避開(kāi)集中人群,同時(shí)需要在程序中加入電平監(jiān)測(cè)與響度控制模塊,防止音量過(guò)大導(dǎo)致失真。
其次是環(huán)繞聲效果的實(shí)現(xiàn)。為拾取音樂(lè)節(jié)現(xiàn)場(chǎng)環(huán)繞聲聲場(chǎng),環(huán)繞聲錄音話筒的選擇與拾音位置非常重要。需選擇專業(yè)級(jí)環(huán)繞聲話筒,提前進(jìn)行拾音位置測(cè)量與實(shí)驗(yàn),確定好最佳擺放位置。
最后是實(shí)時(shí)混音核心處理環(huán)節(jié),即通過(guò)Max/Msp 平臺(tái)開(kāi)發(fā)的程序,將拾取的環(huán)繞聲聲源與舞臺(tái)音樂(lè)在計(jì)算機(jī)中進(jìn)行實(shí)時(shí)混音,最終生成雙耳立體聲(binaural)信號(hào)用于直播。具體信號(hào)流程總結(jié)如圖1 所示。
圖1 直播與擴(kuò)聲系統(tǒng)流程圖
由圖1 可知,用于雙耳立體聲(binaural)直播的聲音信號(hào)主要由舞臺(tái)音源與環(huán)繞聲話筒聲源組成。舞臺(tái)音源(即針對(duì)在舞臺(tái)演出的樂(lè)隊(duì)樂(lè)器、人聲拾音所獲取的音樂(lè)類信號(hào))與環(huán)繞聲話筒(即上文提到的用于拾取音樂(lè)節(jié)現(xiàn)場(chǎng)聲場(chǎng)的環(huán)繞聲錄音話筒)的信號(hào)輸入數(shù)字調(diào)音臺(tái)后,為了能同時(shí)滿足舞臺(tái)擴(kuò)聲與直播的需求,舞臺(tái)音源(樂(lè)器、人聲等音樂(lè)信號(hào),主要為單聲道與立體聲信號(hào))由調(diào)音師混成立體聲,分別分配給Mix output 和Master Output,其中Mix output 經(jīng)由聲卡送至計(jì)算機(jī),進(jìn)入Max/Msp 實(shí)時(shí)混音程序進(jìn)行雙耳立體聲混音,Master Output 送至音樂(lè)節(jié)舞臺(tái)主擴(kuò)音箱用于現(xiàn)場(chǎng)擴(kuò)聲;而環(huán)繞聲話筒聲源經(jīng)由數(shù)字調(diào)音臺(tái)直接送至Max/Msp實(shí)時(shí)混音程序,與調(diào)音師混好的立體聲信號(hào)進(jìn)行混音,最終生成雙耳立體聲(binaural)并輸入至衛(wèi)星直播車用于音樂(lè)節(jié)直播。
由以上表述可知,空間拾音主要依靠環(huán)繞聲話筒來(lái)實(shí)現(xiàn),通過(guò)對(duì)現(xiàn)場(chǎng)空間和整體聲場(chǎng)的測(cè)量與實(shí)驗(yàn),確定環(huán)繞聲話筒在現(xiàn)場(chǎng)的擺放位置,也就是聽(tīng)音的“甜點(diǎn)位”[5],從而獲得良好的現(xiàn)場(chǎng)沉浸式聽(tīng)感。但此次拾音方案與近年錄制的環(huán)繞聲音樂(lè)類綜藝節(jié)目所不同的是,之前大多關(guān)注的是5.1 環(huán)繞聲系統(tǒng)(左、中、右、左后、右后、超重低音)為對(duì)象的空間拾音,因此使用的也是5.0 制式的話筒陣列,但由于缺乏對(duì)上、下聲音方位的空間信息的拾取,并不能真正還原3D 聲聲場(chǎng)。
為彌補(bǔ)這一不足,技術(shù)團(tuán)隊(duì)使用了基于Ambisonic 錄音原理開(kāi)發(fā)的TetraMic 四面體麥克風(fēng)進(jìn)行環(huán)繞聲錄音,實(shí)物如圖2 所示。該話筒含有四個(gè)同軸振膜,以“A”格式錄制,通過(guò)相關(guān)軟件轉(zhuǎn)換為可用于多種環(huán)繞聲制式的“B”格式,包含W,X,Y,Z 四個(gè)音頻通道(即不同方向空間信息,依次是全方位、前后方向、左右方向、上下方向)。它能拾取360°空間方位的聲音信息,同時(shí)也具有較寬的頻率響應(yīng)(30 Hz~18.5 kHz)與空間分辨率(5 °或更?。6]。
圖2 TetraMic 四面體麥克風(fēng)
由于音樂(lè)節(jié)現(xiàn)場(chǎng)主要通過(guò)主擴(kuò)音箱進(jìn)行擴(kuò)聲,現(xiàn)場(chǎng)觀眾的聽(tīng)感也來(lái)自于此,要準(zhǔn)確還原現(xiàn)場(chǎng)聽(tīng)感,就需要模擬觀眾聽(tīng)感來(lái)確定聽(tīng)音“甜點(diǎn)位”[7]。通過(guò)對(duì)現(xiàn)場(chǎng)主擴(kuò)音箱位置距離、角度的測(cè)量和聲場(chǎng)測(cè)試,多次錄音實(shí)驗(yàn)后,該位置確定在以主擴(kuò)音箱中心為軸線,距離演出舞臺(tái)37 m 的位置。場(chǎng)地位置情況如圖3 所示(其中耳機(jī)符號(hào)代表話筒擺放位置)。該位置主擴(kuò)音箱的直達(dá)聲大于空間反射聲,錄音實(shí)驗(yàn)結(jié)果表明聲音清晰同時(shí)具有足夠的聲場(chǎng)空間感,能較好還原聽(tīng)眾現(xiàn)場(chǎng)感受。當(dāng)然,根據(jù)不同的現(xiàn)場(chǎng)環(huán)境,該位置只做參考,具體還需要根據(jù)現(xiàn)場(chǎng)環(huán)境來(lái)確定。
圖3 場(chǎng)地分布平面圖
確定好環(huán)繞聲話筒拾音位置后,所有聲音信號(hào)進(jìn)入調(diào)音臺(tái)之后進(jìn)行信號(hào)分組和路由。由于雙耳立體聲信號(hào)的生成需要單獨(dú)進(jìn)行編碼處理,因此TetraMic 的聲音信號(hào)由direct out 送至計(jì)算機(jī)進(jìn)行編解碼。另外需要注意的一點(diǎn)是,由于TetraMic 的位置距離主擴(kuò)有一定距離,如果直接與舞臺(tái)音源混到一起,會(huì)聽(tīng)到TetraMic 的信號(hào)晚于舞臺(tái)音源。為避免這個(gè)問(wèn)題,使用TetraMic 時(shí)加入了延時(shí)[8],以縮小二者之間的時(shí)間差。
為了實(shí)現(xiàn)雙耳立體聲混音與直播,使用環(huán)繞聲話筒拾取現(xiàn)場(chǎng)聲場(chǎng)之后,最重要的是通過(guò)Max/Msp編程實(shí)現(xiàn)實(shí)時(shí)混音并生成最終需要的雙耳立體聲(binaural)信號(hào)。筆者所使用的Max/Msp 是一套圖形化編程語(yǔ)言,可用于控制聲音參數(shù)、實(shí)時(shí)互動(dòng)、聲音混音、設(shè)計(jì)prototype 等等專為視覺(jué)與聲音設(shè)計(jì)的編程語(yǔ)言,利用其中物件(object)自定義串接,設(shè)計(jì)出程序模塊。本次的程序設(shè)計(jì)主要設(shè)計(jì)三大模塊,分別為聲音控制模塊、B 格式音源轉(zhuǎn)換模塊以及雙耳立體聲生成模塊。
如上文中圖1 所提到的,舞臺(tái)音源與環(huán)繞聲話筒聲音信號(hào)由調(diào)音臺(tái)傳輸至計(jì)算機(jī)中的Max/Msp程序后,兩類信號(hào)經(jīng)過(guò)聲音控制模塊進(jìn)行實(shí)時(shí)音量監(jiān)控后被分別處理。其中,舞臺(tái)音源加以500 ms延時(shí)使之與TetraMic 信號(hào)同步,TetraMic 信號(hào)被送至B 格式音源轉(zhuǎn)化模塊從A 格式轉(zhuǎn)為B 格式。最后這兩類信號(hào)經(jīng)由雙耳立體聲生成模塊轉(zhuǎn)為雙耳立體聲(binaural)信號(hào)并混音,形成最終的輸出信號(hào)送至衛(wèi)星直播車。Max/Msp 程序最終操作界面如圖4 所示,左側(cè)為總操控界面,右側(cè)為binaural 轉(zhuǎn)換界面。
圖4 左側(cè)為總操控界面,由上至下依次為,聲卡輸入物件(object)TetraMic 輸 出為4 個(gè)通道,由adc~1234 表示,舞臺(tái)音源為立體聲輸出,由adc~5 6 表示。此外,delay~500 物件(object)則是上文提到的延時(shí),讓舞臺(tái)音源的時(shí)間延遲500 ms,與TetraMic 信號(hào)趨近于同步。下面四通道和二通道的電平表分別用于控制TetraMic和音樂(lè)的音量,vst~是專門用于加載插件的子模塊,其中A-formattrans 是TetraMic 專用的格式轉(zhuǎn)換器,Binauraltrans 則是將所有信號(hào)轉(zhuǎn)換為binaural信號(hào)用于最后的直播,具體信號(hào)情況和電平也可以通過(guò)右邊的窗口實(shí)時(shí)檢測(cè)。中間右上角經(jīng)緯線物件(object)用于給予舞臺(tái)音樂(lè)注明該音源之于TetraMic 的具體角度、距離,以便準(zhǔn)確地還原起初設(shè)想的虛擬VIP 位置的聽(tīng)覺(jué)效果。需要注意的是,實(shí)際情況較理論更為復(fù)雜,為保證良好聽(tīng)覺(jué)效果,進(jìn)行人工微調(diào)十分有必要,如對(duì)舞臺(tái)音源(音樂(lè)直達(dá)聲)與環(huán)境聲之間的音量比例關(guān)系進(jìn)行調(diào)整,根據(jù)演出當(dāng)日人群雜音等情況調(diào)整環(huán)繞聲話筒位置等[9]。另外,在Max/Msp 程序中加入用于預(yù)制設(shè)置的子模塊,使參數(shù)設(shè)置能根據(jù)不同樂(lè)隊(duì)進(jìn)行量身定制,例如,在彩排過(guò)程中發(fā)現(xiàn)有的樂(lè)隊(duì)的program 中加了非常重的混響,但主擴(kuò)出來(lái)之后并不是非常明顯,通過(guò)降低原音樂(lè)音量增加的環(huán)境聲的音量后,聽(tīng)感層次感清晰度增強(qiáng),于是單獨(dú)保存了該預(yù)置效果,以便在直播中快速切換。
圖4 Max/Msp 實(shí)時(shí)混音操作界面
節(jié)目播出后,用戶反饋此次聽(tīng)感在空間感與沉浸感的塑造上有明顯提升與改善,猶如置身其中,音樂(lè)傳輸質(zhì)量、環(huán)繞聲聽(tīng)感、實(shí)時(shí)混音這三點(diǎn)播出目標(biāo)都獲得了較高的完成度。
從技術(shù)層面說(shuō),這次用于直播的Max/Msp 完成了實(shí)時(shí)雙耳立體聲混音和渲染的任務(wù),但考慮到該程序主要是針對(duì)帶有PA 系統(tǒng)、含有電聲樂(lè)器的電子音樂(lè)演出設(shè)計(jì)的,因此并不適用于不插電演出,后者沒(méi)有PA 的部分,因此需增加補(bǔ)點(diǎn)話筒,每個(gè)樂(lè)器的聲音最好都能送入渲染程序中進(jìn)行混音以保證最好的雙耳立體聲聽(tīng)感[10]。如果現(xiàn)場(chǎng)環(huán)境聲中混響效果不明顯,還需要在程序中增加混響器,讓整體音色聽(tīng)起來(lái)更加融合、更具有空間感[11]。類似的方式方法很多,具體需要在原有理論基礎(chǔ)上根據(jù)實(shí)際情況來(lái)設(shè)計(jì)。程序完成后還需多次實(shí)驗(yàn)、改進(jìn),方便使用,并根據(jù)現(xiàn)場(chǎng)效果進(jìn)行實(shí)時(shí)監(jiān)測(cè)和現(xiàn)場(chǎng)混音調(diào)整等。
從聽(tīng)感來(lái)說(shuō),相較于之前的音樂(lè)節(jié)直播效果,本次因?yàn)?D 聲制作技術(shù)的加入,讓音樂(lè)整體不再只是干癟的、缺乏活力的調(diào)音臺(tái)輸出,而是多了環(huán)境聲的渲染,讓直達(dá)聲和環(huán)境中的反射、衍射等空間聲場(chǎng)信息混合在一起,聲音變得更自然、更有質(zhì)感和包裹性。同時(shí),定位信息的有效拾取和雙耳立體聲的生成方式,也增加了聲音的層次感和空間感。用戶通過(guò)耳機(jī)就能感受到音樂(lè)節(jié)寬闊草坪的聲場(chǎng)效果,聽(tīng)覺(jué)的趣味性也有所增加。
此次通過(guò)自主編程實(shí)現(xiàn)了實(shí)時(shí)雙耳立體聲混音與直播,是音樂(lè)類互聯(lián)網(wǎng)節(jié)目在音頻技術(shù)層面一次較為成功的嘗試,在完成播出任務(wù)的同時(shí)極大地增加了空間聽(tīng)感,使互聯(lián)網(wǎng)的音頻傳輸從環(huán)繞聲真正上升到了3D 聲音頻,讓用戶不需要通過(guò)復(fù)雜的多通道音響系統(tǒng)而是僅憑一副耳機(jī)即可收聽(tīng)到沉浸式音樂(lè)現(xiàn)場(chǎng)。隨著技術(shù)的發(fā)展,越來(lái)越多的應(yīng)用方式皆可在未來(lái)進(jìn)行嘗試,如將VR 視覺(jué)與3D 聲傳輸結(jié)合,通過(guò)使用頭部跟蹤技術(shù)讓用戶與互聯(lián)網(wǎng)節(jié)目進(jìn)行互動(dòng)等等。只有不斷地進(jìn)行創(chuàng)新性應(yīng)用嘗試,才能更好地傳達(dá)給用戶一個(gè)更具趣味性、沉浸式的互聯(lián)網(wǎng)聽(tīng)覺(jué)體驗(yàn)。