雙耳立體聲技術(shù)在音樂(lè)直播中的應(yīng)用方法研究

2022-08-02 09:34:20王藝霖陳思涵

電聲技術(shù) 2022年6期

王藝霖，陳思涵

（1.湖南省廣播電視集團(tuán)，湖南長(zhǎng)沙 410000；2.湖南省藝術(shù)職業(yè)學(xué)院，湖南長(zhǎng)沙 410000）

0 引言

由湖南廣播電視集團(tuán)重點(diǎn)打造的芒果TV 旗下音樂(lè)IP 項(xiàng)目“馬欄山音樂(lè)節(jié)”，已持續(xù)舉辦多年，期間進(jìn)行了許多錄制并傳輸至互聯(lián)網(wǎng)端的探索，并積累了大量音樂(lè)類節(jié)目相關(guān)制作經(jīng)驗(yàn)。相比其他非音樂(lè)類節(jié)目，這類節(jié)目的音樂(lè)演出環(huán)節(jié)往往占有較大比重，同時(shí)對(duì)聽(tīng)感的要求也比其他類型節(jié)目要求更高。因此，如何更好地保留音樂(lè)現(xiàn)場(chǎng)的聽(tīng)感并將信號(hào)傳輸給互聯(lián)網(wǎng)觀眾是至關(guān)重要的。

本文就近年來(lái)湖南廣播傳媒中心對(duì)音樂(lè)直播所作的技術(shù)創(chuàng)新為例，闡述如何在不改變傳統(tǒng)廣播電臺(tái)傳輸路徑的前提下，利用雙耳立體聲技術(shù)保留音樂(lè)節(jié)現(xiàn)場(chǎng)聽(tīng)感并傳輸至互聯(lián)網(wǎng)平臺(tái)，讓用戶僅通過(guò)一副耳機(jī)就能感受到更加自然、沉浸式的音樂(lè)體驗(yàn)。

1 概述

雙耳立體聲（binaural）技術(shù)是一種通過(guò)頭部相關(guān)函數(shù)（HRTFs）[1]過(guò)濾聲波來(lái)模擬人耳聽(tīng)到的聲音效果的3D 聲場(chǎng)重建技術(shù)[2]。隨著音頻制作技術(shù)的發(fā)展，使用頭部相關(guān)函數(shù)作為聲波過(guò)濾算法的軟插件很多，但主要多用于后期制作，并不適合直播和現(xiàn)場(chǎng)混音。此外，目前已有的大型直播比如東京奧運(yùn)會(huì)直播、春節(jié)聯(lián)歡晚會(huì)直播以及《我是歌手》節(jié)目[3]等，主要是借助杜比編碼器、內(nèi)置沉浸式混音以及下變換模塊的調(diào)音臺(tái)如SSl System T、Calerc等[4]，完成5.1，5.1.2，5.1.4，7.1，7.1.2 及7.1.4格式的混音和直播任務(wù)[4]，也可將多通道音頻下變換為立體聲（stereo），但并不能實(shí)現(xiàn)雙耳立體聲（binaural）的混音與直播需求。此外，對(duì)用戶來(lái)說(shuō)，如果直接將傳輸多通道格式的音頻呈現(xiàn)在互聯(lián)網(wǎng)平臺(tái)的節(jié)目當(dāng)中，需要配備相同通道數(shù)的環(huán)繞聲音響系統(tǒng)才能體驗(yàn)到節(jié)目中的環(huán)繞聲音樂(lè)，相較于通過(guò)耳機(jī)便能收聽(tīng)3D 聲的雙耳立體聲（binaural）來(lái)說(shuō)，缺乏便捷性與可移動(dòng)性。

針對(duì)上述問(wèn)題，本文基于Max/Msp 編程平臺(tái)開(kāi)發(fā)一套實(shí)時(shí)混音程序，用于實(shí)現(xiàn)以下播出目標(biāo)：

（1）良好的音樂(lè)傳輸質(zhì)量，電平符合播出標(biāo)準(zhǔn)，音樂(lè)音質(zhì)清晰；

（2）良好的環(huán)繞聲效果，音源定位清晰，具有空間感、沉浸感；

（3）可實(shí)現(xiàn)雙耳立體聲實(shí)時(shí)混音。

要實(shí)現(xiàn)這幾個(gè)目標(biāo)，需要針對(duì)性地給出解決方案。

首先是音樂(lè)質(zhì)量的保證。音樂(lè)節(jié)因?yàn)槿巳罕姸嗉又F(xiàn)場(chǎng)有主擴(kuò)音箱，現(xiàn)場(chǎng)錄音難免出現(xiàn)雜音過(guò)多、電平過(guò)載的問(wèn)題。因此，在選擇拾音位置時(shí)需避開(kāi)集中人群，同時(shí)需要在程序中加入電平監(jiān)測(cè)與響度控制模塊，防止音量過(guò)大導(dǎo)致失真。

其次是環(huán)繞聲效果的實(shí)現(xiàn)。為拾取音樂(lè)節(jié)現(xiàn)場(chǎng)環(huán)繞聲聲場(chǎng)，環(huán)繞聲錄音話筒的選擇與拾音位置非常重要。需選擇專業(yè)級(jí)環(huán)繞聲話筒，提前進(jìn)行拾音位置測(cè)量與實(shí)驗(yàn)，確定好最佳擺放位置。

最后是實(shí)時(shí)混音核心處理環(huán)節(jié)，即通過(guò)Max/Msp 平臺(tái)開(kāi)發(fā)的程序，將拾取的環(huán)繞聲聲源與舞臺(tái)音樂(lè)在計(jì)算機(jī)中進(jìn)行實(shí)時(shí)混音，最終生成雙耳立體聲（binaural）信號(hào)用于直播。具體信號(hào)流程總結(jié)如圖1 所示。

圖1 直播與擴(kuò)聲系統(tǒng)流程圖

由圖1 可知，用于雙耳立體聲（binaural）直播的聲音信號(hào)主要由舞臺(tái)音源與環(huán)繞聲話筒聲源組成。舞臺(tái)音源（即針對(duì)在舞臺(tái)演出的樂(lè)隊(duì)樂(lè)器、人聲拾音所獲取的音樂(lè)類信號(hào)）與環(huán)繞聲話筒（即上文提到的用于拾取音樂(lè)節(jié)現(xiàn)場(chǎng)聲場(chǎng)的環(huán)繞聲錄音話筒）的信號(hào)輸入數(shù)字調(diào)音臺(tái)后，為了能同時(shí)滿足舞臺(tái)擴(kuò)聲與直播的需求，舞臺(tái)音源（樂(lè)器、人聲等音樂(lè)信號(hào)，主要為單聲道與立體聲信號(hào)）由調(diào)音師混成立體聲，分別分配給Mix output 和Master Output，其中Mix output 經(jīng)由聲卡送至計(jì)算機(jī)，進(jìn)入Max/Msp 實(shí)時(shí)混音程序進(jìn)行雙耳立體聲混音，Master Output 送至音樂(lè)節(jié)舞臺(tái)主擴(kuò)音箱用于現(xiàn)場(chǎng)擴(kuò)聲；而環(huán)繞聲話筒聲源經(jīng)由數(shù)字調(diào)音臺(tái)直接送至Max/Msp實(shí)時(shí)混音程序，與調(diào)音師混好的立體聲信號(hào)進(jìn)行混音，最終生成雙耳立體聲（binaural）并輸入至衛(wèi)星直播車用于音樂(lè)節(jié)直播。

2 空間拾音方案

由以上表述可知，空間拾音主要依靠環(huán)繞聲話筒來(lái)實(shí)現(xiàn)，通過(guò)對(duì)現(xiàn)場(chǎng)空間和整體聲場(chǎng)的測(cè)量與實(shí)驗(yàn)，確定環(huán)繞聲話筒在現(xiàn)場(chǎng)的擺放位置，也就是聽(tīng)音的“甜點(diǎn)位”[5]，從而獲得良好的現(xiàn)場(chǎng)沉浸式聽(tīng)感。但此次拾音方案與近年錄制的環(huán)繞聲音樂(lè)類綜藝節(jié)目所不同的是，之前大多關(guān)注的是5.1 環(huán)繞聲系統(tǒng)（左、中、右、左后、右后、超重低音）為對(duì)象的空間拾音，因此使用的也是5.0 制式的話筒陣列，但由于缺乏對(duì)上、下聲音方位的空間信息的拾取，并不能真正還原3D 聲聲場(chǎng)。

為彌補(bǔ)這一不足，技術(shù)團(tuán)隊(duì)使用了基于Ambisonic 錄音原理開(kāi)發(fā)的TetraMic 四面體麥克風(fēng)進(jìn)行環(huán)繞聲錄音，實(shí)物如圖2 所示。該話筒含有四個(gè)同軸振膜，以“A”格式錄制，通過(guò)相關(guān)軟件轉(zhuǎn)換為可用于多種環(huán)繞聲制式的“B”格式，包含W，X，Y，Z 四個(gè)音頻通道（即不同方向空間信息，依次是全方位、前后方向、左右方向、上下方向）。它能拾取360°空間方位的聲音信息，同時(shí)也具有較寬的頻率響應(yīng)（30 Hz～18.5 kHz）與空間分辨率（5 °或更?。6]。

圖2 TetraMic 四面體麥克風(fēng)

由于音樂(lè)節(jié)現(xiàn)場(chǎng)主要通過(guò)主擴(kuò)音箱進(jìn)行擴(kuò)聲，現(xiàn)場(chǎng)觀眾的聽(tīng)感也來(lái)自于此，要準(zhǔn)確還原現(xiàn)場(chǎng)聽(tīng)感，就需要模擬觀眾聽(tīng)感來(lái)確定聽(tīng)音“甜點(diǎn)位”[7]。通過(guò)對(duì)現(xiàn)場(chǎng)主擴(kuò)音箱位置距離、角度的測(cè)量和聲場(chǎng)測(cè)試，多次錄音實(shí)驗(yàn)后，該位置確定在以主擴(kuò)音箱中心為軸線，距離演出舞臺(tái)37 m 的位置。場(chǎng)地位置情況如圖3 所示（其中耳機(jī)符號(hào)代表話筒擺放位置）。該位置主擴(kuò)音箱的直達(dá)聲大于空間反射聲，錄音實(shí)驗(yàn)結(jié)果表明聲音清晰同時(shí)具有足夠的聲場(chǎng)空間感，能較好還原聽(tīng)眾現(xiàn)場(chǎng)感受。當(dāng)然，根據(jù)不同的現(xiàn)場(chǎng)環(huán)境，該位置只做參考，具體還需要根據(jù)現(xiàn)場(chǎng)環(huán)境來(lái)確定。

圖3 場(chǎng)地分布平面圖

確定好環(huán)繞聲話筒拾音位置后，所有聲音信號(hào)進(jìn)入調(diào)音臺(tái)之后進(jìn)行信號(hào)分組和路由。由于雙耳立體聲信號(hào)的生成需要單獨(dú)進(jìn)行編碼處理，因此TetraMic 的聲音信號(hào)由direct out 送至計(jì)算機(jī)進(jìn)行編解碼。另外需要注意的一點(diǎn)是，由于TetraMic 的位置距離主擴(kuò)有一定距離，如果直接與舞臺(tái)音源混到一起，會(huì)聽(tīng)到TetraMic 的信號(hào)晚于舞臺(tái)音源。為避免這個(gè)問(wèn)題，使用TetraMic 時(shí)加入了延時(shí)[8]，以縮小二者之間的時(shí)間差。

3 Max/Msp 實(shí)時(shí)混音

為了實(shí)現(xiàn)雙耳立體聲混音與直播，使用環(huán)繞聲話筒拾取現(xiàn)場(chǎng)聲場(chǎng)之后，最重要的是通過(guò)Max/Msp編程實(shí)現(xiàn)實(shí)時(shí)混音并生成最終需要的雙耳立體聲（binaural）信號(hào)。筆者所使用的Max/Msp 是一套圖形化編程語(yǔ)言，可用于控制聲音參數(shù)、實(shí)時(shí)互動(dòng)、聲音混音、設(shè)計(jì)prototype 等等專為視覺(jué)與聲音設(shè)計(jì)的編程語(yǔ)言，利用其中物件（object）自定義串接，設(shè)計(jì)出程序模塊。本次的程序設(shè)計(jì)主要設(shè)計(jì)三大模塊，分別為聲音控制模塊、B 格式音源轉(zhuǎn)換模塊以及雙耳立體聲生成模塊。

如上文中圖1 所提到的，舞臺(tái)音源與環(huán)繞聲話筒聲音信號(hào)由調(diào)音臺(tái)傳輸至計(jì)算機(jī)中的Max/Msp程序后，兩類信號(hào)經(jīng)過(guò)聲音控制模塊進(jìn)行實(shí)時(shí)音量監(jiān)控后被分別處理。其中，舞臺(tái)音源加以500 ms延時(shí)使之與TetraMic 信號(hào)同步，TetraMic 信號(hào)被送至B 格式音源轉(zhuǎn)化模塊從A 格式轉(zhuǎn)為B 格式。最后這兩類信號(hào)經(jīng)由雙耳立體聲生成模塊轉(zhuǎn)為雙耳立體聲（binaural）信號(hào)并混音，形成最終的輸出信號(hào)送至衛(wèi)星直播車。Max/Msp 程序最終操作界面如圖4 所示，左側(cè)為總操控界面，右側(cè)為binaural 轉(zhuǎn)換界面。

圖4 左側(cè)為總操控界面，由上至下依次為，聲卡輸入物件（object）TetraMic 輸出為4 個(gè)通道，由adc～1234 表示，舞臺(tái)音源為立體聲輸出，由adc～5 6 表示。此外，delay～500 物件（object）則是上文提到的延時(shí)，讓舞臺(tái)音源的時(shí)間延遲500 ms，與TetraMic 信號(hào)趨近于同步。下面四通道和二通道的電平表分別用于控制TetraMic和音樂(lè)的音量，vst～是專門用于加載插件的子模塊，其中A-formattrans 是TetraMic 專用的格式轉(zhuǎn)換器，Binauraltrans 則是將所有信號(hào)轉(zhuǎn)換為binaural信號(hào)用于最后的直播，具體信號(hào)情況和電平也可以通過(guò)右邊的窗口實(shí)時(shí)檢測(cè)。中間右上角經(jīng)緯線物件（object）用于給予舞臺(tái)音樂(lè)注明該音源之于TetraMic 的具體角度、距離，以便準(zhǔn)確地還原起初設(shè)想的虛擬VIP 位置的聽(tīng)覺(jué)效果。需要注意的是，實(shí)際情況較理論更為復(fù)雜，為保證良好聽(tīng)覺(jué)效果，進(jìn)行人工微調(diào)十分有必要，如對(duì)舞臺(tái)音源（音樂(lè)直達(dá)聲）與環(huán)境聲之間的音量比例關(guān)系進(jìn)行調(diào)整，根據(jù)演出當(dāng)日人群雜音等情況調(diào)整環(huán)繞聲話筒位置等[9]。另外，在Max/Msp 程序中加入用于預(yù)制設(shè)置的子模塊，使參數(shù)設(shè)置能根據(jù)不同樂(lè)隊(duì)進(jìn)行量身定制，例如，在彩排過(guò)程中發(fā)現(xiàn)有的樂(lè)隊(duì)的program 中加了非常重的混響，但主擴(kuò)出來(lái)之后并不是非常明顯，通過(guò)降低原音樂(lè)音量增加的環(huán)境聲的音量后，聽(tīng)感層次感清晰度增強(qiáng)，于是單獨(dú)保存了該預(yù)置效果，以便在直播中快速切換。

圖4 Max/Msp 實(shí)時(shí)混音操作界面

4 效果評(píng)估總結(jié)

節(jié)目播出后，用戶反饋此次聽(tīng)感在空間感與沉浸感的塑造上有明顯提升與改善，猶如置身其中，音樂(lè)傳輸質(zhì)量、環(huán)繞聲聽(tīng)感、實(shí)時(shí)混音這三點(diǎn)播出目標(biāo)都獲得了較高的完成度。

從技術(shù)層面說(shuō)，這次用于直播的Max/Msp 完成了實(shí)時(shí)雙耳立體聲混音和渲染的任務(wù)，但考慮到該程序主要是針對(duì)帶有PA 系統(tǒng)、含有電聲樂(lè)器的電子音樂(lè)演出設(shè)計(jì)的，因此并不適用于不插電演出，后者沒(méi)有PA 的部分，因此需增加補(bǔ)點(diǎn)話筒，每個(gè)樂(lè)器的聲音最好都能送入渲染程序中進(jìn)行混音以保證最好的雙耳立體聲聽(tīng)感[10]。如果現(xiàn)場(chǎng)環(huán)境聲中混響效果不明顯，還需要在程序中增加混響器，讓整體音色聽(tīng)起來(lái)更加融合、更具有空間感[11]。類似的方式方法很多，具體需要在原有理論基礎(chǔ)上根據(jù)實(shí)際情況來(lái)設(shè)計(jì)。程序完成后還需多次實(shí)驗(yàn)、改進(jìn)，方便使用，并根據(jù)現(xiàn)場(chǎng)效果進(jìn)行實(shí)時(shí)監(jiān)測(cè)和現(xiàn)場(chǎng)混音調(diào)整等。

從聽(tīng)感來(lái)說(shuō)，相較于之前的音樂(lè)節(jié)直播效果，本次因?yàn)?D 聲制作技術(shù)的加入，讓音樂(lè)整體不再只是干癟的、缺乏活力的調(diào)音臺(tái)輸出，而是多了環(huán)境聲的渲染，讓直達(dá)聲和環(huán)境中的反射、衍射等空間聲場(chǎng)信息混合在一起，聲音變得更自然、更有質(zhì)感和包裹性。同時(shí)，定位信息的有效拾取和雙耳立體聲的生成方式，也增加了聲音的層次感和空間感。用戶通過(guò)耳機(jī)就能感受到音樂(lè)節(jié)寬闊草坪的聲場(chǎng)效果，聽(tīng)覺(jué)的趣味性也有所增加。

5 結(jié) 語(yǔ)

此次通過(guò)自主編程實(shí)現(xiàn)了實(shí)時(shí)雙耳立體聲混音與直播，是音樂(lè)類互聯(lián)網(wǎng)節(jié)目在音頻技術(shù)層面一次較為成功的嘗試，在完成播出任務(wù)的同時(shí)極大地增加了空間聽(tīng)感，使互聯(lián)網(wǎng)的音頻傳輸從環(huán)繞聲真正上升到了3D 聲音頻，讓用戶不需要通過(guò)復(fù)雜的多通道音響系統(tǒng)而是僅憑一副耳機(jī)即可收聽(tīng)到沉浸式音樂(lè)現(xiàn)場(chǎng)。隨著技術(shù)的發(fā)展，越來(lái)越多的應(yīng)用方式皆可在未來(lái)進(jìn)行嘗試，如將VR 視覺(jué)與3D 聲傳輸結(jié)合，通過(guò)使用頭部跟蹤技術(shù)讓用戶與互聯(lián)網(wǎng)節(jié)目進(jìn)行互動(dòng)等等。只有不斷地進(jìn)行創(chuàng)新性應(yīng)用嘗試，才能更好地傳達(dá)給用戶一個(gè)更具趣味性、沉浸式的互聯(lián)網(wǎng)聽(tīng)覺(jué)體驗(yàn)。