摘 要:3D影視的成功應用激發(fā)了3D音頻的應用需求?,F(xiàn)有3D音頻系統(tǒng)主要集中于提升聲像方向感知性能,多聲道編碼技術主要提取表征方向信息的雙耳線索而缺少距離線索導致在保證方向定位準確性。本文將重點探討聽覺距離線索感知特性和定位機理及其在3D音頻編碼中的應用。
關鍵詞:感知重建;聽覺距離;3D音頻
DOI:10.16640/j.cnki.37-1222/t.2019.15.150
1 引言
1999年Brungart D S指出,在遠場定位中基于強度的距離線索占主要作用,而近場情況下雙耳線索比基于強度的距離線索更顯著。2000年和2001年Shinn-Cunningham B G和Brungart D S的實驗表明可能聽者可能利用遠距離不變量ITD來決定聲源的側向位置,然后利用ILD大小來估計距離。2011年Kop?o N的關于ILD與感知距離的實驗結果表明不依賴于聲源方向和聲源頻譜,不可能通過從ILD到距離的一個固定的映射來做出準確的距離判斷??偟膩碚f,ILD線索對近距離側向聲源的距離感知起重要作用。由于ILD在不同方向敏感性不同,不依賴于聲源方向和聲源頻譜,不可能通過從ILD到距離的一個固定的映射來做出準確的距離判斷,本文將基于這一原理展開對3D音頻的研究。
2 三維聲場聽覺距離感知特性
2.1 聽覺距離線索
不同環(huán)境下,人耳對于不同空間方位的聲源的方向和距離的感知敏感性不同。人耳對前方聲源的方位變化最敏感、定位準確性最高,但對正前方聲源的距離的定位不如側面準確。在混響情況下,人耳對聲源方向的定位能力不如在消聲室中,而相反地,人耳對聲源距離的定位能力在混響情況下比消聲室里更準確。這就是感知重建技術中最重要的線索——聽覺距離線索。
2.2 聽覺距離定位機理
研究表明,強度、直混比和ILD是主要的聽覺距離線索。音源方向和頻率會對聽覺距離定位產生較大影響。對前方聲源,左右耳DRR高度相關,尤其是低頻部分。而對于側方聲源,近耳與遠耳的DRR差異明顯,尤其是在高頻,近耳信號包含較多的直接聲能量,而遠耳信號更多的是反射后的混響信號。不同音源方向產生的ILD也存在較大差異,正前方ILD接近為零,不足以提供距離定位信息,但隨著聲音從正前方到側面位置ILD達到最大值,能作為近場聲源距離定位的重要線索。現(xiàn)有的雙耳聽覺距離定位模型中,并未區(qū)分不同音源方向和頻率帶來的雙耳DRR差異,導致不同的方法所得出的結論存在差異,與人耳聽覺距離定位特性不符。針對這一問題,本研究根據(jù)不同方向和不同頻率對左右耳DRR和ILD產生的影響,基于主成分分析方法自適應的提取不同方向和頻率的主要環(huán)境聲能量比來代替直混能量比,在得到的主成分分量上,分別投影計算左右耳聲道信號的直混比,以及ILD作為距離定位特征,分析聽覺距離定位機理。
3 三維聲場聽覺距離線索聯(lián)合定位模型
3.1 定位模型
在實際聽音環(huán)境中,人耳會結合音源特性、聽音環(huán)境和先驗知識,綜合利用多種聽覺線索對聲源距離進行定位,聲源類型、聲源在3D聲場中的不同方位和聲源的頻率成分都會對距離線索產生影響,使得在不同的聽音環(huán)境下距離線索具有不同的作用權重。本文針對強度、直混比和ILD這三個主要的聽覺距離線索,建立聽覺距離聯(lián)合定位模型。該模型對于探索人耳如何利用聽覺線索進行距離定位的機理可提供實驗借鑒。
3.2 聲場編碼
現(xiàn)有的空間音頻編碼方案主要提取表征聲源方向的雙耳線索用于指導編碼和量化,并不足以準確地表示包括距離在內的所有的空間位置信息,方向定位的精準反而會降低距離的辨識度。因此,根據(jù)人耳對空間聲像中方位和距離的感知特性和機理,將聽覺距離定位模型引入到現(xiàn)有的多聲道編碼技術中,指導聲像方向和距離的編碼與重建,將能解決當前三維音頻編碼的性能瓶頸。
4 結論
傳統(tǒng)多聲道編碼技術主要提取表征聲源方向的雙耳線索ILD、ITD和IC用于指導編碼和量化,并不足以準確地表示包括距離在內的所有的空間位置信息,方向定位的精準反而會降低距離的辨識度。因此,如何根據(jù)人耳對空間聲像中方位和距離的感知特性和機理,提取聲源的方向線索和距離線索,指導編碼和重建,同時保證重建聲像的方向感知和距離感知,提供真正的3D音頻聽覺體驗,將成為3D音頻編碼研究中的重要內容。
參考文獻:
[1]殷福亮,汪林,陳喆.三維音頻技術綜述[J].通信學報,2011,32(02):130-138.
[2]林志斌,徐柏齡.基于球麥克風陣列的三維空間多聲源定位[J].南京大學學報(自然科學版),2006,42(04):384-394.
[3]湯永清,黃青華,方勇等.基于球傅里葉變換的聲源三維空間定位[J].信號處理,2010,26(05):654-658.
[4]湯永清.空間聽覺特征提取與3D音頻再現(xiàn)研究[D].上海大學,2011.
[5]Lu Y C,Cooke M.Binaural estimation of sound source distancevia the direct-to-reverberant energy ratio for static and moving sources[J].Audio,Speech,and Language Processing,IEEE Transactions on,2010,18(07):1793-1805.
[6]Strutt,J.W.On our Perception of Sound Direction [Z].in PhilosophicalMagazine,1907,13:214-232.
基金項目:2018年湖北省教育廳科研計劃指導性項目《基于聽覺距離線索感知編碼的3D音頻研究》,項目編號:B2018290。
作者簡介:李念(1983-),女,湖北仙桃人,碩士,副教授,研究方向:多媒體技術。