莫福源
1 中國科學院聲學研究所(北京 100190)
4.2雙耳效應和立體聲 人有雙耳絕對不僅是為了對稱和美觀,雙耳接收聲音后可以定出聲源的方向和距離。聲源在正前方時雙耳定向精度高,聲源在側向時定向精度低;無論聲源在那個方向,雙耳定距離都比較差,要靠眼睛幫助。
表1 臨界帶帶寬劃分表
雙耳定向的解釋是到達兩耳的強度差、時間差和相位差,低頻(小于800 Hz)和高頻(大于2 000 Hz)時強度差起主要作用;中頻時時間差(即相位差)起主要作用;因為它們的關系很復雜,實驗也不好做,所以不易得出確切的理論[1]。
早期劇場實現(xiàn)立體聲使用的方法較笨拙,在舞臺上排列一排傳聲器,在劇場后面安放相反次序的揚聲器來達到立體聲的效果?,F(xiàn)在用耳機接收時,只要調節(jié)達到雙耳的聲強和相位,就可以得到惟妙惟肖的立體聲效果,因為聲音最終是進入人耳的兩個耳道,對雙耳的有關實驗,都是用一個假人頭,在耳道位置放置傳聲器。
對家庭影院的立體聲,國際電信聯(lián)盟(international telecommunication union,ITU)有一個推薦標準:ITU-R標準BS.775-1,簡稱5.1標準。它由5個全頻帶(達到20 kHz)的音箱按圖20方式排放,另有一個低頻音箱(俗稱低音炮)放送低頻,由于低頻方向性不強,放置位置關系不大,通常放于中央方向[3]。
圖20 5.1國際推薦標準家庭影院立體聲音箱擺放示意圖
4.3雞尾酒會效應(cocktail party effect) 人耳在嘈雜的環(huán)境里可以專注于和自己朋友的談話,而不太受周圍其他無關聲音的干擾;同時,突然聽到與自己有關的聲音時可以立即反應,如:有人在呼叫他的名字等,此時和朋友談話的音量不是很高,呼叫的聲音也不大,但人耳加上大腦的作用,可以排除干擾,直奔自己的聽覺主題,這是任何儀器設備都達不到的特殊功能。1953年科學家將這效應命名為雞尾酒會效應,因為雞尾酒會的環(huán)境是此效應的典型例子,對雞尾酒會效應心里學家提出了一些模型來加以解釋,如:過濾器模型、衰減模型、信息分配模型等,這里不詳細討論了[7]。
4.4虛擬低頻(virtual bass) 在電聲設備日漸小型化的情況下,例如:平板電視、手機、小型游戲機等都希望有豐富低頻的效果,遺憾的是尺度的限制,小的揚聲器不可能發(fā)出低頻聲;彌補的方法是利用心理聲學的現(xiàn)象,使聽者感覺到原來揚聲器發(fā)出的沒有低頻的聲信號有低頻的存在,該技術稱為虛擬低頻(virtual bass)。許多音頻工程專家研究了虛擬低頻的實現(xiàn)方法,其中一種方法稱為相位聲碼器(phase-vocoder),其基本原理是將沒有低頻的信號從時間域變換到頻率域,然后增強揚聲器可以發(fā)出的中頻,此時就能感覺到有低頻存在。圖21是虛擬低頻處理示例,上圖是無低頻的原始信號頻譜,下圖是增強中頻的頻譜,將增強中頻的頻譜逆變換為時間信號,此時就可以感覺到缺失低頻的存在,這是心理聲學又一個奇妙的現(xiàn)象[9]。
圖21 虛擬低頻處理示例 a.無低頻的原始信號頻譜;b.增強中頻的頻譜
人耳對語音和音樂的感知機理有所不同,音樂感知和語音感知都和大腦理解有關,和人過去聽覺經歷而訓練形成的腦部興奮區(qū)位有關。實驗證明,音樂和語音在大腦的興奮部位是不同的,但此類人體實驗不多,筆者對這些沒有研究,不能有所介紹,現(xiàn)僅就人耳對語音感知的某些問題作簡單敘述。因為對語言有記憶的能力,因此從理解語義來說,有些音聽不清并不影響對語義的理解,而對聽外語訓練少的人,聽不清就理解不好。
基于上述人耳對聲音分析的機理,可以看出人耳是一個進行頻率分析的器官。實驗證明,對較長時間的純音信號,只要有1 Hz的頻率變化,人耳就可以辨別出來。語音分析、合成的研究證明,人耳對不同參數(shù)語音敏感程度是不同的,其對語音信號的強度不敏感,因為人耳感知聲音的動態(tài)范圍達到120分貝,耳部的機械結構很難使其精細分辨強度的動態(tài)變化。反之,人耳對語音信號的共振峰位置極為敏感,共振峰位置的細微變化都會影響語音的清晰度和和可懂度。圖22是典型的元音/a/、/i/、/u/的口腔剖面和相應頻譜圖。
圖22 元音/a/、/i/、/u/的口腔剖面和相應頻譜圖
語音生成的原理告訴我們,喉部發(fā)出的氣流是語音產生的動力源,其氣流的頻譜近似平直;人們發(fā)不同元音或輔音時口腔的形狀不同(圖22)。喉到唇部構成一個多種形狀的共振腔,對氣流進行調制,產生不同的元音或輔音。共振峰特性是識別不同語音的主要依據,也是識別不同話音個性特征的主要依據,是語音識別、合成和編碼中最重要的參數(shù);其頻譜包絡的峰(圖22)近似對應語音信號的共振峰。語言研究證明共振峰是人耳感知不同語音最重要參數(shù),共振峰位置在語音感知中起主要作用[11]。語音合成研究也證明了共振峰位置的重要性,共振峰位置越精確,合成語音質量越高,合成語音就越逼真;而共振峰的寬度、幅度對語音感知不重要,也不敏感。早期共振峰語音合成算法,只考慮語音信號共振峰位置,而和共振峰的幅度大小及共振峰的寬度關系不大,共振峰寬度和幅度僅作為一個和共振峰頻率有固定關系的經驗參數(shù),不必給出具體大小。從語音編碼角度看,線性預測聲碼器(linear prediction vocoder)比通道聲碼器(channel vocoder)語音質量高,就是因為前者對共振峰的描述要精確,現(xiàn)在通道聲碼器已為線性預測聲碼器所淘汰和取代。這些例子充分說明人耳基底膜分析聲音的“部位理論”,也是處理語音信號的科學依據。
當前市場上出售的助聽器普遍反映不好用,筆者認為,聽力障礙者特別是老年人,他們的聽力減退因人而異,不同頻率衰退程度不同,必須在他們需要補償?shù)念l率給予較為精確的補償。而普通助聽器只是粗略的在某些頻段增強,由此,因為共振峰不準確而使佩戴者很難聽清正確的語音,當然更談不上理解語義了。為此,建議建立一套精確測試聽力障礙者聽力損失的規(guī)范標準,并利用現(xiàn)有的電聲技術給予精確聽覺補償,以達到“精準助聽”的目的。
(完)