夏陽
[摘 要] 為了能更好地解決數(shù)字音頻信號相關(guān)存儲與傳輸問題,數(shù)據(jù)壓縮逐漸成為當(dāng)代數(shù)字音頻處理中一個重要的研究方向。人耳的聽覺對不同壓縮比的音頻質(zhì)量有著顯著的感知差異,通過不同的實驗法組合發(fā)現(xiàn),被試不能分辨出112及以上比特率編碼的音頻,但是能分辨出96kBit/s、80 kBit/s、64kBit/s、56kBit/s編碼的音頻,且對80及以下比特率編碼的音頻表現(xiàn)出厭煩。由此可見,對音頻進行編碼的最佳方案是112 kBit/s。
[關(guān)鍵詞] 音頻;MP3;聽覺感知
音頻作為視聽媒體中不可或缺的一部分,具有重要地位。當(dāng)音頻信號傳遞到人耳時,人耳有一套復(fù)雜的聽覺感知系統(tǒng),能夠?qū)⒙曇粜盘栟D(zhuǎn)變?yōu)榇竽X的腦電信號,并將接受的復(fù)雜信息簡化為人們本身所需要的信息。人們對人耳聽覺系統(tǒng)信息處理機制的研究涉及多個學(xué)科的領(lǐng)域,涵蓋了生理學(xué)、認(rèn)知心理學(xué)、信息科學(xué)、計算機科學(xué)、物理聲學(xué)等。
到目前為止,人們對聽覺信息處理機制的研究已經(jīng)取得了一定的成果,但仍存在一些未解決的問題,例如,在數(shù)字音頻信號傳輸時,人們常對于音頻的大小和質(zhì)量產(chǎn)生困惑。眾所周知,聲音信號的數(shù)據(jù)量是非常大的,要使實時處理和傳輸這些龐大的數(shù)據(jù)成為可能,必須對音頻數(shù)據(jù)信息進行處理。近幾年來,在網(wǎng)絡(luò)流媒體、數(shù)字廣播、移動設(shè)備等領(lǐng)域,數(shù)字音頻信號處理得到了廣泛的應(yīng)用。為了能更好地解決數(shù)字音頻信號相關(guān)存儲與傳輸問題,數(shù)據(jù)壓縮逐漸成為當(dāng)代數(shù)字音頻處理中一個重要的研究方向。
在諸多的壓縮標(biāo)準(zhǔn)中,MP3壓縮格式以其優(yōu)越的性能以及品質(zhì)與算法復(fù)雜度的極佳折中,成為當(dāng)前 PC、網(wǎng)絡(luò)、PDA 上最為流行的音頻格式。移動設(shè)備終端的計算能力和存儲容量都是有限的,但是過多地壓縮音頻質(zhì)量將會影響到人們對事物整體信息的感知與判斷。[1]因此,如何在不影響聽覺感知的基礎(chǔ)上盡可能大地壓縮音頻成為研究的一個重要領(lǐng)域。
人耳作為音頻信號的接收者,它具有一定的主觀性,盡管物理聲學(xué)信號是客觀存在的,但在人的聽覺系統(tǒng)反應(yīng)上會有一定的偏差。因此深入地研究人的聽覺系統(tǒng),研究音高、音強和音色對主觀感知的影響是十分必要的。這就是交叉學(xué)科——心理聲學(xué)的研究范疇。
本次實驗主要為探尋MP3的不同壓縮方式是否對聽覺質(zhì)量產(chǎn)生影響,特選取MP3中常見的一些壓縮的比特率,探究編碼和未編碼的音頻片段是否在聽覺感知上有差異,探究不同壓縮程度的音頻是否對人的主觀感知有影響,以期選擇出最優(yōu)的MP3壓縮方案。
一、基礎(chǔ)理論
1.聽覺曲線
聲音的單位能量由響度來表示,響度由單位面積上的聲壓比對數(shù)來計算。
由于人耳的結(jié)構(gòu)復(fù)雜,不同頻率的聲音傳遞到耳朵會有不同的共振。圖1為人耳在相同響度下對不同頻率的聲音的共振程度。最下方的虛線表示在安靜時人的聽覺閾值曲線,上方四條實線分別表示在20、40、60、80分貝下的聽覺曲線。從圖1可以看出,頻率為2kHz~6kHz的聲音共振較為明顯,可以繼而推出人耳對這個頻率段的聲音較其他頻率段為敏感。[2]
2.雙耳效應(yīng)
當(dāng)人們將一根手指按在一只耳朵上,會感覺到明顯的響度變小了。這說明兩只耳朵都和響度相關(guān)。1947年,Shaw、Newman和Hirsh發(fā)現(xiàn),事實上雙耳的聽覺閾限要比單耳的聽覺閾限低了大約3dB。[3]這個結(jié)果的產(chǎn)生不是在實際的室內(nèi)聲源中,而通常是在開放聲場的消聲室中。同時,有國外的研究還發(fā)現(xiàn),聲音射入的方向是影響響度的一個重要因素。圖2顯示了在標(biāo)準(zhǔn)水平面的不同入射角產(chǎn)生的不同結(jié)果。顯然,響度本身是受入射方向影響的,對不同的受試者來說,最大變化可達10dB;除此之外還顯示了明顯的頻率相關(guān)性,在高頻(5kHz)時有更大的效應(yīng)。
響度受到入射方向影響可以理解為兩個不同的進程:(1)從聲源到耳朵的聲學(xué)信號轉(zhuǎn)換;(2)事實上的雙耳的相加。第一個進程是物理層面的,它包括面對著聲源耳朵的壓力結(jié)構(gòu)、背對著聲源耳朵的頭部陰影效應(yīng)(聲影區(qū))等。第二個進程是心理物理層面的,它描述了耳朵受入射影響變化的響度等級如何與雙耳的壓力響度等級相結(jié)合。2006年,Sivonen和Ellermeier利用相加的法則發(fā)現(xiàn),雙耳最大的增益達到3dB。[4]
3.音頻壓縮編碼技術(shù)
最近二十年來,有不少音頻壓縮編碼技術(shù)被制定出來,如MPEG-1 Layer3、MPEG-2 AAC、Dolby實驗室的AC-3、微軟的WMA等,其中,MPEG音頻標(biāo)準(zhǔn)系列占據(jù)了音頻壓縮技術(shù)的主流地位。MP3是MPEG-1的副產(chǎn)品,20世紀(jì)90年代由德國柏林工業(yè)大學(xué)的Fraunhofer Gesellschaft研究所研制,是到目前為止最為普及的音頻壓縮格式。它采用了子帶分解、分析濾波器組、轉(zhuǎn)換域編碼、熵編碼、動態(tài)比特分配、非同一量化編碼和心理聲學(xué)分析等技術(shù),支持32kHz、44.1kHz和48kHz采樣頻率下對16比特PCM信號進行編碼,同時,提供單聲道、立體聲道、兩個獨立雙聲道和聯(lián)合立體聲等四種音頻聲道模式。[5]
圖3所示為MP3編碼流程。如圖所示,音頻信號由兩種方式進行編碼,第一種方式數(shù)據(jù)先進入多相濾波器,然后經(jīng)過MDCT變換得出頻譜系數(shù);第二種方式數(shù)據(jù)先進行快速傅立葉變換,然后通過psychoacoustics分析,將psychoacoustics分析后的聲學(xué)參數(shù)和第一種方式輸出的頻譜系數(shù)進行量化和霍夫曼編碼;第二種方式進行聲學(xué)分析后可以得出信號掩蔽比,最終由兩者形成相應(yīng)的比特信息流。
二、編碼和未編碼的音頻對人的聽覺感知的影響
1.被試
柏林工業(yè)大學(xué)聲學(xué)專業(yè)大學(xué)生30人,其中男生15名,女生15名,年齡在24~31歲,聽力正常。被試單獨進入測試房間,在計算機支持下的ABX測試中進行獨立的選擇和評價。
2.實驗材料
實驗采用60個音頻文件,分為30組,每組2個音頻文件,均采用WAV格式(PCM, 16 Bit, 44.1 kHz)。每組的兩個音頻各自包含相同的爵士樂片段(大約30秒),其中第一個音頻未編碼,第二個文件用112 kBit/s的MPEG Layer-3 方法進行編碼。endprint
3.實驗方法
傳統(tǒng)的信號檢測法無法改變原始音頻,因而在本研究中無法采用。為了達到目的,本研究借助計算機的編程實現(xiàn),采用迫選法(Forced Choice Method)。而迫選法要求被試必須至少聽兩段音頻片段,因此在本研究中采用ABX測試法。
ABX測試方法如下:從兩段音樂庫中隨機抽取一對音頻信號A[n]、B[n](n為不大于原始音樂庫中音樂數(shù)目的任意正整數(shù)),再隨機地把A[n]、B[n]分配給A 和B,然后在A、B 中隨機選出一個作為X。測試者可以任意地反復(fù)回放A、B或X,最后給出判斷:X是A還是B。
4.實驗程序
本實驗在小型的混響房間的筆記本電腦上運行,電腦裝載了ABX軟件。被試逐個單獨進入房間然后對音頻用ABX方法進行判斷。實驗采用STAX Lambda SR-202-Stereo 專業(yè)測試耳機。在實驗過程中允許被試自由調(diào)節(jié)音頻的響度。每個被試測試18次。
當(dāng)n=18以及p=0.5時得到以下數(shù)值:5%的波動范圍應(yīng)該被看作是一個明顯差異的界限。在表1中,有超過13次的嘗試都在5%以內(nèi),只有5次的偶然命中率超過了這個數(shù)值(見圖4)。
6.實驗結(jié)果與分析
對實驗結(jié)果進行描述性統(tǒng)計分析發(fā)現(xiàn):有6名被試達到13次及以上的正確次數(shù),而其余24名被試均未達到標(biāo)準(zhǔn)(見表2)。因此可見,即僅有20%的被試能正確分辨兩者的區(qū)別,而其余80%的被試未能正確分辨兩者的區(qū)別。
對實驗結(jié)果進行單樣本T檢驗發(fā)現(xiàn):T=-5.572,P<0.001,即30名被試的平均正確次數(shù)11.20與正確次數(shù)13之間存在顯著性差異。由此可見,被試并不能分辨出112 kBit/s編碼的音頻。
三、不同壓縮質(zhì)量的音頻對人的聽覺感知的影響
1.被試
柏林工業(yè)大學(xué)聲學(xué)專業(yè)大學(xué)生40人,其中男生20名,女生20名,年齡在25~32歲,聽力正常。被試單獨進入測試房間,在計算機支持下的ABC/HR測試中進行獨立的選擇和評價。
2.實驗材料
實驗采用在第一個實驗中使用過的爵士樂片段(s0),將其進行編碼,形成8個比特率的MPEG Layer-3編碼片段:320kBit/s (s1),224kBit/s(s2),160kBit/s(s3),112kBit/s(s4),96kBit/s(s5),80kBit/s(s6),64kBit/s(s7)和56kBit/s(s8),共18組,每組9個音頻文件。
3.實驗方法
本實驗采用ABC/HR方法。ABC/HR測試方法如下:在程序上呈現(xiàn)三個測試刺激源(a,b,c),其中參數(shù)刺激已被標(biāo)明,同時提供兩個未標(biāo)識的刺激材料,這兩個未標(biāo)識的刺激材料中一個是重復(fù)的參數(shù),一個是已經(jīng)改變的版本。在測試中,被試需要確定,這兩個未標(biāo)識的刺激材料中的哪一個是已經(jīng)改變的版本。除此之外,被試還需要測主觀的干擾度,這主要通過一個控制器來定量確定(5-感覺不到;4-感覺到,但不令人厭煩;3-稍微有點令人厭煩;2-令人厭煩;1-很令人厭煩討厭)。如果被試選擇已經(jīng)改變的版本,其主觀評判的值為正值;如果被試選擇未被改變的版本,其主觀評判值為負(fù)值。
4.實驗程序
本實驗在小型的混響房間的筆記本電腦上運行,電腦裝載了ABC/HR軟件。被試逐個單獨進入房間然后對音頻用ABC/HR方法進行判斷。實驗采用STAX Lambda SR-202-Stereo 專業(yè)測試耳機。每個被試測試162次。
5.實驗結(jié)果與分析
對實驗結(jié)果進行描述性統(tǒng)計分析發(fā)現(xiàn):100%的被試能夠在兩個未編碼的刺激中識別出56 kBit/s的音樂、64 kBit/s的音樂、80kBit/s的音樂;85%的被試能夠在兩個未編碼的刺激中識別出96kBit/s的音樂;而112kBit/s的音樂、160Bit/s的音樂、224kBit/s的音樂、320kBit/s的音樂識別正確率分別為18%、13%、10%、5%。
將112kBit/s、160kBit/s、224kBit/s、320kBit/s音樂的實驗結(jié)果進行單樣本T檢驗發(fā)現(xiàn):T(112kBit/s)=-4.130;
T(160kBit/s)=-6.430,p<0.005;T(224kBit/s)=-9.579,p<0.005;
T(320kBit/s)=-11.695,p<0.005;即40名被試的平均正確次數(shù)M(112kBit/s)=11.25,M(160kBit/s)=10.88,M(224kBit/s)=9.92,
M(320kBit/s)=9.42與正確次數(shù)13之間均存在顯著性差異。由此可見,被試并不能分辨出112 kBit/s、160kBit/s、224kBit/s、320kBit/s編碼的音頻。
將96kBit/s的音樂的實驗結(jié)果進行單樣本T檢驗發(fā)現(xiàn):T(96kBit/s)=1.010,p>0.01;即40名被試的平均正確次數(shù)M(96kBit/s)=14.50與正確次數(shù)14之間并不存在顯著差異。由此可見,被試能分辨出96 kBit/s編碼的音頻。
進一步對平均值進行分析發(fā)現(xiàn):在80 kBit/s達到了標(biāo)度值“稍微有點令人厭煩”,由此可以確定質(zhì)量的損害;在96kBit/s差異度的平均值為3.56,在標(biāo)度值“感覺到,但不令人厭煩”附近,由此可以看出,在這個標(biāo)度值上僅僅有一個變化,但是沒有質(zhì)量的損害生成(見表3)。
四、分析與討論
音頻壓縮技術(shù),其實質(zhì)就是對經(jīng)過采樣量化的PCM信號進行處理,力求壓縮后的音頻數(shù)據(jù)量最小化,并同時達到所謂的“透明音質(zhì)”,即解碼后的輸出信號與原先的輸入信號不可分辨。本實驗發(fā)現(xiàn),被試不能分辨出112、224、320比特率編碼壓縮的音頻,但是能分辨出96kBit/s、80 kBit/s、64kBit/s、56kBit/s編碼壓縮的音頻,且對80及以下比特率編碼的音頻表現(xiàn)出厭煩。由此可見,經(jīng)過112、224、320比特率編碼壓縮的音頻,都達到了“透明音質(zhì)”的標(biāo)準(zhǔn),均為音頻壓縮編碼可以采用的比特率。但是,音頻編碼的中心思想為用最小的比特存儲聲音信號,使之達到透明聲音信號標(biāo)準(zhǔn)。[6]因此,在音頻編碼壓縮上應(yīng)該有個最佳壓縮方案,即達到透明聲音信號標(biāo)準(zhǔn)的最小比特值,本實驗發(fā)現(xiàn),這個值為112 kBit/s。
參考文獻
[1]蔣學(xué)鑫.MP3實時編解碼系統(tǒng)的研究與開發(fā)[D].電子科技大學(xué),2007,(4).
[2]Weinzierl S,Ellermeier W,Hellbrück J. Handbuch der Audiotechnik[M].Springer Verlag, 2007,(42).
[3]Shaw W A,Newman E B, Hirsh I J. The difference between monaural and binaural thresholds[J].Journal of Experimental Psychology, 1947,(37):229-242.
[4]Sivonen VP, Ellermeier W. Directional loudness in an anechoic sound field, head related transfer functions, and binaural summation[J].J Acoust Soc Ame .2006,(119):2965-2980.
[5]李琳.音頻感知編碼模型及關(guān)鍵技術(shù)的研究[D].中國科學(xué)技術(shù)大學(xué),2008,(5).
[6]李琳琳.數(shù)字音頻感知編碼的心理聲學(xué)模型[J].經(jīng)驗與交流,2008,(6).
責(zé)任編輯 李杰杰endprint