• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      三維聲雙耳渲染算法音質主客觀評價分析

      2023-09-26 05:27:48黃心儀謝凌云王鑫
      關鍵詞:雙耳音質總體

      黃心儀,謝凌云,王鑫*

      (1.中國傳媒大學音樂與錄音藝術學院,北京 100024; 2.中國傳媒大學信息與通信工程學院,北京 100024)

      1 引言

      環(huán)繞聲系統(tǒng)經歷幾十年的發(fā)展,觀眾的觀影體驗逐漸被改變,人們在此基礎上增加了高度聲道,聲音由此可以進行精準定位,在三維空間中真實地呈現。盡管Dolby Atoms、DTS:X 等重放系統(tǒng)技術已被廣泛應用,但其復雜的揚聲器陣列在日常生活中難以實現,因此對三維聲進行雙耳可聽化處理日益具有實用價值,且三維聲雙耳渲染效果的評價也成為了人們關注的問題。

      音頻評價通常有兩種方法,即主觀評價和客觀評測。主觀評價是以人為主體評價音頻的聽感,結果往往準確且令人信服,但被聽音環(huán)境等種種條件所限制,費時費力且成本較高??陀^評測指采用計算機信息處理技術來判斷音頻的質量,相對高效便捷,但也存在模型不匹配、結果不夠準確等問題。因此若能將主觀評價與客觀評測有機結合,將能更加全面地對音頻進行評測。

      三維聲雙耳渲染算法,是將已經制作好的多聲道節(jié)目進行渲染處理,使其達到可以用耳機還原三維聲聽感效果的目的。隨著三維聲的應用逐漸廣泛,許多學者開始討論如何對三維聲進行有效的聽感評價。對于用耳機重放的雙耳聲信號的評價,Lorho 提出16個評價參數,主要包含定位、空間、音質三個維度屬性[1]。Rumsey 等人采用直接下變換等算法后,使用音質有些裂變的聲音素材為研究對象,以變換前的原始信號為參考信號,考察總體音質與子評價維度的關系,并提出使用偏最小二乘回歸統(tǒng)計方法(Partial Least-Squares Regression, PLSR)[2]。Lindau 等人對比真實房間揚聲器重放和使用個性化房間雙耳脈沖響應(Binaural Room Impulse Response, BRIR)以及非個性化BRIR 的雙耳重放系統(tǒng),采用空間音頻質量列表(Spatial Audio Quality Inventory, SAQI)方法進行個性化動態(tài)雙耳渲染聽感實驗[3]。Reardon 等人對六種雙耳渲染器進行了較為全面的評測,并將評測分為了定量特征、定性特征及總體偏好三個部分[4]。范欣欣等人針對三維聲雙耳渲染算法設計了主觀評價實驗,利用方差分析和回歸分析,對比不同渲染算法的特點和信號適用性,以及探究總體評價與音質、定位、空間之間的關聯(lián)[5]。

      隨著近年來通信系統(tǒng)的快速發(fā)展,音頻客觀評測方法的研究也取得了較快的進展。近年來對于音頻信號的客觀評測大多都為基于有參考信號的客觀評測方法,但就目前發(fā)展技術而言,其客觀評測的結果與主觀評價之間的關聯(lián)性較低,在理論方法和技術層面還有待突破性進展。目前國際上唯一的數字音頻質量客觀評測標準ITU-R BS.1387就是此類基于有參考信號的客觀評測方法,其采用了音頻質量感知評價模型(Perceptual Evaluation of Audio Quality, PEAQ),通過模擬人耳聽覺特性,可以較準確地得到待測音頻質量的得分,隨后也有大量基于PEAQ 的改進模型出現,但這些模型大多針對獨立聲道,無法考察聲道之間的相關信息,且三維聲不同于傳統(tǒng)的音頻評測,三維聲的空間屬性以及其涉及的主觀評價維度更為復雜,國際上目前還沒有針對三維聲的客觀評測標準。覃龍靖等人在范欣欣的工作基礎上對五種雙耳渲染算法的渲染效果進行了客觀評測,對雙耳信號提取雙耳特征和單耳特征,并進行特征選擇和降維,最終選擇了嶺回歸建立了總體評價和其二級維度,即音質、定位和空間感的客觀評測模型,并探究了主觀感知和客觀參數之間的關系[6]。

      綜上所述,雖然目前已存在一些學者進行了針對三維聲的主觀評價實驗,并探討了相關的主觀評價術語,但這些實驗仍然存在一些問題。范欣欣等人的工作中主觀評價實驗在一個信號的基礎上同時聽評多個維度,可能導致各維度得分之間存在相互關聯(lián)。在客觀評測方面,覃龍靖等人的工作中基于評測準確率建立的客觀模型,在優(yōu)選特征的可解釋方面較為困難,很難去解釋主觀感知的機理。因此,本文圍繞音質維度進行三維聲主觀評價實驗,深入探討了總體音質與雙耳渲染算法之間的關聯(lián),并從探究主觀感知的角度出發(fā),基于偏最小二乘回歸分析(PLSR)建立了總體音質維度的客觀評測模型。

      2 主觀評價實驗

      2.1 實驗素材及渲染算法

      實驗素材首先在素材庫中進行選取。對篩選的實驗素材進行預實驗,所有信號進行不同的雙耳渲染算法處理,讓被試對不同雙耳聲信號進行總體音質和4 個二級維度進行評價打分,實驗素材包含了影視聲音、環(huán)境聲音、流行音樂、交響樂、管樂合奏、弦樂合奏、阿卡貝拉、電子音樂等各種類型。預實驗結束后整理數據,選取了在音質組維度中最易聽辨的五個信號素材,具體素材描述見表1。

      表1 三維聲雙耳渲染算法主觀評價實驗素材

      原始信號素材均為5.1.4 或5.0.4 的三維聲信號,經過6種不同的雙耳渲染算法,最終形成30個雙耳渲染實驗信號。6種算法均為目前國內外較成熟的公司或科研機構研發(fā),渲染算法的選取原則是盡可能地涵蓋目前國內外比較全且比較主流的雙耳渲染算法類別,同時主觀聽感上各算法之間具有一定差異。本次選取的6種渲染算法如表2所示。

      表2 三維聲雙耳渲染算法

      2.2 實驗環(huán)境及設備

      本次音質主觀評價實驗在中國傳媒大學三維聲混錄棚內進行,其房間聲學參數、音響系統(tǒng)、前期系統(tǒng)校準過程與范欣欣論文中所述一致[5]。響度校準后,利用人工頭RS Tech Head001連接RME Fireface UCX聲卡,進行了標準雙耳聲信號的錄制。錄制的信號包括5個素材的揚聲器三維聲參考信號以及5個素材對應的6個雙耳渲染音頻,共35個信號。錄制過程中,所有信號連貫播放,中途未更改任何參數,錄制完畢的音頻信號將預備后續(xù)客觀評測部分的音頻特征提取。

      2.3 被試人員及流程

      本次實驗共招募42 名被試,平均年齡在18~24歲之間,均有著6 年以上的音樂及樂器學習經驗以及1 年以上的錄音混音學習經驗,學習專業(yè)以錄音藝術為主,均能較好地理解評價維度及其含義??傮w音質的含義即音質的總體評價,從聲音是否音色均衡,渾厚、清晰可辨、有力度等方面進行音質的總體評價(劣-優(yōu))。

      本次實驗采用MUSHRA的方法進行打分,被試每次只針對其中一個評價術語進行實驗,依次聽辨所有實驗素材,并對每個素材中的各個算法進行打分。本次實驗采取了雙盲模式,實驗頁面中的算法均由A~F六個字母進行表示,且每次打開新的頁面時,6個渲染音頻將被隨機填充至A~F六個位置處。實驗頁面中的6個音頻播放位置均設置了進度條,被試可以根據自己情況選取播放進度,并隨時選擇暫?;虿シ?。實驗過程中,每個算法的打分均需以揚聲器三維聲信號作為參考,而非算法之間的橫向比較。之所以選擇這種聽辨方式,是因為預實驗中發(fā)現被試間的一致性較好。每個素材打分結束后,被試需要填寫最影響自己判斷該評價維度的聲音元素,主試將根據被試填寫的元素判斷其數據可靠性,并在了解大部分被試的整體關注聲音元素的基礎上,在后面的被試無法聽辨合適元素時適時進行引導。每位被試實驗時長為1小時左右,并中途設置休息時間,填寫問卷調查。實驗打分頁面如圖1所示。

      圖1 主觀評價實驗打分頁面

      2.4 實驗結果及分析

      利用一致性系數進行被試間信度檢驗。為了消除被試之間打分的差異,首先將被試的打分進行了歸一化處理,轉化成Z分數[10],隨后將被試的Z分數進行一致性檢驗,并剔除了少量不可靠的被試數據使得所有評價維度的克朗巴哈系數均為0.7以上。

      本次實驗采用實驗信號(5 水平)*渲染算法(6 水平)雙因素方差分析對實驗結果進行分析討論,所有統(tǒng)計分析都采用雙側檢驗,且顯著性水平為0.05,用估算效應量??傮w音質維度內,不同渲染算法對于各子維度的主效應結果,以及實驗信號與渲染算法的交互效應結果如表3所示。

      表3 總體音質渲染算法的主效應及渲染算法和實驗信號的交互效應

      不同渲染算法在總體音質上的主效應結果如圖2所示,用標準誤表征數據的離散程度。從圖中可以看出算法A 除了在總體音質維度顯著高于算法B,在所有二級維度評價中算法A 和算法B 差異不顯著,這說明算法B 在進行了音質補償后,可以做到在各個子維度接近直接下變換算法的聽感效果。其次得分表現位于中間的是算法C,算法D 和F 的表現較差。值得注意的是算法D 與算法E 渲染原理相似,都是基于Ambisonic 解編碼,但二者的均值與標準差都有著較大差異。

      圖2 渲染算法在總體音質維度上主效應結果圖

      圖3展示了實驗信號與渲染算法在總體音質上的交互效應結果。從圖中可以看出算法A 在各個信號上得分都非常高,且遠高于其他信號,這說明現有的雙耳渲染算法在音質方面仍然存在明顯的損傷。此外,算法B 相比于其他算法,整體分值較高,說明對不同聲音類別的適用性較好。

      圖3 總體音質的交互效應結果

      3 客觀評測分析

      3.1 特征提取與篩選

      本次實驗主要評測了與音質相關的維度,因此在客觀特征的選取上盡量包含表征音質的特征以及影響音質感知的雙耳特征,所有特征的物理含義明顯且易于解釋。本文共選取了16 個客觀特征,具體如表4所示。

      表4 所提取的客觀特征列表

      所有客觀特征的提取均基于Mir toolbox 工具包獲得。在提取過程中,先對所有信號分幀處理,選用50ms 的幀長以及50%的幀移??紤]到部分音頻特征在不同頻段內有著不同的物理含義,因此對于所有雙耳特征以及除明亮度、粗糙度、頻譜不規(guī)則度以外的時頻特征,在提取時將音頻素材先按照一個倍頻程的方式分成10 個頻段,在每一頻段內逐一提取相關特征,再統(tǒng)計每個特征的均值和方差。所有時頻特征也同時計算了全頻段的分幀后結果,并進行均值和標準差的計算。對于時頻特征的提取,由于合并聲道會出現相位抵消等各種問題,因此時頻特征將分別對左、右聲道進行計算,再對其左右耳特征的統(tǒng)計結果做均值處理。在后續(xù)的計算過程中,其中均值均用m 表示,標準差均用std表示。

      特征篩選的流程如圖4所示。首先對客觀特征進行預處理,保證量綱的一致;然后將客觀特征與5個評價維度的主觀結果進行f 檢驗,保留影響最顯著的80維客觀特征;最后將各個客觀特征之間進行相關性篩查,剔除相關性超過0.8的特征,保證篩選后客觀特征之間的獨立性。最終不同評價維度保留了約30 維的客觀特征,用于后續(xù)的回歸分析。客觀特征的表示方式為“特征名稱_數字m/std”,其中數字表示頻段數,如果沒有數字表示全頻帶結果。

      圖4 客觀特征篩選及降維流程

      3.2 基于PLSR的回歸模型

      本文將對總體音質分別以五個評價維度的主觀結果為因變量,篩選的客觀特征為自變量,進行PLSR分析。模型的性能用R2和Q2進行描述,R2表示擬合精度,Q2表示模型的預測能力。PLSR使用VIP(Variable Importance in Prediction)分值來評估自變量的重要性,通常VIP分值大于1的為重要變量。本文數據基于Simca軟件進行計算,載荷圖由Matlab繪制完成??傮w音質不同評價維度的回歸模型結果如表5所示。

      表5 總體音質維度的R2、Q2及主成分方差貢獻率

      圖5繪制了總體音質的35個信號的分布及客觀特征載荷圖,其中兩個坐標軸分別對應兩個主成分,圖中各點代表該實驗信號的主成分得分,向量在坐標軸的投影長度代表了各個客觀特征對于主成分的方差貢獻率??傮w音質PLSR模型中,主成分1解釋了54%的方差貢獻率,主要與LF_3_m、IACC_4_m等低頻段內雙耳特征和Spread_2_m、Flux_10_m等時頻特征相關;主成分2解釋了16%的方差貢獻率,主要與IACC_2_std、IACC_2_m等低頻段內雙耳特征和Skewness_6_std、Spread_2_m等中低頻段內時頻特征相關。

      圖5 總體音質信號主成分得分及客觀特征載荷圖

      為了進一步探究哪些特征對于總體音質的影響較大,將總體音質PLSR 模型中各客觀特征的VIP 分值進行排序,并將VIP 分值大于1 的客觀特征展示在圖6中。從圖中可見中低頻段內的雙耳特征以及中高頻段的頻譜能量分布及譜結構相關特征對總體音質感知尤為重要。

      圖6 總體音質PLSR模型VIP分值圖

      4 分析與討論

      4.1 不同雙耳渲染算法的對比分析

      從主觀實驗結果可以看出,直接進行線性變換的算法A相比于其他渲染算法在音質組各評價維度上普遍取得了較高的分數,證實了現有的所有雙耳渲染處理會影響音質。但值得注意的是,算法B在雙耳渲染處理前對頭部相關脈沖響應(Head Related Impulse Response,HRIR)進行了音質補償,該算法除了在總體音質外,在其他維度上與算法A得分較為接近,可見后期對音質進行相應補償也能極大改善音質。

      經過Ambisonic 編解碼技術的算法D 與算法E 在各維度上得分差異很大,可見基于Ambisonic 編解碼原理的具體實現算法會對音質造成很大的影響。雖然兩種算法都是基于幅度最小二乘法計算渲染矩陣函數,但是算法E 還加入擴散場協(xié)方差矩陣約束及分段均衡處理等方法[8],導致二者在音質維度的聽感上產生很大差異。但是這兩種算法與經過基于HRTF卷積的算法比較來看,除了算法E 在清晰度和力度上存在一定優(yōu)勢,在其他維度上并沒有起到優(yōu)化作用。

      從交互效應結果圖中,發(fā)現信號1 在區(qū)分不同渲染算法上有著較好的區(qū)分度。信號1是包含背景音樂的真人電影片段,頻率響應寬且較為平直,沒有某個聲音元素從頭到尾存在,被試在實驗過程評分中更加容易傾向于對所有聲音元素全局考量,是較為合適的評測素材,這與Olive等人的研究結果相吻合[11]。

      4.2 重要聲學特征的分析

      觀察總體音質的客觀特征載荷圖及VIP 分值圖,可以發(fā)現在40~320Hz 低頻段內的雙耳互相關系數IACC 具有較高的貢獻率,可見當低頻部分雙耳信號的差異越大且差異波動情況越大,越能引起被試對于低頻的感知,從而影響對總體音質的判斷。此外,80~160Hz頻段內側向聲能比LF也具有著較高的方差貢獻率,且與總體音質主觀得分成正相關,Barron等人指出側向到達的早期反射聲可以有效提升視在聲源寬度,是與主觀聽感高度相關且極其重要的聲學特征之一[12]。本文的結果表明提升80~160Hz頻段內側向聲能比LF也有利于提高主觀總體音質的感知。

      在時頻特征中,2560~5120Hz 頻段內的頻譜滾降Rolloff 和頻譜峰度Kurtosis 也非常重要,頻譜滾降Rolloff 與主觀結果呈負相關,頻譜峰度Kurtosis 呈正相關。由此可以看出這個頻段頻譜能量的分布是被試判斷總體音質的重要因素。

      綜合來看,可發(fā)現頻段范圍2560~5120Hz(倍頻程8)以及頻段范圍40~320Hz(倍頻程2~4)的時頻特征和雙耳特征在總體音質PLSR模型中極其重要。從人耳等響曲線可知人耳對于2k~4kHz的聲音最為敏感,倍頻程8恰好覆蓋了該敏感頻段,較為顯著的影響人耳對音色明亮度的感知;40~320Hz為人聲及樂器基頻所在的頻段區(qū)間,且人耳對于低頻的感知幾乎全部來自這三個倍頻程,因此在客觀模型中也具有重要作用。

      5 結論

      本文以三維聲雙耳渲染算法為研究對象,針對總體音質維度進行了主觀和客觀評測的研究。本文的主要結論如下:

      (1)與線性變換的算法相比,雙耳渲染算法確實會對音質的不同維度造成音質損傷,而且不同的算法在各個維度的表現也存在一定差異。算法B 經過音質補償處理,在主觀得分上與線性變換算法最為接近,因此對音質進行有效補償十分必要。

      (2)在雙耳特征中,低頻段的IACC及側向聲能比是影響總體音質較為重要的特征;而對于時頻特征而言,2560~5120Hz和40~320Hz這兩個頻段的時頻特征是需要特別關注的特征,例如頻譜滾降、頻譜峰度等等。

      猜你喜歡
      雙耳音質總體
      輕叩雙耳好處多
      輕叩雙耳好處多
      用樣本估計總體復習點撥
      私人影院音質優(yōu)選 ATT(安緹)SUB-12+
      哥窯青釉雙耳彝爐
      紫禁城(2020年5期)2021-01-07 02:13:34
      讓全家人共享Hi-Fi音質 DALI(達尼)OBERON C系列
      2020年秋糧收購總體進度快于上年
      在小空間享受大型音箱的音質 Definitive Technology UIW RLS Ⅱ/UIW RSS Ⅱ
      外匯市場運行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
      中國外匯(2019年6期)2019-07-13 05:44:06
      其它都好,音質有待提高 小米AI音箱
      金平| 栾城县| 奉节县| 西安市| 武胜县| 花莲县| 施秉县| 封丘县| 彝良县| 新闻| 香格里拉县| 靖西县| 利辛县| 离岛区| 敦化市| 华安县| 庆云县| 灯塔市| 台东市| 澜沧| 格尔木市| 温泉县| 罗定市| 罗甸县| 郓城县| 鹰潭市| 定州市| 武邑县| 上蔡县| 德昌县| 舟山市| 福鼎市| 上高县| 汶上县| 陇南市| 临海市| 祥云县| 晋宁县| 获嘉县| 竹山县| 木兰县|