文雅潔,陳 娟
(中北大學(xué),山西 太原 030051)
隨著互聯(lián)網(wǎng)技術(shù)與多媒體技術(shù)的飛速發(fā)展與普及,致使以音頻、圖像、視頻等為主要內(nèi)容的多種類型作品創(chuàng)作、存儲與傳播變得極為便利。尤其是音頻領(lǐng)域,多種編輯軟件興起與應(yīng)用,數(shù)字音頻已經(jīng)成為現(xiàn)今多媒體的主要表現(xiàn)形式之一,受到了社會大眾的廣泛關(guān)注。但是,由于數(shù)字音頻制作、傳播過程中受多種因素的影響,使得數(shù)字音頻中存在著大量的噪聲信號,不但會降低音頻信號的信噪比,還會影響音頻信號的清晰度,為其應(yīng)用與傳播帶來了較大的阻礙。
如何構(gòu)建一個(gè)有效的數(shù)字音頻降噪模型已經(jīng)成為音頻領(lǐng)域亟待解決的難題之一。就現(xiàn)有研究成果來看,使用較為廣泛的降噪算法為一種基于小波閾值的變步長LMS 語音降噪算法[1]與啟發(fā)式聯(lián)合PCD 快速降噪算法[2]。前者主要應(yīng)用小波軟閾值分析語音信號的時(shí)頻,將具有噪聲特征的小波系數(shù)進(jìn)行剔除,通過變步長最小均方誤差算法對語音信號進(jìn)行進(jìn)一步的降噪處理,從而實(shí)現(xiàn)語音信號的降噪處理;后者將音頻信號轉(zhuǎn)化為信號矩陣,利用Joint-PCD 與超完備字典同時(shí)對信號矩陣進(jìn)行降噪處理,獲得信噪比較高的音頻信號。
上述兩種算法雖然能夠?qū)崿F(xiàn)音頻信號的降噪處理,但是前者運(yùn)行時(shí)間過長,后者降噪效果較差,無法滿足數(shù)字音頻領(lǐng)域的發(fā)展需求,故本文提出多軌道數(shù)字音頻自適應(yīng)變階譜降噪模型構(gòu)建。
預(yù)加重處理后多軌道數(shù)字音頻信號yi呈現(xiàn)非平穩(wěn)特性,說明音頻信號參數(shù)指標(biāo)存在著一定的隨機(jī)性,故采用最大熵譜估計(jì)算法估計(jì)數(shù)字音頻信號頻譜,為研究目標(biāo)實(shí)現(xiàn)提供支撐。一般情況下,隨機(jī)序列M階自回歸模型當(dāng)前值可以用M個(gè)過去值進(jìn)行估計(jì)表示[3]。依據(jù)上述理論,數(shù)字音頻信號yi可以表示為:
式中:AM,m表示自回歸模型系數(shù);yi-m表示數(shù)字音頻信號過去值;Ei表示白噪聲估計(jì)誤差[4-6]。需要注意的是,為了研究便利,將其均值設(shè)置為零。從本質(zhì)角度出發(fā)可知,最大熵譜估計(jì)算法就是在特定背景下推出一系列序列[7]。因此,其等價(jià)于自回歸模型,可以通過求解自回歸模型的參數(shù)來估計(jì)數(shù)字音頻信號頻譜[8]。依據(jù)功率譜定義對式(1)進(jìn)行頻譜模平方運(yùn)算,計(jì)算結(jié)果為:
式中:AM,m(f)表示自回歸模型系數(shù)的頻譜;yi(f)表示數(shù)字音頻信號的頻譜;Ei(f)表示白噪聲的頻譜。
根據(jù)公式(2)即可推導(dǎo)出數(shù)字音頻信號頻譜的表達(dá)式為:
式中Syi(f)表示數(shù)字音頻信號頻譜。
通過公式(3)可知,只要求解出自回歸模型系數(shù)AM,m即可估計(jì)出數(shù)字音頻信號頻譜[9-10]。因此,此節(jié)利用最大熵估計(jì)算法對AM,m進(jìn)行求解與計(jì)算。設(shè)置自相關(guān)序列為Ryy( 0 ),Ryy( 1) ,Ryy( 2 ),…,Ryy(M),其是已知的,則自回歸模型系數(shù)AM,m求解矩陣表達(dá)式為:
求解公式(4)即可獲得自回歸模型系數(shù),表達(dá)式為:
式中:μM表示偏相關(guān)系數(shù),主要以白噪聲頻譜PM為核心進(jìn)行計(jì)算,計(jì)算公式為
將公式(5)的計(jì)算結(jié)果AM,m代入公式(3)中,即可獲得數(shù)字音頻信號頻譜的估計(jì)結(jié)果Syi(f),為后續(xù)降噪模型搭建提供依據(jù)。
以上述數(shù)字音頻信號頻譜估計(jì)結(jié)果Syi(f)為基礎(chǔ),搭建自適應(yīng)變階譜降噪模型,確定譜減階數(shù)的自適應(yīng)取值規(guī)則,將待處理的多軌道數(shù)字音頻輸入至訓(xùn)練好的降噪模型中,輸出結(jié)果為降噪完成后的多軌道數(shù)字音頻,為數(shù)字音頻的傳播與應(yīng)用提供助力。自適應(yīng)變階譜降噪模型表達(dá)式為:
式中:(f) 表示降噪后音頻信號頻譜估計(jì)結(jié)果[11];β表示譜減階數(shù);p(f)與q(f)表示譜減系數(shù)。由公式(6)可以看出,自適應(yīng)變階譜降噪模型的性能優(yōu)劣由譜減系數(shù)與譜減階數(shù)決定。其中,譜減系數(shù)最佳取值計(jì)算公式為:
式中ξ(f)表示通過直接判決法估計(jì)的先驗(yàn)信噪比。
在實(shí)際情況下,為了避免數(shù)字音頻出現(xiàn)失真現(xiàn)象,通常會對其增益函數(shù)設(shè)定一個(gè)最低限值。若是最低限值過小,在降噪過程中極易產(chǎn)生失真現(xiàn)象,使得數(shù)字音頻失效[12-13]。而譜減階數(shù)β與增益函數(shù)之間存在著緊密的聯(lián)系,當(dāng)譜減階數(shù)β較大時(shí),增益函數(shù)數(shù)值較大,此時(shí)降噪效果較差;反之,當(dāng)譜減階數(shù)β較小時(shí),增益函數(shù)數(shù)值較小,此時(shí)降噪效果較好。根據(jù)上述闡述內(nèi)容,確定譜減階數(shù)β的自適應(yīng)取值規(guī)則,具體如下:
式中:ψ與η表示譜減階數(shù)β自適應(yīng)取值計(jì)算的輔助常數(shù),需要根據(jù)數(shù)字音頻信號實(shí)際情況進(jìn)行相應(yīng)的設(shè)置;γ(f)表示數(shù)字音頻信號增益函數(shù)。
除此之外,為了防止譜減階數(shù)β過小,而導(dǎo)致數(shù)字音頻信號增益函數(shù)γ(f)過小,進(jìn)而造成數(shù)字音頻失真現(xiàn)象的發(fā)生,需要保證譜減階數(shù)β大于最低限值0.1。將公式(7)與公式(8)計(jì)算的譜減系數(shù)與譜減階數(shù)代入公式(6)中,即可獲得降噪后的數(shù)字音頻信號頻譜估計(jì)結(jié)果(f),通過逆變換將其重構(gòu)為數(shù)字音頻信號,表達(dá)式為:
式中:表示降噪處理后的數(shù)字音頻信號表示數(shù)字音頻信號逆變換函數(shù);ρo表示逆變換因子,取值范圍為[ 0,1.2 ]。
綜上所述,實(shí)現(xiàn)了多軌道數(shù)字音頻自適應(yīng)變階譜的降噪,為多軌道數(shù)字音頻的應(yīng)用與后續(xù)發(fā)展提供了一定的幫助。
構(gòu)建模型在降噪多軌道數(shù)字音頻信號重構(gòu)過程中應(yīng)用了逆變換因子ρo,其取值大小直接關(guān)系著音頻信號重構(gòu)質(zhì)量的優(yōu)劣。因此,在實(shí)驗(yàn)準(zhǔn)備階段需要對其最佳取值進(jìn)行相應(yīng)的確定。通過測試獲得逆變換因子ρo與音頻信號重構(gòu)質(zhì)量(采用誤差來表示)之間的關(guān)系,如圖1 所示。
圖1 逆變換因子與音頻信號重構(gòu)質(zhì)量關(guān)系示意圖
如圖1 數(shù)據(jù)所示,當(dāng)逆變換因子取值為0.6 時(shí),音頻信號重構(gòu)誤差達(dá)到最小值4%。因此,確定逆變換因子ρo最佳取值為0.6。
以上述確定的逆變換因子最佳取值為基礎(chǔ),應(yīng)用對比模型1、對比模型2 與構(gòu)建模型進(jìn)行多軌道數(shù)字音頻降噪對比實(shí)驗(yàn),獲得多軌道數(shù)字音頻信號降噪結(jié)果如圖2 所示。
圖2 多軌道數(shù)字音頻信號降噪結(jié)果示意圖
如圖2 所示,相較于原始多軌道數(shù)字音頻信號,構(gòu)建模型、對比模型1 與對比模型2 應(yīng)用后,均可以降低多軌道數(shù)字音頻信號中的噪聲信號占比,達(dá)到多軌道數(shù)字音頻信號降噪的效果。但是,構(gòu)建模型應(yīng)用后獲得的多軌道數(shù)字音頻信號降噪結(jié)果是完整的,無丟失音頻信號現(xiàn)象,而對比模型1 與對比模型2 應(yīng)用后獲得的多軌道數(shù)字音頻信號降噪結(jié)果是缺失的,均存在部分音頻信號丟失現(xiàn)象,破壞了音頻信號的完整性,表明構(gòu)建模型多軌道數(shù)字音頻降噪效果更好。
多媒體技術(shù)的飛速發(fā)展與廣泛應(yīng)用,使得多軌道數(shù)字音頻呈現(xiàn)急速增加的趨勢,但是由于數(shù)字音頻錄制、傳播設(shè)備較豐富,使得數(shù)字音頻中包含著大量的噪聲,影響數(shù)字音頻有效信號的傳播與應(yīng)用,故本文提出多軌道數(shù)字音頻自適應(yīng)變階譜降噪模型構(gòu)建。實(shí)驗(yàn)數(shù)據(jù)顯示,構(gòu)建模型提升了多軌道數(shù)字音頻降噪的性能,能為數(shù)字音頻的后續(xù)應(yīng)用提供更有效的方法支撐。