胡瑞敏,王曉晨,涂衛(wèi)平
(武漢大學(xué) 國(guó)家多媒體軟件工程技術(shù)研究中心,湖北 武漢 430079)
當(dāng)前全球移動(dòng)通信已全面進(jìn)入3G時(shí)代,3G時(shí)代的技術(shù)進(jìn)步使終端接入網(wǎng)絡(luò)的帶寬進(jìn)一步提升,移動(dòng)通信的環(huán)境條件得到明顯改善,并促進(jìn)用戶需求進(jìn)一步增強(qiáng),各種基于高速網(wǎng)絡(luò)的增值業(yè)務(wù)層出不窮。以移動(dòng)視頻點(diǎn)播、移動(dòng)音樂點(diǎn)播、手機(jī)電視、手機(jī)音頻廣播、手機(jī)音樂等為代表的移動(dòng)多媒體業(yè)務(wù)最具發(fā)展前景,將成為3G業(yè)務(wù)的主導(dǎo)[1]。
移動(dòng)通信網(wǎng)從2G,2.5G到3G和LTE(Long Term Evolution)的演進(jìn)過程中,呈現(xiàn)出異構(gòu)化、多媒體化、寬帶化和互聯(lián)網(wǎng)化的趨勢(shì),同時(shí)也給我國(guó)移動(dòng)多媒體編解碼技術(shù)研究帶來了挑戰(zhàn):
1)無線電頻譜資源有限。盡管新一代通信網(wǎng)具有更高的數(shù)據(jù)率和更大的系統(tǒng)容量,但是通信帶寬的增長(zhǎng)永遠(yuǎn)跟不上業(yè)務(wù)的增長(zhǎng)。這就要求流媒體傳輸系統(tǒng)在對(duì)流媒體進(jìn)行編碼時(shí),要有較高的壓縮效率。
2)無線信道環(huán)境不穩(wěn)定。異構(gòu)移動(dòng)網(wǎng)絡(luò)環(huán)境下,無線信道具有易變、時(shí)錯(cuò)和帶限的特點(diǎn),導(dǎo)致多媒體通信受到帶寬、時(shí)延、干擾和丟包率等因素的影響嚴(yán)重,對(duì)其服務(wù)質(zhì)量產(chǎn)生了較大影響。迫切需要通過轉(zhuǎn)碼、適配、傳輸及差錯(cuò)掩蔽等方面的研究來提高異構(gòu)移動(dòng)環(huán)境下的服務(wù)質(zhì)量。
3)移動(dòng)終端資源受限。作為便攜式系統(tǒng)的移動(dòng)終端,通常使用電池供電,其供能系統(tǒng)的容量受到很大限制,這已成為制約移動(dòng)多媒體通信業(yè)務(wù)發(fā)展的主要因素之一,因而設(shè)計(jì)低能耗的壓縮算法,減少終端的功率消耗是關(guān)鍵。
4)核心技術(shù)專利狀況受制于人。長(zhǎng)期以來,數(shù)字音視頻的核心技術(shù)基本掌握在美、日、歐等國(guó)家和地區(qū)的大公司手中,音視頻信源編碼技術(shù)昂貴的專利費(fèi)用成為產(chǎn)業(yè)障礙。
鑒于以上分析,傳統(tǒng)的音頻編碼技術(shù)難以滿足移動(dòng)環(huán)境下的編碼需求,因此理想的移動(dòng)音頻編解碼技術(shù)應(yīng)該具有對(duì)復(fù)雜音頻信號(hào)高效編碼,低碼率下提供足夠好的音頻質(zhì)量,較強(qiáng)的差錯(cuò)控制能力,較低的資源需求等特點(diǎn)[2]。
在網(wǎng)絡(luò)直播這個(gè)行業(yè)剛盛行的時(shí)候,這個(gè)平臺(tái)沒有人監(jiān)管,直播打造了一批批的網(wǎng)絡(luò)紅人,然而有一部分的網(wǎng)紅毫無底線的進(jìn)行低俗表演來吸引人們的視線和眼球。因此對(duì)網(wǎng)絡(luò)直播平臺(tái)必須堅(jiān)持法治和道德的底線。在日常監(jiān)管中,應(yīng)通過立法法規(guī)來規(guī)范監(jiān)督,對(duì)網(wǎng)絡(luò)直播的內(nèi)容信息等進(jìn)行全面嚴(yán)格的審查,堅(jiān)持不懈。網(wǎng)絡(luò)直播平臺(tái)需要相關(guān)部門的共同努力,另外,需要社會(huì)全體網(wǎng)民的共同監(jiān)督。無論是現(xiàn)實(shí)還是網(wǎng)絡(luò),都需要有法治和道德底線,一旦缺失,就會(huì)導(dǎo)致社會(huì)混亂。要加強(qiáng)網(wǎng)絡(luò)監(jiān)管,提供健康的網(wǎng)絡(luò)直播環(huán)境。
目前,國(guó)內(nèi)外都對(duì)移動(dòng)音頻編解碼的標(biāo)準(zhǔn)制訂展開了研究,國(guó)際上負(fù)責(zé)制訂移動(dòng)音頻標(biāo)準(zhǔn)的組織為第三代合作伙伴計(jì)劃(the 3rd Generation Partnership Project,3GPP),該組織將3G移動(dòng)音頻標(biāo)準(zhǔn)的注意力集中到AMR-WB+[3]和 EAAC+[4](即 enhanced aacPlus)這 2 個(gè)音頻編碼標(biāo)準(zhǔn)上。
EAAC+可以在中低碼率下對(duì)音頻信號(hào)進(jìn)行高效的編碼,主要由 MPEG-4 AAC[5],MPEG-4 SBR[6]和 MPEG-4 PS[7]組成,外加錯(cuò)誤隱藏工具,立體聲-單聲道下混工具,樣條重取樣工具,以進(jìn)一步提升壓縮效率。
MPEG-4 AAC屬于音頻編碼標(biāo)準(zhǔn)中取得巨大成功的動(dòng)態(tài)圖像專家組(Moving Pictures Experts Group,MPEG)系列標(biāo)準(zhǔn),其主要采用心理聲學(xué)模型,利用人耳的掩蔽特性來掩蔽有損編碼失真[8],而且利用變換編碼去除統(tǒng)計(jì)冗余,壓縮率可達(dá)15∶1。MPEG-4 SBR技術(shù)是一種非常高效的帶寬擴(kuò)展技術(shù),使用該技術(shù)進(jìn)行音頻編碼,可在同等編碼質(zhì)量的情況下節(jié)省約一半的碼率。MPEG組織在MPEG-4 AAC下加入頻帶復(fù)制(Spectral Band Replication,SBR)技術(shù),對(duì)信號(hào)的低頻部分采用高級(jí)音頻編碼(Advanced Audio Coding,AAC), 而高頻部分采用SBR技術(shù)編碼,這樣可在編碼質(zhì)量基本不降低的情況下降低編碼碼率,壓縮率得到進(jìn)一步提高。為了在更低的碼率下達(dá)到更好的編碼質(zhì)量,尤其針對(duì)立體聲模式下碼率低于24 kbit/s時(shí)編碼質(zhì)量不理想的問題,在上述基礎(chǔ)上再加入?yún)?shù)立體聲(Parametric Stereo,PS)技術(shù)構(gòu)成EAAC+的主體。PS技術(shù)通過對(duì)輸入信號(hào)下混并提取表征空間信息的參數(shù)進(jìn)行編碼,解決了傳統(tǒng)多聲道碼率隨聲道數(shù)近似線性增長(zhǎng)的缺陷,在低碼率下實(shí)現(xiàn)了多聲道音頻編碼,將壓縮率又提高了約30%,最終EAAC+可在16~24 kbit/s達(dá)到較滿意的編碼質(zhì)量。
AMR-WB+是對(duì)AMR-WB寬帶語音編碼標(biāo)準(zhǔn)[9]的擴(kuò)展,其增加了對(duì)音頻信號(hào)的編碼,其算法的核心是基于混合的ACELP/TCX模型。其中代數(shù)碼本激勵(lì)線性預(yù)測(cè) (Algebraic Code Excited Linear Prediction,ACELP)[10]適合對(duì)語音信號(hào)編碼,變換編碼激勵(lì)(Transform Coded Excitation,TCX)[11]適合對(duì)音樂信號(hào)進(jìn)行編碼。在編碼時(shí),AMR-WB+根據(jù)音頻信號(hào)的內(nèi)容,自適應(yīng)選擇ACELP編碼或TCX編碼,可在中低碼率下提供極優(yōu)越的音質(zhì),且聲音質(zhì)量不會(huì)因網(wǎng)絡(luò)帶寬的限制而受影響,具有良好的抗誤碼能力。
在國(guó)內(nèi)音頻編碼領(lǐng)域中,由國(guó)家信息產(chǎn)業(yè)部科學(xué)技術(shù)司于2002年6月批準(zhǔn)成立數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組(Audio Video Coding Standard Workgroup of China),負(fù)責(zé)AVS標(biāo)準(zhǔn)的制訂。AVS標(biāo)準(zhǔn)是針對(duì)中國(guó)音視頻產(chǎn)業(yè)的需求,由中國(guó)數(shù)字音視頻領(lǐng)域的科研機(jī)構(gòu)和企業(yè)牽頭,相關(guān)國(guó)際組織和企業(yè)廣泛參與,按照國(guó)際開放式規(guī)則制訂的標(biāo)準(zhǔn)[12],在國(guó)家標(biāo)準(zhǔn)計(jì)劃中,AVS標(biāo)準(zhǔn)的正式名稱為:信息技術(shù)先進(jìn)音視頻編碼,包括系統(tǒng)、視頻、音頻、數(shù)字版權(quán)管理等10個(gè)部分,其中面向音頻編解碼技術(shù)的標(biāo)準(zhǔn)包括2個(gè)部分:《信息技術(shù)先進(jìn)音視頻編碼第3部分:音頻》(AVS-P3)[13]和《信息技術(shù)先進(jìn)音視頻編碼第 10部分:移動(dòng)語音和音頻》(AVS-P10)。
為了向迅速發(fā)展的移動(dòng)通信、移動(dòng)多媒體業(yè)務(wù)、無線流媒體等諸多應(yīng)用提供音頻編解碼、文件和存儲(chǔ)格式等方面的規(guī)范和標(biāo)準(zhǔn),AVS工作組于2005年底啟動(dòng)了AVS-P10移動(dòng)音頻編碼標(biāo)準(zhǔn)的制訂。制訂過程中,AVS音頻組共收到了10個(gè)單位的105項(xiàng)提案,并最終篩選出武漢大學(xué)等單位的31項(xiàng)技術(shù)提案,于2009年12月完成最終委員會(huì)草案(FinalCommittee Draft,AVS-P10 FCD)[14]。 部分國(guó)家標(biāo)準(zhǔn)立項(xiàng)于2008年得到國(guó)家標(biāo)準(zhǔn)委正式批準(zhǔn),正式性能測(cè)試表明其性能與AMR-WB+相當(dāng)[15]。
AVS-P10音頻標(biāo)準(zhǔn)是面向新一代移動(dòng)通信系統(tǒng)的低碼率高保真音頻編解碼技術(shù)標(biāo)準(zhǔn),應(yīng)用包括移動(dòng)通信、無線寬帶多媒體通信、互聯(lián)網(wǎng)寬帶流媒體業(yè)務(wù)等。
AVS-P10 支持采樣頻率為 8 kHz,16 kHz,24 kHz,32 kHz,48 kHz,11 kHz,22 kHz和 44.1 kHz的 16 位采樣單聲道、雙聲道脈沖編碼調(diào)制 (Pulse Code Modulation,PCM)信號(hào),解碼輸出是同樣格式的單聲道或立體聲信號(hào),單聲道模式輸出比特流為10.4~24.0 kbit/s,立體聲模式下輸出比特流為12.4~32.0 kbit/s。
AVS-P10移動(dòng)語音和音頻編碼將ACELP編碼和變換矢量編碼(Transform Vector Coding,TVC)集成到一個(gè)正交混合編碼器中,構(gòu)建ACELP/TVC多模式編碼模型,能夠依據(jù)信號(hào)類型在2種編碼模式之間選擇最佳的編碼模式,其中基于線性預(yù)測(cè)分析的ACELP模式適合對(duì)類似語音的信號(hào)編碼,變換域的TVC編碼模式適合對(duì)類似音樂的信號(hào)進(jìn)行編碼,從而能夠?qū)Ω鞣N復(fù)雜的音頻信號(hào)進(jìn)行編碼。其具體編碼框圖如圖1所示。
解碼器的結(jié)構(gòu)如圖2所示。解碼器將對(duì)低頻和高頻分別解碼,然后用一個(gè)合成濾波器將2個(gè)頻段的信號(hào)合并在一起。如果信號(hào)輸出被限制為單聲道則不使用立體聲解碼。
圖1 AVS-P10音頻標(biāo)準(zhǔn)編碼框圖
圖2 AVS-P10音頻標(biāo)準(zhǔn)解碼框圖
編碼器的核心算法是混合ACELP/TVC模式編碼。對(duì)每幀輸入音頻信號(hào),編碼器可采用開環(huán)方式或閉環(huán)方式選擇使用哪種模式(ACELP或TVC)編碼。
ACELP/TVC編碼模塊的輸入是單聲道、2kHz采樣信號(hào)。每1024個(gè)連續(xù)的輸入信號(hào)采樣點(diǎn)組成一個(gè)超幀進(jìn)行處理。每個(gè)1024點(diǎn)超幀可采用多種模式編碼,包括ACELP256,TVC256,TVC512 和 TVC1024, 每個(gè)超幀有26種不同的ACELP/TVC編碼模式組合。
最優(yōu)編碼模式可通過閉環(huán)方法選擇模式(高運(yùn)算復(fù)雜度模式),將全部26種模式編碼,然后計(jì)算每種模式的平均分段信噪比,平均分段信噪比最大的對(duì)應(yīng)模式即為選定的編碼模式,然后再選擇最好的組合。另外一種ACELP/TVC編碼模式選擇方法是開環(huán)選擇方法(低運(yùn)算復(fù)雜度模式),通過提取信號(hào)的特征并根據(jù)這些特征決定選擇哪一種編碼模式進(jìn)行編碼。該方法不需要對(duì)各種模式進(jìn)行編碼嘗試,降低了計(jì)算復(fù)雜度,但編碼模式的選擇不一定最佳。
ACELP編碼模式采用了多速率碼激勵(lì)線性預(yù)測(cè)編碼技術(shù),輸入到ACELP/TVC核心編碼器的單聲道信號(hào),先通過一個(gè)高通預(yù)處理濾波器,再經(jīng)一個(gè)傳遞函數(shù)為一階的預(yù)加重濾波器,以降低信號(hào)頻譜的動(dòng)態(tài)范圍,進(jìn)一步增強(qiáng)線性預(yù)測(cè)編碼(LinearPredictiveCoding,LPC)分析的分辨力。
線性預(yù)測(cè)(LinearPrediction,LP)分析是用 16階 LP作短時(shí)分析,用384點(diǎn)非對(duì)稱窗加權(quán)預(yù)處理后的內(nèi)部采樣信號(hào),求256個(gè)樣點(diǎn)的自相關(guān)系數(shù),這里采用萊文遜-杜賓(Levinson-Durbin)算法進(jìn)行LP系數(shù)求解,每幀分析一次得到一組LP系數(shù)。LP系數(shù)在編碼前要先轉(zhuǎn)化為導(dǎo)抗譜頻率(ImmittanceSpectralFrequencies,ISF)參數(shù),然后采用預(yù)測(cè)分裂矢量量化器(PredictiveSplitVector Quantizer,PSVQ)進(jìn)行量化。
感知加權(quán)模塊用于實(shí)現(xiàn)對(duì)信號(hào)進(jìn)行感知加權(quán)域的濾波處理。感知加權(quán)濾波處理的實(shí)質(zhì)物理過程是通過判斷信號(hào)的高低頻能量差異,選擇對(duì)應(yīng)的譜平坦濾波器產(chǎn)生譜平坦信號(hào)。AVS-P10的譜平坦濾波器包括一個(gè)用來提升寬帶語音信號(hào)低頻部分的低通濾波器以及一個(gè)用來提升寬帶語音信號(hào)高頻部分的高通濾波器[16]。
ACELP編碼器的激勵(lì)由自適應(yīng)碼本和固定碼本構(gòu)成,基音分析基于感知加權(quán)后的信號(hào)。感知加權(quán)域信號(hào)在進(jìn)行基音周期搜索之前,先用4階有限沖激響應(yīng)(Finite ImpulseResponse,F(xiàn)IR)濾波器進(jìn)行濾波,然后進(jìn)行降采樣處理。
對(duì)于長(zhǎng)時(shí)預(yù)測(cè)模塊,AMR-WB+標(biāo)準(zhǔn)采取的是傳統(tǒng)的自適應(yīng)寬帶搜索-自適應(yīng)基音搜索 (AdaptiveBand widthSearching-AdaptivePitchSearching,ABS-APS)方法。為了減少算法復(fù)雜度,ABS-APS采取了兩路的方式,其中一路先對(duì)激勵(lì)信號(hào)低通濾波生成輸出信號(hào),另外一路則直接使用激勵(lì)信號(hào)本身,通過兩路性能誤差比較選擇路徑。AVS-P10的長(zhǎng)時(shí)預(yù)測(cè)采用了武漢大學(xué)提出的基于頻段波形相關(guān)的自適應(yīng)寬帶信號(hào)基音搜索(Inter-band WaveformCrossCorrelationbasedAdaptiveBandwidth PitchSearching,IWCC-APS)方法[17],利用寬帶語音信號(hào)長(zhǎng)時(shí)相關(guān)諧波結(jié)構(gòu)在高頻段并不顯著的特點(diǎn),通過計(jì)算寬帶信號(hào)頻段間的相關(guān)度判決對(duì)長(zhǎng)時(shí)預(yù)測(cè)的激勵(lì)信號(hào)進(jìn)行選擇性低通濾波,與ABS-APS算法比較,IWCC-APS算法的運(yùn)算復(fù)雜度僅為前者的一半。
在開環(huán)基因搜索方面,AVS-P10標(biāo)準(zhǔn)采用一種低復(fù)雜度、高效的開環(huán)基音搜索方法[18],利用歸一化的自相關(guān)函數(shù)搜索基音周期,同時(shí)采用固定加權(quán)去除倍基音影響和基音周期的全局參考平滑基音周期,適用于各種語音編解碼算法中的開環(huán)基音搜索。得到的基音周期候選值同解于追求原始信號(hào)與延遲信號(hào)誤差的最小均方差標(biāo)準(zhǔn)求解得到的基音周期候選值。從統(tǒng)計(jì)意義上講比較精確,并且與后面的閉環(huán)基音搜索中的整數(shù)基音搜索相一致。使用歸一化的自相關(guān)函數(shù),以通過對(duì)自相關(guān)函數(shù)值的分類分析解決倍周期問題,同時(shí)對(duì)基音周期平滑性進(jìn)行加權(quán)并判斷語音的周期性強(qiáng)弱,最終確定基音周期。在判定過程中設(shè)定基音周期全局參考軌跡作為全局變化的量度,用于平滑基音周期,并采用分類的基音周期分析,針對(duì)信號(hào)自適應(yīng)最佳確定的基音周期,解決了變化范圍大的問題。試驗(yàn)顯示,AVS-P10中的開環(huán)基因搜索算法運(yùn)算復(fù)雜度和存儲(chǔ)開銷均小于AMR-WB+,而性能與AMR-WB+相當(dāng)。
TVC編碼模式是一種基于時(shí)域線性預(yù)測(cè)分析技術(shù)和頻域變換編碼技術(shù)的混合編碼技術(shù),首先將輸入的信號(hào)通過一個(gè)時(shí)變感知加權(quán)濾波器獲得感知加權(quán)信號(hào),然后對(duì)感知加權(quán)信號(hào)自適應(yīng)加窗后通過快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)將信號(hào)變換到頻域,對(duì)頻譜信號(hào)采用基于分裂表的標(biāo)矢量結(jié)合量化輸出。
經(jīng)過FFT變換后,通過頻譜預(yù)整形技術(shù)對(duì)頻譜進(jìn)行平坦化處理,然后將連續(xù)的4個(gè)復(fù)系數(shù)頻譜組成1個(gè)8維實(shí)數(shù)矢量,對(duì)其采用基于RE8格的多速率分裂表矢量量化器進(jìn)行量化,該量化算法的基本思想是對(duì)于各個(gè)待編碼數(shù)據(jù),首先判斷其是否在基礎(chǔ)碼本中,若在,則直接利用基礎(chǔ)碼本編碼;否則,嘗試將其分裂為基礎(chǔ)碼本中的碼字和分裂表中一個(gè)分裂量的和,對(duì)基礎(chǔ)碼字和分裂量分別編碼。這樣就解決了大值碼字無法在基礎(chǔ)碼本中找到因而不能編碼的問題。解碼算法是編碼算法的逆過程,解包讀取編碼端傳過來的所有參數(shù)。
在AVS-P10中,利用帶寬擴(kuò)展方法對(duì)高頻信號(hào)進(jìn)行編碼,采用模擬語音或音頻信號(hào)中高頻信號(hào)分量的頻譜包絡(luò),以及在頻域空間將所述的頻譜包絡(luò)與高頻信號(hào)分量對(duì)應(yīng)的低頻信號(hào)分量進(jìn)行合成,得到重建的高頻信號(hào)分量。同時(shí),通過提取高頻信號(hào)分量的頻譜包絡(luò),將該精細(xì)結(jié)構(gòu)作用到頻域空間對(duì)應(yīng)的低頻信號(hào)分量上,能夠保證重建的高頻信號(hào)頻譜與編碼過程中截去的高頻信號(hào)頻譜的調(diào)和相關(guān)。其中高頻基礎(chǔ)信號(hào)采用如下的方式生成:每20ms一幀高頻信號(hào)經(jīng)過LPC分析,得到9階LPC系數(shù),進(jìn)而得到高頻信號(hào)的合成濾波器。在每一個(gè)20ms幀內(nèi),提取288點(diǎn)的高頻合成濾波器的沖擊響應(yīng),并歸一化。歸一化后的沖激響應(yīng)乘以288點(diǎn)的余弦窗函數(shù),并通過288點(diǎn)的FFT轉(zhuǎn)換到頻域。在每80ms的一個(gè)超幀內(nèi),低頻激勵(lì)信號(hào)通過288點(diǎn)的余弦窗函數(shù)分割成4個(gè)288點(diǎn)的幀,每一幀的激勵(lì)信號(hào)通過288點(diǎn)的FFT變換轉(zhuǎn)換到頻域。頻域的低頻激勵(lì)信號(hào)乘以頻域高頻激勵(lì)濾波器沖激響應(yīng),得到新的高頻激勵(lì)信號(hào)。其實(shí)現(xiàn)框圖如圖3所示。
圖3 帶寬擴(kuò)展實(shí)現(xiàn)框圖
AVS-P10移動(dòng)語音和音頻標(biāo)準(zhǔn)在單聲道編碼的基礎(chǔ)上也具有立體聲編碼功能。AVS-P10中采用一種頻域可配置的參數(shù)立體聲編碼方案,其特點(diǎn)有:1)提供一致的編解碼框架以解決AMR-WB+由于在時(shí)域?yàn)V波而使編解碼結(jié)構(gòu)過于復(fù)雜的問題。2)對(duì)于采用精確編碼方案的低頻帶寬可根據(jù)編碼比特率進(jìn)行靈活控制,如當(dāng)可用的編碼比特率較高時(shí),可擴(kuò)大低頻范圍,反之則降低低頻范圍,從而有效提高高頻部分的編碼質(zhì)量。3)高頻部分進(jìn)行增益控制是在頻域中進(jìn)行的,提高了增益控制的頻率分辨力。
AVS-P10標(biāo)準(zhǔn)的技術(shù)特色與優(yōu)勢(shì)如下:
1)高效壓縮特性適合有限的帶寬資源。AVS-P10移動(dòng)音頻采用了先進(jìn)的ACELP/TVC混合編碼框架,充分利用人耳聽覺的掩蔽特性與心理聲學(xué)特性,采用各種先進(jìn)的數(shù)字信號(hào)處理技術(shù)和壓縮技術(shù)充分去除音頻信號(hào)的冗余,在16~24 kbit/s的編碼碼率下能達(dá)到很好的音質(zhì),在實(shí)現(xiàn)高壓縮比的同時(shí)仍能保持高質(zhì)量的聲音效果,最大限度地節(jié)省系統(tǒng)帶寬。
2)靈活的編碼適應(yīng)異構(gòu)的傳輸網(wǎng)絡(luò)。AVS-P10移動(dòng)音頻編碼標(biāo)準(zhǔn)采用可變速率編碼結(jié)構(gòu),可根據(jù)網(wǎng)絡(luò)的實(shí)際帶寬需求和信道條件對(duì)編碼速率進(jìn)行調(diào)整,能夠使碼流在復(fù)雜多變的移動(dòng)網(wǎng)絡(luò)上傳輸,體現(xiàn)了其編碼靈活性的特點(diǎn)。
3)強(qiáng)大的錯(cuò)誤保護(hù)機(jī)制對(duì)抗不穩(wěn)定的無線信道環(huán)境。AVS-P10移動(dòng)音頻支持對(duì)不同參數(shù)進(jìn)行非均勻的誤碼保護(hù),可以對(duì)重要信息進(jìn)行重點(diǎn)保護(hù),可以在不穩(wěn)定的移動(dòng)網(wǎng)絡(luò)條件下,盡可能地降低重點(diǎn)保護(hù)信息的出錯(cuò)概率,使在移動(dòng)網(wǎng)絡(luò)環(huán)境下的各種多媒體業(yè)務(wù)能正常地進(jìn)行傳輸。
4)低復(fù)雜度模式適合資源受限的移動(dòng)終端。AVSP10的低復(fù)雜度模式專門針對(duì)大部分移動(dòng)終端的數(shù)據(jù)處理能力相對(duì)不強(qiáng)的特點(diǎn),通過聲音分類器進(jìn)行模式判決并采用開環(huán)搜索模式替代閉環(huán)搜索模式,編碼的復(fù)雜度大大降低。
5)自主的知識(shí)產(chǎn)權(quán)改變受制于人的核心技術(shù)專利狀況。AVS-P10標(biāo)準(zhǔn)除了技術(shù)先進(jìn)、性能穩(wěn)定外,重要的是擁有完全自主知識(shí)產(chǎn)權(quán),這也是近幾年來國(guó)內(nèi)DVD等音視頻行業(yè)飽受專利費(fèi)之苦后,中國(guó)首個(gè)具有自主知識(shí)產(chǎn)權(quán)的移動(dòng)視音頻編解碼技術(shù)標(biāo)準(zhǔn),這也為中國(guó)企業(yè)提供了擺脫國(guó)外企業(yè)專利費(fèi)困擾的機(jī)會(huì)。
目前,國(guó)內(nèi)通信設(shè)備生產(chǎn)廠商向ITU標(biāo)準(zhǔn)專利持有者繳納的專利費(fèi)用折合成人民幣每年高達(dá)數(shù)億元,而且隨著國(guó)內(nèi)新一代移動(dòng)通信業(yè)務(wù)的發(fā)展,此項(xiàng)費(fèi)用將會(huì)越來越高。AVS-P10是具有清晰自主知識(shí)產(chǎn)權(quán)結(jié)構(gòu)的移動(dòng)視音頻標(biāo)準(zhǔn),有明確的知識(shí)產(chǎn)權(quán)管理和收費(fèi)政策,為將來的產(chǎn)業(yè)推廣奠定了堅(jiān)實(shí)的基礎(chǔ),可保證產(chǎn)業(yè)的平穩(wěn)發(fā)展和長(zhǎng)治久安。
[1]胡瑞敏,高戈,王曉晨,等.面向移動(dòng)多媒體應(yīng)用的AVS-P10移動(dòng)語音和音頻標(biāo)準(zhǔn)[C]//第九屆全國(guó)消費(fèi)電子技術(shù)年會(huì)暨數(shù)字電視研討會(huì)論文集.云南,麗江:北京電視電聲雜志社,2007:95-101.
[2]胡瑞敏,張勇.AVS-M移動(dòng)音頻編碼技術(shù)的研究及應(yīng)用[J].電聲技術(shù),2007, 31(7):65-69.
[3]3GPP TS 26.290.Extended adaptive multi-rate-wideband(AMRWB+) codec[EB/OL].[2010-07-01].http://en.wikipedia.org/wiki/Extended_Adaptive_Multi-Rate_%E2%80%93_Wideband.
[4]3GPP TS 26.401.Enhanced aacPlus general audio codec;general description[EB/OL].[2010-07-01].http://www.3gpp.org/ftp/Specs/htmlinfo/26401.htm.
[5]3GPP TS 26.403.Enhanced aacPlus general audio codec;encoder specification AAC part[EB/OL].[2010-07-01].http://www.3gpp.org/ftp/Specs/html-info/26-series.htm.
[6]3GPP TS 26.404.Enhanced aacPlus general audio codec;encoder specification SBR part[EB/OL].[2010-07-01].http://www.3gpp.org/ftp/Specs/html-info/26-series.htm.
[7]BREEBAART J,PAR S,KOHLRAUSCH A,etal.Parametric coding of stereo audio[J].EURASIP Journal on Applied Signal Processing,2005(9): 1305-1322.
[8]PAINTER T,SPANIASA.Perceptual coding of digital audio[EB/OL].[2010-06-01].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.149.1231&rep=rep1&type=pdf.
[9]3GPPTS 26.190.Adaptivemulti-rate-wideband (AMR-WB)speech codec[EB/OL].[2010-07-01].http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1175533.
[10]BRUNO B,REDWAN S,ROCH L,et al.The adaptivemulti-rate wideband speech codec (AMR-WB)[J].IEEE Trans.Speech and Audio Processing, 2002, 10(8): 620-636.
[11]RAGOT S, BESSETTE B, LEFEBVRE R.Low-complexity multirate lattice vector quantization with application to wideband TCX speech coding at 32kbps[C]//Proc.IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP).[S.l.]:IEEE Press,2004:501-504.
[12]黃鐵軍,王強(qiáng),馬思偉.AVS數(shù)字音視頻編解碼標(biāo)準(zhǔn)[J].中興通訊技術(shù),2006,12(3):6-13.
[13]GB/T 20090.3.信息技術(shù) 先進(jìn)音視頻編碼 第3部分:音頻[S].2009.
[14]武漢大學(xué).信息技術(shù) 先進(jìn)音視頻編碼 第10部分:移動(dòng)語音和音頻 AVSN_1687[EB/OL].[2010-07-01].ftp://192.168.5.10/public/avs_doc/1003_Guangzhou/avs/N1687.doc.
[15]北京理工大學(xué).AVS-P10移動(dòng)語音和音頻編解碼器主觀質(zhì)量測(cè)試 [EB/OL].[2010-07-01].ftp://192.168.5.10/public/avs_doc/1006_Sanxia/output/N1720.doc.
[16]楊玉紅,周成,高戈.語音頻寬帶感知加權(quán)AVS_M2394[EB/OL].[2010-07-01].ftp://192.168.5.10/public/avs_doc/0806_Xiamen/contrib/AVS_M2394.docM2394.doc.
[17]張勇,劉霖,楊玉紅,等.寬帶自適應(yīng)碼本激勵(lì)搜索方法AVS_M1922[EB/OL].[2010-07-01].ftp://159.226.42.57/public/avs_doc/0612_Zhuhai/contrib/M1922.doc.
[18]張勇,劉霖,楊玉紅,等.寬帶語音開環(huán)基音搜索AVS_M1869[EB/OL].[2010-07-01].http://159.226.42.57/public/avs_doc/0609_Beijing/contrib/M1869.doc.