滕 達,馮浩楠
(1.中國鐵道科學(xué)研究院 通信信號研究所,北京 100081;2.中國鐵道科學(xué)研究院 研究生部,北京 100081)
網(wǎng)絡(luò)技術(shù)
基于AMR-WB基音周期的帶寬節(jié)省方法
滕 達1,2,馮浩楠1
(1.中國鐵道科學(xué)研究院 通信信號研究所,北京 100081;2.中國鐵道科學(xué)研究院 研究生部,北京 100081)
移動網(wǎng)絡(luò)擁塞會影響數(shù)據(jù)通信的質(zhì)量和穩(wěn)定性,為節(jié)省網(wǎng)絡(luò)高峰時段的網(wǎng)絡(luò)帶寬,本文在不改變硬件和協(xié)議的條件下,將信息隱藏的思想應(yīng)用于語音編碼,在編碼階段對語音信號進行壓縮處理,經(jīng)計算可以節(jié)省約12%的帶寬,從而起到緩解網(wǎng)絡(luò)擁塞的作用。
基音周期;AMR-WB;帶寬
隨著手機、平板電腦等移動類電子設(shè)備的不斷推陳出新,移動網(wǎng)絡(luò)也相應(yīng)地得到迅速地發(fā)展,用戶數(shù)量隨之不斷升高[1]。無線通信為廣大消費者帶來的便利是顯而易見的,然而過多的用戶為 2G/3G 網(wǎng)絡(luò)帶來龐大的數(shù)據(jù)量,從而造成了網(wǎng)絡(luò)通信高峰時段的通信堵塞。另一方面,移動通信技術(shù)也存在著一些缺點,例如 :3G 技術(shù)缺點如下 :(1)多徑衰弱的問題。移動通信系統(tǒng)會由于地貌、海況、天空等因素影響下,導(dǎo)致接收方收到多條電磁波,產(chǎn)生嚴(yán)重的衰弱現(xiàn)象。(2)時延擴展的問題。無線信號傳輸?shù)倪^程因為不同的路徑導(dǎo)致信號的傳播時延各不相同,引起碼間干擾。(3)多址干擾的問題[2]。在 3G 通信系統(tǒng)中,在時域和頻域上,多個用戶的信號是有重疊的,因此一定的同域和領(lǐng)域干擾會產(chǎn)生在頻域上,這種干擾就是多址干擾[3]。
上述問題因為數(shù)據(jù)傳輸帶來誤碼率高、網(wǎng)絡(luò)擁塞等問題,從而影響數(shù)據(jù)通信的質(zhì)量和穩(wěn)定性,在不解決硬件和協(xié)議本身限制的情況下,需要從信息本身入手。從信息隱藏的思路入手,在編碼階段將信息嵌入到語音信號中進行傳輸,在解碼階段將信息取出,減少了語音信號的長度,起到節(jié)省通信網(wǎng)絡(luò)帶寬的作用。
在 3GPP TS 26.190 規(guī)范中,AMR-WB(Adaptive Multi-Rate-Wideband, 自適應(yīng)多速率寬帶編碼)是一種同時被國際標(biāo)準(zhǔn)化組織 ITU-T 和 3GPP 采用的寬帶語音編碼標(biāo)準(zhǔn),也稱為 G722.2 標(biāo)準(zhǔn)[4]。AMR-WB提供語音帶寬范圍達到 50 Hz ~ 7 000 Hz,用戶可主觀感受到話音比以前更加自然、舒適和易于分辨,處理的音頻是采樣率為 16 kHz 的語音信號,具有 6.60 kbps、8.85 kbps、12.65 kbps、14.25 kbps、15.85 kbps、18.25 kbps、19.85 kbps 和 23.05 kbps 和 23.85 kbps總共 9 種不同的速率,對于這 9 種不同速率的語音,經(jīng)過 AMR-WB 編碼后,每一幀的長度分別為132 bit、177 bit、253 bit、285 bit、317 bit、365 bit、397 bit、461 bit和 477 bit[5]。在網(wǎng)絡(luò)比較擁堵的情況下,AMR-WB 編碼會自動調(diào)節(jié)碼率,減少網(wǎng)絡(luò)數(shù)據(jù)包的數(shù)量。但是當(dāng)網(wǎng)絡(luò)非常差的情況下,如果碼率調(diào)到最低的 6.60 kbps 速度時,網(wǎng)絡(luò)擁堵的情況無法緩解,會導(dǎo)致數(shù)據(jù)包丟失嚴(yán)重,無法正常通話[6]?;谇度胄畔⒌乃枷?,利用基音周期參數(shù)改變較少影響通話質(zhì)量的特性,提出了一種節(jié)省3G網(wǎng)絡(luò)帶寬的方法。本算法的思想是利用基音周期參數(shù)的方法進行信息隱藏,將每一秒語音的前 6幀嵌入到后 44幀中,從而節(jié)省了帶寬。
編碼算法的主要思想是發(fā)送端將每一秒語音編碼的前 6幀語音信息嵌入到后面的 44幀中,這樣可以減少每一秒語音的信息量,從而減少總的信息量。
協(xié)調(diào)信息:雙方通話開始時,發(fā)送端將一些調(diào)節(jié)信息編碼到第 i幀語音上,接收方收到調(diào)節(jié)信息后,開始接收隱藏信息。
編碼的開始 :當(dāng)發(fā)送端向接收端發(fā)送第 j s 的信號時,先使用 AMR-WB 編碼器將第 j s語音信號編碼,得到二進制序列 Info1,…,Infok,1 s 的信號總共有50 幀的語音,編碼算法的目的就是將該 50 幀的前 6位嵌入到后 44位當(dāng)中。
信息嵌入過程 :每一秒語音的最后 44幀語音,從第7幀語音開始編號,第7幀的第1個子幀編號為1,第 2 個子幀編號為 2,往后以此類推,第 i幀語音的第 j子幀編號為 (i-7)*4+j。從二進制序列 Info 中取出Infok,Infok+1,Infok+2,Infok+3和 Infok+4總共 5 bit的信息(k 整除 5),將這 5 bit二進制數(shù)轉(zhuǎn)換為十進制數(shù),這個數(shù)設(shè)為“s”。在編號為 k 的子幀編碼過程中,在閉環(huán)基音周期的搜索中,在候選的基音周期參數(shù)集合中,循環(huán)測試每一個基音周期參數(shù) ti,若 timod32=s,則選擇 ti作為這個子幀的基音周期參數(shù)進行編碼 ;若候選的基音周期參數(shù)均不滿足 timod32=s 的條件,則選擇一個正整數(shù) tj作為該子幀的基音周期參數(shù)進行編碼,其中,tj滿足 |tj-ti|mod32=s 的條件。
解碼算法的目的是在接收端還原被隱藏的信息。接收端在接收到協(xié)調(diào)幀后,立即啟動隱藏信息的解碼,即從第 i秒語音開始,通過解碼每秒語音的 44幀的來還原語音編碼。接收端在接收到第j秒語音后,將這 44幀語音信號進行解碼,將每一個子幀語音的基音周期參數(shù)摸除 32,得到十進制數(shù) s,再將 s轉(zhuǎn)化為 5 bit的二進制信息 Infok,…,Infok+4。按照順序,將 44幀語音中,每一個子幀基音周期參數(shù)模除結(jié)果的信息緩存在一起,最后將緩存結(jié)果使用編碼器解碼進行聲音的重建,得到前6幀的語音信號,將這6幀語音信號和接收到的 44幀語音信號進行組合,最后可以得到完整的 1s的語音。
4.1 網(wǎng)絡(luò)帶寬節(jié)省分析
本算法使用基音周期參數(shù)的方法進行信息隱藏。每一幀語音的編碼比特數(shù)取決于嵌入過程中所選擇的模數(shù),本算法使用 32作為模除計算的模數(shù),因此每一子幀語音的基音周期參數(shù)可以嵌入 5 bit的信息,一幀語音就可以用來嵌入 20 bit的信息。在 6.60kbps 速率模式下,每一幀語音編 碼大小為 132 bit,因此 44 幀語音的基音周期參數(shù)總共可以嵌入 880 bit的信息,而剩余 6 幀語音總共是 792 bit,因此每一秒語音的 50 幀中的 44 幀的語音正好可以承載剩余6幀語音的編碼流,那么每一秒的語音可以減少6幀的編碼比特數(shù)。因此在網(wǎng)絡(luò)狀況不好的情況下,使用本算法進行信息壓縮平均可以節(jié)省 6/50=12% 的網(wǎng)絡(luò)帶寬。
4.2 實驗結(jié)果
本實驗使用了 30 個錄制音頻的片段和 30 個網(wǎng)絡(luò)音頻文件進行對照實驗。
對 AMR-WB 編碼器源代碼進行了修改。在發(fā)送端需要進行編碼,方法是在每一秒的語音編碼中,緩存前6幀語音編碼流,將這6幀語音編碼的二進制比特流嵌入到后面 44幀語音的基音周期參數(shù)中,解碼端在接收到協(xié)調(diào)幀后每解碼 44幀語音,就可以得到6幀的語音比特流,編碼器將這6幀比特流解碼后,對每一秒的語音重組后輸出。因為嵌入的信息較多,原始波形圖和嵌入信息的波形圖差異比較大,在此不一一列舉。
表1是使用該算法嵌入信息后MOS值的差異,從中可以看出,在該算法條件下,MOS差值的平均值 約 為 0.42, 會 比較 顯 著的 降 低話 音 通話 的 質(zhì)量,但是經(jīng)過實驗測試,通話雙方仍然可以正常的通話。
表1 實驗結(jié)果
基于基音周期隱藏算法提出了一種利用基音周期嵌入減少語音編碼比特數(shù)的方案,以應(yīng)對網(wǎng)絡(luò)情況惡劣的環(huán)境。通信雙方只需要壓縮編碼前進行較少通信量的協(xié)商,發(fā)送端通過將一部分編碼數(shù)據(jù)嵌入基音周期參數(shù)中,從而將編碼數(shù)據(jù)壓縮發(fā)送;接收端在收到協(xié)調(diào)幀后,根據(jù)相應(yīng)的算法每 44幀語音數(shù)據(jù)作為一組解碼,最后將數(shù)據(jù)整合可得到最終的語音信號。實驗結(jié)果表明,話音的平均MOS值的降低約為 0.42,但是此時通話的雙方仍然可以繼續(xù)通話。經(jīng)過計算統(tǒng)計,在保證可通話的前提下,平均可以節(jié)省的帶寬可以達到原來使用帶寬的 12%。
[1] Zhang Chun Ling, Zhao Sheng Hui, Xiao Hong Yuan, et al., An Improved Method for AMR-WB Speech Codec [J]. Advanced Materials Research, 2013, 756-759, 1259.
[2] 解廷福,楊 果, 王 晶 . 基于算術(shù)編碼的 AMR—WB 參數(shù)變速率壓縮 [J]. 電聲技術(shù),2013(7):48-51.
[3] 唐 駿 , 袁江南 .AMR-WB 固定碼本快速搜索新方法 [J]. 計算機工程與應(yīng)用,2012,48(36).
[4] Zhou Ji jun, Yang Zhu, Niu Xin xin, et al., Research on the detecting algorithm of text document information hiding [J]. Journal of China Institute of Communications, 2004, 25(12).
[5]Yu Zhengshan, Huang Liusheng, Chen Zhili, et al., High Embedding Ratio Text Steganography by Ci-Poetry of Song Dynasty. Journal of Chinese Information Processing [J].2009, 23(4).
[6] Feng Dengguo. Status quo and trend of cryptography [J]. Journal of china institute of communications, 2002, 23(5): 18-26.
責(zé)任編輯 徐侃春
Bandwidth saving method based on pitch period of AMR-WB
TENG Da1,2, FENG Haonan1
( 1.Signal & Communication Research Institute, China Academy of Railway Sciences, Beijing 100081, China; 2. Postgraduate Department, China Academy of Railway Science, Beijing 100081, China )
Congestion of mobile network in uenced data communication on quality and stability. This paper proposed an information hiding algorithm for speech encoding without any modi cation on hardware or protocol, in order to reduce bandwidth of mobile network. Simulation experiments showed that compression of speech in encoding could save 12% of bandwidth, which alleviated the congestion of mobile network.
pitch period; AMR-WB; bandwidth
U285.4 ∶ TP39
:A
1005-8451(2015)01-0033-03
2014-08-22
滕 達,在讀博士研究生;馮浩楠,助理研究員。