黎華
摘? ?要:語音通信是當(dāng)前社會發(fā)展中基本通信方式之一,實現(xiàn)高質(zhì)量語音通信的根本在于計算機、電子技術(shù)等相關(guān)科技領(lǐng)域的發(fā)展。文章指出語音數(shù)字編碼技術(shù)主要用于將原本模擬信號的語音轉(zhuǎn)化為數(shù)字信號形式,方便用戶對語音進行處理、傳輸以及存儲。文章基于壓縮感知,對語音編碼技術(shù)進行詳細分析。
關(guān)鍵詞:壓縮感知;基礎(chǔ);語音數(shù)字;編碼技術(shù)
壓縮感知技術(shù)能夠?qū)崿F(xiàn)對信號在采樣的同時進行壓縮,因此,受到信號處理行業(yè)的重視。對于數(shù)字語音處理來說,采樣之后的量化編碼是比較重要的一部分,在這樣的背景下,本文以壓縮感知作為基礎(chǔ),研究語音數(shù)字編碼技術(shù),希望以此能夠為相關(guān)人士提供參考。
1? ? 概述壓縮感知
壓縮感知,又名壓縮采樣、稀疏采樣,從本質(zhì)上來講是查找欠定線性系統(tǒng)的一種稀疏技術(shù),這項技術(shù)被廣泛應(yīng)用于電子工程領(lǐng)域,尤其是在信號處理方面。工作原理是信號具有稀疏特性,與奈奎斯特理論相比較,可以從比較少的測量中還原出原本想要獲得的信號。核磁共振是一個比較典型的例子。
2? ? 基于壓縮感知技術(shù)下系數(shù)表示的語音壓縮感知編碼研究
2.1? 稀疏表示理論
隨著科學(xué)技術(shù)的發(fā)展,傳感器技術(shù)應(yīng)運而生,多數(shù)領(lǐng)域在發(fā)展中存在數(shù)據(jù)不斷增長情況,例如音頻、視頻、地震等數(shù)據(jù)信息,如何對以上數(shù)據(jù)進行有效處理,使其表達方式更加簡潔以及自適應(yīng),已逐漸成為當(dāng)前信號處理行業(yè)重要問題之一。小波理論背景下的分解思想主要表達的是自適應(yīng)選取特征。假設(shè)信號為s∈RN,L個N維長度向量d為字典D,表達式為D={d,∈RN,‖dγ‖=1,1≤γ≤L},給定字典后,信號s的線性組合表達式為:
也可運用分解逼近形式來表示信號:
α為展開系數(shù),R(k)為經(jīng)過k項之后的殘差,若K< 上述表達式中α=[α1, α2, α3, …, αL],指系數(shù)展開后的向量組成,‖a‖0為a的L0范數(shù),代表系數(shù)α非零元素個數(shù)?;诖耍肭袑嵄WC稀疏具備相應(yīng)的稀疏度,就需要對維度k的大小進行合理固定,促使信號接近于模型min‖s-Da‖22 s.t.‖a‖0≤K,這種情況下,a處于絕對稀疏狀態(tài),稀疏度為K< 2.2? 冗余字典 2.2.1? 基于調(diào)和分析的字典 通過展開某種類型的固定基,將其使用于信號中某種類型的結(jié)構(gòu)特征,不適用于局部變化大的信號。一般來說,這種方式需要定義與該信號結(jié)構(gòu)特征兩者相匹配的時頻原子,主要是通過固定窗函數(shù)w(t)平移、拉伸以及調(diào)制的方式獲取的,因此,要想確保時域局部性,就需要固定窗函數(shù)w(t)滿足以下幾點要求[1]: (1)固定窗函數(shù)w(t)必須為連續(xù)可為實函數(shù)。(2)‖w(t)‖=1。(3)w(t)=。(4)dt≠0 and w(0)≠0。 之后對時頻原子簇定義為: 在上述表達式中,γ=(s, u, ζ),尺度、平移、頻率3種參量分別為s>0, u, ζ。假設(shè)w(t)為偶函數(shù),在坐標u集中已知能量,同時已知能量的集中程度與尺度s兩者成比例,這時候w(t)可轉(zhuǎn)變?yōu)椋?/p> 因w(w)也屬于偶函數(shù),這使得能量集中位置在對稱軸w=ζ附近。通過對以上兩個觀察式進行探究發(fā)現(xiàn),時頻原子不管是在時域上,還是在頻域上,都具備相應(yīng)的局部性。運用這種方法構(gòu)成冗余字典,一方面能夠切實滿足信號的特征;另一方面對某類信號進行有效分解。從本質(zhì)上來講,這種類型的字典生成方式主要是通過對參數(shù)進行調(diào)整,以此為基礎(chǔ)對原子時頻特性進行相應(yīng)的調(diào)整,所產(chǎn)生的字典具有結(jié)構(gòu)強、可選性大以及對各種異性結(jié)構(gòu)進行有效稀疏表示等特征,在圖像消噪、壓縮等領(lǐng)域中已取得相應(yīng)進展[2]。 2.2.2? 基于樣本訓(xùn)練的字典 基于樣本訓(xùn)練的字典、不需要提前對字典原子表達式進行定義,但在通常情況下,經(jīng)常會存在各種復(fù)雜約束代價函數(shù),正則理論也因此導(dǎo)入。 當(dāng)前比較流行的算法為K-SVD算法,也是K-Means算法擴大化,當(dāng)字典中一個原子的近似表示為K-SVD算法時,就會退化為K-Means算法。從性質(zhì)上來講,這種算法主要是運用奇異值的方式進行分解,代替原有對逆矩陣進行求解的方式來獲取更新原子,在圖像消噪領(lǐng)域中獲得良好的應(yīng)用。除以上集中算法之外,還有ODL算法、RLS-DLA字典學(xué)習(xí)算法、Analysis K-SVD算法等,以上得到的字典都屬于非結(jié)構(gòu)性字典,而在大部分算法中,主要包括兩種,一種為稀疏分解,另一種為字典更新,其中,字典更新這種算法是由稀疏展開向量正則約束條件決定的。 2.3? 語音壓縮感知編碼中稀疏表示的應(yīng)用 本文以K-SVD算法為例,目標函數(shù)公式如下: 其中,x∈RN指的是訓(xùn)練樣本;α∈RL指訓(xùn)練信號稀疏表示;D∈RN×L是冗余字典。其中X指訓(xùn)練樣本集合,A指稀疏表示樣本集合,K指系數(shù)表示系數(shù)中的最大稀疏度。根據(jù)誤差逼近角度來分析,這種算法還可以表示為以下公式: 3? ? 仿真結(jié)果分析 通過仿真實驗驗證語音壓縮感知編碼算法是否具有可行性意義。本次實驗采用的語音來自CASLA98語音庫,其中采樣頻率是8 kHz,選取人數(shù)為50人,男女語音分別為100句,最終結(jié)果為平均數(shù)。為切實確保這項編碼具備可靠性,利用MOS分以及平均幀信噪比對解碼后重構(gòu)語言質(zhì)量進行評判。 本次仿真實驗冗余字典表示為D,其大小L=8 192;語音幀長大小為30 ms,圖1為不同原子數(shù)量編碼平均重構(gòu)性噪比。根據(jù)圖1可知,隨著稀疏表示原子個數(shù)不斷增多(單位:K),相應(yīng)的重構(gòu)語音信噪比也因此不斷增大,但稀疏表示原子個數(shù)高于10以后,系統(tǒng)性能也隨之呈現(xiàn)緩和態(tài)勢發(fā)展。通過分析原子個數(shù)對重構(gòu)語音MOS分產(chǎn)生的影響,可得出結(jié)論:重構(gòu)語音MOS分會隨著原子個數(shù)不斷增加的過程逐漸趨于平緩發(fā)展。分析男聲可知,重構(gòu)語音平均信噪比為16.478 dB,MOS分為3.083,人耳聽力感知趨于清楚,但還是存在雜音;分析女聲可知,重構(gòu)性能與男生差別不多,但從整體上看重構(gòu)效果比男聲語音要低,這主要是因為女聲高頻部分成分比較多,就使得DCT稀疏性差,出現(xiàn)重構(gòu)誤差大的問題?;诖?,要想解決男聲與女聲之間存在的壓縮感知性能差異,就需要選擇男聲女聲效果優(yōu)質(zhì)的稀疏域,從本質(zhì)上來講就是將女聲的稀疏字典進行改進,進一步實現(xiàn)對女聲的真正稀疏表示[3]。 4? ? 結(jié)語 綜上所述,壓縮感知理論與語音數(shù)字編碼技術(shù)對社會的發(fā)展有積極性意義,本次探究希望能夠為相關(guān)科學(xué)研究人員提供參考意見。 [參考文獻] [1]賈曉立,江曉波,蔣三新,等.利用結(jié)構(gòu)特征的語音壓縮感知重建算法[J].上海交通大學(xué)學(xué)報,2017(9):1111-1116. [2]隋昊,周萍,沈昊,等.基于混沌序列的壓縮感知語音增強算法[J].微電子學(xué)與計算機,2018(1):96-99. [3]宋維琪,張宇,吳彩端,等.多道聯(lián)合壓縮感知弱小反射地震信號提取處理方法[J].地球物理學(xué)報,2017(8):3238-3245. Speech digital coding technology based on compressed perception Li Hua (Yueyang Vocational Technical College, Yueyang 414000, China) Abstract:Speech communication is one of the basic communication methods in the current social development. The realization of high-quality voice communication lies in the development of computer, electronic technology and other related scientific and technological fields. The speech digital coding technology mentioned in this paper is one of them. Its main purpose is to convert the original analog signal speech into digital signal form, so as to facilitate users to process, transmit and store speech. In this paper, the speech coding technology is analyzed in detail based on the compression perception. Key words:compression perception; foundation; voice number; coding technology