徐大專,劉 甜
(南京航空航天大學電子信息工程學院,南京 211106)
率失真函數(shù)是信源編碼的理論下界,已成為信源數(shù)據(jù)壓縮的理論基礎(chǔ)。率失真的思想最早來源于香農(nóng)在1948年發(fā)表的經(jīng)典論文[1]。不久后,前蘇聯(lián)的Kolmogorov[2]在1956年開始發(fā)展率失真理論。Shannon于1959年系統(tǒng)地闡述了率失真理論[3],并證明了第一率失真定理。對于更一般的信源,Berg?er[4?5]完善了信息率失真理論和限失真的信源編碼定理。1972年,Blahut[6]將計算信道容量的迭代算法成功地用于計算離散信源的率失真函數(shù)。
隨著通信網(wǎng)絡(luò)、特別是移動通信技術(shù)的進步,率失真理論也在向網(wǎng)絡(luò)化方向發(fā)展。在分布式信源編碼方面,最經(jīng)典的結(jié)果是Berger[7]和Tung[8]給出的內(nèi)界。盡管Berger?Tung問題到目前為止仍然維持開放,但其中部分問題已經(jīng)得到解決。在漢明失真條件下,Slepian和Wolf[9]、Ahlswede和Korner[10]、Wyner[11]給出不同情形下的可達碼率區(qū)域。Berger和Yeung[12]則給出更一般的解。
針對均方失真條件下的高斯信源,Oohama[13]給出帶邊信息的率失真區(qū)域。針對Berger等提出的編碼器不能直接觀測到信源,而只能觀測受到噪聲干擾信源的CEO(Chief executive officer)問題,Prab?hakaran等[14]、Oohama[15]分別獨立地得到高斯CEO問題的率失真區(qū)域。Wagner等[16]進一步解決了帶邊信息的CEO問題,從而,最終完全解決了高斯Berger?Tung問題。東南大學的徐寅飛[17]在其博士論文中解決了跡失真約束下的向量高斯CEO問題。
目前,關(guān)于限失真信源編碼的率失真函數(shù)理論尚存在一些問題沒有解決。首先,率失真函數(shù)本質(zhì)上是一個約束變分問題,求解本身較為復(fù)雜,目前只有為數(shù)不多的信源可求得率失真函數(shù)的閉式解。均勻分布是最常見的信源,商用的模數(shù)變換器都是針對均勻分布信源設(shè)計的,但其率失真函數(shù)尚不可知。其次,對給定信源采用何種失真準則并無定論,比如高斯分布信源通常采用均方失真準則,那么,能否采用絕對值失真準則呢。在多維情況下,失真函數(shù)問題更加復(fù)雜,比如,既有矩陣失真準則,也有跡失真準則等不同形式。
率失真函數(shù)都是在編碼側(cè)定義的,但一個有趣的現(xiàn)象是,實際信源編碼器設(shè)計往往從譯碼側(cè)出發(fā),比如著名的Lloyd算法就是基于譯碼器平均失真最小化設(shè)計的。這種從譯碼側(cè)定義失真度的思想與作者在空間信息論中提出的熵誤差[18]概念不謀而合,參數(shù)估計方法的性能就是用后驗熵或后驗熵誤差評價的。本文以譯碼器的條件微分熵作為不確定度準則,提出信息率?微分熵函數(shù)的概念,以下簡稱率熵函數(shù)。雖然率熵函數(shù)定義為互信息的約束變分問題,但可以通過構(gòu)造變分問題的特解求率熵函數(shù)的閉式解。
本文提出了構(gòu)造變分問題特解的4種方法,即熵不變準則、獨立誤差準則、再生性準則和弱再生性準則。據(jù)此得到目前常見概率分布的率熵函數(shù)閉合表達式,包括均勻分布、具有再生性的概率分布、向量高斯分布以及存在特征函數(shù)和熵函數(shù)的分布。
率熵函數(shù)中的不確定度H不滿足非負性,因此,不確定度并不滿足失真函數(shù)的定義。將不確定度通過冪指數(shù)的形式映射成非負實數(shù)D(H),可以得到廣義失真測度。這種廣義失真測度具有明顯的優(yōu)越性,高斯信源的廣義失真測度自適應(yīng)于均方失真準則,而拉普拉斯信源的廣義失真測度自適應(yīng)于絕對值失真準則。針對向量高斯信源,廣義失真測度則自適應(yīng)于誤差協(xié)方差矩陣的行列式,既不同于矩陣失真測度,也不同于跡失真測度。
設(shè)連續(xù)信源X的概率密度函數(shù)(Probability density function,PDF)為p(x),描述編碼器的條件信道為編碼輸出信宿的PDF為?之間的失真函數(shù)為非負實數(shù),平均失真為dˉ=平均失真滿足的所有試驗信道集合為則信息率失真函數(shù),或率失真函數(shù)定義為
式中inf(?)表示下確界。失真函數(shù)的具體形式由實際應(yīng)用場景確定,常見的失真函數(shù)采用平方失真對應(yīng)的平均失真度分別稱為均方失真準則和絕對失真準則。
率失真函數(shù)定義為互信息的約束變分問題,下確界的求解十分復(fù)雜,目前只有高斯分布等少數(shù)幾類信源的率失真函數(shù)存在閉式解?;蚪^對值失真
信息率熵函數(shù)(下稱率熵函數(shù))與率失真函數(shù)的不同主要表現(xiàn)在如下兩方面:
(1)率失真函數(shù)從編碼側(cè)定義,而率熵函數(shù)是從譯碼側(cè)定義的。
求解變分問題,而是試圖構(gòu)造譯宿分布的特解滿足式(4),且達到下確界。
定理1指出,求率熵函數(shù)不一定非求變分不可,只要在集合GH中尋找達到下確界的特解。下面的推論進一步縮小求解的范圍。
推論1.1的條件是譯碼器的不確定度處處相等,而與信宿無關(guān)。
考慮率熵函數(shù)R(H)的定義域。由互信息的非負性,必有H≤h(X)。由于譯碼器的微分熵有可能為負值,故H∈(-∞,h(X)]。可以證明率熵函數(shù)R(H)有以下性質(zhì):
(1)非負性R(H)≥0,等號成立當且僅當X?和X相互獨立;
(2)R(H)是H的單調(diào)下降函數(shù)。
均勻分布是最常見的概率分布,然而,均勻分布信源的率失真函數(shù)至今尚不清楚。設(shè)均勻分布信源的PDF為
式中H=log2Δ。如果用Δ=2H表示失真度,那么,均勻分布信源的率失真函數(shù)為
這里失真度Δ=2H既不是均方失真,也不是絕對失真,而只是譯碼器微分熵的指數(shù)函數(shù)。這就是傳統(tǒng)方法無法求解率失真函數(shù)的原因。
率失真函數(shù)R(Δ)與傳統(tǒng)率失真函數(shù)有類似的特性,比如
(1)定義域為Δ∈(0,2h(X)],當Δ→0,R(Δ)→∞;當Δ=2h(X),R(Δ)=0。
(2)R(Δ)是Δ的單調(diào)下降函數(shù)。
具有再生性的概率分布有很多,如高斯分布和柯西分布等,本文稱概率分布具有再生性的信源為再生信源。再生信源的率熵函數(shù)和率失真函數(shù)存在簡單的求解方法。
推論2.1設(shè)信源X的概率分布p(x)具有再生性,則X的率熵函數(shù)為R(H)=h(X)-H。
式中:失真度D僅僅是與微分熵對應(yīng)的一個參數(shù),在推導(dǎo)過程中并未定義率失真函數(shù)的具體形式。
算例2柯西分布信源的率失真函數(shù)
設(shè)柯西信源的概率分布p(x)服從柯西分布,即
由于柯西分布不存在一階及以上統(tǒng)計量,因此,這里的熵冪失真度既不是絕對失真,也不是均方失真,而僅僅反映柯西分布的尺度參數(shù)。
柯西分布的率失真函數(shù)如圖1所示,它的定義域為(0,λ],圖為λ=6的情況。當D→0時,信息率趨于無窮,這與連續(xù)信源的絕對不確定性為無窮大一致。隨著熵冪失真度增加,信息率呈指數(shù)下降。當D→λ時,信息率等于零,這表明當熵失真度足夠大時,不需要傳輸任何信息量。
圖1 柯西信源的R(D)函數(shù)曲線Fig.1 R(D)function of Cauchy source
算例3向量高斯信源的率失真函數(shù)
設(shè)N維向量高斯信源的PDF為
式中Σ為滿秩協(xié)方差矩陣。信源的微分熵為
表1 再生信源的率熵函數(shù)Table 1 Rate entropy functions of regenerative sources
再生信源只有少數(shù)幾種,絕大多數(shù)信源不滿足再生性條件。為此,放寬再生性條件為
設(shè)拉普拉斯信源(后簡稱拉氏信源)的PDF為
式中δ(x)為單位沖激函數(shù)。
X?的PDF在0點出現(xiàn)單位沖激函數(shù)是由于拉氏分布在0點不光滑導(dǎo)致。雖然?的PDF含有沖激函數(shù),但X?的概率分布函數(shù)
由定理1,拉氏信源的率失真函數(shù)
式中D即為拉氏信源的熵冪失真度。
由于拉氏信源不是再生信源,譯碼器仍然采用弱再生性假設(shè)比較生硬,信宿中出現(xiàn)沖激函數(shù)可以看成是對這一處理方法的抗議。由弱再生假設(shè)得到的僅僅是譯宿分布的一組特解,有可能存在其他性質(zhì)更好的解。
特征函數(shù)的逆變換也是傅里葉變換,存在的充要條件是特征函數(shù)φΘ?(t)滿足Dirichlet條件:
(1)φΘ?(t)絕對可積;
(2)φΘ?(t)具有有限個極值點;
(3)φΘ?(t)連續(xù)或具有有限個第一類間斷點。
由于貝塞爾函數(shù)是連續(xù)的,因此,φX?(t)滿足Dirichlet條件(3)。由于I|t|(D)函數(shù)非負,因此,對任意給定的變量,特征函數(shù)φX?(t)<∞是有界的。另外,當D≤κ時
故特征函數(shù)滿足Dirichlet條件(2)。雖然不知道φX?(t)是否滿足絕對可和條件,但如果允許其逆傅里葉存在沖激函數(shù),那么,雖然還不能得到
馮·米塞斯分布的微分熵有閉合表達式,即
表2給出幾種常見概率分布的特征函數(shù)和微分熵,表3給出幾種常見概率分布的率失真函數(shù)。
表2 幾種常見概率分布的特征函數(shù)和微分熵Table 2 Characteristic functions and differential entropy of several common probability distributions
表3 幾種常見信源的率失真函數(shù)Table 3 Rate distortion functions for several common sources
本文從譯碼側(cè)提出了率熵函數(shù)的概念,并給出嚴格定義,其中熵失真度也是一種平均失真。為求解信源的率熵函數(shù),提出了構(gòu)造變分問題特解的4種方法,并得到了包括均勻分布在內(nèi)的常見概率分布的率熵函數(shù)閉合表達式。為解決熵失真度不滿足非負性問題,提出了熵冪失真度的概念,此失真度能更好地反映信源的統(tǒng)計特征,如,對于正態(tài)分布信源,熵冪失真度等于均方誤差(二階統(tǒng)計量),對于指數(shù)分布信源則等于絕對值誤差(一階統(tǒng)計量)。對于柯西分布,由于它不存在一階及以上統(tǒng)計量,因此,絕對失真度和均方失真度都不存在。本文中柯西分布的熵冪失真度就是其尺度參數(shù),從而避免了傳統(tǒng)率失真函數(shù)定義問題。
本文是關(guān)于率熵函數(shù)的第一篇論文,率熵函數(shù)與率失真函數(shù)之間的關(guān)系尚未得到充分研究。率熵函數(shù)在分布式信源編碼、多終端信源編碼和多層描述編碼等領(lǐng)域的研究工作未及展開,一系列重要理論問題有待進一步研究,期望得到信息論學界的高度關(guān)注。