黎小勝, 劉正輝, 王宏霞, 王 靜
(1. 信陽(yáng)師范學(xué)院 數(shù)學(xué)與信息科學(xué)學(xué)院,河南 信陽(yáng) 464000; 2. 西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院, 四川 成都 610031)
隨著數(shù)字信號(hào)處理技術(shù)的發(fā)展,以及各類操作簡(jiǎn)單數(shù)字語(yǔ)音編輯工具的豐富,使對(duì)數(shù)字語(yǔ)音內(nèi)容的篡改和偽造變得簡(jiǎn)單易行。出現(xiàn)大量篡改、偽造的數(shù)字語(yǔ)音信號(hào),嚴(yán)重影響了數(shù)字語(yǔ)音信號(hào)表示的數(shù)字證據(jù)、新聞報(bào)導(dǎo)等的可信度和公眾認(rèn)可度。因此,迫切需要一種技術(shù)鑒別數(shù)字語(yǔ)音信號(hào)的真實(shí)性和完整性[1-2]。
數(shù)字水印技術(shù)[3]提供了一種數(shù)字音頻、語(yǔ)音的取證方法。目前,音頻水印的研究成果大多是關(guān)于版權(quán)保護(hù)的魯邦音頻水印算法[4-10],而關(guān)于語(yǔ)音內(nèi)容取證的成果則相對(duì)較少[11-14]。 對(duì)于音頻水印算法, 需要解決的問(wèn)題是:(1)基于公開特征的水印生成和嵌入算法,由于特征的公開性,使攻擊者容易獲取生成和嵌入水印的特征,得到水印信息,進(jìn)而實(shí)施有針對(duì)性的替換攻擊[14];(2)基于同步碼的抗去同步攻擊水印算法,一方面,各幀嵌入的同步碼完全相同,若互換含同步碼的內(nèi)容,則不被系統(tǒng)檢測(cè)得到;另一方面,同步碼只能定位含水印的位置,對(duì)于定位到的含水印內(nèi)容沒有進(jìn)行真?zhèn)舞b定[8-10]。
考慮到上述問(wèn)題,以及數(shù)字語(yǔ)音取證技術(shù)的實(shí)際需求,本文提出基于離散分?jǐn)?shù)傅里葉變換的數(shù)字語(yǔ)音取證算法,給出了離散分?jǐn)?shù)傅里葉變換的定義和計(jì)算方法,分析了變換結(jié)果對(duì)旋轉(zhuǎn)角度的依賴性。本文算法中,水印由離散分?jǐn)?shù)傅里葉變換的系數(shù)幅值生成。在旋轉(zhuǎn)角度保密的情況下,攻擊者很難獲取用于生成水印的特征。水印嵌入到離散余弦變換(DCT)的頻域系數(shù)自相關(guān)中。在移位距離保密的前提下,嵌入水印的特征也是攻擊者難以獲取的。同時(shí),幀號(hào)作為各幀的標(biāo)識(shí)信息進(jìn)行嵌入,用來(lái)定位各幀的內(nèi)容。理論分析和實(shí)驗(yàn)結(jié)果表明,本文算法具有較好的不可聽性,在提高了算法安全性的同時(shí),也使算法具有抗去同步攻擊的能力。
傅里葉變換在分析和處理平穩(wěn)信號(hào)中具有極其重要的地位。它將信號(hào)在整體上分解為具有不同頻率的復(fù)指數(shù)分量,得到信號(hào)的整體頻譜,而無(wú)法獲得信號(hào)的局部性質(zhì)。因此,傅里葉變換在處理平穩(wěn)信號(hào)上具有其優(yōu)勢(shì),而對(duì)于時(shí)變的非平穩(wěn)信號(hào)則無(wú)能為力。為了彌補(bǔ)傳統(tǒng)傅里葉分析的不足,人們不斷地對(duì)傅里葉分析的理論和方法進(jìn)行了推廣和改進(jìn),并出現(xiàn)了一些新的信號(hào)分析理論和方法,分?jǐn)?shù)傅里葉變換就是其中一種,并已在光學(xué)圖像處理、光學(xué)信號(hào)處理、光學(xué)系統(tǒng)和傳輸?shù)确矫娴玫綇V泛的應(yīng)用。
如果將信號(hào)的傅里葉變換看成將其在時(shí)間軸上逆時(shí)針旋轉(zhuǎn)π/2到頻率軸上的一種表示,那么分?jǐn)?shù)傅里葉變換則可以看成是將信號(hào)在時(shí)間軸逆時(shí)針旋轉(zhuǎn)任意角度到U軸上的表示,這里的U軸即是分?jǐn)?shù)階傅里葉域。所以,信號(hào)的分?jǐn)?shù)階傅里葉變換同時(shí)包含了時(shí)域和頻域信息,是一種時(shí)頻分析方法[15-16]。離散分?jǐn)?shù)傅里葉變換DFRFT(Discrete Fractional Fourier Transform,)的核矩陣定義為[17]
( 1 )
Nmod2=1
( 2 )
Nmod2=0
( 3 )
當(dāng)DFRFT的變換核F2α/π確定了之后,信號(hào)x(t)的DFRFT為
( 4 )
而信號(hào)x(t)則可由對(duì)應(yīng)的逆DFRFT得到
( 5 )
1.2DCT域系數(shù)自相關(guān)
系數(shù)自相關(guān)刻畫了各系數(shù)之間的相關(guān)程度。假設(shè)原始語(yǔ)音信號(hào)記為A={al,1≤l≤L},對(duì)A進(jìn)行DCT,得到的頻域系數(shù)記為D={dl, 1≤l≤L}。則DCT域系數(shù)自相關(guān)定義為
( 6 )
式中:|dl|表示第l個(gè)頻域系數(shù)的幅值;dl+k表示移位k個(gè)單位后對(duì)應(yīng)的系數(shù),k為正整數(shù),0≤k≤L。式( 6 )中,若l+k>L,dl+k=dl+k-L。C的大小反映了DCT域系數(shù)的相關(guān)程度,C越大,表明|dl|和|dl+k|越接近。相反,C越小,表明|dl|和|dl+k|相差越大。
隨機(jī)選取一段含有7 000個(gè)樣本點(diǎn)的語(yǔ)音信號(hào)作為試驗(yàn)所用信號(hào),圖1給出了該信號(hào)在旋轉(zhuǎn)角度α從0.1到1.0的情況下對(duì)應(yīng)的DFRFT系數(shù)幅值之和SOA。圖2給出了移位距離k取不同值時(shí)DCT域系數(shù)自相關(guān)C。測(cè)試結(jié)果表明,不同旋轉(zhuǎn)角度對(duì)應(yīng)的DFRFT系數(shù)幅值變化較大,以及不同移位距離的DCT域系數(shù)自相關(guān)亦不相同。水印系統(tǒng)中,由DFRFT系數(shù)幅值來(lái)生成水印,并嵌入到DCT域系數(shù)自相關(guān)中。如果對(duì)旋轉(zhuǎn)角度和移位距離進(jìn)行保密,則攻擊者很難獲取生成水印和嵌入水印的特征。本文正是基于此,提出一種安全的數(shù)字語(yǔ)音取證算法。
記S={sl,1≤l≤L}表示原始語(yǔ)音信號(hào),其中sl表示第l個(gè)樣本點(diǎn)。
(1) 分幀分段。將S等分為I幀,每幀的長(zhǎng)度為L(zhǎng)/I,第i幀記為Si;將Si等分為4段,每段的長(zhǎng)度為L(zhǎng)/4I,分別記為S1i,S2i,S3i,S4i。
(2) 分別將S1i,S2i,S3i和S4i等分為J個(gè)子段。S1i,j表示S1i的第j個(gè)子段,1≤j≤J。
(3) 幀號(hào)二值化。將第i幀Si的幀號(hào)i轉(zhuǎn)化為二進(jìn)制序列,記為i={bj|bj∈{0,1},1≤j≤J}。
(4) 水印生成。對(duì)S3i的第j個(gè)子段進(jìn)行DFRFT,并計(jì)算系數(shù)的幅值之和,記為A3i,j。由A3i,j生成第j個(gè)比特的水印wj,wj=A3i,jmod2。Wi={wj|wj∈{0,1},1≤j≤J}即為由S3i生成的第i幀對(duì)應(yīng)的水印序列。分幀、分段方法,及幀號(hào)和水印嵌入位置見圖3。
(1) 對(duì)S1i,j進(jìn)行DCT,得到的系數(shù)記為D1i,j,D1i,j={dl,1≤l≤L/4I·J}。
(3) 記C1i,j的第2個(gè)最高有效位(Most Significant Bit)為M,通過(guò)量化M嵌入bj。
① 如果Mmod2≠bj,對(duì)M進(jìn)行加1或減1。為了使對(duì)M的量化易于實(shí)現(xiàn)(量化后的M介于0到9之間),本文中,當(dāng)M≠9時(shí),量化方法為M=M+1;當(dāng)M≠0時(shí),量化方法為M=M-1。
② 如果Mmod2=bj,則M不做任何修改。
( 7 )
(5) 對(duì)得到的結(jié)果進(jìn)行逆DCT,即可得到嵌入了bj的語(yǔ)音信號(hào)。
采用同樣的方法,將對(duì)應(yīng)的幀號(hào)嵌入到各幀的第1段S1i和第2段S2i中,并將二進(jìn)制水印序列嵌入到第4段S4i中。得到的含水印信號(hào)記為S′。水印生成和嵌入過(guò)程見圖4。
生成方法為:
(4) 通過(guò)對(duì)比i′和i*,以及W′和W*來(lái)內(nèi)容取證。若i′=i*,且W′=W*,則表明第i幀的內(nèi)容是真實(shí)的;否則,表明幀的內(nèi)容有被攻擊的部分。取證過(guò)程見圖5。
對(duì)數(shù)字音頻水印算法:(1)部分算法生成或嵌入水印采用的特征公開,如基于內(nèi)容的音頻水印算法[12]。由于特征的公開性,導(dǎo)致生成的和嵌入的水印易被攻擊者獲取,并實(shí)施有針對(duì)性的替換攻擊[14]。(2)部分抗去同步攻擊算法是基于同步碼來(lái)實(shí)現(xiàn)。同步碼的目的決定了各幀嵌入的同步碼完全相同。一方面,若互換含同步碼的語(yǔ)音內(nèi)容,驗(yàn)證端將檢測(cè)不到;另一方面,同步碼之間的內(nèi)容被認(rèn)為是含水印的部分,卻沒有對(duì)含水印的內(nèi)容進(jìn)行取證??紤]到上述問(wèn)題,本文給出了一種基于DFRFT的數(shù)字語(yǔ)音取證算法。下面主要從安全性和抗去同步攻擊能力兩方面,對(duì)本文所給算法的性能進(jìn)行分析。
下面以能量這一特征為例,說(shuō)明基于公開特征的嵌入算法存在的安全隱患。文獻(xiàn)[6,8,10]給出了基于信號(hào)能量的同步碼嵌入方法。采用該方法,將語(yǔ)音信號(hào)分為20段,并嵌入20 bit的同步碼,嵌入后的信號(hào)見圖6。其中第5段到第13段的信號(hào)能量見圖7。攻擊者計(jì)算獲得如圖7所示的各段能量,通過(guò)公開的提取方法提取同步碼。然后從其他語(yǔ)音中選取9段內(nèi)容,依據(jù)相同的奇偶量化方法進(jìn)行同步碼嵌入,并替換圖6所示信號(hào)第5段到第13段的內(nèi)容。替換后的信號(hào)見圖8,替換信號(hào)的能量見圖9。
圖6和圖8所示信號(hào)對(duì)應(yīng)段的能量奇偶性相同,從中提取的同步碼也相同。意味著替換攻擊后的信號(hào)被認(rèn)為是真實(shí)的,系統(tǒng)檢測(cè)不到該攻擊的存在。
下面從水印生成和水印嵌入兩個(gè)方面分析本文算法的安全性。
(1) 本文算法中,水印由DFRFT的幅值生成。圖1表明,旋轉(zhuǎn)角度不同,DFRFT系數(shù)的幅值不同,由此生成的水印序列也存在較大差異。在旋轉(zhuǎn)角度未知的前提下,攻擊者很難獲取生成水印的特征,并得到生成的水印信息。因此本文生成的水印是保密的。
(2) 對(duì)水印嵌入,采用的特征是移位的系數(shù)自相關(guān)。圖2所示的結(jié)果表明,移位距離不同,對(duì)應(yīng)的系數(shù)自相關(guān)亦不同。在移位距離保密的前提下,由于攻擊者難以獲取嵌入水印的特征,也就無(wú)法提取嵌入的水印,來(lái)實(shí)施替換攻擊。
若含水印的語(yǔ)音內(nèi)容被攻擊,對(duì)1幀而言,通過(guò)檢測(cè)的概率為1/22J。于是本文算法的抗攻擊能力為
( 8 )
式中:J表示水印和幀號(hào)對(duì)應(yīng)的二值序列的長(zhǎng)度。以上分析結(jié)果表明,基于公開特征的水印嵌入算法存在安全隱患。表1列出了幾種基于公開特征的音頻水印算法,并與本文算法的安全性進(jìn)行了對(duì)比,表明本文算法的安全性得到了提高。
表1 本文算法與其他算法安全性對(duì)比
(1) 本文算法中,各幀的含水印內(nèi)容通過(guò)嵌入的幀號(hào)進(jìn)行標(biāo)識(shí)。對(duì)第i幀內(nèi)容而言,若i和提取的幀號(hào)都相等,即i=i′=i*,則認(rèn)為含水印的語(yǔ)音信號(hào)沒有遭受去同步攻擊;相反,若i≠i′=i*,則表明含水印的語(yǔ)音信號(hào)遭受了去同步攻擊。
(2) 在通過(guò)幀號(hào)定位含水印的內(nèi)容之后,本文算法通過(guò)對(duì)比生成的水印W′和提取的水印W*的異同,認(rèn)證含水印的內(nèi)容。
因此,本文算法一方面提高了水印系統(tǒng)安全性,另一方面,不僅可以檢測(cè)含水印信號(hào)是否受到了去同步攻擊,定位含水印的內(nèi)容,同時(shí),也對(duì)定位到的含水印內(nèi)容進(jìn)行了取證。
選取50段單聲道、16位量化、采樣頻率為22.5 kHz的WAVE格式數(shù)字語(yǔ)音作為測(cè)試所用信號(hào)。包含兩種類型,分別記為Type 1和Type 2。Type 1是在安靜的環(huán)境下錄制,Type 2是在外界噪音比較明顯的環(huán)境下錄制。實(shí)驗(yàn)采用的軟件為MATLAB 2010a,其他參數(shù)分別為:L=102 400,I=40,J=5,α=0.62,k=50。
不可聽性指的是數(shù)字語(yǔ)音中嵌入的水印信息不被人耳的聽覺感知,反映了水印的嵌入對(duì)原始語(yǔ)音信號(hào)的改變程度。為了更好的測(cè)試本文算法的不可聽性,分別采用聽覺質(zhì)量主觀區(qū)分度SDG和聽覺質(zhì)量客觀區(qū)分度ODG進(jìn)行測(cè)試,其評(píng)分標(biāo)準(zhǔn)見表2。
表2 SDG和ODG評(píng)分標(biāo)準(zhǔn)
表3給出了在不同環(huán)境下錄制的兩種信號(hào)的SDG和ODG值。SDG值是將原始語(yǔ)音信號(hào)和含水印的語(yǔ)音信號(hào)提供給12位聽眾,根據(jù)主觀感覺來(lái)區(qū)分兩個(gè)信號(hào)之間的差別打分所得。ODG值由PEAQ系統(tǒng)測(cè)試得到。從測(cè)試結(jié)果看出,本文算法具有較好的不可聽性。
表3 SDG和ODG評(píng)分標(biāo)準(zhǔn)
隨機(jī)選取1段含水印的數(shù)字語(yǔ)音信號(hào),見圖10。實(shí)驗(yàn)該信號(hào)在受到不同類型惡意攻擊后的篡改定位結(jié)果。在篡改定位結(jié)果中,F(xiàn)i=1表示第i幀是真實(shí)的。
(1) 替換攻擊
假設(shè)攻擊者從其他語(yǔ)音信號(hào)中選取5 120個(gè)樣本點(diǎn),并依據(jù)本文的水印生成和嵌入方法對(duì)選取的內(nèi)容進(jìn)行水印嵌入(選取密鑰α=0.8,k=80)。用得到的含水印內(nèi)容替換圖10所示語(yǔ)音信號(hào)第6和第7幀。替換后的語(yǔ)音信號(hào)見圖11。攻擊者選取的密鑰和水印系統(tǒng)的密鑰不相同,所以替換的部分不能通過(guò)內(nèi)容認(rèn)證。從圖12所示的篡改檢測(cè)結(jié)果看,檢測(cè)到的位置和實(shí)際被篡改的位置相符。表明本文算法對(duì)此種類型的攻擊能夠有效檢測(cè)。
(2) 刪除攻擊
刪除含水印語(yǔ)音信號(hào)的5 000個(gè)樣本點(diǎn),刪除攻擊后的信號(hào)見圖13。對(duì)應(yīng)的篡改檢測(cè)結(jié)果見圖14。從檢測(cè)結(jié)果中可見,第26幀和第27幀的內(nèi)容被攻擊。
(3) 插入攻擊
在含水印的語(yǔ)音信號(hào)中插入3 000個(gè)樣本點(diǎn),攻擊后的信號(hào)見圖15。攻擊后信號(hào)的篡改檢測(cè)結(jié)果見圖16,可見,第16幀的內(nèi)容被攻擊。
從上面對(duì)不同類型攻擊的篡改檢測(cè)結(jié)果看,檢測(cè)到的內(nèi)容和實(shí)際被攻擊的內(nèi)容相符,表明本文算法對(duì)惡意攻擊具有較好的篡改檢測(cè)能力。
考慮到數(shù)字音頻水印存在的問(wèn)題以及數(shù)字語(yǔ)音取證算法的實(shí)際需求,本文提出基于離散分?jǐn)?shù)傅里葉變換的數(shù)字語(yǔ)音取證算法。水印由各語(yǔ)音幀的DFRFT變換生成,并嵌入到DCT域系數(shù)自相關(guān)中。DFRFT變換旋轉(zhuǎn)角度的不確定性,確保了生成水印特征的安全性。同時(shí),DCT域系數(shù)自相關(guān)移位距離的保密性,保證了水印很難被攻擊者提取。分析結(jié)果表明,本文算法有較好的不可聽性,同時(shí)也提高了水印系統(tǒng)的安全性和抗去同步攻擊能力,彌補(bǔ)了數(shù)字音頻水印算法的缺陷。
參考文獻(xiàn):
[1] 彭飛,龍敏,劉玉玲.數(shù)字內(nèi)容安全原理與應(yīng)用[M].北京:清華大學(xué)出版社,2012.
[2] 錢清,王宏霞,劉正輝.基于基音周期的語(yǔ)音內(nèi)容認(rèn)證算法[J].鐵道學(xué)報(bào),2014,36(9):60-67.
QIAN Qing,WANG Hongxia,LIU Zhenghui.Speech Content Authentication Algorithm Based on Pitch Period[J].Journal of the China Railway Society,2014,36(9):60-67.
[3] 孫圣和,陸哲明,牛夏牧.數(shù)字水印技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2004.
[4] HU H T,HSU L Y,Robust.Transparent and High-capacity Audio Watermarking in DCT Domain[J].Signal Processing,2015,109(3):226-235.
[5] XIANG Shijun,HUANG Jiwu,YANG Rui.Robust Audio Watermarking Based on Low-order Zernike Moments[C]//Proceedings of the 5th International Workshop of Digital Watermarking(IWDW 2006).Berlin: Springer-Verlag,2006:226-240.
[6] WANG Xiangyang,MA Tianxiao,NIU Panpan.A Pseudo-Zernike Moments Based Audio Watermarking Scheme Robust Against Desynchronization Attacks[J].Computers and Electrical Engineering,2011,37(4):425-443.
[7] YUAN X C,PUN C M,CHEN C L P.Robust Mel-frequency Cepstral Coefficients Feature Detection and Dual-tree Complex Wavelet Transform for Digital Audio Watermarking[J].Information Sciences,2015,298(8):159-179.
[8] LEI B Y,SOON I Y,LI Z.Blind and Robust Audio Watermarking Scheme Based on SVD-DCT[J].Signal Processing,2011,91(8):1 973-1 984.
[9] WANG Yong,WU Shaoqun,HUANG Jiwu.Audio Watermarking Scheme Robust Against Desynchronization Based on the Dyadic Wavelet Transform[J].Journal of Advances in Signal Processing,2010,13(1):1-17.
[10] VIVEKANANDA B K,INDRANIL S,ABHIJIT D.A New Audio Watermarking Scheme Based on Singular Value Decomposition and Quantization[J].Circuits,Systems,and Signal Processing,2011,30(5):915-927.
[11] 寧超魁,和紅杰,陳帆,等.基于近似分量能量的半脆弱音頻水印算法[J].鐵道學(xué)報(bào),2013,35(1):46-50.
NING Chaokui,HE Hongjie,CHEN Fan,et al.Semi-fragile Audio Watermarking Scheme Based on the Approximate Components Energy[J].Journal of the China Railway Society,2013,35(1):46-50.
[12] 王宏霞,范明泉.基于質(zhì)心的混合域半脆弱音頻水印算法[J].中國(guó)科學(xué):信息科學(xué),2010,40(2):313-326.
WANG Hongxia,F(xiàn)AN Mingquan.Centroid-based Semi-fragile Audio Watermarking in Hybrid Domain[J].Science in China Series F:Information Sciences,2010,40(2):313-326.
[13] CHEN O T C,LIU C H.Content-dependent Watermarking Scheme in Compressed Speech with Identifying Manner and Location of Attacks[J].IEEE Transactions on Audio,Speech,and Language Processing,2007,15(5):1 605-1 616.
[14] LIU Zhenghui,WANG Hongxia.A Novel Speech Content Authentication Algorithm Based on Bessel-Fourier Moments[J].Digital Signal Processing,2014,24(1):197-208.
[15] ADOLF W L.Image Rotation, Wigner Rotation,and the Fractional Fourier Transform[J]. Journal of the Optical Society of America A,1993,10(10):2 181-2 186.
[16] CANDAN C M. KUTAY M A,OZAKTAS H M.The Discrete Fractional Fourier Transform[J].IEEE Transactions on Signal Processing,2000,48(5):1 329-1 337.
[17] PEI S C,YEH M H,TSENG C C.Discrete Fractional Fourier Transform Based on Orthogonal Projections[J].IEEE Transactions on Signal Processing,1999,47(5):1 335-1 348.