李景麗,高 玲
(黃河水利職業(yè)技術(shù)學(xué)院,河南 開封 475003)
網(wǎng)絡(luò)的迅速發(fā)展及多媒體技術(shù)的日益成熟使得各種數(shù)字化作品的制作、編輯、存儲(chǔ)與傳播變得簡(jiǎn)單易行。數(shù)字音頻產(chǎn)品在數(shù)字化多媒體產(chǎn)品中占據(jù)相當(dāng)?shù)匚?,是人們生活中最為普遍的?shù)字化產(chǎn)品之一。隨著MP3、VQF等新一代數(shù)字音頻壓縮格式的廣泛應(yīng)用,數(shù)字音頻產(chǎn)品在網(wǎng)絡(luò)上的傳播和應(yīng)用迅猛增長(zhǎng)。人們可以越來越方便地拾取音頻數(shù)據(jù),并對(duì)其進(jìn)行篡改。這一方面導(dǎo)致音頻數(shù)據(jù)的真實(shí)性、完整性無法得到保證,另一方面也極大損害了音頻制作者和發(fā)行者的權(quán)益。為了維護(hù)數(shù)字音頻的安全應(yīng)用,對(duì)音頻文件的惡意篡改進(jìn)行有效的檢測(cè)已成為一個(gè)亟待解決的問題。
加密技術(shù)和數(shù)字水印技術(shù)是解決這個(gè)問題的兩種不同的途徑[1]。數(shù)字水印技術(shù)是近年來興起的前沿研究領(lǐng)域,主要應(yīng)用于隱蔽通信、版權(quán)保護(hù)和完整性認(rèn)證領(lǐng)域。它憑借對(duì)音頻文件篡改操作敏感,對(duì)正常音頻處理操作魯棒的優(yōu)勢(shì),被廣泛用于各種音頻文件篡改檢測(cè)的場(chǎng)合中。
用于音頻文件篡改檢測(cè)的數(shù)字水印算法應(yīng)能夠在保證原始音頻文件一定聽覺質(zhì)量的前提下,將與原始音頻內(nèi)容相關(guān)或不相關(guān)的標(biāo)志信息作為數(shù)字水印嵌入到音頻文件中。為了能夠可靠的檢測(cè)對(duì)音頻文件的篡改情況,要求數(shù)字水印一般應(yīng)具備不可感知性、脆弱性與健壯性、準(zhǔn)確性、盲提取等特征。
水印的不可感知性又稱透明性、隱蔽性,是指將水印信息嵌入到原始音頻文件中之后,不會(huì)導(dǎo)致音頻文件產(chǎn)生人耳可感知的質(zhì)量下降現(xiàn)象。人類聽覺系統(tǒng)不僅是一個(gè)極端靈敏的聲音接收器,還具有選擇性,可以起分析器的作用[2]。所以,音頻數(shù)字水印對(duì)不可感知性有很高的要求。在設(shè)計(jì)音頻數(shù)字水印算法時(shí),應(yīng)結(jié)合原始音頻文件的特性,并充分考慮人耳的掩蔽效應(yīng)(弱音在強(qiáng)音的掩蔽下會(huì)不為人耳所覺察)。
音頻文件的改變是屬于正常操作還是惡意篡改,不同的應(yīng)用場(chǎng)合對(duì)此會(huì)有不同的區(qū)分標(biāo)準(zhǔn)(一個(gè)應(yīng)用場(chǎng)合下的正常操作有可能在另一個(gè)應(yīng)用場(chǎng)合下被視作惡意篡改)[3]。在多數(shù)場(chǎng)合下,無損壓縮、音頻格式轉(zhuǎn)換、重采樣、低通濾波、高比特率有損壓縮、去除噪聲等一些標(biāo)準(zhǔn)的音頻信號(hào)處理操作被認(rèn)為是正常操作,而所有會(huì)對(duì)原始音頻內(nèi)容造成影響的操作,如剪裁重組、添加、替換、刪除、低比特率有損壓縮等均視為惡意篡改。用于音頻文件篡改檢測(cè)的數(shù)字水印既要對(duì)正常音頻信號(hào)處理操作呈現(xiàn)較強(qiáng)的健壯性,又要對(duì)認(rèn)定的惡意篡改呈現(xiàn)靈敏的脆弱性。
數(shù)字水印用于音頻文件的篡改檢測(cè)時(shí),水印信息變化與否等價(jià)于音頻文件篡改與否。當(dāng)含水印的音頻文件受到篡改攻擊時(shí),如果水印信息依然是完整的,就會(huì)直接造成檢測(cè)失敗。為保證檢測(cè)的準(zhǔn)確性,除要求能夠有效識(shí)別篡改外,還要求能夠?qū)Υ鄹倪M(jìn)行精確定位,最好可以通過篡改分析,大致還原被篡改的部分。
在提取水印信息時(shí),盲水印既不需要原始音頻文件,也不需要原始音頻數(shù)字水印。由于音頻文件篡改檢測(cè)的絕大多數(shù)場(chǎng)合都是難以獲得原始音頻文件的,所以,在不提供原始音頻文件的情況下,要求實(shí)現(xiàn)水印信息的提取,即實(shí)現(xiàn)盲提取。
要檢測(cè)對(duì)音頻文件的篡改,并能夠準(zhǔn)確定位篡改,一般是將所提取的原始音頻文件的特征信息(作為水印內(nèi)容)與密鑰一起經(jīng)過某種音頻數(shù)字水印算法,嵌入到原始音頻文件中,得到已嵌入水印的音頻文件。其嵌入過程如圖1所示。
圖1 檢測(cè)水印的嵌入過程Fig.1 Embedded process of detecting watermark
對(duì)音頻文件做篡改檢測(cè)時(shí),先要從待檢測(cè)音頻文件中提取水印信息,然后將所提取的水印信息與原始水印信息進(jìn)行比較。如果兩者一致,就認(rèn)為音頻文件沒有被篡改;否則,認(rèn)為音頻文件已被篡改,并給出篡改的具體信息。音頻文件篡改檢測(cè)過程如圖2所示。
圖2 音頻文件篡改檢測(cè)過程Fig.2 Detection process of audio file tampering
用于音頻文件篡改檢測(cè)的數(shù)字水印屬于半脆弱數(shù)字水印。迄今為止,學(xué)術(shù)界發(fā)表的針對(duì)多媒體文件篡改檢測(cè)的數(shù)字水印相關(guān)的文獻(xiàn)大多數(shù)都集中在數(shù)字圖像領(lǐng)域,針對(duì)數(shù)字音頻文件篡改檢測(cè)的相關(guān)文獻(xiàn)較少,比較典型的有以下幾個(gè)。
Chung-Ping Wu 等[4]提出了基于指數(shù)級(jí)量化的離散傅立葉變換 (DFT)域半脆弱音頻數(shù)字水印算法。該算法復(fù)雜度低,能夠有效檢測(cè)音頻文件的惡意內(nèi)容篡改。由于無需附加數(shù)據(jù),所以篡改檢測(cè)過程相對(duì)于諸如傳輸過程中的編碼轉(zhuǎn)換等保持內(nèi)容操作是透明的。本算法基于改進(jìn)的指數(shù)級(jí)量化奇偶調(diào)制技術(shù)和本地頻率掩蔽模型,以保證用于水印嵌入和提取的量化步驟之間相匹配。采用該算法添加水印,對(duì)音頻文件引入的噪聲小于語音編碼器。實(shí)驗(yàn)結(jié)果表明,該算法能夠以非常低的錯(cuò)誤概率區(qū)分惡意篡改和一些保持內(nèi)容操作(如重采樣、白噪聲干擾、G.711語音編碼和G.721語音編碼等)。
Bin Yan等[5]提出了通過對(duì)線性預(yù)測(cè)系數(shù)進(jìn)行量化實(shí)現(xiàn)的半脆弱音頻數(shù)字水印算法。該算法通過把參數(shù)估計(jì)誤差模型化為拉普拉斯分布噪聲,對(duì)水印譯碼性能進(jìn)行分析。水印檢測(cè)閾值是根據(jù)對(duì)錯(cuò)誤概率的要求和預(yù)期的信號(hào)噪聲比 (SNR)推斷得到的。實(shí)驗(yàn)結(jié)果表明,該水印算法對(duì)幅度伸縮操作具有魯棒性,對(duì)添加白噪聲操作具有半脆弱性,因此該算法適用于音頻文件篡改檢測(cè)。
Fang Chen等[6]提出了基于音頻質(zhì)量的使用小波包分解和最優(yōu)樹選擇的音頻文件篡改檢測(cè)算法。該算法把小波包分解系數(shù)作為與音頻質(zhì)量相關(guān)的特征信息,通過在最小熵下的最優(yōu)樹算法選擇小波包系數(shù),從而保證在少丟失重要音頻信息的情況下,最小化水印編碼量。實(shí)驗(yàn)結(jié)果表明,根據(jù)PEAQ(音頻質(zhì)量感知評(píng)價(jià))標(biāo)準(zhǔn),除了各種比特率的MP3壓縮操作外,大多數(shù)音頻文件處理操作都不是質(zhì)量保持操作。因?yàn)樗鼈円肓烁鞣N特殊的聽覺效果。另外,該算法能夠有效識(shí)別隨機(jī)裁剪和篡改等惡意操作。
上述3種算法都有著自身的一些優(yōu)勢(shì),但都還不盡完善。理想的用于音頻文件篡改檢測(cè)的算法應(yīng)滿足對(duì)惡意操作具有脆弱性,對(duì)正常音頻處理操作具有魯棒性,能夠?qū)Ρ淮鄹牡囊纛l片斷進(jìn)行精確定位和大致恢復(fù),具有非常低的錯(cuò)誤檢測(cè)率等各項(xiàng)要求。
實(shí)驗(yàn)中,原始音頻文件選用取樣頻率為11.025kHz、位深為 16 Bit、持續(xù)時(shí)間為 40 s 的單聲道Wave波形文件,其時(shí)域波形如圖3(a)所示。由于圖像水印在表現(xiàn)形式上更為直觀,故本實(shí)驗(yàn)中嵌入音頻文件中的水印選用像素為93×93的BMP格式的單色二值圖像,如圖4(a)所示。采用相應(yīng)的數(shù)字水印嵌入算法 (本實(shí)驗(yàn)中使用的是基于振幅差值比較的音頻數(shù)字水印算法)將水印嵌入到原始音頻文件中,得到的含水印的音頻文件時(shí)域波形,如圖3(b)所示。將圖 3(b)與圖 3(a)的波形對(duì)比可見,嵌入水印對(duì)原始音頻的改變非常小。對(duì)含水印的音頻文件進(jìn)行影響語義的篡改,篡改之后的音頻文件時(shí)域波形如圖 3(c)所示。
采用與水印嵌入算法相對(duì)應(yīng)的水印提取算法,對(duì)篡改后的音頻文件進(jìn)行水印的提取,所提取的水印圖像如圖4(b)所示。將原始水印和所提取的水印進(jìn)行對(duì)比,可判斷出音頻文件已被篡改,再結(jié)合具體的水印嵌入算法,即可定位篡改位置,如圖5所示。如果以原始音頻文件的特征信息作為水印內(nèi)容,還可進(jìn)一步近似恢復(fù)音頻文件被篡改的片斷。
圖3 音頻文件時(shí)域波形圖Fig.3 Time domain waveform of audio file
圖4 原始水印和提取的水印Fig.4 Original watermark and selective one
數(shù)字水印技術(shù)是音頻文件篡改檢測(cè)的一種有效手段。但是,目前數(shù)字水印在音頻文件篡改檢測(cè)方面的應(yīng)用和研究成果均非常少見,是一個(gè)遠(yuǎn)未成熟的研究領(lǐng)域[7],尚有很多協(xié)議方面和技術(shù)方面的問題有待解決。在實(shí)際應(yīng)用場(chǎng)合,要求嵌入水印之后,不可對(duì)音頻聽覺質(zhì)量造成明顯影響,對(duì)音頻文件進(jìn)行篡改檢測(cè)除了要能夠準(zhǔn)確判斷出是否有篡改,還應(yīng)能夠進(jìn)一步確定篡改位置并近似恢復(fù)篡改之前的內(nèi)容。把音頻文件的重要特征作為水印內(nèi)容,并與人類聽覺系統(tǒng)的掩蔽效應(yīng)相結(jié)合,是數(shù)字水印技術(shù)在音頻文件篡改檢測(cè)領(lǐng)域今后的主要發(fā)展方向。
[1]馮英,林土勝,譚啟祥.基于音頻特征的自嵌入數(shù)字水印技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(1):192-194.
[2]楊義先,鈕心忻.?dāng)?shù)字水印理論與技術(shù)[M].北京:高等教育出版社,2006:200-201.
[3]李偉,汪竹蓉.?dāng)?shù)字音頻認(rèn)證研究綜述[J].計(jì)算機(jī)科學(xué),2009,36(10):21-24.
[4] Chung -Ping Wu, C.-C.J. Kuo.Fragile speech watermarking based on exponentialscale quantization for tamper detection [C].Proceedings of the IEEE InternationalConference on Acoustics, Speech, and Signal Processing.Orlando, Florida, May 2002:205-212.
[5] Bin Yan, Zhe-Ming Lu, et al.Speech Authentication by Semi-fragile Watermarking [J].Lecture Notes in Computer Science Volume 3683, 2005: 497-504.
[6] Fang Chen, WeiLi, etal.Audio Quality -Based Authentication Using WaveletPacketDecomposition and Best Tree Selection[J].International Conference on IntelligentInformation Hiding and MultimediaSignal Processing (IIH-MSP 2008).August 2008:1265-1268.
[7]宋玉杰,譚鐵牛.基于脆弱性數(shù)字水印的圖像完整性驗(yàn)證研究[J].中國(guó)圖像圖形學(xué)報(bào),2003,8(1):1-4.