辛蔚峰
蘇州科技學(xué)院傳媒藝術(shù)學(xué)院,江蘇蘇州 215009
數(shù)字音頻水印技術(shù)研究
辛蔚峰
蘇州科技學(xué)院傳媒藝術(shù)學(xué)院,江蘇蘇州 215009
本文首先介紹了數(shù)字音頻水印的應(yīng)用與屬性,分別闡述了頻域、時(shí)域以及壓縮域的數(shù)字音頻水印技術(shù)。最后,總結(jié)了現(xiàn)有數(shù)字音頻水印技術(shù)的異同點(diǎn)以及今后的研究方向。
數(shù)字音頻水??;版權(quán)保護(hù);魯棒性
近年來(lái),隨著數(shù)字多媒體作品在互聯(lián)網(wǎng)上的傳播和復(fù)制變得越來(lái)越方便快捷,其版權(quán)保護(hù)的需求也在不斷增長(zhǎng)。這些需求促使研究者去研究阻止版權(quán)侵犯的方法。最有希望解決這一挑戰(zhàn)性問(wèn)題的思路是運(yùn)用信息隱藏技術(shù)。[1]信息隱藏是將信息嵌入到數(shù)字媒體中的過(guò)程。嵌入的信息應(yīng)當(dāng)是不被察覺(jué)的;同時(shí),被嵌入信息的數(shù)字媒體的保真度必須不受影響。
信息隱藏技術(shù)的兩個(gè)重要類型是隱寫(xiě)術(shù)與水印。[2]隱寫(xiě)術(shù)的主要目的是隱藏通信的事實(shí)(而不僅僅是隱藏通信的內(nèi)容)。發(fā)送者將秘密信息嵌入到數(shù)字媒體中,只有特定的接收者才能提取到這個(gè)秘密信息。通信信道的監(jiān)管人也許會(huì)察覺(jué)到傳輸?shù)拿襟w,但是他不會(huì)察覺(jué)到隱藏于其中的秘密信息。
水印和隱寫(xiě)術(shù)的目的都是在載體中隱藏信息。其中,隱寫(xiě)術(shù)應(yīng)用于兩方之間點(diǎn)對(duì)點(diǎn)的秘密通信。因此,隱寫(xiě)術(shù)通常只有有限的魯棒性,它要防止嵌入的信息在傳輸過(guò)程中被改動(dòng)。另一方面,當(dāng)很多人知道媒體中存在嵌入信息,而且有意圖移除此信息時(shí),就需要使用水印技術(shù)而不是隱寫(xiě)術(shù)。因此,水印技術(shù)對(duì)魯棒性的要求更高。一個(gè)理想的水印系統(tǒng)要確保嵌入的信息不能被移除或改變,并且嵌入的信息不能影響載體的保真度。
學(xué)術(shù)界已經(jīng)對(duì)數(shù)字水印技術(shù)表現(xiàn)出了極大的研究興趣。然而,大多數(shù)的研究都集中在圖像水印和視頻水印方面,有關(guān)音頻水印的研究還很少。音頻水印是將水印嵌入到音頻信號(hào)中的過(guò)程。因?yàn)槿祟惵?tīng)覺(jué)系統(tǒng)(Human Auditory System,HAS)的敏感性,制作音頻水印是一個(gè)很困難的過(guò)程。
一個(gè)數(shù)字音頻水印系統(tǒng)包括三個(gè)基本模塊:水印生成模塊、水印嵌入模塊和水印檢測(cè)模塊。[3]水印信號(hào)通過(guò)一個(gè)不可逆的過(guò)程生成。音頻水印生成的時(shí)候也會(huì)考慮原始音頻信號(hào)的特點(diǎn),這將有助于生成不易感知的水印。
水印嵌入采用某種恰當(dāng)?shù)那度胍?guī)則(例如,加法或乘法),在時(shí)域或頻域中完成。最后,水印檢測(cè)可以在借助或者不借助原始音頻信號(hào)的情況下,通過(guò)某些相關(guān)檢波器或統(tǒng)計(jì)假設(shè)檢驗(yàn)實(shí)現(xiàn)。
對(duì)水印系統(tǒng)的要求總是基于它的應(yīng)用。因此,在研究對(duì)數(shù)字音頻水印的要求和設(shè)計(jì)要素之前,我們需要先討論它的應(yīng)用。[3][4][5]
版權(quán)保護(hù)是水印技術(shù)最重要的應(yīng)用。目標(biāo)是嵌入能夠識(shí)別數(shù)字音頻作品版權(quán)所有者的信息,防止發(fā)生版權(quán)爭(zhēng)議。這個(gè)應(yīng)用需要很高的魯棒性,以確保嵌入的水印不會(huì)被移除。
這個(gè)應(yīng)用的目的是傳輸有關(guān)合法接收者的信息,確保數(shù)字音頻作品每個(gè)副本的合法性。這非常類似于軟件產(chǎn)品的序列號(hào)。在這個(gè)應(yīng)用中,不同的水印被嵌入到每個(gè)副本中。而在版權(quán)保護(hù)應(yīng)用中,只有一個(gè)水印嵌入到數(shù)字音頻作品的所有副本中。與音頻水印的版權(quán)保護(hù)應(yīng)用一樣,數(shù)字指紋也需要很高的魯棒性。
這個(gè)應(yīng)用的目的是檢測(cè)音頻數(shù)據(jù)的改動(dòng)。這可以用所謂的脆弱性水印來(lái)實(shí)現(xiàn)。脆弱性水印對(duì)某些修改(例如,壓縮)具有很低的魯棒性。
這個(gè)應(yīng)用試圖阻止數(shù)字音頻作品的非法復(fù)制??梢岳盟?lái)指示數(shù)字音頻作品的復(fù)制狀態(tài)(例如,復(fù)制一次或者沒(méi)有復(fù)制過(guò))。同時(shí),用來(lái)進(jìn)行復(fù)制操作的軟件或設(shè)備必須能夠檢測(cè)水印,并且根據(jù)作品的復(fù)制狀態(tài)來(lái)允許或者阻止操作請(qǐng)求。
數(shù)字音頻作品的制作商希望確保他們的作品能夠在他們購(gòu)買(mǎi)的時(shí)間內(nèi)按時(shí)播出。廣播監(jiān)控的老辦法是要有人監(jiān)聽(tīng)廣播頻道,記錄他們聽(tīng)到的內(nèi)容。這個(gè)辦法既昂貴而且容易產(chǎn)生誤差。最好的解決方案是自動(dòng)監(jiān)控。其中一種自動(dòng)廣播監(jiān)控的方法是使用水印技術(shù)。我們可以嵌入一個(gè)標(biāo)識(shí)碼到要廣播的作品中,通過(guò)監(jiān)控系統(tǒng)來(lái)檢測(cè)嵌入的水印,以此來(lái)確保所購(gòu)買(mǎi)的廣播時(shí)間是否全部得到利用。
數(shù)字音頻水印系統(tǒng)具有某些屬性。每一個(gè)屬性的重要性取決于對(duì)水印應(yīng)用的需求。[3][6]
水印系統(tǒng)的效率是指輸出音頻信號(hào)被嵌入水印的可能性。當(dāng)輸出信號(hào)被檢測(cè)器檢測(cè)到相應(yīng)的反應(yīng)時(shí),才可以說(shuō)音頻信號(hào)已被嵌入了水印。輸出信號(hào)被檢測(cè)到相應(yīng)反應(yīng)的百分比就是音頻水印系統(tǒng)的效率。
一般而言,音頻水印系統(tǒng)的保真度是指數(shù)字音頻的原始版本以及嵌入水印版本之間的感知相似度。但是,嵌入水印的音頻有可能在被接收者感知之前在傳輸過(guò)程中衰減。因此,需要對(duì)保真度有一個(gè)更恰當(dāng)?shù)亩x。我們可以將音頻水印系統(tǒng)保真度定義為接收者感知到的未嵌入水印音頻信號(hào)和嵌入水印音頻信號(hào)之間的相似度。
數(shù)據(jù)負(fù)載是指水印在單位時(shí)間內(nèi)嵌入的比特?cái)?shù)。對(duì)音頻而言,數(shù)據(jù)負(fù)載是指每秒鐘傳輸?shù)那度氡忍財(cái)?shù)。不同的水印應(yīng)用需要不同的數(shù)據(jù)負(fù)載。例如,版權(quán)保護(hù)應(yīng)用就只需要在數(shù)字音頻中嵌入少量的比特。
我們將需要原始音頻信號(hào)的水印檢測(cè)稱為知情檢測(cè)。知情檢測(cè)需要來(lái)源于原始信號(hào)的信息。與之相對(duì),不需要原始音頻信號(hào)的檢測(cè)被稱為盲檢測(cè)。知情檢測(cè)在水印檢測(cè)時(shí)具有良好的性能,但是這需要存儲(chǔ)大量的原始信號(hào)。
魯棒性是指水印不受常用信號(hào)處理技術(shù)影響的能力。音頻水印需要在時(shí)域?yàn)V波、數(shù)模轉(zhuǎn)換以及比例縮放等方面表現(xiàn)出魯棒性。并不是所有的水印應(yīng)用都需要各種形式的魯棒性。這依賴于水印系統(tǒng)的應(yīng)用性質(zhì)。
水印的安全性是指對(duì)抗惡意攻擊的能力。惡意攻擊是指明確的阻止水印目的的過(guò)程。攻擊可以分為三種類型:非法移除、非法嵌入以及非法檢測(cè)。
水印系統(tǒng)的成本是指水印嵌入和檢測(cè)的速度以及必須部署的嵌入器和檢測(cè)器的數(shù)量。其他問(wèn)題還包括檢測(cè)器和嵌入器是通過(guò)硬件設(shè)備、軟件應(yīng)用,還是通過(guò)插件來(lái)實(shí)現(xiàn)的。
可以根據(jù)水印的作用域?qū)?shù)字音頻水印技術(shù)分為三類,下面分別進(jìn)行討論。
頻域音頻水印技術(shù)利用HAS的音頻掩蔽特性,將人耳聽(tīng)不見(jiàn)的水印信號(hào)嵌入到數(shù)字音頻中。將音頻信號(hào)從時(shí)域轉(zhuǎn)換到頻域使得嵌入的水印成為音頻信號(hào)重要的組成部分。這使得水印系統(tǒng)具有更高水平的魯棒性,因?yàn)槿魏我瞥〉钠髨D都會(huì)對(duì)原始音頻信號(hào)的保真度造成嚴(yán)重的影響。
輸入的音頻信號(hào)首先變換到頻域,在頻域中嵌入水印信號(hào),接著,合成的信號(hào)通過(guò)反頻率變換,最后得到嵌入水印的音頻信號(hào)作為輸出。如圖1所示。
圖1 頻域音頻水印
水印可以通過(guò)多種方法嵌入到頻域中。例如,在頻域中應(yīng)用擴(kuò)展頻譜(Spread Spectrum)技術(shù)。[7][8]在擴(kuò)頻通信中,傳輸信號(hào)的帶寬遠(yuǎn)大于信號(hào)本身的帶寬,以至于在每個(gè)頻率上的信號(hào)能量幾乎感覺(jué)不到。與之類似,水印分布于眾多的頻率分量中,任何分量上的能量都是非常微小的,因此水印信號(hào)的隱蔽性很強(qiáng)。在這種方法中,載體信號(hào)的頻域被看作是一個(gè)通信信道,水印則是通過(guò)其傳輸?shù)男盘?hào)。各種有意或無(wú)意的干擾信號(hào)就被看作噪聲。水印檢測(cè)過(guò)程知道水印的位置和內(nèi)容,它能將許多微弱的信號(hào)集中起來(lái)形成具有較高信噪比的輸出值,要破壞水印需要很強(qiáng)的噪聲信號(hào)加入所有頻率分量中。但是,破壞水印的同時(shí)也造成載體信號(hào)保真度嚴(yán)重下降。因此,利用擴(kuò)頻技術(shù)的數(shù)字水印技術(shù)具有很高的魯棒性和安全性。
另一種常用的頻域音頻水印技術(shù)是采用Patchwork算法,這是一種統(tǒng)計(jì)算法,即在原始音頻信號(hào)中嵌入特定的統(tǒng)計(jì)特性。[3][9]該方法包括兩個(gè)主要步驟:(1)選擇兩個(gè)偽隨機(jī)序列的插入碼;(2)插入碼A加上一小常數(shù)d,另一插入碼B減去同一常數(shù)d。這樣,原始采樣變量就會(huì)略有改變。檢測(cè)過(guò)程從兩插入碼樣本值的差入手,采樣值的差值期望值決定了是否含有水印信息。由于采用了兩個(gè)而非一個(gè)插入碼,因此,檢測(cè)過(guò)程無(wú)需原始信號(hào),即可檢測(cè)出水印。
在時(shí)域水印技術(shù)中,水印直接嵌入到音頻信號(hào)。在這個(gè)過(guò)程中不需要域轉(zhuǎn)換。在嵌入操作之前,水印信號(hào)需要整形,以確保信號(hào)的透明性,如圖2所示。與頻域水印相比,時(shí)域水印相對(duì)容易實(shí)現(xiàn)且需要較少的計(jì)算資源,但對(duì)一般信號(hào)處理如音頻壓縮和濾波等的抵抗能力較差。[10]
圖2 時(shí)域音頻水印
最不重要位(Least Significant Bits,LSB)方法是一種典型的時(shí)域水印算法。[4][10]LSB通過(guò)將每個(gè)采樣值的最不重要位,多數(shù)情況下為最低位,用代表水印信息的二進(jìn)制位替換,以達(dá)到在音頻信號(hào)中嵌入水印信息的目的。為了提高水印的魯棒性,可以采用一段偽隨機(jī)序列來(lái)控制嵌入二進(jìn)制位的位置。偽隨機(jī)信號(hào)可由偽隨機(jī)序列發(fā)生器的初始值來(lái)產(chǎn)生,這樣在收發(fā)雙方只需要秘密地傳送這個(gè)初始值作為密鑰,而不需要傳送整個(gè)偽隨機(jī)序列值。LSB算法簡(jiǎn)單易實(shí)現(xiàn),信息嵌入和提取的速度快,數(shù)據(jù)負(fù)載大,但是其安全性很差,攻擊者只需要對(duì)信道簡(jiǎn)單地加上噪聲干擾或者對(duì)數(shù)據(jù)進(jìn)行重采樣和壓縮編碼等處理都會(huì)造成整個(gè)水印信息的丟失。
頻域和時(shí)域水印算法大都是直接將水印添加到非壓縮的音頻格式中,由于沒(méi)有考慮到音頻編碼中的壓縮系數(shù)與水印參數(shù)之間的優(yōu)化匹配,對(duì)音頻壓縮的魯棒性一般不高,所以難以起到壓縮音樂(lè)版權(quán)保護(hù)的作用。近年來(lái),針對(duì)逐漸成熟的例如MP3、AAC等音頻感知編碼標(biāo)準(zhǔn),研究者提出了一些MPEG編碼的壓縮域音頻算法,大致分為三類:[8](1)在非壓縮域進(jìn)行,即先向非壓縮原始音頻中加入水印,然后再壓縮。(2)在壓縮域進(jìn)行,水印直接加到MPEG音頻比特流上,直接形成含水印的壓縮音頻文件。這使水印嵌入非常迅速,但魯棒性較差,任何解壓縮——再壓縮的處理都可以輕易除去水印。(3)首先將壓縮音頻解壓,然后將水印嵌入到非壓縮域,最后帶水印的音頻內(nèi)容再被重新壓縮成帶水印的壓縮格式音頻。該方法可以提高水印的魯棒性,但時(shí)間開(kāi)銷太大,因?yàn)閴嚎s過(guò)程要花費(fèi)很長(zhǎng)時(shí)間,不適合在線交易和分發(fā)。
總的來(lái)說(shuō),壓縮域音頻水印算法的編解碼系統(tǒng)過(guò)于復(fù)雜,受格式化編碼帶來(lái)的限制很大,另外由于在壓縮域已經(jīng)濾掉了音頻信號(hào)的大部分冗余信息,使得水印信息嵌入的難度很大。壓縮域音頻水印技術(shù)還有待于進(jìn)一步的深入研究。
所有的音頻水印系統(tǒng)都被設(shè)計(jì)來(lái)實(shí)現(xiàn)同一個(gè)目標(biāo):在數(shù)字音頻中嵌入一個(gè)隱蔽的、穩(wěn)健的水印。音頻水印系統(tǒng)必須滿足兩個(gè)相矛盾的設(shè)計(jì)要求。第一,水印必須要抵抗有意和無(wú)意的移除企圖,要具有良好的魯棒性。第二,嵌入水印的音頻信號(hào)必須保持良好的保真度,即水印必須是人感知不到的。為了滿足這些要求,不同的方法被開(kāi)發(fā)出來(lái),使用不同的域來(lái)實(shí)現(xiàn)水印的某種應(yīng)用,同時(shí)提高嵌入水印的音頻信號(hào)的保真度和魯棒性。
然而,不同的音頻水印系統(tǒng)也有一些區(qū)別。在評(píng)價(jià)水印系統(tǒng)的效果以及完成某項(xiàng)應(yīng)用的適用性時(shí),要考慮到這些區(qū)別。這些區(qū)別包括:
(1)一些音頻水印系統(tǒng)的檢測(cè)過(guò)程不需要使用原始音頻信號(hào)。而另一些音頻水印系統(tǒng)在檢測(cè)過(guò)程中需要原始音頻信號(hào),這將會(huì)導(dǎo)致在檢測(cè)過(guò)程中需要存儲(chǔ)和搜索大量的原始材料。需要原始音頻信號(hào)的系統(tǒng)不適用于某些應(yīng)用,在這些應(yīng)用中,檢測(cè)過(guò)程無(wú)法使用原始材料。
(2)在水印嵌入過(guò)程中,原始音頻信號(hào)被分成不同的幀,然后每一幀被分別嵌入水印。一些水印系統(tǒng)在所有幀中嵌入同樣的水印,以提高水印的魯棒性。但是,在另外一些系統(tǒng)中,每一幀嵌入不同的水印。
(3)因?yàn)镠AS的敏感性,水印信號(hào)應(yīng)該通過(guò)整形來(lái)實(shí)現(xiàn)透明化。音頻信號(hào)的掩蔽特性可以用來(lái)實(shí)現(xiàn)這個(gè)目的。還有一些音頻水印系統(tǒng)采用了不同的技術(shù)。這些技術(shù)在調(diào)制水印時(shí)使用了原始音頻信號(hào)。因此,水印信號(hào)的幅值被音頻信號(hào)的幅值所控制。
當(dāng)前,數(shù)字音頻水印的研究已經(jīng)取得了許多成果,但是數(shù)字音頻水印技術(shù)仍需要改進(jìn)和提高,許多研究還有待開(kāi)展。例如:
(1)目前大多數(shù)的音頻水印算法都只針對(duì)常見(jiàn)的音頻信號(hào)處理手段或者只針對(duì)一種或幾種水印攻擊有魯棒性,而在抵抗多重攻擊時(shí),水印性能大大降低。
(2)音頻水印自身的性能還有可提高的空間,例如計(jì)算的復(fù)雜度、嵌入強(qiáng)度、是否盲檢測(cè)、能否做到自適應(yīng)調(diào)整等。
(3)深入研究與新一代壓縮標(biāo)準(zhǔn)如MP3、AAC相適應(yīng)的音頻水印算法,這樣才能更好地將數(shù)字音頻水印技術(shù)應(yīng)用到實(shí)際中。
[1]喬明亮,宋莉.信息隱藏技術(shù)在通信中的應(yīng)用研究[J].圖書(shū)與情報(bào), 2011(4):62~65.
[2]李友,張定會(huì).基于隱寫(xiě)術(shù)的信息隱藏技術(shù)[J].信息技術(shù), 2010(7):119~122.
[3]王向陽(yáng),楊紅穎.數(shù)字音頻水印技術(shù)研究綜述[J].曲阜師范大學(xué)學(xué)報(bào),2005,31(4):119~125.
[4]方健華.數(shù)字音頻水印技術(shù)[J].信息技術(shù),2007(4):75~78.
[5]N.Cvejic and T.Seppanen.Digital Audio Watermarking Techniques and Technologies: Applications and Benchmarks[M].IGI Publishing Hershey, PA,USA,2007.[6]吳迪,朱冰蓮.數(shù)字音頻水印技術(shù)研究綜述[J].電聲技術(shù), 2009(2):55~58.
[7]D.Kirovski and H.S.Malvar.Spread-Spectrum Watermarking of Audio Signals[J].IEEE Transactions on Signal Processing, 2003, 51(4):1020~1033.
[8]李偉,袁一群,李曉強(qiáng)等.數(shù)字音頻水印技術(shù)綜述[J].通信學(xué)報(bào), 2005,26(2):100~111.
[9]劉海燕,鄭雪峰,王穎.數(shù)字音頻水印主要算法的研究與比較[J].計(jì)算機(jī)應(yīng)用研究,2007,24(9):136~139.
[10]P.Bassia and I.Pitas.Robust Audio Watermarking in the Time Domain[J].IEEE Transactions on Multimedia, 2001,3(2):232~241.
10.3969/j.issn.1001-8972.2012.15.039
蘇州科技學(xué)院2010年度科研
數(shù)字音頻水印技術(shù)研究(XKY201029)
辛蔚峰(1976- ),女,碩士,蘇州科技學(xué)院傳媒藝術(shù)學(xué)院講師,研究方向:數(shù)字音頻技術(shù)。