呂志勝 胡永健 李晗 劉琲貝
(華南理工大學 電子與信息學院,廣東 廣州 510640)
如果數(shù)字錄音設備由市電供電,則在錄音過程中電網(wǎng)頻率(ENF)會在錄制的內(nèi)容中留下印跡,此印跡可用于音頻篡改檢測[1-2].文獻[3-6]中通過比較從待測語音信號中提取的ENF 與實時記錄的市電ENF 的連續(xù)性和一致性來判斷是否發(fā)生篡改.文獻[7-8]中指出日光燈的閃爍頻率是ENF 的兩倍,并將此類方法推廣到對室內(nèi)照明環(huán)境中錄制的視頻真實性進行檢測.這類方法的不足是需要大量參考ENF信號,且靈敏度不高,只能對較長的音頻(持續(xù)時間為幾分鐘甚至幾個小時)進行檢測.文獻[9-10]中利用不同電網(wǎng)的ENF 存在差異這一特點估計音頻錄制的區(qū)域,但不涉及對音頻篡改的討論.目前利用ENF 實現(xiàn)音頻篡改盲檢測的代表性工作有文獻[11-13].文獻[11]中利用頻譜距離和ENF 相位的突變來檢測音頻真實性,但對頻率的分辨率較敏感,只有分辨率足夠大時才能準確估計相位,否則誤差較大.文獻[12]中采用高精度傅里葉分析方法改進了文獻[11]中的方法,但計算量較大.筆者曾在文獻[13]中通過引入一個理想的正弦信號作為參考信號,計算待測音頻中ENF 信號各子塊與參考信號取得最大相關(guān)時的偏移量,通過最大相關(guān)偏移的變化情況來檢測音頻篡改.
文中從兩個方面改進文獻[13]中的方法:一是提出一種不需要額外參考信號來計算各塊ENF 信號最大相關(guān)偏移的方法;二是利用最大相關(guān)偏移的變化及其極值點斜率變化聯(lián)合判斷篡改區(qū)域.所提出的方法更加便捷和準確.
設讀取的待測音頻信號為s(n),其采樣頻率為fs,其中n 為采樣時刻.為減小運算量,對音頻信號進行下采樣得到x(n)=s(nM),其中M=fs/fd,fd為下采樣頻率.設電網(wǎng)固有頻率為f0,為了防止頻率混疊,取fd≥2f0.將x(n)通過一個中心頻率為f0的窄帶零相位帶通濾波器濾波,得到ENF 信號y(n)=xENF(n)+d(n),其中xENF(n)為理想的ENF 信號,d(n)為窄帶噪聲,n=1,2,…,L,其中L 為音頻數(shù)據(jù)的長度.
為了利用所抽取的ENF 信號檢測音頻是否發(fā)生篡改,可將y(n)劃分為相互重疊的子塊,各子塊長度為ENF 固有周期的整數(shù)倍.設子塊的采樣點數(shù)為NW,則NW=C0N0,這里N0=fdf0,為一個ENF 周期內(nèi)的采樣點數(shù).通常相鄰子塊之間取(C0-1)N0的數(shù)據(jù)重疊.由于理想的xENF(n)為正弦信號,故第i 個子塊的信號可表示為
式中,k=(i-1)N0+l,l=1,2,3,…,NW,i=1,2,…,NBLOCK,NBLOCK為子塊數(shù).θi為第i 個子塊的初始相位.A0是ENF 信號的幅度.具體估算初始相位的方法詳見文獻[12].
若待測音頻沒有被改動過,則在不考慮干擾的情況下ENF 信號是一個連續(xù)光滑的正弦波,這個特性反映到各個子塊上,則表現(xiàn)為各個子塊的初始相位相等.文獻[12]中通過評估各子塊ENF 信號初始相位是否相等來確定所測音頻是否發(fā)生插入或刪除篡改.當處理真實世界的待測音頻時,必須考慮電網(wǎng)的波動.受電網(wǎng)波動干擾的ENF 信號是一個有畸變的正弦信號,此時各子塊的初始相位不再嚴格相等,而是有小幅度的波動,但在篡改區(qū)域,相鄰塊的相位會出現(xiàn)大幅度的跳變.下面用一個例子來說明.圖1 中的待測音頻有部分語音片段(第9.502 至第13.887s)被刪除,文中用文獻[12]中的方法來檢測篡改.先從待測音頻中抽取ENF 信號,對應的信號見圖1(a),然后分塊并計算各子塊的初始相位.圖1(b)中虛點線為正常未篡改時的各子塊相位的正常波動曲線,星型曲線為篡改后各子塊相位的波動曲線.可以看到大約在第500 塊處(即對應篡改處)相鄰塊的初始相位出現(xiàn)了很大的變化,這說明文獻[12]中的方法可以檢測出發(fā)生了篡改.但也注意到由于其跳變不陡峭,且跳變的起始點和終止點不清晰,故較難精確確定篡改發(fā)生的位置.
圖1 文獻[12]和[13]中刪除篡改檢測的結(jié)果Fig.1 Detection results of deletion for Ref.[12]and[13]
文中作者的早期工作于文獻[13]對此提出了一種改進算法,先采取同樣的分塊策略劃分ENF 信號,考慮到未篡改的音頻中理想的ENF 信號是一條正弦曲線,故引入一個標準的正弦信號作為參考信號,對其也進行相應分塊,然后計算出ENF 信號各子塊和參考信號對應子塊的相關(guān)性,將出現(xiàn)相關(guān)系數(shù)最大處的偏移稱為該子塊的最大相關(guān)偏移量(MOCC).若未發(fā)生篡改,各個子塊的最大相關(guān)偏移在理想情況下應該相等,而對來自真實世界的音頻信號,MOCC 值也應該相差不大.基于MOCC 進行篡改檢測的原理和技術(shù)細節(jié)詳見文獻[13],其檢測效果見圖1(c)和(d).由圖可見在篡改發(fā)生處相鄰子塊的MOCC 值發(fā)生了很大跳變,且跳變的邊緣較陡峭.文獻[13]中的不足是在未發(fā)生篡改的區(qū)域MOCC 曲線有城墻一樣的齒,容易引起誤判(即虛警),且緊鄰跳變處也有齒,不方便精確定位.文中針對這兩個問題進行進一步研究,提出利用斜率來解決上述問題,同時還提出一種免除引入?yún)⒖夹盘栔苯佑嬎鉓OCC 值的方法.
文中直接以y(n)的起始子塊作為基準信號,計算各子塊與它的最大相關(guān)偏移.設基準信號y1為
式中,偏移量=0,1,2,…,N0-1,l=1,2,3,…,NW,θ1為起始子塊的初始相位.當 取不同值時,分別計算各子塊與基準信號的相關(guān)系數(shù),對于第i 個子塊有:
式中,η 為噪聲之間以及噪聲與ENF 信號之間的互相關(guān)之和.式(3)的具體推導和文獻[13]中計算子塊與參考塊之間的互相關(guān)類似.由第1 項可見,當-2 /N0+θi-θ1=0 時,Ri)取得最大值
類似于文獻[13],將對應式(4)的偏移量 稱為最大相關(guān)偏移MOCC,記作max(i).對于信噪比較高的音頻信號有2?η,此時Ri()受噪聲的影響很小.
針對前述MOCC 曲線的城墻齒,文中提出一種雙處理機制從MOCC 曲線得到一條新的曲線,它在未篡改區(qū)域平坦而在遭受篡改的地方突變.第1 層機制根據(jù)偏移量變化的子塊間隔時間和偏移量變化的累積確定篡改區(qū)域.首先計算相鄰子塊的最大相關(guān)偏移之差
式中,i=1,2,3,…,NBLOCK-1.將δmax(i)≠0 的子塊進行標記,若有P 個此類子塊,則記為i1,i2,i3,…,iP.顯然,這類塊是出現(xiàn)篡改的潛在塊.然后計算子塊im和im-1之間的時間間隔Dt(m)以及偏移量變化的累積Dos(m):
式中,m=2,3,…,P.文中通過設定相鄰偏移量變化累積的門限Tos來減小因噪聲干擾而引起的虛警.如果Dos(m)≥Tos,則 max的差異可能是由篡改引起.否則,max的差異被認為是由噪聲引起的波動.與此同時,文中還設定時間間隔門限Tt來減小因ENF 偏差引起的虛警.若Dt(m)<Tt,則表明在短時間內(nèi)有突變,應該是由篡改導致;否則,非短時間內(nèi)突變,即由非篡改引起的變化.文中設定Tt=αNT0,其中NT0= NBLOCK/(P +1)為 max 發(fā)生變化的平均時間間隔,α 為時間因子.通常,篡改引起的變化時間間隔會遠小于NT0,而非篡改引起的則大于NT0.將同時滿足Dos(m)≥Tos和Dt(m)≤Tt的im值記為 max突變的子塊序號.假設共有U 個這樣的子塊,用集合K 記為K=[k1k2k3… kU].如果K 不為空,則該音頻信號被篡改過;否則未被篡改.
第2 層機制根據(jù)MOCC 的斜率變化確定篡改位置.首先計算δmax(i)≠0 的P 個子塊之間MOCC 的斜率,并令其余子塊的斜率為0,則全體子塊的斜率G1可表示為
式中,m=2,3,…P,i=1,2,…,NBLOCK.對于未篡改的原始音頻,即使ENF 存在一定的偏差,其斜率也基本保持不變;相反,被篡改過的音頻在篡改邊界的斜率則會出現(xiàn)較大的突變.據(jù)此可設定斜率判別門限TG=βG0,其中,是斜率不為0 的P 個子塊的斜率絕對值均值,β 為幅度因子.通常,篡改處的斜率會大于G0,非篡改處的則小于G0.把的子塊認為是可能發(fā)生篡改的位置.設共有Q 個這樣的子塊,用集合J 記錄,則有J=[j1j2j3… jQ].
將上述兩種判決機制聯(lián)合使用,取兩者的交集為最終篡改判決結(jié)果,即Z=J∩K.若Z 不為空,則音頻信號被篡改過;否則為原始信號.根據(jù)集合Z對斜率G1進行處理,保留篡改子塊的斜率,而其余子塊的斜率用所有子塊斜率的均值mG1代替,則可得到G2:
在G2所對應的曲線上,Z 的第一個子塊和最后一個子塊之間即為發(fā)生篡改的部分.結(jié)合ENF 的時間周期(例如1/50 Hz=0.02 s),進一步定位到音頻信號中的篡改區(qū)域.定位精度為一個子塊的時間長度.根據(jù)定位的篡改區(qū)域為靜音部分還是語音部分,判斷篡改操作是刪除還是插入.
文中實驗所用測試音頻均在市電頻率為50 Hz時錄制,音頻的保存格式為WAV,下采樣頻率fd=1000 Hz.用零相位FIR 窄帶濾波器提取的ENF 信號中會有噪聲干擾以及音頻的泄漏頻譜,盡管減小濾波器帶寬可降低這兩方面的影響,但這種做法會使濾波的過渡過程變長,從而使篡改邊界變平坦,影響定位準確性.事實上,當帶寬小于0.6 Hz 時甚至會出現(xiàn)無法檢測到篡改點的情況.經(jīng)驗上帶寬在0.6~1.4 Hz 之間取值效果較好,文中取1.2 Hz.另一方面,數(shù)據(jù)子塊越長,得到的MOCC 曲線越平滑,但篡改定位誤差也會越大.通常子塊長度可在60~200之間取值,即對應于C0=3~10.文中取C0=3.此外,文中直接以待測音頻的起始子塊作為基準信號替代文獻[13]中的標準正弦信號來計算各塊的MOCC 值.
仍以圖1 中的音頻為例,圖2(a)是用最大相關(guān)偏移法計算的MOCC,圖2(b)顯示各段的斜率.圖2(c)是第1 層和第2 層機制聯(lián)合作用的結(jié)果.可以看到,除了篡改區(qū)間斜率不為0 外,其余區(qū)間的斜率均為0.圖2(d)給出在對應音頻上定位的篡改區(qū)域為第9.37~9.77 s,這與實際音頻刪除位置第9.502 s接近.定位存在微小誤差主要有兩個方面的原因:一是前述的窄帶濾波后信號突變位置存在過度過程[14];二是文中檢測篡改是以一個數(shù)據(jù)塊為最小單位,這對定位精度也有一定的影響.文中兩層機制中所使用的參數(shù)Tos=2,α=0.7,β=1.3.
圖2 刪除篡改檢測Fig.2 Detection of deletion forgery
圖3(a)是從一個有插入的音頻提取的ENF 信號,插入發(fā)生在第8.921~13.568 s.相位法和最大相關(guān)偏移法的結(jié)果分別見圖3(b)和(c).相位法難以準確檢測篡改邊界,而MOCC 法則難以檢測插入段的后邊界.圖3(d)則是根據(jù)MOCC 曲線得到的斜率,圖3(e)是雙機制聯(lián)合作用的結(jié)果.由圖3(f)可看到文中方法估計的插入?yún)^(qū)域為第8.91~13.71 s,與實際插入?yún)^(qū)域的起點僅有0.011 s 的誤差,而與終點有0.142 s 的誤差,明顯好于文獻[12-13].
為了考察不同斜率門限TG對檢測結(jié)果的影響,分別取不同的幅度因子β 對該插入音頻進行實驗,結(jié)果如表1 所示.通過多個音頻實驗可發(fā)現(xiàn)一般β 取值1.1~1.5 時結(jié)果較好.作為折中,文中取1.3.
圖3 插入篡改檢測Fig.3 Detection of insertion forgery
表1 取不同斜率門限TG 的定位誤差Table 1 Estimated error with different slope threshold TG
如前所述,文獻[12]無法對篡改區(qū)域精確定位.文中將機制2 推廣應用到文獻[12]中解決定位問題,用圖3 中的插入篡改為例來說明具體步驟.首先尋找相位的極值點,計算各相鄰極值點之間的斜率,然后用機制2 的準則排除虛警和干擾,對篡改區(qū)域定位,結(jié)果如圖4 所示.
圖4 (a)為篡改音頻ENF 信號各子塊的相位及相位的極值點,圖4(b)為各相鄰極值點之間的斜率,圖4(c)為處理后的結(jié)果.圖4(d)為在音頻上對應的篡改定位,其起始和終止位置分別為第9.48 和第14.32 s,雖然存在一定的誤差,但也估計出了篡改的大致位置.
圖4 機制2 應用到文獻[12]的例子Fig.4 An example of applying the second mechanism to themethod in[12]
同理將機制2 推廣到文獻[13]中,結(jié)果如圖5所示.直接用文獻[13]的方法定位出的篡改區(qū)域為第8.71~14.01 s,而聯(lián)合機制2 定位的篡改區(qū)域為第8.91~13.71 s,精度明顯提高.
圖5 機制2 應用到文獻[13]的例子Fig.5 An example of applying the second mechanism to the method in[13]
重采樣是音頻中常見的操作,首先考察文中方法能否抗重采樣.利用音頻編輯軟件CoolEdit 將圖3中原始采樣率為16 kHz 的音頻分別作上、下采樣處理后進行檢測,結(jié)果如圖6 所示,可發(fā)現(xiàn)其與未重采樣時的結(jié)果圖3(e)和(f)沒有明顯差異.其中圖6(a)和(b)是采樣率為44kHz 的結(jié)果,圖6(c)和(d)是采樣率為8 kHz 的結(jié)果.
圖6 采樣率為44 kHz 和8 kHz 的檢測結(jié)果Fig.6 Detection results of the re-sampled signal with frequency 44 kHz and 8 kHz
文獻[12]中的語音庫[15]包含100 個原始音頻文件,對其進行編輯得到130 個篡改文件,其中刪除操作和插入操作的文件各占65 個.利用文中方法對其進行篡改檢測,得到正檢率93.08%,虛警率8%.其中,正檢率是指將篡改文件正確判斷為篡改文件的概率,虛警率是指將原始文件誤判為篡改文件的概率.將語音庫中所有文件分別以44、32、11、8 和6 kHz重采樣后,再用文中方法對其進行檢測,發(fā)現(xiàn)在不同重采樣頻率下正檢率仍為93.08%,虛警率仍為8%.說明重采樣對文中方法的檢測效果無影響.
壓縮是另一種常見的音頻操作.仍以圖3 中的音頻為例,利用壓縮軟件Lame 3.98 將其壓縮為MP3 格式文件,采樣率仍為16 kHz,比特率為32 kb/s,文中方法檢測結(jié)果如圖7(a)、(b)所示.由于在WAV 文件壓縮為MP3 的過程中存在頻域掩蔽效應,從而損失了ENF 信號的部分信息,使得篡改定位誤差與未壓縮時比較,起始點差異不大,但終止點差異較大,說明文中方法不能完全抵御壓縮操作,但有一定的抵御能力.
圖7 MP3 的檢測結(jié)果(采樣率為16 kHz 和8 kHz)Fig.7 Detection results of the MP3 with frequency 16 kHz and 8 kHz
圖7(c)、(d)是將圖3 中音頻壓縮為采樣率8 kHz,比特率32 kb/s 的MP3 的檢測結(jié)果,這相當于對音頻同時進行了下采樣和壓縮操作,此時MP3 丟棄的信息更多,故對ENF 信號造成更大的損失.此時出現(xiàn)明顯誤判,說明文中方法對下采樣和較大壓縮比(例如,32 kb/s)的聯(lián)合操作魯棒性較差.
將3.4 節(jié)所用的語音庫分別以采樣率16、8 kHz壓縮成比特率為32 kb/s 的MP3,再用文中方法進行篡改檢測.采樣率為16 kHz 時,正檢率為93.08%,虛警率為8%,故算法性能未受影響.當采樣率為8 kHz時,正檢率為62.31%,虛警率為37%,算法性能明顯下降.
向音頻中添加噪聲也是掩蓋篡改痕跡的常用手段.為了檢測文中算法抗噪能力,對圖3 中的音頻添加不同功率的高斯白噪聲后,再用文中方法進行檢測.圖8(a)和(b)是信噪比為30 dB 時的結(jié)果,圖8(c)和(d)是信噪比為20dB 時的結(jié)果.前者與未加噪時的結(jié)果(見圖3(e)和(f))相比,無明顯差異;而后者出現(xiàn)虛警,且對篡改區(qū)域的定位也出現(xiàn)較大誤差.不過在信噪比為20 dB 時噪聲已使人耳感到明顯的不適.一般而言,信噪比在30 dB 以上時文中方法能取得較好的檢測效果.
圖8 信噪比為30 dB 和20 dB 時的檢測結(jié)果Fig.8 Detection results of the noisy signal with SNR 30 dB and 20 dB
對語音庫中音頻添加高斯白噪聲后再用文中方法進行篡改檢測.信噪比為30 dB 時,正檢率為85.38%,虛警率為15%,與未加噪時的正檢率93.08%和虛警率8%相比,算法性能有所下降.當信噪比為20 dB 時,正檢率為66.92%,虛警率為33%,可見算法性能進一步下降.
針對現(xiàn)有基于ENF 信號的音頻篡改盲檢測方法對插入和刪除定位精度不足的問題進行改進,提出了一種使用雙重判斷機制聯(lián)合進行篡改定位的檢測算法.為簡化算法實現(xiàn),在計算子塊間最大相關(guān)偏移量時,還提出一種無需引入額外ENF 參考信號的計算方法.與現(xiàn)有文獻中兩種代表性算法相比,文中方法的篡改定位精度明顯提高.在抗重采樣和MP3壓縮以及抗噪方面,也有一定的魯棒性.文中的篡改定位機理也可容易地推廣到以前的算法.未來將在ENF 信號的抽取質(zhì)量改善、同時存在插入和刪除的音頻篡改檢測、自適應檢測門限的設置以及算法的魯棒性等幾個方面進行進一步研究.
[1]Daéid N N,Houck M M.Interpol's forensic science review[M].Lyon:CRC Press,2010:379-380.
[2]Brixen E.ENF quantification of the magnetic field[C]∥AES 33rd International Conference on Audio Forensics,Theory and Practice.Denver,Colorado:AES,2008.
[3]Grigoras C.Digital audio recording analysis the electricnetwork frequency criterion[J].International Journal of Speech Language and the Law,2005,12(1):63-76.
[4]Grigoras C.Applications of ENF criterion in forensic audio,video,computer and telecommunication analysis[J].Forensic Science International,2007,167(2):136-145.
[5]Cooper A J.The electric network frequency (ENF)as an aid to authenticating forensic digital audio recordings-An automated approach[C]∥AES 33rd International Conference on Audio Forensics,Theory and Practice.Denver,Colorado:AES,2008.
[6]Huijbregtse M,Geradts Z.Using the ENF criterion for determining the time of recording of short digital audio recordings[C]∥3rd International Workshop on Computational Forensics.Berlin:Springer-Verlag,2009:116-124.
[7]Garg R,Varna A L,Wu M.Seeing ENF:natural time stamp for digital video via optical sensing and signal processing[C]∥19th ACM International Conference on Multimedia.Scottsdale:ACM,2011:23-32.
[8]Garg R,Varna A L,Hajj-Ahmad A,et al.“Seeing”ENF:power-signature-based timestamp for digital multimedia via optical sensing and signal processing [J].IEEE Transactions on Information Forensics and Security,2013,8(9):1417-1432.
[9]Hajj-Ahmad A,Garg R,Wu M.Instantaneous frequency estimation and localization for ENF signals[C]∥2012 Asia-Pacific Signal & Information Processing Association Annual Summit and Conference(APSIPA ASC).Hollywood,California:IEEE,2012:1-10.
[10]Hajj-Ahmad A,Garg R,Wu M.ENF based location classification of sensor recordings[C]∥2013 IEEE International Workshop on Information Forensics and Security(WIFS).Guangzhou,China:IEEE,2013:138-143.
[11]Nicolalde D P,Apolinario J A.Evaluating digital audio authenticity with spectral distances and ENF phase change[C]∥IEEE International Conference on Acoustics,Speech and Signal Processing.Taipei:IEEE,2009:1417-1420.
[12]Nicolalde D P,Apolinario J A,Biscainho L W P.Audio authenticity:detecting ENF discontinuity with high precision phase analysis[J].IEEE Transactions on Information Forensics and Security,2010,5(3):534-543.
[13]Hu Yong-jian,Li Chang-Tsun,Lü Zhi-sheng,et al.Audio forgery detection based on max offsets for cross correlation between ENF and reference signal[C]∥11th International Workshop on Digital-Forensics and Watermarking.Shanghai:Springer,2013:253-266.
[14]常廣,鄢素云,王毅.零相位數(shù)字濾波器在非平穩(wěn)信號處理中的應用[J].北京交通大學學報,2011,35(6):49-56.Chang Guang,Yan Su-yun,Wang Yi.Application of zero-phase digital filter on non-stationary signal processing[J].Journal of Beijing Jiao Tong University,2011,35(6):49-56.
[15]Ortega-Garcia J,Gonzalez-Rodriguez J,Marrero-Aguiar V.Ahumada:a large speech corpus in Spanish for speaker characterization and identification[J].Speech Communication,2000,31(2):255-264.