曾錦華,施少培,楊旭,奚建華,卞新偉,李 巖,盧啟萌
(司法部司法鑒定科學(xué)技術(shù)研究所,上海200063)
數(shù)字錄音可分為目標(biāo)語(yǔ)音要素、設(shè)備要素、環(huán)境要素以及數(shù)字信號(hào)要素等部分組成。數(shù)字錄音真實(shí)性檢驗(yàn)主要依據(jù)錄音中各要素的真實(shí)性分析實(shí)現(xiàn)篡改檢測(cè)和定位。目標(biāo)語(yǔ)音要素中的說話人語(yǔ)音真實(shí)性分析可以通過聲紋鑒定技術(shù)實(shí)現(xiàn);設(shè)備要素中的本底噪聲以及特征信號(hào)的真實(shí)性問題可以通過錄音設(shè)備鑒定技術(shù)進(jìn)行分析;錄音環(huán)境和數(shù)字信號(hào)要素的真實(shí)性分析技術(shù)目前主要通過信號(hào)提取和統(tǒng)計(jì)計(jì)算實(shí)現(xiàn)。在此僅對(duì)錄音中的設(shè)備要素、環(huán)境要素和數(shù)字信號(hào)要素的真實(shí)性檢驗(yàn)和分析技術(shù)進(jìn)行簡(jiǎn)要的論述。
錄音設(shè)備通常包含信號(hào)采集和量化部件即麥克風(fēng)、信號(hào)編碼和信號(hào)存儲(chǔ)等基本組件。采用特定設(shè)備錄制的錄音必然會(huì)攜帶設(shè)備相關(guān)的附屬信息,包括信號(hào)量化、編碼和存儲(chǔ)等設(shè)備軟硬件特征?;阡浺粼O(shè)備分析的檢驗(yàn)技術(shù)為錄音真實(shí)性鑒定提供了重要的檢驗(yàn)角度。信號(hào)編碼特征中,每個(gè)錄音設(shè)備均具有特定的編碼格式,如無損音頻編碼格式和MP3格式等;在信號(hào)存儲(chǔ)部分,錄音設(shè)備的操作系統(tǒng)賦予錄音文件特定的屬性,如文件名命名方式、創(chuàng)建和修改時(shí)間等文件屬性信息。
在錄音設(shè)備識(shí)別研究方面,目前領(lǐng)域內(nèi)更多的關(guān)注于麥克風(fēng)的分類。Kraetzer等[1]利用數(shù)字錄音信號(hào)中的7個(gè)時(shí)域特征和56個(gè)梅爾倒譜域特征進(jìn)行麥克風(fēng)和錄制環(huán)境分類,實(shí)驗(yàn)中使用4個(gè)麥克風(fēng)在10個(gè)不同的場(chǎng)景進(jìn)行實(shí)驗(yàn)樣本錄音錄制,實(shí)現(xiàn)貝葉斯分類器進(jìn)行麥克風(fēng)分類的準(zhǔn)確性在61.37%~75.99%范圍。Buchholz等[2]通過分析錄音的背景噪聲片段中的傅里葉因子特征研究麥克風(fēng)的分類問題,實(shí)驗(yàn)中使用2 048個(gè)頻率因子統(tǒng)計(jì)特征并利用logistic回歸模型對(duì)7個(gè)不同廠商的麥克風(fēng)實(shí)現(xiàn)了93.5%的分類準(zhǔn)確性。文獻(xiàn)[3]通過線性和梅爾尺度倒譜因子使用支持向量機(jī)方法分別實(shí)現(xiàn)8個(gè)固定電話聽筒和8個(gè)麥克風(fēng)的準(zhǔn)確分類,分類準(zhǔn)確性均達(dá)到90%以上。Malik和Miller[4]利用多譜分析技術(shù)并使用基于距離和相關(guān)性的相似性度量方法,實(shí)現(xiàn)對(duì)8個(gè)麥克風(fēng)的100%的分類。王志鋒等[5]通過譜減法分析錄音中靜音段的設(shè)備相關(guān)特征實(shí)現(xiàn)了9個(gè)錄音設(shè)備的平均識(shí)別率為87.42%的分類。
錄音環(huán)境信息包括背景聲音和錄音環(huán)境的客觀特性信息,如時(shí)間、空間和電磁場(chǎng)等。傳統(tǒng)的錄音真實(shí)性鑒定技術(shù)中,環(huán)境相關(guān)的背景聲音的連續(xù)性和一致性為基于聽覺檢驗(yàn)的真實(shí)性鑒定提供重要線索。錄音環(huán)境的客觀特性作為數(shù)字錄音的無形“水印”,通過特定技術(shù)分析還原的錄音環(huán)境客觀特性,為數(shù)字錄音真實(shí)性鑒定提供了可行的判斷指標(biāo),成為當(dāng)前該領(lǐng)域的研究熱點(diǎn)。環(huán)境相關(guān)的空間信息特性研究中,目前主要利用聲音的反射特性[6],通過建模計(jì)算聲音信息的衰減系數(shù),以此來還原錄音環(huán)境的不同空間配置信息,該技術(shù)目前還停留于理想條件下的音頻信息處理,對(duì)現(xiàn)實(shí)場(chǎng)景的應(yīng)用缺乏更準(zhǔn)確的計(jì)算模型。環(huán)境相關(guān)的電磁場(chǎng)信息提取研究中,鑒于電磁場(chǎng)分布的普及程度和一致性,目前研究對(duì)象主要集中于電網(wǎng)頻率(ENF)的提取[7-10],主要計(jì)算步驟包括音頻信號(hào)下采樣、電網(wǎng)頻率范圍帶通濾波、信號(hào)分幀、幀內(nèi)短時(shí)傅里葉變換以及幀內(nèi)峰值頻率估計(jì)等。通過一定時(shí)間范圍內(nèi)的電力網(wǎng)絡(luò)頻率估計(jì)值與對(duì)照值的比對(duì),實(shí)現(xiàn)錄音時(shí)間的估計(jì)?;贓NF技術(shù)的音頻真實(shí)性鑒定,主要是驗(yàn)證檢材錄音的完整性和錄音時(shí)間與檢材描述的一致性問題。該技術(shù)存在的缺陷包括檢材錄音的時(shí)長(zhǎng)要求和電力網(wǎng)絡(luò)頻率數(shù)據(jù)庫(kù)的維護(hù)等,且特定的壓縮算法會(huì)破壞該特征的信號(hào)提取。
錄音數(shù)字信號(hào)要素的真實(shí)性分析技術(shù)目前主要研究錄音信號(hào)的相似性檢測(cè)、壓縮特征以及其它的信號(hào)統(tǒng)計(jì)特性等,具體包括重壓縮特征識(shí)別[11-14]、錄音文件初始比特率計(jì)算[15]、針對(duì)特定壓縮算法的幀偏移檢測(cè)[16],以及信號(hào)高階統(tǒng)計(jì)特性分析等。壓縮格式的數(shù)字錄音篡改通常伴隨著信號(hào)壓縮、解壓和重壓縮的處理過程[17]。重壓縮特征識(shí)別主要是分析基于信號(hào)量化操作引起的、區(qū)別于單次壓縮操作的特定指標(biāo)的增減,實(shí)現(xiàn)音頻文件壓縮特征的判斷。針對(duì)特定壓縮算法的幀偏移檢測(cè)技術(shù),目前主要針對(duì)MP3等基于分幀操作的壓縮處理算法的音頻信號(hào)分析,可以實(shí)現(xiàn)刪減、插入、替換和拼接等偽造手段的檢測(cè)。另一方面,自然的、未經(jīng)過篡改的音頻信號(hào)被認(rèn)為是只具有微弱的高階關(guān)聯(lián)特性,對(duì)音頻信號(hào)的人為篡改會(huì)引入其它的高階關(guān)聯(lián)特征[18],通過分析數(shù)字音頻信號(hào)的高階統(tǒng)計(jì)特性可以檢測(cè)錄音是否經(jīng)過人為篡改。
人耳與大腦組合被認(rèn)為是世界上最精密的聲音感知“設(shè)備”,聽覺檢驗(yàn)是錄音真實(shí)性分析的基本且重要的方法。通過聽覺檢驗(yàn),可以對(duì)檢材錄音的總體情況、目標(biāo)語(yǔ)音、背景聲音以及特殊信號(hào)等要素進(jìn)行感知理解;對(duì)錄音中的底層信息如錄音質(zhì)量、背景噪音、聲音連貫性以及特殊信號(hào)等進(jìn)行評(píng)估。同時(shí),對(duì)錄音中的高層信息如對(duì)話內(nèi)容、語(yǔ)義連貫性和情感感知等進(jìn)行分析。其不足之處在于性能的不穩(wěn)定性和處理效率問題上:一方面,個(gè)體的聽覺信息處理能力的差異性以及大腦的警覺程度都會(huì)影響聽覺檢驗(yàn)的效果;另一方面,在處理長(zhǎng)時(shí)錄音的聽覺檢驗(yàn)上,檢驗(yàn)者耗時(shí)較長(zhǎng)且任務(wù)繁重。
波形和頻譜圖檢驗(yàn)是數(shù)字錄音真實(shí)性分析的又一重要手段,通過數(shù)字信號(hào)處理軟硬件支持,檢驗(yàn)者可以直觀的對(duì)數(shù)字錄音信號(hào)的波形隨時(shí)間變化關(guān)系,以及信號(hào)的能量、頻率以及時(shí)間相互間的關(guān)聯(lián)進(jìn)行視覺檢驗(yàn)(見圖1~2)。該方法可以對(duì)目標(biāo)聲音和背景噪聲的連續(xù)性和一致性進(jìn)行很好的視覺評(píng)估,同時(shí),對(duì)底層的錄音信息,如錄音質(zhì)量、頻率響應(yīng)特性以及特殊信號(hào)等進(jìn)行直觀把握。同聽覺檢驗(yàn)一樣,該方法需要較多的人為參與和經(jīng)驗(yàn)分析。
圖1 數(shù)字錄音波形圖
圖2 數(shù)字錄音頻譜圖
隨著錄音設(shè)備的電子化趨勢(shì),大部分錄音設(shè)備均具有文件操作系統(tǒng)管理錄音設(shè)備,電子數(shù)據(jù)檢驗(yàn)技術(shù)可以對(duì)送檢的錄音設(shè)備進(jìn)行檢驗(yàn),主要包括電子數(shù)據(jù)恢復(fù)、提取以及錄音文件的屬性檢驗(yàn)。刪除數(shù)據(jù)的恢復(fù)可以發(fā)現(xiàn)潛在的初始錄音文件,同時(shí),對(duì)錄音文件的屬性檢驗(yàn)可以觀察到錄音文件的重命名、拷貝和文件修改等操作。相對(duì)于上述提及的聽覺檢驗(yàn)以及波形和頻譜檢驗(yàn),電子數(shù)據(jù)檢驗(yàn)是錄音真實(shí)性檢驗(yàn)技術(shù)中的重要手段和強(qiáng)有力支撐。
隨著數(shù)字信號(hào)編輯軟件和技術(shù)的平民化趨勢(shì),現(xiàn)有的專家經(jīng)驗(yàn)檢驗(yàn)技術(shù)在當(dāng)前錄音真實(shí)性司法鑒定實(shí)踐中面臨著新問題的挑戰(zhàn)。模式識(shí)別和人工智能等領(lǐng)域的前沿發(fā)展為數(shù)字錄音真實(shí)性鑒定提供了可行的檢驗(yàn)方案,具體包括:
2.2.1 相似性檢驗(yàn)技術(shù)
相似性檢驗(yàn)技術(shù)可以自動(dòng)檢測(cè)錄音中感興趣語(yǔ)音信息的所有具有一定相似性的聲音片段,并給出具體量化的相似性值。簡(jiǎn)單的處理策略可以實(shí)現(xiàn)為:感興趣語(yǔ)音片段檢測(cè),比如對(duì)話錄音中通過靜音段即對(duì)話間隙的過濾實(shí)現(xiàn)語(yǔ)音片段的提取。
在感興趣語(yǔ)音片段中,選取預(yù)處理錄音片段與所有錄音數(shù)據(jù)進(jìn)行相似性度量,相似性度量可以在錄音信號(hào)的時(shí)間或頻率域進(jìn)行比較,度量方式可以選擇相關(guān)性度量或其他的相似性度量方法。
筆者所在的聲像資料鑒定實(shí)驗(yàn)室通過數(shù)字錄音信號(hào)自相關(guān)度計(jì)算,并用卷積運(yùn)算加快算法處理效率,實(shí)現(xiàn)數(shù)字錄音的相似性檢驗(yàn),檢驗(yàn)效果如圖3所示。該方法可以有效的檢測(cè)錄音信號(hào)的“拷貝-粘貼”操作,且對(duì)平滑和消隱等后處理操作具有一定的魯棒性。
圖3 錄音信號(hào)相似性檢驗(yàn)工具
2.2.2 錄音設(shè)備檢驗(yàn)技術(shù)
錄音設(shè)備檢驗(yàn)技術(shù)主要是通過設(shè)備相關(guān)的特征提取并結(jié)合機(jī)器學(xué)習(xí)和分類方法實(shí)現(xiàn)錄音設(shè)備識(shí)別,典型的特征包括時(shí)域特征、頻域特征和梅爾倒譜域特征。
時(shí)域特征可以進(jìn)一步分為信號(hào)能量、過零率、信號(hào)采樣直方圖以及采樣分布中心等特征。特定的錄音設(shè)備通常具有各自的數(shù)字信號(hào)分布特征。通過采樣直方圖和采樣分布中心的統(tǒng)計(jì)計(jì)算可以對(duì)檢材錄音是否來源于聲稱的錄音設(shè)備進(jìn)行初步判斷,某段錄音的采樣直方圖和采樣分布中心見圖4~5。
圖4 錄音的采樣直方圖
圖5 采樣分布中心即DC偏移檢測(cè),用紅線標(biāo)示
頻域特征包含平均頻譜統(tǒng)計(jì)特征、頻率譜熵特征以及頻率變化特征等,設(shè)備相關(guān)的頻率特征主要是通過背景噪聲片段的離散傅里葉變換進(jìn)行計(jì)算。某錄音段的平均頻譜統(tǒng)計(jì)特征、頻率譜熵特征以及頻率變化特征見圖 6~8。
圖6 平均頻譜統(tǒng)計(jì)特征
圖7 頻率譜熵特征
圖8 頻率變化特征
筆者所在的聲像資料鑒定實(shí)驗(yàn)室通過錄音中背景噪聲片段的平均頻譜統(tǒng)計(jì)特征和頻率變化特征的提取,并使用支持向量機(jī)方法實(shí)現(xiàn)了最高準(zhǔn)確性分類達(dá)96.72%的21種錄音筆的分類,并在相關(guān)的錄音設(shè)備可分性研究成果基礎(chǔ)上,提出了錄音設(shè)備鑒定的技術(shù)實(shí)施方案。
梅爾倒譜域特征主要是通過錄音中的目標(biāo)語(yǔ)音段的梅爾倒譜系數(shù)計(jì)算實(shí)現(xiàn),相關(guān)的工作可以借鑒文獻(xiàn)[3]。
2.2.3 其他統(tǒng)計(jì)檢驗(yàn)技術(shù)
基于錄音環(huán)境和數(shù)字信號(hào)分析的錄音真實(shí)性檢驗(yàn)技術(shù),如錄音環(huán)境分類、基于電網(wǎng)頻分析的錄音時(shí)間估計(jì)、數(shù)字錄音的重壓縮特征檢測(cè),以及信號(hào)高階統(tǒng)計(jì)特性分析等方法在數(shù)字錄音的真實(shí)性檢驗(yàn)中均具有很好的理論應(yīng)用前景,但尚未在實(shí)際鑒定案例中得到廣泛應(yīng)用,有待進(jìn)一步的研究和商業(yè)化產(chǎn)品的開發(fā)。
傳統(tǒng)的聽覺檢驗(yàn)、波形和頻譜圖檢驗(yàn),以及近年來的電子數(shù)據(jù)檢驗(yàn)技術(shù)在當(dāng)前的數(shù)字錄音真實(shí)性鑒定中得到了廣泛的應(yīng)用,這些檢驗(yàn)技術(shù)更偏重于專家經(jīng)驗(yàn)型的分析和判斷,鑒定實(shí)施過程任務(wù)繁重。
數(shù)字信號(hào)的統(tǒng)計(jì)量化技術(shù)為錄音真實(shí)性鑒定提供了很好的檢驗(yàn)角度和自動(dòng)化分析工具,然而,針對(duì)基于數(shù)字錄音信號(hào)統(tǒng)計(jì)分析的錄音設(shè)備自動(dòng)識(shí)別問題,理論和實(shí)驗(yàn)室研究雖然取得了豐碩的研究成果,如何進(jìn)一步提升新技術(shù)的可靠性和準(zhǔn)確性,并結(jié)合錄音真實(shí)性司法鑒定實(shí)際,成為當(dāng)前錄音真實(shí)性鑒定領(lǐng)域技術(shù)攻關(guān)的重要研究?jī)?nèi)容。另一方面,針對(duì)翻錄錄音檢測(cè)技術(shù)目前研究工作還處于空白。錄音經(jīng)過剪輯處理并進(jìn)行翻錄情況下的數(shù)字錄音真實(shí)性鑒定,由于信號(hào)篡改痕跡不明顯,檢測(cè)技術(shù)難度大,其檢測(cè)技術(shù)的研究具有重要的意義。
此外,錄音剪輯檢測(cè)和定位研究雖然取得了一定的探索性研究成果,重壓縮檢測(cè)以及信號(hào)的高階統(tǒng)計(jì)特征分析理論發(fā)展亦相對(duì)成熟,如何在司法鑒定應(yīng)用中進(jìn)行技術(shù)轉(zhuǎn)化成為當(dāng)前領(lǐng)域研究工作重點(diǎn)。電網(wǎng)頻率進(jìn)行錄音時(shí)間驗(yàn)證技術(shù),以及聲音反射建模還原錄音空間環(huán)境方法,具有廣泛的應(yīng)用前景,如何進(jìn)一步提高技術(shù)的可用性和準(zhǔn)確性成為未來的研究熱點(diǎn)和難點(diǎn)。
隨著數(shù)字信號(hào)編輯方法和軟件的普及,以及數(shù)字錄音剪輯反取證技術(shù)的興起,傳統(tǒng)的聽覺檢驗(yàn)和頻譜檢驗(yàn)技術(shù),以及新興的電子數(shù)據(jù)檢驗(yàn)方法等專家經(jīng)驗(yàn)型檢驗(yàn)技術(shù)在當(dāng)前數(shù)字錄音真實(shí)性鑒定中面臨著極大的挑戰(zhàn),鑒定人和研究學(xué)者們開始探索利用數(shù)字信號(hào)的統(tǒng)計(jì)計(jì)算方法結(jié)合機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)錄音真實(shí)性檢驗(yàn)的自動(dòng)化量化計(jì)算分析。統(tǒng)計(jì)量化檢驗(yàn)技術(shù)為數(shù)字錄音的真實(shí)性鑒定提供重要的檢驗(yàn)角度和實(shí)現(xiàn)途徑,可以有效克服現(xiàn)有的檢驗(yàn)技術(shù)無法有效處理的鑒定新難題,統(tǒng)計(jì)量化檢驗(yàn)技術(shù)的研制將提升數(shù)字錄音真實(shí)性鑒定技能水平,其研究成果將成為數(shù)字錄音真實(shí)性鑒定的關(guān)鍵核心技術(shù)。
另一方面,新技術(shù)的發(fā)展必然面臨著其技術(shù)有效性和適用范圍的限制,傳統(tǒng)的專家經(jīng)驗(yàn)型檢驗(yàn)技術(shù)在分析錄音中的高層語(yǔ)義信息比如對(duì)話內(nèi)容、語(yǔ)義連貫性和情感感知等方面具有無可替代的關(guān)鍵作用。專家經(jīng)驗(yàn)型檢驗(yàn)技術(shù)和統(tǒng)計(jì)量化檢驗(yàn)方法的長(zhǎng)期并存和相互協(xié)作將是數(shù)字錄音真實(shí)性鑒定的必然趨勢(shì)和高效解決方案。
[1]Kraetzer C, Oermann A, Dittmann J, etal.Digital audio forensics:A first practical evaluation on microphone and environment classification[C].In:9th Workshop on Multimedia&Security, New York, 2007:63-74.
[2]Buchholz R,Kraetzer C,Dittman J.Microphone Classification Using Fourier Coefficients[J].Information Hiding, 2009:235-246.
[3]Romero D G,Wilson CY E.Automatic acquisition device identification from speech recordings[C].2010 IEEE International Conference on Acoustics Speech and Signal Processing(ICASSP), 2010:1806-1809.
[4]Malik H,Miller J W.Microphone identification using higher-order statistics[C].AES 46th international conference,Denver, USA,2012.
[5]王志鋒,賀前華,李艷雄.錄音設(shè)備的建模和識(shí)別算法[J].信號(hào)處理, 2013, 29(4):419-428.
[6]Malik H,F(xiàn)arid H.Audio forensics from acoustic reverberation[C].Proc.IEEE Int.Conf.Acoustics, Speech, and Signal Processing,2010.
[7]Grigoras C.Digital audio recording analysis:The electric network frequency criterion[J].Speech,Language and the law, 2005, 12(1):63-76.
[8]Huijbregtse M,Geradts Z.Using the ENF criterion for determining the timing of recording of short digital audio recordings[C].Proc.3rd International Workshop Computational Forensics, Springer-Verlag, 2009:116-124.
[9]Rodriguez D P N,Apolinrio J A,Biscainho L W P.Audio Authenticity:Detecting ENF discontinuity with high precision phase analysis[J].IEEE Trans.Information Forensics and Security, 2010, 5(3):534-543.
[10]Cooper A J.The electric network frequency as an aid to authenticating forensic digital audio recordings:An automated approach[C].Proc.AES 33rd Int.Conf.Audio Forensic:Theory, and Practice, 2008.
[11]Yang R,Shi Q Y,Huang J.Detecting double compression of audio signal[C].Proc.SPIE 7541,2010.
[12]Liu Q,Sung A H,Qiao M.Detection of double MP3 compression[J].J.Cognitive Computing, 2010, 2(4):291-296.
[13]Qiao M,Sung A H,Liu Q.Revealing real quality of double compressed MP3 audio[C].Proc.International Conf.Multimedia, ACM Press, 2010:1011-1014.
[14]Yang R,Shi Q Y,Huang J.Defeating fake-quality MP3[C].Proc.11th ACM Workshop Multimedia and Security,ACM Press, 2009:117-124.
[15]Alessandro B D,Shi Y Q.MP3 bit rate quality detection through frequency spectrum analysis[C].Proc.11th Workshop Multimedia and Security, ACM Press, 2009:57-61.
[16]Yang R,Qu Z,Huang J.Detecting digital audio forgeries by checking frame offsets[C].Proc.10th ACM Workshop Multimedia and Security, ACM Press, 2008:21-26.
[17]Gupta S, Cho S, Kuo CCJ.Current developments and future trends in audio authentication[J].Multimedia in Forensics, Security and Intelligent, 2012,(12):50-59.
[18]Farid H.Detecting digital forgeries using bispectral analysis[R].Tech.report AIM-1657,Massachusetts Inst.Technology,1999.