姜忠姣,王蘊麗,陳德佳
隨著互聯(lián)網技術及數字音頻技術的飛速發(fā)展,越來越多的數字音頻文件在傳播過程中承載著關鍵信息,在司法取證、新聞報道、科學發(fā)現(xiàn)等領域中扮演著重要的角色,但頻繁出現(xiàn)的各種數字音頻篡改偽造的事件以及各種數字音頻編輯軟件的普及和廣泛使用,使人們對數字音頻的真實性和完整性提出了質疑。針對不存在任何預先嵌入信息的數字音頻文件的惡意篡改,研究出切實可行的數字音頻篡改被動檢測方法已經是當務之急,對維護社會秩序,打擊違法犯罪,保證司法公正以及新聞誠信等具有重大的現(xiàn)實意義。
本文的研究對象為數字音頻文件,其是以數字化形式存在于硬盤、移動介質等載體設施上用以記錄音頻信息的文件。本文針對數字文件及語音信號原理,介紹了基于文件屬性檢驗方法、聽覺檢驗和聲譜分析方法、波形分析、頻譜分析、直流偏移、本底噪音分析、實驗分析等數字音頻文件篡改檢驗的系統(tǒng)方法,以期提高數字音頻文件篡改被動檢驗的有效性和準確性,同時也展望了數字音頻文件篡改分析檢驗的未來發(fā)展方向。
文件屬性檢驗主要包括:
1)檢材錄音的文件名、格式、大小、時長、采樣率、聲道數、創(chuàng)建時間、修改時間、哈希值等文件屬性信息,截圖保存。
2)檢材文件的屬性與聲稱的錄制情況是否存在矛盾。
3)檢材與錄制設備中其他音/視頻的文件屬性的一致性。
圖1 插入不同采樣位數文件片段的檢驗圖
每款錄音設備均有其固定的錄制參數,其錄制形成的數字音頻文件一定符合該設備的相關錄制參數。音頻文件屬性檢驗是通過提供的錄音器材錄制語音樣本獲取錄音設備參數,再通過查看音頻文件屬性信息獲取音頻語言文件參數,將兩項參數進行分析比對,以二者參數的一致性來證明音頻文件是否經過改動。音頻文件屬性檢驗方法一般作為音頻文件篡改分析檢驗的初始步驟。例如,某檢材為16 位的音頻采樣位數,通過波形圖檢驗,發(fā)現(xiàn)這個16 位音頻文件中的一小段語音表現(xiàn)出8 位的語音量化特征,分析這一小段8 位量化的語音是經過后期編輯插入篡改形成的,不是原始錄音器材錄制形成(如圖1)。
實際檢驗過程中,一般是聽覺檢驗和聲譜分析相結合進行的,通過聽語音、看聲譜圖,對檢材語音文件進行全面檢驗分析。依據“GA/T 1430-2017《法庭科學錄音的真實性檢驗 技術規(guī)范》”,聽覺檢驗、波形分析和頻譜分析的主要內容為:
1)錄音的起始和結束信號情況。
2)檢材的總體情況,如錄制方式、信道、錄音內容、說話人、環(huán)境等。
3)噪聲、背景聲的來源及變化情況,噪聲、背景聲的連續(xù)性和一致性,以及與語音的混疊情況。
4)錄音中出現(xiàn)的信號異常和信號丟失情況。
5)語音的連續(xù)性、同一性,語音的自然度,語義的關聯(lián)性和邏輯性。
6)頻譜范圍是否一致。
7)是否有音節(jié)丟失、缺損現(xiàn)象。
8)是否有異常空白段。
9)是否有片段復制現(xiàn)象。
10)是否有噪聲、場景聲不一致和/或不連續(xù)現(xiàn)象。
11)是否有信號激變現(xiàn)象。
12)是否有其他異?,F(xiàn)象。
聽覺檢驗時要反復認真聽辨全部檢材語音,對語音的連續(xù)性、同一性,語音的自然度,語義的關聯(lián)性和邏輯性以及錄音中斷,背景噪音突變等可疑現(xiàn)象要進行記錄。聲譜分析需注意檢材語音的背景噪聲是否一致,對話語聲、背景聲是否連續(xù)有無異常,檢材錄音中是否存在頻譜范圍不一致、異??瞻锥?、片段復制、信號覆蓋、脈沖信號、信號激變等異?,F(xiàn)象,對存疑部位要進行記錄并分析其形成原因。檢驗之前要向送檢人詳細了解錄音設備情況和語音的錄制過程,發(fā)現(xiàn)音頻文件與陳述的形成過程之間的矛盾,同時也可對聲控、關機、暫?;蛘`操作等形成的異常情況進行解釋鑒別。
1.3.1 采樣直方圖檢驗
采樣分布直方圖可以直觀的表示音頻文件采樣點的總體分布情況,可通過采樣直方圖的檢驗,發(fā)現(xiàn)音頻文件中插入的不同采樣方式錄制的語音片斷。圖2 為一篡改語音文件的采樣直方圖,在圖中出現(xiàn)3 種不同疏密采樣分布情況,選取2 個可疑片斷,其采樣直方圖的所示的采樣方式與整個文件都不同。
1.3.2 DC 偏移檢驗
直流偏移指錄音設備在模擬信號轉換數字信號過程中存在直流分量,將信號偏離中軸線,在音頻文件檢驗中可利用直流偏移的現(xiàn)象來檢測文件是否異常,例如錄音器材的直流校正,或不同錄音設備的電路板的直流偏移量不同。雖然人耳聽辯不出二者的明顯的區(qū)別,但通過對直流分量中心位置的檢驗,可以發(fā)現(xiàn)插入的語音片段。通常,當不同設備錄制的音頻組合在一起時會發(fā)生這種情況。
1.3.3 重復采樣搜索
一些數字錄音機在錄制暫停到恢復期間,由于設備存在響應時間,會在恢復時生成若干個采樣數值持續(xù)為零的采樣點。同時也針對有意將選取的片段設置為靜音的情況。
圖2 不同疏密采樣分布情況
頻譜檢驗是針對音頻文件中插入不同頻譜成分語音片段進行的分析檢驗。頻譜反映了隨機信號各頻率成分功率能量分布情況,因此可以揭示信號中隱含的周期性及頻譜峰值等信息。未經篡改的音頻文件中,各語音片段頻譜圖與整個語音頻譜圖均符合該錄音器材頻率響應特性。不同信道其頻率響應范圍存在差異,可以通過兩部分語音片斷的對比發(fā)現(xiàn)音頻文件是否經過篡改。圖3 中綠色譜線為電話錄音,該電話信號經過200Hz~3 400Hz 的帶通濾波器,紅色譜線的語音片段為手機直接錄音,可以發(fā)現(xiàn)二者錄音信道功率譜有明顯區(qū)別,因此可確定這兩個語音片斷不是同一錄音方式所錄制。
圖3 錄音筆與電話錄音的頻譜圖差異
一定條件下,錄制音頻的環(huán)境噪聲也具有穩(wěn)定性,因此可以作為篡改檢測的依據。聲音信號經過錄音設備A/D 轉換由模擬信號變?yōu)槎M制信號,在采集、轉換、量化的過程中必然會引入特定的噪聲,稱之為設備本底噪聲。不同的設備的本底噪聲存在差異,通過分析音頻文件本底噪聲的差異性可以判斷音頻信號是否經過篡改。由于設備的各自在生產、組裝、使用過程的不同,會形成設備的差異性,可以將設備本底噪聲理解為這款設備錄制的音頻所具有的一種特殊水印,可以借鑒數字音頻主動取證的相關技術方法檢驗。但是對于使用相同錄音設備錄制的音頻信號的檢測就無能為力。同時針對環(huán)境的背景噪聲檢驗中,頻譜檢驗作用明顯,通過對背景噪聲的語譜觀察比較,以發(fā)現(xiàn)二者的異同。
在編輯期間,通常使用相同的背景噪聲樣本來代替語音信號。經過比對查找可發(fā)現(xiàn)相同的語音信號,互相復制粘貼的情況。
1)當前,數字音頻文件真實性檢驗方法不斷發(fā)展,多數數字音頻篡改被動檢測方法針對性太強,通用性不高。音頻篡改檢驗還沒有系統(tǒng)的理論模型和方法體系,已有的檢測算法較分散,對音頻篡改檢測方法的研究仍然缺乏整體性的考慮。另外從數字音頻的產生過程可知,在音頻錄制過程中說話人的狀態(tài)、傳播介質的性質、錄音設備的質量和錄音環(huán)境的復雜性等都可能對最后的結果產生影響。大部分篡改檢測只判斷是否有篡改事實存在,而對篡改點的準確定位研究較少。
2)數字音頻篡改被動檢測技術融合了語音信號分析、數字信號處理,信息安全、數值分析、模式識別和機器學習等相關領域的知識,是一個多學科綜合的研究課題。隨著相關技術的發(fā)展,未來對數字音頻篡改被動檢測技術的研究可以參考以下幾個方面。
(1)完善數字音頻篡改檢驗的理論性研究。數字音頻篡改被動檢驗的研究剛起步,還沒有形成系統(tǒng)的有針對性和有效性的檢驗方法,還處在探索求證階段。今后應不斷完善數字音頻篡改檢驗研究的概念、理論、研究方法等相關理論;
(2)建立有效的篡改檢驗特征表示與描述機制。即找尋具有與目標語音信號相關聯(lián)的真實而完整的特征集,同時構建合理、有效的表示描述機制;
(3)構建基于多方法融合的數字音頻文件被動檢驗技術,即將已知的并已成功推廣應用的技術和方式進行分析整理,融合應用,各方法之間互補互相印證。
總之,上述文章中所論述的數字音頻篡改被動檢驗方法是一種不基于預先嵌入的水印信息來進行判斷音頻文件是否被篡改的方式方法,已知證據所具備的可靠而充分的現(xiàn)狀特性則成為該技術的一個關鍵點,也是判斷和證明目標數字音頻是否發(fā)生篡改的重要依據。本文介紹的幾種檢驗方法能夠解決部分數字音頻文件的完整性、真實性的問題,以期數字音頻文件篡改被動檢驗方法在案件偵查和法庭訴訟中發(fā)揮更大的作用。