一種基于數(shù)據(jù)分析的錄音文件來(lái)源識(shí)別方法

2016-12-27 08:39:42盧啟萌施少培卞新偉李巖曾錦華奚建華

中國(guó)司法鑒定 2016年1期

關(guān)鍵詞：音頻文件錄音筆序數(shù)

盧啟萌，施少培，卞新偉，李巖，曾錦華，奚建華

（司法部司法鑒定科學(xué)技術(shù)研究所，上海200063）

鑒定實(shí)踐
Forensic Practice

一種基于數(shù)據(jù)分析的錄音文件來(lái)源識(shí)別方法

盧啟萌，施少培，卞新偉，李巖，曾錦華，奚建華

（司法部司法鑒定科學(xué)技術(shù)研究所，上海200063）

目的分析常見(jiàn)的30種錄音筆錄制的音頻，通過(guò)考察音頻文件自身的數(shù)據(jù)情況，對(duì)音頻屬于何種設(shè)備錄制進(jìn)行識(shí)別。方法使用UltraEdit、WinHex等軟件對(duì)音頻的文件頭和文件數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析和比較，研究不同錄音筆錄制的音頻文件格式、參數(shù)和數(shù)據(jù)結(jié)構(gòu)之間的差異。結(jié)果通過(guò)錄音文件的文件名、文件格式、文件頭和文件結(jié)構(gòu)能夠較好地區(qū)分文件來(lái)源，其中，WMA和REC格式文件能達(dá)到100%的識(shí)別準(zhǔn)確率，MP3格式文件的區(qū)分率為96．67%，WAV格式文件區(qū)分率為88．1%，說(shuō)明該方法具有較強(qiáng)的區(qū)分性能。結(jié)論實(shí)驗(yàn)結(jié)果顯示該方法使用常見(jiàn)工具，分析步驟簡(jiǎn)單，考察點(diǎn)清晰，識(shí)別率高，能夠廣泛應(yīng)用于錄音真實(shí)性鑒定實(shí)踐中。

錄音真實(shí)性；錄音筆；文件格式；分類(lèi)

隨著消費(fèi)型電子產(chǎn)品的迅速發(fā)展，錄音筆、MP3、攝像機(jī)等錄音設(shè)備廣泛普及，在需要進(jìn)行錄音時(shí)，這些便攜、錄音效果良好的設(shè)備往往成為人們固定聲音證據(jù)的首選。

在目前的錄音真實(shí)性（完整性）鑒定案件中，錄音筆錄制的音頻文件占有較大比例。在民商事案件的鑒定實(shí)踐中，依據(jù)SF/Z JD0300001-2010《聲像資料鑒定通用規(guī)范》第二部分《聲像資料鑒定通用程序》規(guī)定[1]，需要先獲得錄音證據(jù)提交方對(duì)于送檢音頻文件的形成過(guò)程陳述，即該音頻文件是使用何種錄音器材以何種模式錄制[2]。若檢驗(yàn)發(fā)現(xiàn)該音頻文件并非提交方聲稱(chēng)的錄制設(shè)備錄制，則送檢音頻的真實(shí)性值得懷疑[3]。因此，對(duì)音頻文件的錄制設(shè)備進(jìn)行判斷，是錄音真實(shí)性（完整性）鑒定的重要組成部分。

1 材料與方法

考慮到方法的實(shí)際運(yùn)用，在電商網(wǎng)站京東上以搜索優(yōu)先級(jí)為主要參考標(biāo)準(zhǔn)，準(zhǔn)備錄音筆共30支，具體型號(hào)如表1所示。按照產(chǎn)品說(shuō)明書(shū)中的錄音模式說(shuō)明，每支錄音筆的每種模式各錄制2次。錄制后，使用UltraEdit、WinHex等常見(jiàn)代碼讀取軟件對(duì)錄制的音頻文件進(jìn)行分析。

表1 實(shí)驗(yàn)所用錄音筆型號(hào)

2 結(jié)果

錄制得到有效錄音共111種。分析錄音文件的格式、文件頭、屬性參數(shù)等，進(jìn)行統(tǒng)計(jì)和分類(lèi)，得到以下結(jié)果。

2.1 文件格式

錄音共出現(xiàn)了MP3、mp3、WAV、wav、WMA、REC共計(jì)6種后綴名，4種格式，具體出現(xiàn)次數(shù)如表2所示。統(tǒng)計(jì)出現(xiàn)次數(shù)可以發(fā)現(xiàn)，目前MP3格式占據(jù)主流地位，其次是WAV格式，約占四成。由于格式名稱(chēng)不以大小寫(xiě)為區(qū)分，因此下文中均以MP3指代后綴名為MP3和mp3的文件格式，WAV指代WAV和wav后綴。

表2 實(shí)驗(yàn)錄音后綴名和格式情況

2.2 文件名

不同型號(hào)的錄音筆命名規(guī)則不同，命名規(guī)則有VOICE+3位序數(shù)、ATR_4位序數(shù)、LININ+3位序數(shù)、rec+4位序數(shù)、REC+5位序數(shù)、REC+6位序數(shù)、4位年.2位月.2位日_2位時(shí).2位分_2位序數(shù)、3位序號(hào)M_6位年月日_4位時(shí)分、3位序號(hào)_6位年月日_4位時(shí)分 A0、6位年月日_3位序號(hào)、8位年月日_3位序號(hào)、3位型號(hào)_4位序號(hào)DVT_B+3位序數(shù)、RNC+3位序數(shù)、REC+6位時(shí)分秒、REC+3位序數(shù)、VR+4位序數(shù)和V+2位月+2位日+2位序數(shù)等。命名規(guī)則中較為通用的是REC+3位序數(shù)的命名方式，在30支錄音筆中有11支采用了此種方式，其他命名方式不具有通用性。

2.3 格式參數(shù)

2.3.1 MP3格式

根據(jù)MP3格式定義[2]，分析格式中具有區(qū)分價(jià)值的參數(shù)如下：

（1）ID3V2。MP3文件理論上應(yīng)當(dāng)分為三部分：TAG_V2（ID3V2），F(xiàn)rame和TAG_V1（ID3V1）ID3V2。其中，位于文件頭的ID3V2作為ID3V1的擴(kuò)充，兩者均為包含有曲名、演唱者、專(zhuān)輯、音軌數(shù)等信息的metadata容器[4]。60個(gè)MP3格式錄音中，文件頭含ID3V2域的共有10個(gè)，來(lái)自4支錄音筆。

表3 含ID3V2文件情況

10個(gè)文件起始處均為4944330300，即版本號(hào)ID3V2．3。但不同文件的后續(xù)結(jié)構(gòu)不同。如圖1所示為Sony-ICDTX50錄音筆錄制的MP3格式音頻文件頭，至幀開(kāi)始前為4096字節(jié)，其中第65～2788字節(jié)及第2874～4096字節(jié)為00，第2788～2874字節(jié)記錄有音軌、藝術(shù)家、編碼器（含品牌信息）等。而Sony-ICDFX8所錄制的文件中，該部分與Sony-ICDTX50除編碼器版本號(hào)不同外無(wú)其他本質(zhì)區(qū)別。

圖2則為Olympus-VN712錄音筆錄制的MP3文件頭，可見(jiàn)至幀開(kāi)始前為1536字節(jié)。其中，第12～14字節(jié)為品牌信息，第33～35字節(jié)為型號(hào)信息，第59～70字節(jié)為錄制起始時(shí)間（年月日時(shí)分秒），第71～82字節(jié)為錄制結(jié)束時(shí)間，之后為錄音時(shí)長(zhǎng)，第337～1 536字節(jié)為FF。Olympus-WS811所錄制的文件中，文件頭信息除型號(hào)標(biāo)識(shí)與Olympus-VN712不同外，文件頭結(jié)構(gòu)無(wú)其他本質(zhì)區(qū)別。

圖1 型號(hào)為Sony-ICDTX50錄音筆錄制的MP3文件頭局部

圖2 型號(hào)為Olympus-VN712錄音筆錄制的MP3文件頭局部

（2）格式版本。由于本次實(shí)驗(yàn)中未出現(xiàn)可變位率的文件，因此對(duì)于固定位率的MP3文件，根據(jù)選用的版本不同，MP3幀頭中第12、13位為00、10或者11可以讀取為使用的格式版本是2.5、2或1[5]。幀頭前11位恒為1，第14、15位為01即layer3，第16位CRC校驗(yàn)則為1即不校驗(yàn)，因此可以簡(jiǎn)單地通過(guò)MP3幀頭為 FFFB、FFF3或 FFE3判斷版本為MPEG2.5、MPEG2或MPEG1。在實(shí)驗(yàn)得到的60個(gè)MP3文件中，使用Version2.5、Version2和Version1的分別有9、20和31個(gè)。由于格式版本與采樣率等參數(shù)相關(guān)，因此，進(jìn)一步分類(lèi)可以參考采樣率等參數(shù)。

（3）聲道模式。幀頭的第25、26位為聲道模式，00為立體聲（Stereo），01為聯(lián)合立體聲（Joint Stereo），10為雙路單聲道（Dual Mono），11為單聲道（Mono）。當(dāng)聲道模式為01（Joint Stereo）時(shí)，第27、28位則為聯(lián)合立體聲為IS或M/S編碼的擴(kuò)充模式[6]。在實(shí)驗(yàn)音頻中，有26個(gè)立體聲，7個(gè)雙路單聲道，27個(gè)單聲道，有5個(gè)（來(lái)自PhilipsDVT1000、Olympus-VN712和Olympus-WS811）音頻文件為Joint Stereo模式，其中M/S編碼4個(gè)。

（4）采樣率、碼率。采樣率是音頻的主要特征參數(shù)，單位為KHz，在60個(gè)MP3格式音頻中，共涉及8種采樣率。對(duì)于未經(jīng)壓縮的pcm音頻流而言，碼率等于采樣率、采樣精度和聲道數(shù)的乘積，對(duì)于MP3格式音頻而言則不然，在60個(gè)實(shí)驗(yàn)音頻中，共出現(xiàn)9種不同的碼率

綜合考察采樣率和碼率數(shù)值，實(shí)驗(yàn)音頻中有11個(gè)唯一組合，如表4所示。

除（1）中含ID3V2及上述采樣率和碼率唯一組合外，結(jié)合聲道數(shù)、聲道模式的分類(lèi)，實(shí)驗(yàn)得到的MP3音頻中另有7個(gè)唯一組合，如表5所示。

表4 采樣率和碼率唯一組合

表5 采樣率、碼率、聲道、聲道模式組合

（5）文件標(biāo)記分析。在規(guī)則的MP3格式外，可能出于品牌標(biāo)識(shí)或者生產(chǎn)上的需要，部分文件具有非常特殊的文件頭形態(tài)。

①Ann C200錄音筆。該款錄音筆可調(diào)麥克風(fēng)噪音高、中、低三個(gè)檔次，碼率和采樣率僅有192Kbps和44.1KHz一種。錄制的文件自第一字節(jié)始，填充512字節(jié)的0值，內(nèi)容則后移至第513字節(jié)，起始2字節(jié)為FFFB。

②Aigo愛(ài)國(guó)者R5580錄音筆。該款錄音筆具有線(xiàn)錄和麥克風(fēng)錄音兩種功能，線(xiàn)錄模式的碼率和采樣率僅有32Kbps和 44.1KHz一種，麥克風(fēng)錄音則有8Kbps64Kbps128Kbps三種碼率，采樣率均為16KHz。在線(xiàn)錄模式錄音、麥克風(fēng)64Kbps和128Kbps碼率錄制的模式下，文件中多次重復(fù)出現(xiàn)“NexiaDevice Skylark3RA 2010 Apr”字樣，如圖4所示。查詢(xún)得知，該字樣為韓國(guó)NEXIA Device公司的錄音芯片標(biāo)識(shí)。此外，該錄音筆在麥克風(fēng)模式下錄制的碼率為8Kbps文件，在距離文件尾6 144字節(jié)之前填充了2048字節(jié)的1。

③Panasonic松下RR-XS420錄音筆和RRUS300錄音筆。松下RR-XS420錄音筆可以錄制6種不同參數(shù)的MP3格式音頻，RR-US300錄音筆可以錄制3種不同參數(shù)的MP3格式音頻。碼率和采樣率如表6所示。

圖3 Ann C200錄音筆文件頭

圖4 Aigo愛(ài)國(guó)者R5580錄音筆芯片標(biāo)識(shí)

表6 實(shí)驗(yàn)中松下錄音筆錄制音頻的碼率和采樣率

序號(hào)為1、2、3、4、6、9的錄音文件中出現(xiàn)標(biāo)記。1、2、3、4、9文件頭部出現(xiàn)二進(jìn)制“……001101001000……10010110100110110101010……”字樣，“1010”長(zhǎng)度不等。其中“10010111101”即“4B4D”可以轉(zhuǎn)為ASCII碼“KM”，與6尾部多次出現(xiàn)的“KM1.86.1.8”字樣及其后填充AA字節(jié)可能具有相關(guān)性。此外，3號(hào)音頻尾部亦出現(xiàn)“4B4DAAAA”字樣標(biāo)識(shí)，但未能找到KM字樣所表達(dá)的含義。

序號(hào)為5、7、8的音頻文件頭部第5至第9字節(jié)為“0000000000000000000000000000001101001000”即“0000000348”，其中“348”在前述文件“KM”標(biāo)示的前后（多為前4字節(jié)處）均有出現(xiàn)。

此外，松下RR-XS420錄音筆錄制的每一文件均生成一INX后綴名的同名文件，336字節(jié)，起始16字節(jié)為“INDEX_ICRECORDER”字樣，其余為0。

（6）小結(jié)。在60個(gè)MP3格式文件中，綜合上述采樣率、碼率、聲道、文件頭標(biāo)識(shí)等參數(shù)，同時(shí)考慮文件名命名方式，能夠區(qū)分的文件共計(jì)58種（有3個(gè)文件是同一種類(lèi)），區(qū)分率為96.67%。

2.3.2 WAV格式

WAV格式是一種RIFF文件，因此每個(gè)WAV文件的頭四個(gè)字節(jié)是 “RIFF”[7]。根據(jù)WAV格式定義，考察格式中具有區(qū)分價(jià)值的若干要素如下：

（1）調(diào)制方式和位深度。實(shí)驗(yàn)錄音中，文件分為脈沖編碼調(diào)制（Pulse Code Modulation，PCM）和自適應(yīng)差分脈沖編碼調(diào)制（Adaptive Differential Pulse Code Modulation，ADPCM）兩種編碼形式。位深度即每個(gè)聲道中各個(gè)樣本的數(shù)據(jù)位數(shù)。在42個(gè)實(shí)驗(yàn)音頻中，ADPCM4位和PCM16位各出現(xiàn)21次。

（2）編碼設(shè)置ID。PCM形式的WAV文件編碼設(shè)置ID為1，ADPCM形式的編碼設(shè)置ID則有2和11兩種，在21個(gè)ADPCM形式實(shí)驗(yàn)音頻中分別出現(xiàn)5次和16次。

（3）組合參數(shù)。讀取實(shí)驗(yàn)錄音的碼率、采樣率和聲道數(shù)，在總計(jì)42個(gè)WAV格式的實(shí)驗(yàn)錄音中，具有唯一組合的錄音共17個(gè)，其錄音筆型號(hào)及相關(guān)參數(shù)如表7所示。

表7 WAV格式碼率、采樣率和聲道數(shù)的唯一組合

續(xù)表7

（4）文件標(biāo)記分析。①Sony索尼ICD-TX50錄音筆。該型號(hào)錄音筆錄制的WAV格式音頻在文件頭上具有其他錄音筆沒(méi)有的音軌、導(dǎo)演等信息，雖然較同一錄音筆錄制的MP3格式音頻缺少編碼軟件標(biāo)識(shí)，也因此沒(méi)有品牌顯示，但以文件名為音軌名、以“My Recording”為導(dǎo)演信息亦能幫助識(shí)別錄制設(shè)備。

②ANN安UV100和Allbar奧巴UB10錄音筆。除Sony索尼ICD-TX50錄音筆外，ANN安UV100和Allbar奧巴UB10錄音筆亦包含音軌信息“Audio1”。此兩款錄音筆除品牌和型號(hào)不同外，包裝、機(jī)身外型、說(shuō)明書(shū)樣式、內(nèi)容及錄制的音頻參數(shù)等均完全相同，可能出自同一工廠生產(chǎn)。

此外，Shinco新科V-31和Akal雅佳A20亦具有完全相同的參數(shù)及結(jié)構(gòu)。

③Hyundai現(xiàn)代C100錄音筆。標(biāo)準(zhǔn)WAV文件文件頭由RIFF WAVE和fmt兩個(gè)CHUNK組成，后接data CHUNK[8]，但也有Hyundai現(xiàn)代C100錄音筆在 fmt和 data兩個(gè) CHUNK之間，另有一個(gè)fact CHUNK（如圖5所示）。

圖5 文件頭中的fact CHUNK

④Panasonic松下RR-XS420錄音筆。該錄音筆錄制的WAV格式文件中，data CHUNK出現(xiàn)在第37字節(jié)，在“data”ID及4字節(jié)的文件大小后，填充了約9700字節(jié)的0。除上述WAV文件外，Philips飛利浦DVT1000錄音筆和Newsmy紐曼RV21錄音筆的data CHUNK起始于第37字節(jié)，其他文件則起始于第505字節(jié)，之前填0。

（5）小結(jié)。在42個(gè)WAV格式文件中，綜合上述采樣率、碼率、聲道、文件頭標(biāo)識(shí)等參數(shù)，同時(shí)考慮文件名命名方式，能夠區(qū)分的文件共計(jì)37種（其中1組4個(gè)相同，2組2個(gè)相同），區(qū)分率為88.1%。

2.3.3 其他格式

除MP3和WAV外，實(shí)驗(yàn)音頻中還出現(xiàn)WMA格式8次[9]、REC格式1次。WMA格式音頻由Olympus奧林巴斯WS-811和VN-712兩款錄音筆生成。Olympus奧林巴斯 WS-811和 VN-712錄制的WMA格式錄音在文件頭部分均有品牌、型號(hào)和錄制時(shí)間標(biāo)識(shí)，容易識(shí)別，如圖6所示。REC格式由Newsmy紐曼RV68錄音筆生成。

圖6 Olympus奧林巴斯VN-712錄制的WMA格式錄音文件頭

3 討論

實(shí)驗(yàn)證明，根據(jù)文件名、文件格式、文件頭和文件結(jié)構(gòu)的不同，可以有效地從文件本身區(qū)分出該錄音是否由某型號(hào)錄音筆錄制形成。在本實(shí)驗(yàn)中，WMA和REC格式文件達(dá)到100%的識(shí)別準(zhǔn)確率，MP3格式文件的區(qū)分率為96．67%，WAV格式文件區(qū)分率為88．1%。

如果不考慮文件名，只通過(guò)文件格式、文件頭和文件結(jié)構(gòu)進(jìn)行分析，錄音能夠限定在2～4種錄音筆錄制的范圍內(nèi)。因此，分析數(shù)據(jù)結(jié)構(gòu)的方法在本實(shí)驗(yàn)中能得到較高的識(shí)別率。

在實(shí)驗(yàn)中還發(fā)現(xiàn)，采樣率和碼率是區(qū)分音頻來(lái)源的兩個(gè)重要特征，尤其是碼率，由于其種類(lèi)較多，具有較高的區(qū)分價(jià)值。其他參數(shù)，如編碼格式、參數(shù)ID等，雖然無(wú)法唯一性區(qū)別不同文件，但與采樣率、碼率、聲道數(shù)和文件結(jié)構(gòu)等其他類(lèi)型參數(shù)進(jìn)行組合有助于進(jìn)一步提高音頻文件來(lái)源識(shí)別率。

4 結(jié)論

本文分析了常見(jiàn)錄音筆錄制的音頻，通過(guò)考察音頻文件自身的數(shù)據(jù)情況，對(duì)音頻來(lái)源于何種設(shè)備錄制進(jìn)行識(shí)別。提出了通過(guò)對(duì)音頻文件的文件名、文件格式、文件頭和文件結(jié)構(gòu)的差別對(duì)音頻進(jìn)行分類(lèi)的方法，在鑒定實(shí)踐中能夠以較為簡(jiǎn)單的方法迅速判斷檢材音頻來(lái)源情況，有助于錄音真實(shí)性鑒定工作的進(jìn)一步展開(kāi)。

本方法的識(shí)別局限于是否同一型號(hào)錄音筆，對(duì)于同一型號(hào)的不同錄音筆錄制的音頻文件區(qū)分情況則需要通過(guò)本底噪聲等相關(guān)數(shù)據(jù)的計(jì)算進(jìn)行分析。

[1]SF/Z JD0300001-2010．聲像資料鑒定通用規(guī)范[S]．2010．

[2]ISO/IEC 11172-3:1993/Cor 1:1996，Information technology— Coding of moving pictures and associated audio for digital storage media at up to about 1，5 Mbit/s— Part 3: Audio TECHNICAL CORRIGENDUM 1[S]．ISO/IEC 1996．

[3]張敬懷，馬道鈞．WAV語(yǔ)音文件格式的分析與處理[J]．北京電子科技學(xué)院學(xué)報(bào)，2004（02）:47-50．

[4]曾錦華，施少培，楊旭，等．錄音設(shè)備識(shí)別司法鑒定技術(shù)研究[J]．中國(guó)司法鑒定，2015(06):22-25．

[5]Dongen W S V．Case study:Forensic analysis of a Samsung digital video recorder[J]．Digital Investigation the International Journal of Digital Forensics&Incident Response，2008，5(s 1-2):19-28．

[6]Zhang Z，Liu X，Zhang J．Combinatorial Testing on ID3v2 Tags of MP3 Files[C]//IEEE Fifth International Conference on Software Testing．IEEE Computer Society，2012:587-590．

[5]Taylor S K，Yusof M I E B．Forensic acquisition on MP3 players[C]//Pattern Analysis and Intelligent Robotics(ICPAIR)，2011InternationalConferenceon．IEEE，2011:143-147．

[7]汪勇，熊前興．MP3文件格式解析[J]．計(jì)算機(jī)應(yīng)用與軟件，2005，21(12):126-128．

[8]Bhatnagar G，Mehta S，Mitra S．Chapter 7-The WAV File Format[M]//IntroductiontoMultimediaSystems．ElsevierInc．，2004．

[9]王若鈞，何杉．WAV文件格式分析與詳解[J]．?dāng)?shù)字技術(shù)與應(yīng)用，2014(3):93-94．

[10]Surhone L M，Tennoe M T，Henssonow S F，et al.Windows Media Audio[M]．Betascript Publishing，2013．

（本文編輯：楊旭）

A Method for Identifying Audio File Sources Based on Data Analysis

LU Qi-meng,SHI Shao-pei,BIAN Xin-wei,LI Yan,ZENG Jin-hua,XI Jian-hua

(Institute of Forensic Science,Ministry of Justice,Shanghai 200063,China)

Objective To establish a method for the identification of audio file sources based on data analysis．Method The audio files recorded by 30 common portable audio recorders were analyzed with decoding software，such as UltraEdit and WinHex．The file head and structure of audio files recorded by different recorders were analyzed comparatively to study the difference in the formats，parameters and structures of these files．Results The audio files can be well classified by the combination of file name，format，file head and structure．The recognition rates were 100%for WMA and REC files，96．67% for MP3 files，and 88．1%for WAV files．Conclusion The established method is simple and efficient，as it acquires high recognition rate using common software．It can be widely used in the forensic practice of audio authentication．

forensic authentication of audio recording;recorder;file format;classification

D918．9

10．3969/j．issn．1671-2072．2016．01．006

1671-2072-（2016）01-0037-08

2015-05-15

中央級(jí)科研院所公益研究項(xiàng)目（GY2014Z-3）、（GY2014G-2）、（GY2014Z-5）

盧啟萌（1989—），女，研究實(shí)習(xí)員，碩士，主要從事聲像、電子數(shù)據(jù)鑒定技術(shù)研究工作。E-mail:luqm@ssfjd．cn。

施少培（1962—），男，高級(jí)工程師（正高級(jí)），主要從事刑事技術(shù)研究工作。E-mail:shisp@ssfjd．cn。

通信作者：卞新偉（1965—），男，高級(jí)工程師，主要從事刑事技術(shù)研究工作。E-mail:bianxw@ssfjd．cn。