張 穎
(信息網(wǎng)絡(luò)安全公安部重點(diǎn)實(shí)驗(yàn)室公安部第三研究所 上海 201204)
隨著計(jì)算機(jī)互聯(lián)網(wǎng)絡(luò)的不斷發(fā)展和壯大,網(wǎng)絡(luò)語音聊天工具因此也逐漸得到廣泛的應(yīng)用和普及。但因其便利性、匿名性和普遍性,它在為廣大網(wǎng)絡(luò)用戶提供方便快捷的交流方式的同時(shí),也為部分違法犯罪分子利用其進(jìn)行交流或者實(shí)施違法犯罪行為埋下了隱患。根據(jù)公安部2006年8月24日頒布的《公安機(jī)關(guān)辦理行政案件程序規(guī)定》第4章第23條,電子證據(jù)已經(jīng)明確被納入到公安機(jī)關(guān)辦理行政案件的證據(jù)中來。而其他相關(guān)法令條款例如《中華人民共和國電子簽名法》和《合同法》等,也已經(jīng)承認(rèn)并接納了電子證據(jù)的存在。這也就意味著,作為電子證據(jù)的一種,通過合法途徑取得的網(wǎng)絡(luò)語音聊天音頻記錄在偵破工作中可以作為證據(jù)使用。而以事實(shí)為例,在我鑒定中心受理的案件中,便不乏委托方提供網(wǎng)絡(luò)語音聊天音頻作為檢材的情況出現(xiàn)。從這個(gè)角度上來說,網(wǎng)絡(luò)語音聊天音頻對(duì)偵破工作的進(jìn)行以及司法鑒定工作的展開,有著相當(dāng)重要的意義。
但由于不同的網(wǎng)絡(luò)語音軟件造成的傳輸信道差異,以及同一網(wǎng)絡(luò)語音軟件的不同版本等種種原因,都會(huì)造成網(wǎng)絡(luò)語音聊天和真人語音間響度、音高、音色的些許差別,這就會(huì)為語音鑒定工作的進(jìn)行帶來一定困難。
為了進(jìn)一步討論這個(gè)問題,在這篇文章中,我們將借助相關(guān)軟件對(duì)網(wǎng)絡(luò)語音聊天音頻進(jìn)行辨析,從寬帶語譜圖和共振峰頻率兩方面,通過各組數(shù)據(jù)具體分析了其與真人語音的差別。此文只討論使用Skype和QQ兩種軟件進(jìn)行語音聊天的音頻。
網(wǎng)絡(luò)語音聊天,又稱VoIP (voice over internet protocol),指的是在使用了互聯(lián)網(wǎng)協(xié)議的網(wǎng)絡(luò)上進(jìn)行語音傳輸,其中的IP是代表互聯(lián)網(wǎng)協(xié)議,它是互聯(lián)網(wǎng)的中樞,互聯(lián)網(wǎng)協(xié)議可以將電子郵件,即時(shí)訊息以及網(wǎng)頁傳輸?shù)匠汕先f的PC或者手機(jī)上[1]。其最大的優(yōu)勢(shì)是能廣泛地采用Internet和全球IP互連的環(huán)境,提供比傳統(tǒng)業(yè)務(wù)更多、更好的服務(wù)[2]。
VoIP模型的基本結(jié)構(gòu)圖如圖1所示。圖1展示了VoIP設(shè)備將語音信號(hào)轉(zhuǎn)換為IP數(shù)據(jù)流,接著把數(shù)據(jù)流發(fā)送到IP目的地,最后IP目的地又將這些數(shù)據(jù)流轉(zhuǎn)換回語音信號(hào)的過程。具體而言,VoIP的傳輸過程分為語音-數(shù)據(jù)轉(zhuǎn)換,原數(shù)據(jù)到IP轉(zhuǎn)換,傳送,IP包—數(shù)據(jù)的轉(zhuǎn)換和數(shù)字語音轉(zhuǎn)換為模擬語音5個(gè)階段[3]。在此便不作詳細(xì)闡述。
圖1 VoIP的模型結(jié)構(gòu)
硬件:語音鑒定工作站,麥克風(fēng),耳機(jī)。
軟件:VS5.0語音工作站,TotalRecorder錄音軟件,QQ2009,Skype簡(jiǎn)體中文3.8正式版。
隨機(jī)抽取6名說話人,年齡于20歲到40歲之間,其中3人為女性,其余3人為男性,錄音時(shí)說話人語音清晰正常,未受感冒等其他不良因素影響。
聲樣內(nèi)容為一段接近25 s的文字,詞量充足。
說話人登錄網(wǎng)絡(luò)聊天軟件,撥通實(shí)驗(yàn)組織者的用戶號(hào)碼。連接成功后,雙方均在各自的鑒定工作站上打開TotalRecorder軟件,記錄所有聊天內(nèi)容。聲樣內(nèi)容讀完后,雙方分別在各自的鑒定工作站上保存原聲以及經(jīng)過聊天軟件后輸出的音頻。其中,對(duì)于QQ軟件,原聲及輸出音頻均為使用TotalRecorder錄制,而對(duì)于Skype軟件,輸出音頻由Skype軟件自帶錄音功能錄制。
3.5.1 采樣參數(shù)
TotalRecorder采樣率8000 Hz,16位,單聲道。
3.5.2 長(zhǎng)時(shí)平均LPC實(shí)驗(yàn)參數(shù)
幀長(zhǎng)20 ms,分析階數(shù)14階,運(yùn)算點(diǎn)數(shù)512點(diǎn)。
3.5.3 寬帶語譜圖實(shí)驗(yàn)參數(shù)
帶款 300 Hz,動(dòng)態(tài)范圍 35 dB,衰減 10 dB,高頻提升系數(shù)0.65,縱向網(wǎng)格寬2000 Hz,橫向網(wǎng)格寬1000 ms,哈明窗。
我們從6名說話人中抽取一位男性說話人,選取“報(bào)”、“為”、“審”、“標(biāo)”4 個(gè)字的元音部分,其實(shí)驗(yàn)結(jié)果如下所示。
圖2中顯示的是使用VS5.0軟件后,分別產(chǎn)生的“報(bào)”、“為”、“審”、“標(biāo)”4 個(gè)字原聲的元音部分的寬帶語譜圖以及共振峰圖譜,以及經(jīng)過QQ軟件傳輸后輸出音頻的元音部分的寬帶語譜圖以及共振峰圖譜。其中共振峰圖譜為長(zhǎng)時(shí)平均LPC譜,實(shí)線的為原聲語譜圖,虛線的為經(jīng)過QQ軟件傳輸后輸出音頻的語譜圖。
圖2 “報(bào)”、“為”、“審”和“標(biāo)”共振峰和寬帶語譜圖比較(QQ語音聊天)
圖3 “報(bào)”、“標(biāo)”、“審”和“為”共振峰和寬帶語譜圖比較(skype語音聊天)
圖3中顯示的是使用VS5.0語音工作站后,分別產(chǎn)生的“報(bào)”、“為”、“審”、“標(biāo)”4 個(gè)字原聲的元音部分的寬帶語譜圖以及共振峰圖譜,以及經(jīng)過Skype軟件傳輸后輸出音頻的元音部分的寬帶語譜圖以及共振峰圖譜。其中共振峰圖譜為長(zhǎng)時(shí)平均LPC譜,實(shí)線的為原聲語譜圖,虛線的為經(jīng)過Skype軟件傳輸后輸出音頻的語譜圖。
首先,我們通過聽覺來對(duì)原音和經(jīng)過QQ傳輸?shù)囊纛l進(jìn)行初步的比對(duì)和檢驗(yàn),發(fā)現(xiàn)二者在語音的聲調(diào)模式、韻律特征,音節(jié)內(nèi)和音節(jié)間的過渡特征上反映一致,通過純聽覺未能發(fā)現(xiàn)其中的差別。
其次,通過VS5.0語音工作站進(jìn)行分析,我們可以得到所選每個(gè)詞元音部分的長(zhǎng)時(shí)平均LPC譜。導(dǎo)出VS5.0產(chǎn)生的相關(guān)數(shù)據(jù)后,我們進(jìn)行統(tǒng)計(jì)分析并通過Excel軟件繪制比對(duì)圖譜。我們發(fā)現(xiàn),總體來說,QQ網(wǎng)絡(luò)語音聊天音頻的長(zhǎng)時(shí)平均LPC譜的共振峰走向和原音趨向于一致。以“報(bào)”字的元音部分/ao/為例,相關(guān)具體頻率和幅度值如圖4所示。
從圖4可以清晰看出,就“報(bào)”字而言,2500 Hz之下原音和經(jīng)過軟件輸出的音頻共振峰走向以及峰谷頻率值幾乎完全吻合。
圖4 “報(bào)”在網(wǎng)絡(luò)語音聊天和真人聊天中的相似性
通過以上各種數(shù)據(jù)分析,我們發(fā)現(xiàn)二者間還是存在一定的差別?,F(xiàn)分別從共振峰頻率值和共振峰缺失兩個(gè)方面進(jìn)行說明。
5.2.1 共振峰頻率值差別
表1中分別列出了對(duì)于 “報(bào)”、“標(biāo)”、“審”、“為”4 個(gè)字的元音部分,原音和經(jīng)過QQ傳輸后音頻的共振峰的比較。
從表1中可以看出,經(jīng)過QQ軟件傳輸之后的音頻共振峰產(chǎn)生了變化??傮w來說,即使對(duì)于同一個(gè)人所說的同一段話,經(jīng)過QQ傳輸后的音頻共振峰頻率也不會(huì)完全一致,以上述4個(gè)字的元音部分為例,頻率發(fā)生了基于-4.01%至5.4%之間的變化。
5.2.2 共振峰缺失
從表1我們同樣可以看出,在部分情況下經(jīng)過QQ軟件傳輸過后的音頻會(huì)發(fā)生共振峰缺失的現(xiàn)象。例如在發(fā)“標(biāo)”的/iao/音時(shí),QQ語音聊天出現(xiàn)了第三共振峰缺失的現(xiàn)象,而寬帶語譜圖中也有頻率減弱的情況發(fā)生。但在實(shí)驗(yàn)中我們也發(fā)現(xiàn),共振峰缺失的現(xiàn)象并不是對(duì)于所有元音都會(huì)發(fā)生的,至于這種現(xiàn)象的發(fā)生是隨機(jī)的還是有一定的規(guī)律性,我們將在以后的實(shí)驗(yàn)中進(jìn)一步研究。
表1 “報(bào)”,“標(biāo)”,“審”和“為”在網(wǎng)絡(luò)語音聊天和真人聊天中共振峰的差異性
首先,我們通過聽覺來對(duì)原音和經(jīng)過Skype傳輸?shù)囊纛l進(jìn)行初步的比對(duì)和檢驗(yàn),發(fā)現(xiàn)二者在語音的聲調(diào)模式、韻律特征,音節(jié)內(nèi)和音節(jié)間的過渡特征上反映一致,通過純聽覺未能發(fā)現(xiàn)其中的差別。
其次,通過VS5.0語音工作站分析,我們可以得到所選每個(gè)詞元音部分的長(zhǎng)時(shí)平均LPC譜。導(dǎo)出VS5.0產(chǎn)生的相關(guān)數(shù)據(jù)后,我們進(jìn)行統(tǒng)計(jì)分析并通過Excel軟件繪制比對(duì)圖譜。我們發(fā)現(xiàn),總體來說,Skype網(wǎng)絡(luò)語音聊天音頻的長(zhǎng)時(shí)平均LPC譜的共振峰走向和原音趨向于一致。以“報(bào)”字的元音部分/ao/為例,相關(guān)具體頻率和幅度值如圖5所示。
從圖5可以看出,就“報(bào)”字而言,原音和經(jīng)過Skype輸出的音頻之間共振峰走向雖然趨于一致,峰谷頻率值比較接近還是有細(xì)微的差別。
5.4.1 共振峰頻率值的差別
圖5 “報(bào)”在網(wǎng)絡(luò)語音聊天和真人聊天中的相似性
由以下圖譜我們可以清晰地看出,與QQ軟件輸出類似,經(jīng)過網(wǎng)絡(luò)語音聊天軟件傳輸后的聲音同樣出現(xiàn)了共振峰頻率差異的情況。特別是對(duì)于個(gè)別文字,例如“報(bào)”字的/ao/的第二共振峰,“標(biāo)”字的/iao/的第4共振峰等都出現(xiàn)了頻率差異較大的現(xiàn)象。
5.4.2 共振峰缺失
從表2我們同樣可以看出,在部分情況下經(jīng)過Skype軟件傳輸過后的音頻會(huì)發(fā)生共振峰缺失的現(xiàn)象。例如在發(fā)“標(biāo)”的/iao/音時(shí),Skype語音聊天出現(xiàn)了第3共振峰缺失的現(xiàn)象;發(fā)“審“的/en/音時(shí),Skype語音聊天出現(xiàn)了第4共振峰缺失的現(xiàn)象。
表2 “報(bào)”在網(wǎng)絡(luò)語音聊天和真人聊天中共振峰的差異性
在前面所有實(shí)驗(yàn)的基礎(chǔ)上,我們對(duì)所有6名參與者的原音和經(jīng)過QQ以及Skype輸出的音頻分別進(jìn)行了比較。得出的結(jié)果表明,對(duì)于經(jīng)過上述兩種網(wǎng)絡(luò)語音聊天軟件傳輸后輸出的音頻,從純聽覺上來判斷的話基本可以判斷為同一人,但是從長(zhǎng)時(shí)LPC譜以及寬帶語譜圖看來,經(jīng)過傳輸?shù)恼Z音在共振峰頻率上均發(fā)生了變化,期間伴隨共振峰缺失的現(xiàn)象發(fā)生。至于引起變化的具體原因,將在今后的實(shí)驗(yàn)中進(jìn)一步研究。
1 喬佳飛.VoIP技術(shù)簡(jiǎn)介.http://www.dingshengcn.com/bbs/MINI/Default.asp?100-2246-0-0-0-0-a-htm,2010
2 雷慶勇.淺談網(wǎng)絡(luò)寬帶電話VoIP的發(fā)展.今日科苑,2009,2(25)
3 朱海毅,周春楠.VoIP基本原理.信息技術(shù),2003,27(5)
4 郭桂林,陳禮永.電子聊天記錄作為電子證據(jù)的認(rèn)定.泰山學(xué)院學(xué)報(bào),2008,30(4)
5 熊志海.網(wǎng)絡(luò)證據(jù)的特殊性及研究?jī)r(jià)值.河北法學(xué),2008,26(6)