楊光,沙貴君
(中國刑事警察學院刑事犯罪偵查系,遼寧沈陽 100845)
語音識別樣本采集注意事項研究
楊光,沙貴君
(中國刑事警察學院刑事犯罪偵查系,遼寧沈陽 100845)
聲紋鑒定技術是一項法庭科學的新興技術,在實際應用中受檢驗對象不同狀態(tài)及獲取樣本所使用錄音設備等客觀因素的影響,偵技人員提取的樣本往往質量不佳,從而難以做出準確判斷[1]。研究不同錄音條件對聲紋鑒定的影響,通過實驗來總結出規(guī)律性的結論,提出語音鑒定采樣工作中應特別注意的環(huán)節(jié),能幫助偵技人員提高采集語音識別樣本的水平,進而提高聲紋鑒定的精準度。
語音;識別樣本;聲紋鑒定;樣本采集
隨著手機錄音功能的增加以及數(shù)字錄音器材的普及,人們可以非常方便地使用相關工具進行溝通、交流。同時,犯罪嫌疑人和被害人也在利用這些錄音設備進行相關民事和刑事行為,因此近年來涉及聲紋鑒定的案件迅速增加。但是聲紋鑒定技術屬于新興的刑事科學技術門類,偵查和相關技術人員對其認識還不夠全面,樣本提取過程中常出現(xiàn)問題,從而影響到聲紋鑒定結論的精準度[1][2]。
許多基層偵查和技術人員并不了解聲紋鑒定的相關原理,認為只要有嫌疑人的語音樣本就可以進行鑒定,因此在收集嫌疑人語音樣本時不注意所提取語音樣本的質量,從而給聲紋鑒定工作造成了諸多困難。因為聲紋鑒定檢材無法改變,并且獲得比較復雜,所以我們只能在收集提取犯罪嫌疑人語音樣本方面多做文章來提高聲紋鑒定工作的精確度。因此,當前聲紋鑒定工作的重要內(nèi)容之一便是研究和總結偵技人員在聲紋鑒定中收集提取犯罪嫌疑人語音樣本的正確方法,以此來提高所提取的語音樣本的質量[3]。
筆者做過大量檢驗鑒定工作,從實踐中發(fā)現(xiàn)以下兩方面的問題:一是不同的錄音器材的音頻特性會對檢驗鑒定中部分聲學參量產(chǎn)生一定程度的影響,最終導致對于不同的錄音器材錄制的樣本鑒定出的結果和理想的結果產(chǎn)生較大差異;二是由于發(fā)音人音量的不同,同一數(shù)字錄音器材錄制的樣本在檢驗鑒定中的聲學參量上也會產(chǎn)生差異。如果對這些差異缺乏全面深入的分析研究,簡單或者片面地把它們認定為語音的本質差異,必然會導致錯誤的鑒定結論[4]。
本研究目的是進一步闡明兩種不同錄音條件對聲學參量的影響。通過對男女各5人共兩組發(fā)音人進行一段時間的跟蹤和多次采樣,研究元音共振峰的頻率、峰值、基音三個參量在兩種不同錄音條件下的差異情況,從而總結出在不同錄音條件下應該注意的事項。
(一)實驗器材
1.硬件
實驗一:清華同方數(shù)字錄音筆一支,三星手機I900手機一部,蘋果4S手機一部,計算機一臺。
實驗二:清華同方數(shù)字錄音筆一支。
2.軟件
vs-99語音工作站(北京陽宸電子技術公司)。
(二)錄音內(nèi)容
(三)錄音對象
共10人,男性5人,女性5人,年齡為19~24歲,來自全國不同方言區(qū),普通話發(fā)音較為標準,無特殊發(fā)音習慣。
(四)實驗設計
本研究分為兩個實驗,分別針對不同錄音器材和不同音量兩種錄音條件對聲學參量的影響來進行實驗。
實驗一:發(fā)音人同時手持錄音筆、蘋果手機和三星手機,在音量大小相同狀態(tài)下,分別說出以上給定的元音和短句共六句錄音內(nèi)容,連續(xù)發(fā)音2遍,并且由三種錄音設備同時錄音,使錄音設備與嘴的距離相同,都為50厘米左右,這樣就保證了三種設備錄音的聲源一致[5]。
實驗二:發(fā)音人手持錄音筆,用正常和大聲(非喊叫)兩種語氣分別說出以上給定的元音以及短句,共六句錄音內(nèi)容,并且連續(xù)發(fā)音2遍,發(fā)音人的嘴部與錄音筆的距離保持控制在50厘米。
(五)參數(shù)設置
利用vs-99語音工作站線分析性預測譜長時平均LPC時的參數(shù)設置為8.000kHz,4位,單聲道。
(六)數(shù)據(jù)提取
選取具有代表性的5男1女共6個人,分別檢測三種錄音設備以及兩種音量錄制的語音材料中含有〔a〕、〔i〕、〔u〕等元音的共振峰頻率(Hz)和共振峰幅值(dB)以及基音走勢。統(tǒng)計并整理上述數(shù)據(jù),制成相應圖譜表格。
(一)三種不同錄音器材收集語音樣本的分析
圖1至圖3分別顯示的是隨機選取的3位發(fā)音人在錄音筆、蘋果手機和三星手機等三種錄音器材錄制下發(fā)含有〔a〕、〔i〕、〔u〕語料的共振峰頻率條形統(tǒng)計圖。(注:本研究作為理論研究擴大了共振峰采集頻率,采集的共振峰增加到F7,但實際案件中鑒定人員一般只采集到F4。)可以看出三種錄音器材檢測到的共振峰頻率各不相同,甚至出現(xiàn)了蘋果4S以及三星I900手機共振峰丟失的現(xiàn)象。
圖1 三種器材錄制發(fā)音人YG發(fā)元音〔a〕時的共振峰頻率(Hz)
圖2 三種器材錄制發(fā)音人ZCJ發(fā)元音〔i〕時的共振峰頻率(Hz)
圖3 三種器材錄制發(fā)音人WW發(fā)元音〔u〕時的共振峰頻率(Hz)
表1 兩種錄音狀態(tài)元音〔a〕第一共振峰F1幅值分析(單位:dB)
表2 兩種錄音狀態(tài)元音〔i〕第一共振峰F1幅值分析(單位:dB)
表3 兩種錄音狀態(tài)元音〔u〕第一共振峰F1幅值分析(單位:dB)
(二)兩種不同音量條件下收集語音樣本的分析
1.第一共振峰
表1至表3顯示的是6位發(fā)音人在正常和大聲這兩種不同的音量狀態(tài)下發(fā)含有元音〔a〕、〔i〕、〔u〕等語料的F1的變化情況。很明顯,除發(fā)音人WW所發(fā)含元音〔a〕的語料的F1值未變化以及含元音〔i〕的值降低以外,其他所有F1普遍升高。
2.第二共振峰
表4至表6顯示的是F2的變化情況??梢钥吹剑l(fā)音人ZCJ發(fā)元音〔i〕以及WW發(fā)元音〔u〕時略有下降外,其他情況下元音F2均有所升高。
表4 兩種錄音狀態(tài)元音〔a〕第二共振峰F2幅值分析(單位:dB)
表5 兩種錄音狀態(tài)元音〔i〕第二共振峰F2幅值分析(單位:dB)
表6 兩種錄音狀態(tài)元音〔u〕第二共振峰F2幅值分析(單位:dB)
3.基音走勢
表7至表9反映的是正常和大聲兩種錄音狀態(tài)下6個發(fā)音人說出含有元音〔a〕、〔i〕、〔u〕時的基音走勢圖??梢钥吹?,兩種不同錄音狀態(tài)下,共振峰并沒有因為音量的提高而呈現(xiàn)某種固定的變化態(tài)勢,沒有一定的規(guī)律可循。
表7 兩種錄音狀態(tài)元音〔a〕基音走勢分析
表8 兩種錄音狀態(tài)元音〔i〕基音走勢分析
表9 兩種錄音狀態(tài)元音〔u〕基音走勢分析
(一)三種不同錄音器材收集語音樣本
1.有共振峰丟失現(xiàn)象
通過三種不同錄音器材錄制的同一語音樣本共振峰頻率值的相互比較的統(tǒng)計,可以發(fā)現(xiàn)有明顯共振峰丟失現(xiàn)象出現(xiàn)。相比較而言,錄音筆錄制的語音樣本共振峰丟失的現(xiàn)象較少,這一現(xiàn)象在高頻區(qū)域特別突出。而手機的共振峰在高頻區(qū)域丟失現(xiàn)象則較為嚴重。這樣的共振峰丟失現(xiàn)象是由錄音器材自身頻率響應特性的差異形成的,性能高的器材比性能低的器材頻率響應特性更好,能夠體現(xiàn)出共振峰強度的差異。由于共振峰頻率的提取方法與其強度直接密切相關,因此錄音質量較高的錄音器材在高頻區(qū)域共振峰丟失現(xiàn)象較少,錄音質量較差的錄音器材在高頻區(qū)域共振峰丟失現(xiàn)象較多[6]。
2.同一語音樣本的同一共振峰頻率有差異
通過三種不同的常用錄音器材錄制的同一語音樣本共振峰頻率的相互比較統(tǒng)計,發(fā)現(xiàn)三種錄音設備錄制相同語音的同一共振峰頻率具有差異。其中性能較低的三星手機與性能較高的錄音筆、蘋果手機等的差別相對較大,錄音筆與蘋果手機等高性能的錄音器材相互之間的共振峰頻率差異相對較小。
歸類總結三種常用錄音設備的差異對這些參數(shù)的影響發(fā)現(xiàn),當錄音設備性能不同時,質量較差的錄音器材所錄制語音樣本共振峰丟失現(xiàn)象較多,質量較高的錄音器材所錄制語音樣本共振峰丟失現(xiàn)象較少,而且質量較高的錄音器材的寬帶要明顯高于質量較低的器材[7]。隨著數(shù)字錄音器材和手機錄音功能的廣泛使用,在使用數(shù)字錄音器材獲取的檢材進行聲紋鑒定時應當格外慎重,盡量使用與檢材相同或性能更好的錄音設備,以便提取到高質量、檢測條件較好的語音樣本。
(二)兩種不同音量條件下收集語音樣本
1.共振峰變化
除發(fā)音人WW發(fā)元音〔a〕以及〔i〕的F1保持相等或略有降低以外,大聲說話時,三個元音的F1均有所提高。
對于F2,除發(fā)音人ZCJ發(fā)元音〔i〕以及WW發(fā)元音〔u〕時的F2略有降低以外,6個發(fā)音人發(fā)三個元音的其他F2值均有所升高。
由于聲紋研究界對F3、F4乃至更高次共振峰的規(guī)律認識還不夠深入,筆者現(xiàn)在還難以解釋其變化原因。筆者相信F3、F4的變化與語音發(fā)聲類型的變化有著密切聯(lián)系,但具體細節(jié)還有待進一步深入求證。
2.基音走勢變化
隨著音量的升高,三個元音的基因走勢沒有固定的趨勢,并沒有因為音量的提高而產(chǎn)生某種具有規(guī)律性的變化方式。通過以上分析可知,大聲說話時的語音聲學參數(shù)并非正常說話時的簡單成倍放大,其語圖也不能通過正常語音簡單的聲強轉換得到。這是因為兩種不同音量下的錄音樣本不僅在聲強上存在差異,而且在頻率域上也產(chǎn)生了很大的變化,同時高次的共振峰的變化情況規(guī)律并不統(tǒng)一[8]??偨Y兩種不同音量錄音狀態(tài)對參數(shù)的影響,在對大聲與小聲等不同狀態(tài)下的語音進行對比分析時,我們應該有以下認識。
首先,元音的共振模式并未隨著音量的改變而明顯改變,三個元音之間區(qū)分度依然較好。語音頻譜在兩種狀態(tài)下發(fā)生了較大變化,相似性與穩(wěn)定性在同種狀態(tài)下較強。因此,獲取與檢材錄音同種狀態(tài)或盡量相似狀態(tài)的語音對比樣本就成為一個十分關鍵的問題[9]。
最后,本研究是在較為理想的實驗室狀態(tài)下進行的,而語音樣本提取在實踐中常常還伴隨各種其他影響因素,比如說話人的情緒不同,錄音環(huán)境差異,噪聲大小,等等。因此,鑒定中獲得與檢材錄音狀態(tài)盡可能一致或相似的比對樣本是極為重要的一步。
現(xiàn)場語音檢材不易改變且較為復雜,想要提高聲紋鑒定工作的精確度就只能在收集提取嫌疑人語音樣本上多做文章[10]。希望此文能加深偵查技術人員對聲紋識別樣本提取的了解,在收集嫌疑人聲音樣本時重視所收集語音樣本的質量,注意錄制時使嫌疑人講話的語速快慢、音量大小與現(xiàn)場檢材盡量保持一致,同時,對所使用的錄音器材也要加以選擇,盡量使用高質量或者與錄制檢材相同的錄音器材,以便提取高質量的語音識別樣本,使鑒定工作減少干擾因素,以提高聲紋鑒定的準確性。
[1]譚超英.淺談聲紋鑒定中語音樣本的提?。跩].廣西公安管理干部學院學報,2003(4):39-41.
[2]崔效義,李敬陽.聲紋鑒定[J].刑事技術,1993(1):1-5.
[3]李敬陽.廣州話語音聲紋鑒定中的量化分析研究[J].刑事技術,2005(6):6-8.
[4]吳新原.數(shù)字錄音筆的音頻特性對聲紋鑒定中主要聲學參量的影響[J].中國人民公安大學學報,2007(4):20-22.
[5]曹洪林,劉建偉.正常、大聲兩種說話狀態(tài)下語音的聲學差異及對聲紋鑒定的影響[J].證據(jù)科學,2009(6):754-763.
[6]李敬陽,崔效義,王莉,馮祖煒.三種不同錄音器材錄制的電話對聲紋鑒定的影響[C]//中國中文信息學會.新世紀的現(xiàn)代語言學——第五屆全國現(xiàn)代語言學術會議論文集.北京:清華大學出版社,2001:372-373.
[7]達釗,李倩,郭霞生,等.不同錄音系統(tǒng)對聲紋檢測的影響[J].南京大學學報,2011(3):202-207.
[8]張亮.聲紋證據(jù)的應用[J].中國人民公安大學學報,2002(4):70-72.
[9]閻萍.聲紋鑒定及其在偵查破案中的作用[J].遼寧警專學報,2008(1):70-72.
[10]黃燕芳.聲紋樣本收集過程中存在的問題和解決方法[J].鐵道警官高等專科學校學報,2007(3):95-96.
責任編輯:馬克
D631
A
1009-3192(2016)05-0054-04
2016-05-10
楊光,男,湖北仙桃人,中國刑事警察學院刑事犯罪偵查專業(yè)2015級碩士研究生;沙貴君,男,黑龍江樺南人,中國刑事警察學院刑事犯罪偵查系副主任教授,碩士研究生導師,主要從事現(xiàn)場勘查研究。