張翠玲蘇 斌
(1 中國刑警學(xué)院 遼寧 沈陽 110035;2 揚州市公安局開發(fā)區(qū)分局 江蘇 揚州 225009)
共振峰動態(tài)特征在法庭話者鑒別中的應(yīng)用研究
張翠玲1蘇 斌2
(1 中國刑警學(xué)院 遼寧 沈陽 110035;2 揚州市公安局開發(fā)區(qū)分局 江蘇 揚州 225009)
采用似然率方法對漢語兩個復(fù)合元音的共振峰動態(tài)特征進(jìn)行了量化分析和話者區(qū)分測試研究。對20位女性發(fā)音人正常狀態(tài)下的兩次發(fā)音進(jìn)行比較研究,以/ai/和/iao/兩個元音為代表,測量每位發(fā)音人兩個元音的前三個共振峰的起點、中點和終點的頻率值進(jìn)行統(tǒng)計分析。采用似然率方法進(jìn)行話者區(qū)分測試,進(jìn)而對元音共振峰的動態(tài)性及其在話者鑒別中的作用進(jìn)行了綜合評價。
共振峰 話者鑒別 似然率 動態(tài)性
元音和濁輔音的共振峰形態(tài)、走向和頻率特征反映了發(fā)音人語音特異性,是進(jìn)行話者區(qū)分最重要的依據(jù)。因此,國內(nèi)外的法庭語音學(xué)家一直都很重視共振峰參數(shù)信息的提取。
在進(jìn)行共振峰測量時,傳統(tǒng)的做法都是測量某一元音段的共振峰頻率均值。但是,這些平均后的測量結(jié)果不足以充分反映發(fā)音人特有的共振峰動態(tài)軌跡信息。因此,如何有效提取語音共振峰的動態(tài)信息對于話者鑒別來說是極為重要的。
長久以來,法庭話者鑒別技術(shù)一直停留在人工的形態(tài)比較和簡單的數(shù)值比較上。然而,由于語音具有較大的變異性,同一發(fā)音人自身的幾次發(fā)音也會有差異,這就決定了只是簡單地依靠相似性比較而得出同一認(rèn)定或否定排除的結(jié)論未免缺乏準(zhǔn)確性和可靠性。國內(nèi)外的統(tǒng)計學(xué)家早就意識到了這一問題,因而提出在法庭證據(jù)價值的評價上應(yīng)引入概率估計。DNA在這方面已經(jīng)做出了很好的范例,似然率方法在DNA證據(jù)上的分析和評判上已經(jīng)獲得成功。
按照1993年美國高院規(guī)定的Daubert準(zhǔn)則,法庭證據(jù)的檢驗方法必須經(jīng)過測試而且錯誤率已知。順應(yīng)這一要求,近十年來,法庭語音學(xué)家效仿DNA分析技術(shù),開始將似然率評價體系引入法庭語音的比較,目前已經(jīng)取得了很好的效果。就法庭語音比較而言,需要確定檢材(通常是罪犯的語音)和樣本(通常是嫌疑人的語音)的相似性或差異性究竟是來源于同一話者還是來源于不同話者,對于類似的不確定事件,使用概率估計是最好的解決方法。
似然率方法不僅要考慮檢材和樣本的相似和差異情況,還要參考檢材和樣本的特征在背景人群中的概率分布情況,最后計算出這些特征來源于同一個人的概率是來源于不同人的概率的多少倍。在話者鑒別技術(shù)中,似然率就是語音檢材和樣本來源于同一話者的假設(shè)為真的證據(jù)概率與二者來源于不同話者假設(shè)為真的證據(jù)概率的比值。其計算公式如(1)所示:
其中,LR(Likelihood Ratio)代表似然率,p代表概率,Hso為同源假設(shè)(起訴假設(shè)),Hdo為非同源假設(shè)(辯護(hù)假設(shè)),E為法庭語音比較的證據(jù)。似然率實際上是相似程度 (Similarity)和典型程度(Typicality)的比率。LR值大于1表明支持起訴假設(shè)(檢材與樣本同源);小于1表明支持辯護(hù)假設(shè)(檢材與樣本非同源);等于1表明支持起訴假設(shè)和支持辯護(hù)假設(shè)的程度是相等的,也可以理解為既不支持起訴假設(shè)也不支持辯護(hù)假設(shè),因此沒有價值。在實際語音案件中,如果得到的似然率LR值為1000,即同源假設(shè)條件下獲得檢材和樣本之間差異(或相似)的概率與非同源假設(shè)條件下獲得檢材和樣本之間差異(或相似)的概率比值為1000,那么,它的含義就是:不管在引入該語音證據(jù)之前你的信心如何,現(xiàn)在你應(yīng)該1000倍地相信檢材語音和樣本語音來源于同一個人。
2.1 語料錄制
本文以二合元音/ai/和三合元音/iao/為代表,各選取20個詞組作為發(fā)音文本。發(fā)音采用朗讀語體進(jìn)行,形式為:“哀,哀怨的哀;要,要挾的要”等,字調(diào)均為陰平。發(fā)音人是中國刑警學(xué)院的20位女學(xué)生,年齡在21~24歲之間,普通話比較標(biāo)準(zhǔn),沒有明顯的方言特征或言語障礙。實驗室條件錄音,采用Cooledit2.0軟件進(jìn)行麥克直錄,采樣率16KHz。錄音分兩次進(jìn)行,時間間隔為一周。
2.2 測量方法
采用Praat語音分析軟件對每位發(fā)音人兩次發(fā)音的語音樣本進(jìn)行聲學(xué)分析,采用人工手動測量的方法測量/ai/和/iao/兩個元音的前四個共振峰在三點(起點、中點、終點)的頻率值(見圖1)。每個發(fā)音人/ai/和/iao/測量的音節(jié)數(shù)均為20。
圖1 /iao/的共振峰測量方法
2.3 統(tǒng)計分析
將所有20個發(fā)音人兩次發(fā)音的/ai/和/iao/的三點共振峰數(shù)據(jù)進(jìn)行比較分析。考慮到實際案件條件下語音檢材多為電話錄音,受傳輸帶寬所限,通常只有前三個共振峰可以利用。因此我們僅對兩個元音的前三個共振峰進(jìn)行了同一話者的語音對和不同話者語音對的似然率比較分析。
似然率的計算采用Aitken和Lucy等人提出的多變量核密度似然率(Multivariate Kernel Density LR,MVLR)計算公式。該公式分為分子和分母兩部分:分子用來評價檢材和樣本的相似性(也可以理解為差異性),分母用來評價二者的特征相對于背景參考人群的典型性。
3.1 /ai/的話者區(qū)分能力測試
3.1.1 三點比較分析
使用似然率作為功能函數(shù)對大量同一話者和不同話者的語音對進(jìn)行測試時,同一話者語音對的LR值應(yīng)大于1,而不同話者語音對的LR值應(yīng)小于1。LR值的大小表明數(shù)據(jù)本身內(nèi)在的區(qū)分能力。話者區(qū)分測試的結(jié)果一般用可靠性函數(shù)圖譜來表示(以下簡稱Tippett圖)。它表示的是對同一話者語音對和不同話者語音對的log10LR值的累積分布。其中,橫坐標(biāo)是以10為底的LR的對數(shù)值。向右遞增的曲線為同一話者測試,表示Log10LR值大于或等于對應(yīng)橫坐標(biāo)Log10LR值時同一話者比較所占的比例;向左遞增的曲線為不同話者測試,表示Log10LR值小于或等于對應(yīng)橫坐標(biāo)Log10LR值的不同話者比較所占的比例。
理想的情況是:如果兩個語音樣本來自同一話者,則LR應(yīng)遠(yuǎn)遠(yuǎn)大于1,即Log10LR>>0;如果兩個語音樣本來自不同話者,則LR值應(yīng)遠(yuǎn)遠(yuǎn)小于1,Log10LR<<0;Log10LR等于0,表明來自同一話者或不同話者的程度相等,因此無意義。驗證性實驗中,由于每個語音對的歸屬是已知的,因此根據(jù)Tippett圖中同一話者和不同話者測試曲線的分布可以評測系統(tǒng)進(jìn)行話者區(qū)分的有效性,包括計算方法和參數(shù)的有效性。
為了比較三個時間點的共振峰頻率值的話者區(qū)分差異情況,我們分別對三點的頻率值進(jìn)行了測試分析。圖2、3和4分別給出了利用/ai/的起點、中點和終點進(jìn)行話者區(qū)分測試的Tippett圖。
圖2 /ai/的F1~F3起點頻率值似然率計算的Tippett圖
圖3 /ai/的F1~F3中點頻率值似然率計算的Tippett圖
三個Tippett圖中,向右傾斜的曲線表示的是同一話者的測試,向左傾斜的曲線表示的是不同話者的測試。結(jié)果表明:利用/ai/的前三個共振峰的起點頻率值進(jìn)行測試的等誤率(兩條曲線交點對應(yīng)的值)為12%(見圖2),錯誤排除(將同一話者對誤判為不同話者對)的概率為15%,錯誤認(rèn)定(將不同話者對誤判為同一話者對)的概率9.1%。利用/ai/的前三個共振峰的中點頻率值進(jìn)行測試的等誤率也是12%(見圖3),錯誤排除的概率為17%,錯誤認(rèn)定的概率為10.2%。利用/ai/的前三個共振峰的終點頻率值進(jìn)行測試的等誤率為9.2%(見圖4),錯誤排除的概率為9.5%,錯誤認(rèn)定的概率為9.2%。
圖4 /ai/的F1~F3終點頻率值似然率計算的Tippett圖
綜合/ai/的前三個共振峰三點分別測試的結(jié)果來看,僅提取一點的共振峰頻率值的區(qū)分效果大體相似,終點值的區(qū)分效果略好于起點值和中點值。這一點從/ai/的寬帶語圖中也可以得到解釋,即該元音從起點到中點的變化相對較小,動態(tài)性不明顯;而從中點到終點的變化較大,動態(tài)性很強。由此可見,動態(tài)性越強,話者區(qū)分的效果越好。
3.1.2 三點綜合分析
為了檢驗/ai/的前三個共振峰三個時間點頻率值的綜合效果,我們又進(jìn)行了三點頻率值的綜合分析,即每個話者元音起點、中點和終點的前三個共振峰的頻率值共9個參數(shù)值合并統(tǒng)計,結(jié)果見圖5。
圖5 /ai/的F1~F3三點頻率值似然率計算的Tippett圖
由圖5可知,同一話者的測試曲線和不同話者的測試曲線已經(jīng)完全分開,沒有交點,即等誤率為0。這意味著利用/ai/的9個共振峰數(shù)據(jù)已經(jīng)將同一話者對和不同話者對全部區(qū)分開來。另外,從不同話者的測試曲線可以看出,將不同話者對誤判為同一話者對的概率為1%,即錯誤認(rèn)定的概率為1%;從同一話者的測試曲線可以看出,將同一話者對誤判為不同話者對的概率為0,即錯誤排除的概率為0。由此可見,對于/ai/而言,前三個共振峰的起點、中點和終點的頻率值已經(jīng)足以進(jìn)行話者的有效區(qū)分,區(qū)分效果非常理想。
與三點分別統(tǒng)計的結(jié)果比較而言,將/ai/的前三個共振峰頻率的起點值、中點值和終點值合并分析時,話者區(qū)分的效果明顯提高,等誤率及同源/非同源區(qū)分的錯誤率都明顯降低。這表明動態(tài)特征的數(shù)據(jù)越多,話者區(qū)分的效果越好。多點測量的數(shù)據(jù)分析結(jié)果明顯好于任何一點測量的數(shù)據(jù)或者平均頻率值。先前對于單元音的話者區(qū)分能力進(jìn)行測試的研究結(jié)果表明了很有限的話者區(qū)分能力,利用單個元音(/i/、/ü/、/a/、/e/)的共振峰頻率的平均值統(tǒng)計的話者區(qū)分的等誤率基本上都在20%以上。這足以說明元音共振峰的動態(tài)軌跡特征在話者鑒別中的重要價值。因此,可以推斷:采用共振峰動態(tài)軌跡追蹤技術(shù)將提取更多的動態(tài)信息,話者區(qū)分的效果將會更好。
3.2 /iao/的話者區(qū)分能力測試
圖6 /iao/的F1~F3起點頻率值似然率計算的Tippett圖
圖7 /iao/的F1~F3中點頻率值似然率計算的Tippett圖
采用與3.1中同樣的分析方法對/iao/的前三個共振峰頻率的起點值、中點值和終點值進(jìn)行測試分析。結(jié)果見圖6-9,其中,圖6-8是分別利用/iao/的前三個共振峰的起點、中點和終點頻率值計算得到的Tippett圖。
測試結(jié)果表明:利用/iao/的前三個共振峰的起點頻率值進(jìn)行話者區(qū)分的等誤率為0,錯誤排除率為4.5%,錯誤認(rèn)定率0。利用/iao/的前三個共振峰的中點頻率值進(jìn)行話者區(qū)分的等誤率為6.2%,錯誤排除率為5%,錯誤認(rèn)定率為7.5%。利用/iao/的前三個共振峰的終點頻率值進(jìn)行測試的等誤率為5.5%,錯誤排除率為5.4%,錯誤認(rèn)定率為7.5%。與/ai/相反,起點值的區(qū)分效果明顯好于中點和終點。而中點的效果最差。
圖8 /iao/的F1~F3終點頻率值似然率計算的Tippett圖
圖9是/iao/的前三個共振峰頻率的起點值、中點值和終點值合并似然率計算的Tippett圖。結(jié)果表明:三點綜合分析的等誤率為0,錯誤排除和錯誤認(rèn)定的概率均為0。同一話者對與不同話者對完全區(qū)分開來,沒有一例錯判,正識率為100%。
圖9 /iao/的F1~F3三點頻率值似然率計算的Tippett圖
綜合/iao/的前三個共振峰頻率值的測試結(jié)果發(fā)現(xiàn),與/ai/的測試結(jié)果相似,三點綜合分析的效果明顯優(yōu)于任意一點單獨分析的結(jié)果。不同的是,/iao/的共振峰由起點到中點軌跡的動態(tài)性明顯高于中點到終點,所以其起點的區(qū)分效果好于中點和終點。這和/ai/的分析結(jié)論是一致的。
3.3 /ai/、/iao/比較
表中列出了利用/ai/和/iao/的前三個共振峰的三點頻率值進(jìn)行話者區(qū)分測試的比較結(jié)果。其中,ERR代表等誤率,SS代表相同話者對錯判的概率,DS代表不同話者對錯判的概率。
表 /ai/和/iao/的話者區(qū)分測試結(jié)果(%)
從兩個元音進(jìn)行話者區(qū)分測試的結(jié)果來看:對于/ai/來說,不論是三個點的綜合分析還是各個點單獨分析,同一話者對錯判(即錯誤排除)的概率都高于不同話者對錯判(即錯誤認(rèn)定)的概率。而對于/iao/來說,除起點以外,不同話者對錯判的概率略高一些。此外,從Tippett圖的曲線分布來看,兩個元音的同一話者比較的數(shù)據(jù)比較集中,而不同話者比較的數(shù)據(jù)則分散得多,這應(yīng)該是來源于較大的話者之間差異所致。
從總的結(jié)果看,兩個元音測試的等誤率均為0,這說明兩個元音的話者區(qū)分能力是很強的,話者區(qū)分的效果非常理想。當(dāng)然,比較而言,/iao/的話者區(qū)分效果明顯好于/ai/,這應(yīng)該是由于/iao/比/ai/的共振峰軌跡變化幅度更大,動態(tài)性更強所致。無論是/ai/還是/iao/,當(dāng)起點、中點、終點分別做話者區(qū)分能力測試時,其等誤率和同源/非同源區(qū)分的錯誤率都較高;將所有點進(jìn)行綜合測試時,其各種錯誤率大大降低。即三個點綜合分析的效果明顯好于單個點的比較,這說明進(jìn)行話者比較時應(yīng)該選取盡量多的測量點或參數(shù)。特征點越多,話者的特異性越強,越容易區(qū)分。
本文采用似然率的分析方法,對20名女性發(fā)音人的/ai/和/iao/兩個元音進(jìn)行了話者區(qū)分的測試分析。對前三個共振峰起點、中點和終點的頻率值進(jìn)行似然率分析的結(jié)果表明了兩個元音的話者區(qū)分能力及效果。研究表明,共振峰的動態(tài)性對話者鑒別來說是極為重要的,動態(tài)性越強,話者區(qū)分的效果越好,因此三合元音和二合元音的話者區(qū)分效果好于單元音。此外,多點測量優(yōu)于單點測量,特征參數(shù)越多,話者區(qū)分的效果越好。在連續(xù)語流中,單元音也會表現(xiàn)一定的動態(tài)性,因此僅僅測量共振峰的頻率均值進(jìn)行話者鑒別是不夠的。利用共振峰軌跡追蹤技術(shù),應(yīng)該會取得更好的區(qū)分效果。
目前的測試結(jié)果表明了兩個元音具有很強的話者區(qū)分能力,其他元音的話者區(qū)分能力還有待進(jìn)一步測試。本研究測試的是實驗室條件下的朗讀語料,而且音節(jié)前后環(huán)境基本相同。實際案件條件下的自然口語語料的區(qū)分效果應(yīng)該會有所減弱,但是結(jié)果如何還有待測試。此外,本實驗的測試對象均為女性發(fā)音人,一般而言,女性語音由于基頻較高,聲學(xué)顯示較男性語音差,聲學(xué)測量有一定難度。如果對男性語音進(jìn)行測試,效果應(yīng)該會更好。
本研究的意義在于量化分析共振峰的動態(tài)性及其在話者鑒別中的作用,而不是單純比較兩個元音的動態(tài)性。似然率分析方法為共振峰的動態(tài)性在話者鑒別中的應(yīng)用價值提供了客觀的量化評價結(jié)果,這有利于提高法庭話者鑒別方法的定量化和標(biāo)準(zhǔn)化,促進(jìn)法庭話者鑒別客觀化和科學(xué)化進(jìn)程。
1.Aitken,C.G.G.,Taroni F.2004.Statistics and the Evaluation of Evidence forForensic Scientists. Chichester,U.K.:Wiley
2.Baldwin,D.J.2005.Weight of Evidence for ForensicDNAProfiles.Chichester,U.K.:Wiley
3.Daubert,U.S.SupremeCourt.1993.Daubert v.MerrellDowPharmaceuticals,Inc.113SCr2786
4.RodriguezJ.G.,RoseP,etal.2007.Emulating DNA:rigorous quantification of evidential weight in transparent and testable forensic speaker recognition.IEEE Transactions on Audio, Speech, and Language Processing, IEEE Signal Processing Society,15(7):2104-2115
5.Rose P.2003.The technical comparison of forensic voice samples, Expert Evidence,Issue 99:Thomson,Sydney,Australia
6.Kinoshita Y.2001.Testing realistic forensic speaker identification in Japanese: a likelihood ratio-based approach using formants.Ph.D.thesis,Australian National University
7.RoseP,OsanaiT,KinoshitaY.2003.Strength of forensic speaker identification evidence:multispeaker formant-and cepstrum-based segmental discrimination with a Bayesian likelihood ratio as threshold.Speech LanguageandtheLaw.10(2):179-202
8.Rose,P.2007.Forensicspeakerdiscrimination with Australian English vowel acoustics,Proceedings of the 16th International Congress of Phonetic Sciences. Universit?t de Saarlandes, Saarbrücken,Germany:1817-1820.
9.Morrison.G.S.2008.Forensicvoicecomparison using likelihood ratiosbased on polynomial curvesfitted to the formant trajectories of Australian English/aI/,InternationalJournalofSpeech,Language and the Law.15:247-264
10.Morrison,G.S.2009.Likelihood-ratiofor nsic voice comparison using parametric representations of the formant trajectories of diphthongs.Journal of the AcousticalSocietyofAmerica,125:2387-2397
11.Aitken,C.G.G,Lucy,D.2004.Evaluation ofTrace Evidence in the Form ofMultivariate Data. AppliedStatistics.Vol.54:109-22
12.Morrison,G.S.Matlab implementation of Aitken&Lucy’s(2004)forensiclikelihood-ratio software using multivariate-kernel-density estimation,software versionof17July2008,http://geoff-morrison.net/
13.Zhang C.,Morrison G.S.,Rose,P.2008.Forensic speaker recognition in Chinese:A multivariate likelihood ratio discrimination on /i/ and /y/,Proceedings of Interspeech 2008 Incorporating SST.International Speech Communication Association:1937-1940
14.MorrisonG.S.,ZhangC.,Rose,P.2011.An empiricalestimateoftheprecisionoflikelihoodratiosfroma forensic-voice-comparisonsystem.SubmittedforForensic ScienceInternational,Vol,2008:59-65