張翠玲, 丁 盼
(1.西南政法大學(xué)刑事偵查學(xué)院, 重慶 401120; 2.重慶高校刑事科學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室, 重慶 401120)
法庭說話人識別是指對案件中的未知語音(也稱檢材語音)和嫌疑人語音(也稱樣本語音)進(jìn)行比較鑒別,來推斷二者的同源性,進(jìn)而為法庭提供線索和證據(jù)的一門技術(shù)[1]。法庭說話人識別技術(shù)是說話人識別技術(shù)在司法領(lǐng)域中的應(yīng)用。隨著語音自動識別技術(shù)和說話人自動識別技術(shù)的飛速發(fā)展,這些自動識別技術(shù)和方法也被借鑒到司法語音領(lǐng)域,但是與一般應(yīng)用場景的說話人自動識別技術(shù)不同,法庭說話人自動識別由于其應(yīng)用場景的特殊性,在語音數(shù)據(jù)、識別方法和框架體系上均具有自身的獨(dú)特性。
隨著語音識別技術(shù)進(jìn)入了深度學(xué)習(xí)時(shí)代,法庭說話人識別技術(shù)也迎來了技術(shù)革新,即由傳統(tǒng)的、以專家主觀檢驗(yàn)為主的聽覺感知、圖譜比較和聲學(xué)-語音學(xué)方法向更加高效、省力及客觀的自動識別方法轉(zhuǎn)變。由傳統(tǒng)的基于人工專家檢驗(yàn)的聲學(xué)-語音學(xué)識別發(fā)展為專家監(jiān)督下的法庭說話人自動識別是司法語音領(lǐng)域的技術(shù)進(jìn)步和發(fā)展方向。但是,無論使用傳統(tǒng)的說話人識別方法,還是自動說話人識別方法,檢驗(yàn)識別的程序方法和結(jié)果都應(yīng)滿足法庭對證據(jù)的科學(xué)性要求[2-3]。近年來,基于似然比框架的法庭語音證據(jù)評價(jià)體系在國際上逐漸得到了普遍認(rèn)可和實(shí)施[4-6],因?yàn)橐愿怕试u價(jià)為基礎(chǔ)的似然比框架方法不僅更符合法庭統(tǒng)計(jì)推理的邏輯規(guī)則,而且可以對證據(jù)的價(jià)值及其所使用方法系統(tǒng)的準(zhǔn)確性和可靠性進(jìn)行客觀的量化評估。
國際上,關(guān)于法庭說話人自動識別系統(tǒng)的驗(yàn)證程序與方法已存在部分成果。Morrison和Enzinger基于似然比框架體系制定了統(tǒng)一的系統(tǒng)性能評價(jià)規(guī)則,并提供了一個(gè)反映現(xiàn)實(shí)案件條件的法庭語音數(shù)據(jù)庫,組織多個(gè)實(shí)驗(yàn)室開展了法庭說話人自動識別系統(tǒng)的性能驗(yàn)證測試[7]。參與驗(yàn)證測試的9個(gè)自動識別系統(tǒng)采用的算法模型主要包括高斯混合通用背景模型GMM-UBM(Gaussian Mixed Model-Universal Background Model)、i-vector PLDA(Identification Vector -Probabilistic Linear Discriminant Analysis)模型和深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)模型。驗(yàn)證結(jié)果表明,基于i-vector PLDA的系統(tǒng)識別性能優(yōu)于GMM-UBM系統(tǒng),而基于DNN模型的系統(tǒng)識別性能最佳[8]。最近,來自十幾個(gè)國家的司法語音專家就法庭說話人識別的驗(yàn)證方法發(fā)表了共識聲明,倡導(dǎo)在似然比統(tǒng)一框架內(nèi),基于能夠反映案件現(xiàn)實(shí)條件的語音數(shù)據(jù)庫開展法庭說話人識別的方法系統(tǒng)驗(yàn)證[9]。
在國內(nèi),基于似然比方法的法庭說話人自動識別系統(tǒng)的性能評價(jià)研究正在不斷推進(jìn)。王華朋等基于似然比框架體系提出了一種基于GMM-UBM模型的法庭自動說話人識別系統(tǒng)改進(jìn)方法,通過以小型參考背景人群模型代替UBM的方法,降低了識別系統(tǒng)對嫌疑人語音樣本數(shù)量的需求[10]。除此之外,王華朋和張翠玲使用GFCC(Gammatone Frequency Cepstral Coefficient)特征與主成分分析方法,對基于似然比框架的法庭說話人識別系統(tǒng)的抗噪特性進(jìn)行了探究[11]。近幾年,張翠玲團(tuán)隊(duì)使用似然比證據(jù)評價(jià)體系分別對基于LPCC、MFCC等語音自動識別參數(shù)的說話人識別系統(tǒng)性能進(jìn)行了探索[12-14],并在現(xiàn)實(shí)案件條件下對法庭說話人自動識別系統(tǒng)進(jìn)行了系列驗(yàn)證測試[15-16]。這些研究為國內(nèi)法庭說話人自動識別系統(tǒng)的改進(jìn)提升提供了重要參考依據(jù)。
綜合來看,國內(nèi)在法庭說話人自動識別系統(tǒng)的研究方面已經(jīng)取得了很大進(jìn)步,但是由于案件場景的多樣性和復(fù)雜性,還需要對更多的場景數(shù)據(jù)和模型系統(tǒng)進(jìn)行驗(yàn)證測試和比較研究。為了客觀評價(jià)說話人自動識別系統(tǒng)的準(zhǔn)確性和可靠性,同時(shí)滿足自動識別系統(tǒng)模型訓(xùn)練的大量數(shù)據(jù)需求,本研究選用牛津大學(xué)在2017年和2018年發(fā)布的開源音視頻數(shù)據(jù)集VoxCeleb1[17]和VoxCeleb2[18]作為自動識別系統(tǒng)的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),利用深度神經(jīng)網(wǎng)絡(luò)方法提取語音特征,并構(gòu)建了基于d-vector PLDA模型的法庭說話人自動識別系統(tǒng),然后基于似然比證據(jù)評價(jià)體系對法庭說話人自動識別系統(tǒng)的性能進(jìn)行驗(yàn)證測試。利用開源數(shù)據(jù)集進(jìn)行測試不僅可以保證數(shù)據(jù)的透明性和多樣性,而且便于不同系統(tǒng)間的橫向比較,有利于推動法庭說話人自動識別技術(shù)的進(jìn)步與發(fā)展。
首先對全部音頻進(jìn)行語音活性檢測(Voice Activity Detection,VAD),逐幀判斷音頻是否屬于人聲,將所有音頻區(qū)分為語音段和非語音段。然后,在語音段上提取23維的FBank(Filter Banks)特征,提取的幀長為25 ms,幀移為10 ms。
使用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)提取說話人身份向量時(shí),一般使用FBank作為前端特征。FBank特征的提取步驟與MFCC特征基本一致,需要經(jīng)過預(yù)加重、分幀、加窗、短時(shí)傅里葉變換(Short-term Fourier Transform,STFT)、Mel濾波、去均值等操作,MFCC特征的獲取則需要在Fbank特征的基礎(chǔ)上進(jìn)行離散余弦變換(Discrete Cosine Transform,DCT)。因此相較于MFCC特征,F(xiàn)Bank特征的獲取計(jì)算量更小,且包含更多信息,特征相關(guān)性更高,更適合在深度神經(jīng)網(wǎng)絡(luò)模型中作為輸入特征使用。
近些年,基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建說話人識別模型已經(jīng)成為主流選擇。隨著技術(shù)的不斷發(fā)展,法庭說話人自動識別中使用的特征參數(shù)和模型算法也在不斷更新。從高斯混合通用背景模型(GMM-UBM)[19]到分別對說話人和信道空間建模的聯(lián)合因子分析(JFA)[20],以及使用全局差異空間代替本征空間和信道空間的i-vector向量[21],再到基于深度神經(jīng)網(wǎng)絡(luò)提取能夠表征說話人特征的embedding,如j-vector[22]、d-vector[23]和x-vector[24-25]等,法庭說話人自動識別技術(shù)已經(jīng)進(jìn)入了深度學(xué)習(xí)時(shí)代。Variani研究了深度神經(jīng)網(wǎng)絡(luò)(DNN)在小型文本相關(guān)的說話人驗(yàn)證任務(wù)的應(yīng)用,發(fā)現(xiàn)相較于i-vector向量特征,基于DNN的d-vector說話人識別模型在說話人識別方面表現(xiàn)出了更好的性能[23]。
基于此,本文選用基于深度神經(jīng)網(wǎng)絡(luò)的d-vector說話人識別模型。系統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選用時(shí)延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network,TDNN)[26],一方面因?yàn)槎鄬拥腡DNN具有較強(qiáng)的抽象能力,另一方面在于其能夠使網(wǎng)絡(luò)學(xué)習(xí)到語音信號的時(shí)序性結(jié)構(gòu)信息。d-vector是一種句子級別(utterance-level)的深度說話人識別向量,由深度網(wǎng)絡(luò)的特征提取層(隱藏層)輸出幀級別的說話人特征,并以合并平均的方式得到句子級別表示的向量特征。本文中d-vector的獲取是在深度神經(jīng)網(wǎng)絡(luò)模型中使用標(biāo)準(zhǔn)前饋傳播計(jì)算最后一個(gè)隱藏層的輸出激活值,再將激活值累積起來后得到。選用全連接層中的最后一個(gè)隱藏層輸出embedding而未使用softmax輸出層,其原因在于輸出層的減少可以有效縮減DNN模型的規(guī)模并縮短運(yùn)行時(shí)間,且最后一個(gè)隱藏層的輸出特征可以更好地概括未知說話人的特征。
基于深度神經(jīng)網(wǎng)絡(luò)的d-vector向量提取過程見圖1。
圖1 基于DNN的d-vector特征提取
系統(tǒng)使用概率線性判別分析(Probabilistic Linear Discriminant Analysis,PLDA)進(jìn)行降維和信道補(bǔ)償。PLDA是概率形式的線性判別分析(Linear Discriminant Analysis,LDA)[27],它既是一種降維方法,也是一種信道補(bǔ)償方法,而且其信道補(bǔ)償能力相較于LDA更優(yōu)。PLDA自適應(yīng)可以補(bǔ)償實(shí)際數(shù)據(jù)與已經(jīng)訓(xùn)練模型中聲學(xué)條件不匹配的問題,從而進(jìn)一步提升識別性能。
在說話人識別中,假設(shè)訓(xùn)練語音數(shù)據(jù)由m個(gè)說話人的語音組成,其中每個(gè)說話人有n段自己不同的語音。那么,定義第m個(gè)人的第n條語音為Xmn。根據(jù)因子分析,則Xmn的生成模型為下式(1):
Xmn=μ+Fhm+Gwmn+εmn
(1)
式(1)中,μ表示全部訓(xùn)練語音數(shù)據(jù)的均值;F可視為身份空間,包含了各種可表示說話人的信息;hm可視為某一具體的說話人身份(即說話人在身份空間中的位置);G可視為誤差空間,包含了可表征同一說話人語音變化的信息;wmn表示的是在誤差空間中的位置;εmn用來表示隨機(jī)誤差,該項(xiàng)為零均值高斯分布。該模型實(shí)際上主要由兩部分組成,等號右側(cè)的前兩項(xiàng)可視為信號部分,該部分僅與說話人有關(guān),而與說話人具體的某條語音無關(guān),主要用于描述說話人之間的差異。等號右側(cè)的后兩項(xiàng)可視為噪音部分,用于描述同一說話人的不同語音之間的差異。上述兩個(gè)假想變量可以描述一條語音的數(shù)據(jù)結(jié)構(gòu),PLDA模型訓(xùn)練的目標(biāo)就是輸入一堆數(shù)據(jù)Xmn,輸出可以最大程度上表示該數(shù)據(jù)集的參數(shù)θ=[μ,F,G,ε],hm可以看做是Xmn在說話人空間中的特征表示,隱藏變量hm和wmn可通過期望最大化(Expectation-Maximum,EM)算法進(jìn)行求解。EM算法是一種迭代優(yōu)化策略,可以在數(shù)據(jù)不完全的情況下實(shí)現(xiàn)參數(shù)預(yù)測[28]。EM算法的每次迭代都分為兩個(gè)步驟——期望步(E步)和極大步(M步),期望步依靠觀測值對隱含變量的分布情況進(jìn)行計(jì)算,極大步依靠隱含變量的分布來估計(jì)新的模型參數(shù),通過E步和M步對隱含數(shù)據(jù)和模型分布的參數(shù)進(jìn)行不斷迭代更新,最終收斂得到需要的模型參數(shù)。
在識別打分階段,兩條語音的hm特征相同的似然度越大,這兩條語音就更可能屬于同一個(gè)說話人。式(2)為PLDA似然度得分計(jì)算公式,x1和x2分別為兩個(gè)語音的d-vector矢量,Hss代表檢材語音與樣本語音的embeddings來自同一空間的假設(shè),Hds代表檢材語音與樣本語音的embeddings來自不同空間的假設(shè),對數(shù)似然比的得分score可衡量兩條語音的相似程度。score值越大,檢材語音與樣本語音來自同一說話人的概率越大。
(2)
通過PLDA計(jì)算出兩條語音的得分后,將得分值通過邏輯回歸算法轉(zhuǎn)換為似然比LR,然后對系統(tǒng)識別性能進(jìn)行評估。具體流程見圖2。
圖2 d-vector說話人識別系統(tǒng)的似然比計(jì)算
VoxCeleb1[17]和VoxCeleb2[18]數(shù)據(jù)集中的音頻全部采自YouTube上的視頻,音頻獲取方式為首先提取視頻中的音頻,然后按照說話人進(jìn)行切分,數(shù)據(jù)集與文本無關(guān)。說話人性別相對均衡,發(fā)音人年齡、種族、口音、職業(yè)等較為多元。數(shù)據(jù)集語音的來源視頻一般包含多個(gè)人聲,且拍攝情況相對復(fù)雜,涵蓋了發(fā)布會采訪、室外體育場、安靜工作室的采訪,面向廣大聽眾的演講、專業(yè)拍攝的多媒體節(jié)選以及在個(gè)人手持設(shè)備拍攝等場景。數(shù)據(jù)集中的語音帶有一定程度的真實(shí)噪聲,包括環(huán)境噪聲、室內(nèi)噪聲、笑聲、重疊語聲、回聲以及錄音設(shè)備噪音等。
VoxCeleb1數(shù)據(jù)集共包含1 251位名人的 153 516 條語音片段,數(shù)據(jù)集總時(shí)長為352 h,包含690位男性和561位女性。其中,男性發(fā)音人占總發(fā)音人的55%,語音片段的平均時(shí)長為8.2 s,最大時(shí)長為145 s,最短時(shí)長為4 s,音頻無靜音段。數(shù)據(jù)集中包含訓(xùn)練集1 211人和測試集40人,分別對應(yīng)148 642和4 874個(gè)音頻段,每人平均有116個(gè)音頻段,每人最大音頻段數(shù)量為250條,每人最小音頻段數(shù)量為45條。
相較于VoxCelex1數(shù)據(jù)集,VoxCeleb2數(shù)據(jù)集內(nèi)容更加豐富,其數(shù)據(jù)規(guī)模約為VoxCelex1數(shù)據(jù)集的5倍。該數(shù)據(jù)集中共包含6 112位名人的1 128 246條語音片段,數(shù)據(jù)集總時(shí)長為2 442 h,男性發(fā)音人有3 761人,占總發(fā)音人的61%。語音片段的平均時(shí)長為7.8 s,每位發(fā)音人平均有185個(gè)音頻段。數(shù)據(jù)集中包含訓(xùn)練集5 994人和測試集118人,分別對應(yīng)1 092 009個(gè)和36 237個(gè)音頻段。兩個(gè)數(shù)據(jù)集中的音頻采樣率為16 kHz,采樣精度為16 bit,聲道類型為單聲道,音頻存儲格式為“PCM.wav”。VoxCeleb1和VoxCeleb2數(shù)據(jù)集的詳細(xì)情況見表1。
表1 VoxCeleb1數(shù)據(jù)集VoxCeleb2數(shù)據(jù)集情況匯總表
綜合來看,這兩個(gè)數(shù)據(jù)集在環(huán)境特性(錄制場景、背景噪聲等)方面和說話人特性(口音、言語風(fēng)格[29]等)方面,基本上反映了司法實(shí)踐中檢材語音和樣本語音的實(shí)際情況。但在信道種類和采樣率方面,二者仍有一定的局限。在實(shí)際案件中,較常見的涉案原始音頻信道設(shè)備有固定電話、手機(jī)、微信、標(biāo)采設(shè)備和錄音筆信道等,語音采樣率一般有8 kHz、16 kHz、22.05 kHz、24 kHz、44.1 kHz等。因此,相較于實(shí)際案件語音的錄制條件,這兩個(gè)數(shù)據(jù)集包含的語音信道條件仍不夠多樣。除此之外,實(shí)際案件中樣本語音常見的“訊問”言語風(fēng)格語音并未體現(xiàn)在該數(shù)據(jù)集中,雖然數(shù)據(jù)集中的“自由交談”和“朗讀”言語風(fēng)格語音已能較好地模擬大部分實(shí)際案件語音的言語風(fēng)格,但仍可能對系統(tǒng)識別的準(zhǔn)確性帶來一定影響。
首先使用大規(guī)模語音數(shù)據(jù)進(jìn)行說話人識別背景模型(大模型)訓(xùn)練,然后對系統(tǒng)性能進(jìn)行驗(yàn)證測試。測試中使用的數(shù)據(jù)集有3種,分別為自適應(yīng)訓(xùn)練集、校準(zhǔn)集和測試集。使用訓(xùn)練集對PLDA模型做有監(jiān)督的自適應(yīng)訓(xùn)練,該操作可以補(bǔ)償測試集語音的言語風(fēng)格、方言特征、信道條件和錄制環(huán)境與大模型不匹配的問題,且通過對自適應(yīng)訓(xùn)練的數(shù)據(jù)進(jìn)行監(jiān)督,可以進(jìn)一步提升PLDA模型打分的穩(wěn)定性和準(zhǔn)確性。校準(zhǔn)集通過標(biāo)定數(shù)據(jù)(已標(biāo)注說話人身份的數(shù)據(jù))對PLDA模型的打分結(jié)果進(jìn)行校準(zhǔn),進(jìn)而提升系統(tǒng)識別的準(zhǔn)確性。測試集用于自動說話人識別系統(tǒng)性能的驗(yàn)證評價(jià)。
大模型的訓(xùn)練數(shù)據(jù)為VoxCeleb2數(shù)據(jù)集中 6 112 人的語音數(shù)據(jù)。系統(tǒng)自適應(yīng)訓(xùn)練集為VoxCeleb1數(shù)據(jù)集中500人的語音數(shù)據(jù),用于對PLDA模型做有監(jiān)督自適應(yīng)訓(xùn)練。校準(zhǔn)集來自VoxCeleb1數(shù)據(jù)集中測試集以外的40人語音數(shù)據(jù),通過數(shù)據(jù)標(biāo)定進(jìn)行得分誤匹配補(bǔ)償算法模型的訓(xùn)練,對PLDA分類得分進(jìn)行校準(zhǔn)。系統(tǒng)測試集選用的是VoxCeleb1數(shù)據(jù)集中自帶的40人測試集語音數(shù)據(jù),將測試集包含的所有語音進(jìn)行全交叉檢驗(yàn),得到兩兩比較的似然比值,然后計(jì)算系統(tǒng)驗(yàn)證的評價(jià)指標(biāo)。
2.3.1 對數(shù)似然比代價(jià)函數(shù)
對數(shù)似然比代價(jià)函數(shù)(Log likelihood ratio cost,Cllr)[30]作為系統(tǒng)準(zhǔn)確性評估參數(shù),是在似然比框架體系下評價(jià)法庭說話人識別系統(tǒng)性能的標(biāo)準(zhǔn)評價(jià)指標(biāo),其表達(dá)式見公式(3):
(3)
式(3)中,Ns和Nd分別是同一話者和不同話者測試對的數(shù)量,LRs和LRd分別是同一話者和不同話者測試對比較的似然比。Cllr值是系統(tǒng)的整體表現(xiàn)。Cllr值小于1,說明系統(tǒng)是有效的;Cllr值越接近于0,系統(tǒng)的準(zhǔn)確性越高。
2.3.2 等誤率
等誤率是說話人識別領(lǐng)域最常用的評價(jià)指標(biāo)。在說話人識別中,系統(tǒng)的錯(cuò)誤識別情況有兩種:一是將不同來源的語音錯(cuò)判為同源,即錯(cuò)誤接受;二是將相同來源的語音錯(cuò)判為非同源,即錯(cuò)誤拒絕。系統(tǒng)的錯(cuò)誤接受率和錯(cuò)誤拒絕率相等時(shí)為等誤率(Equal Error Rate,EER)。等誤率EER的值越小,代表系統(tǒng)的性能越好。
2.3.3 Tippett圖
Tippett圖(可靠性函數(shù)圖)是基于似然比框架的法庭說話人識別系統(tǒng)驗(yàn)證的標(biāo)準(zhǔn)圖示[31]。Tippett圖的橫軸是以10為底的對數(shù)似然比(log10LR),縱軸是同一說話人和不同說話人比較所占的比例(也可稱為概率累計(jì)分布)。Tippett圖中向右延伸的曲線代表同一說話人之間的比較,向左延伸的曲線代表不同說話人之間的比較。兩條延伸曲線的交叉點(diǎn)對應(yīng)的概率代表等誤率(EER)。兩條曲線分得越開,交叉點(diǎn)越低,識別的效果越好。
3.1.1 8 kHz采樣率語音數(shù)據(jù)的識別結(jié)果
由于現(xiàn)實(shí)案件中待檢語音材料來源于手機(jī)通話錄音的情況較為常見,為了檢驗(yàn)自動識別系統(tǒng)在案件條件下的性能表現(xiàn),首先將用于訓(xùn)練系統(tǒng)識別背景模型和評測系統(tǒng)的語音采樣率降為手機(jī)通話錄音常見的8 kHz。然后按照2.2所示的測試方法,使用6 112人的8 kHz采樣率語音訓(xùn)練說話人識別的背景模型,從選定的VoxCeleb1訓(xùn)練集中抽取300人和500人的語音數(shù)據(jù)進(jìn)行PLDA模型自適應(yīng)訓(xùn)練,選擇測試集之外的40人語音數(shù)據(jù)作為校準(zhǔn)集,使用VoxCeleb1數(shù)據(jù)集中自帶的40人測試語音數(shù)據(jù)作為測試集進(jìn)行測試評價(jià)。使用留一法將測試集中每位說話人的語音進(jìn)行交叉比較測試,該過程共產(chǎn)生了179 700個(gè)語音比較對,其中同一話者語音比較對為4 200個(gè),不同話者語音比較對為175 500個(gè)。
8 kHz采樣率語音數(shù)據(jù)的系統(tǒng)識別結(jié)果見表2。
表2 8 kHz采樣率語音數(shù)據(jù)的系統(tǒng)識別結(jié)果
表2的識別結(jié)果表明,未使用PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)Cllr值經(jīng)校準(zhǔn)后為0.874,等誤率EER的值為0.194。使用300人語音的PLDA自適應(yīng)訓(xùn)練集模型系統(tǒng)的Cllr值未進(jìn)行校準(zhǔn)的情況下為0.632,校準(zhǔn)后達(dá)到了0.273,校準(zhǔn)后的系統(tǒng)相較于未使用PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)性能提升了約69%,系統(tǒng)整體的EER值為0.070,比未進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)降低了約64%。將PLDA自適應(yīng)訓(xùn)練集規(guī)模擴(kuò)大為500人后,經(jīng)校準(zhǔn)的識別系統(tǒng)的Cllr值為0.269,EER值為0.065,與未使用PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)相比,識別性能提升了約69.2%,系統(tǒng)的EER值降低了約66%,識別效果在本組測試中達(dá)到最佳。此外,經(jīng)過校準(zhǔn)系統(tǒng)的Cllr值明顯小于未校準(zhǔn)系統(tǒng),這說明校準(zhǔn)是一個(gè)非常重要的步驟。只有經(jīng)過校準(zhǔn)的系統(tǒng),才能更好地反映系統(tǒng)的實(shí)際性能。
2.市場化程度。不管是對于城鎮(zhèn)發(fā)展還是產(chǎn)業(yè)發(fā)展來說,要素資源的合理配置都起到重要作用,而資源如果要實(shí)現(xiàn)合理配置、達(dá)到理論上帕累托最優(yōu)的狀況,就必須推進(jìn)市場化程度的提升。市場化水平的提高不但可以提升經(jīng)濟(jì)活力和發(fā)展效率,促進(jìn)產(chǎn)業(yè)轉(zhuǎn)型升級、使得勞動分工合理、加速勞動力的流動,而且也會使私有資本更多地參與到基礎(chǔ)設(shè)施和公共服務(wù)領(lǐng)域的投資,對城市功能的完善起到重要的推動作用。
8 kHz采樣率語音數(shù)據(jù)的系統(tǒng)驗(yàn)證Tippett圖見圖3~5。圖中,向右上升的曲線代表同一說話人語音的比較結(jié)果,向左上升的曲線代表不同說話人語音的比較結(jié)果。
圖3 未進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)識別結(jié)果(8 kHz采樣率語音數(shù)據(jù))
圖4 300人語音數(shù)據(jù)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識別結(jié)果(8 kHz采樣率語音數(shù)據(jù))
圖5 500人語音數(shù)據(jù)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識別結(jié)果(8 kHz采樣率語音數(shù)據(jù))
從測試結(jié)果看,基于8 kHz采樣率語音的d-vector PLDA模型系統(tǒng)的識別效果良好,但仍有提升的空間,經(jīng)校準(zhǔn)后的說話人自動識別系統(tǒng)的識別性能更優(yōu),且進(jìn)行PLDA自適應(yīng)訓(xùn)練能有效提升系統(tǒng)的識別性能。
3.1.2 16 kHz采樣率語音數(shù)據(jù)的系統(tǒng)識別結(jié)果
近年來,便攜錄音設(shè)備的發(fā)展為高質(zhì)量錄音的獲取提供了極大便利。隨著公安部門聲紋數(shù)據(jù)庫建設(shè)工作的推進(jìn),規(guī)范、統(tǒng)一的標(biāo)準(zhǔn)采集設(shè)備已經(jīng)成為收集語音樣本數(shù)據(jù)的必備工具。一般來講,標(biāo)準(zhǔn)采集設(shè)備默認(rèn)的語音采樣率為16 kHz。為了模擬涉及該類錄音案件的說話人識別情況,將用于訓(xùn)練系統(tǒng)識別背景模型和評測系統(tǒng)的語音采樣率設(shè)置為16 kHz, 然后按照2.2所述方法對系統(tǒng)識別性能進(jìn)行評測。表3為基于16 kHz采樣率語音的d-vector PLDA說話人模型的系統(tǒng)識別結(jié)果。
表3 16 kHz采樣率語音數(shù)據(jù)的系統(tǒng)識別結(jié)果
表3的結(jié)果表明,未進(jìn)行PLDA自適應(yīng)訓(xùn)練步驟的系統(tǒng)經(jīng)校準(zhǔn)后的Cllr值為0.652,EER值為0.096,雖然具有一定識別效果,但識別性能仍有待提升。使用300人語音PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)Cllr值在校準(zhǔn)前和校準(zhǔn)后分別為0.543和0.187,EER值為0.042,校準(zhǔn)后的系統(tǒng)性能有大幅提升。該系統(tǒng)與未進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)相比,識別性能提升了約71%,EER值降低了約56%。基于500人語音PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)校準(zhǔn)前和校準(zhǔn)后的Cllr值分別為0.474和0.180,EER值達(dá)到了0.036,與未使用PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)相比,該系統(tǒng)的識別性能提升了約72%,EER值降低了62.5%,整體識別效果為本組最佳。
將本系統(tǒng)與8 kHz采樣率語音條件下的系統(tǒng)識別性能進(jìn)行比較后可知,在未使用PLDA自適應(yīng)訓(xùn)練集的情況下,基于16 kHz采樣率語音的d-vector PLDA模型系統(tǒng)識別效果相對于基于8 kHz采樣率語音的系統(tǒng)提升了約25%,EER值降低了約51%;在使用300人語音PLDA自適應(yīng)訓(xùn)練集的條件下,本系統(tǒng)相較于基于8 kHz采樣率語音的系統(tǒng)識別性能提升了約32%,EER值降低了約40%;在使用500人語音PLDA自適應(yīng)訓(xùn)練集的條件下,本系統(tǒng)的識別性能提升了約33%,EER值降低了約45%。整體而言,基于16 kHz采樣率語音的d-vector PLDA模型系統(tǒng)的識別效果相較于基于8 kHz采樣率語音的系統(tǒng)具有顯著提升。
綜上所述,基于16 kHz采樣率語音的d-vector PLDA模型系統(tǒng)的識別性能優(yōu)異,系統(tǒng)的識別性能與語音采樣率的高低具有很強(qiáng)的相關(guān)性。一般來講,基于高采樣率語音訓(xùn)練測試的模型系統(tǒng)識別效果優(yōu)于基于低采樣率語音的模型系統(tǒng),因此在進(jìn)行模型訓(xùn)練時(shí)應(yīng)盡量使用高質(zhì)量語音,從而保證系統(tǒng)的識別效果。除此之外,校準(zhǔn)可以提升系統(tǒng)的識別性能,且PLDA自適應(yīng)訓(xùn)練集的使用對系統(tǒng)識別效果的提升具有正向作用,該結(jié)論與前述結(jié)果一致。
16 kHz采樣率語音數(shù)據(jù)的系統(tǒng)驗(yàn)證的Tippett圖見圖6~8。
圖6 未進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)識別結(jié)果(16 kHz采樣率語音數(shù)據(jù))
圖7 300人語音數(shù)據(jù)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識別結(jié)果(16 kHz采樣率語音數(shù)據(jù))
圖8 500人語音數(shù)據(jù)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識別結(jié)果(16 kHz采樣率語音數(shù)據(jù))
表4的系統(tǒng)識別結(jié)果表明,不同規(guī)模的PLDA自適應(yīng)訓(xùn)練集對系統(tǒng)識別性能影響程度不同。將語音采樣率固定在8 kHz時(shí),分別使用100~500人的語音進(jìn)行PLDA自適應(yīng)訓(xùn)練,校準(zhǔn)后的說話人識別系統(tǒng)Cllr值分別為0.340、0.298、0.273、0.271和0.269,全部處于0.25~0.35的區(qū)間內(nèi),平均值為0.290 2;系統(tǒng)的EER值分別為0.095、0.076、0.070、0.068和0.065,平均值為0.074 8,整體識別性能良好。基于上述結(jié)果可知,系統(tǒng)的識別效果隨著PLDA自適應(yīng)訓(xùn)練集規(guī)模的擴(kuò)大而提高,且基于500人語音(本組最大規(guī)模)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識別性能最佳,相較于使用100人語音(本組最小規(guī)模)進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng),其識別性能提升了約20.9%,EER值降低了約31.6%,系統(tǒng)間的識別性能差距較為明顯。PLDA自適應(yīng)訓(xùn)練集規(guī)模達(dá)到300人時(shí),系統(tǒng)識別性能已趨于穩(wěn)定,并達(dá)到相對較好的識別效果,但較大規(guī)模的PLDA自適應(yīng)訓(xùn)練集對系統(tǒng)識別性能的提升效果更為顯著。
表4 基于不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識別結(jié)果
將語音采樣率固定為16 kHz時(shí),分別使用 100~500人語音PLDA自適應(yīng)訓(xùn)練集進(jìn)行說話人識別驗(yàn)證,系統(tǒng)的Cllr值經(jīng)校準(zhǔn)后分別為0.233、0.197、0.187、0.184和0.180,平均值為0.196 2;EER值分別為0.056、0.046、0.042、0.036和0.036,平均值為0.043 2。整體而言,系統(tǒng)識別效果較為理想,且基于500人語音(本組最大規(guī)模)進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)識別性能達(dá)到最優(yōu),相較于使用100人語音(本組最小規(guī)模)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng),其識別性能提升了約22.7%,EER值降低了約35.7%。綜合看來,系統(tǒng)的識別性能與使用的PLDA自適應(yīng)訓(xùn)練集規(guī)模呈正相關(guān),且PLDA自適應(yīng)訓(xùn)練集規(guī)模達(dá)到300人時(shí)系統(tǒng)識別效果已相對較優(yōu),與前述結(jié)果一致。
圖9和圖10為不同語音采樣率條件下基于不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識別Cllr值和EER值變化折線圖,可更為直觀地展示系統(tǒng)識別結(jié)果變化趨勢。
圖9 基于不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識別Cllr值折線圖
圖10 基于不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識別EER值折線圖
綜上所述,使用較大規(guī)模的PLDA自適應(yīng)訓(xùn)練集對系統(tǒng)識別性能的提升效果更加明顯。本測試中,隨著PLDA自適應(yīng)訓(xùn)練集規(guī)模的增大,系統(tǒng)識別性能更趨穩(wěn)定,且PLDA自適應(yīng)訓(xùn)練集規(guī)模達(dá)到300人時(shí),系統(tǒng)的識別效果已相對較優(yōu),可以達(dá)到實(shí)用需求。使用500人語音進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)識別性能最佳,但仍有進(jìn)步空間。下一步,可繼續(xù)擴(kuò)大PLDA自適應(yīng)訓(xùn)練集的規(guī)模對系統(tǒng)識別性能進(jìn)行評測。另外,還需要使用更多不同言語風(fēng)格和質(zhì)量條件的語音進(jìn)行測試,以進(jìn)一步評估系統(tǒng)在多種案件現(xiàn)實(shí)條件下的準(zhǔn)確性和可靠性。
本文選用開源語音數(shù)據(jù)集VoxCeleb1和VoxCeleb2作為系統(tǒng)評測語料,在基于不同采樣率語音數(shù)據(jù)和不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的情況下,使用似然比證據(jù)評價(jià)體系對基于d-vector PLDA模型的法庭說話人自動識別系統(tǒng)進(jìn)行了識別性能的驗(yàn)證與比較研究。研究結(jié)果表明,在典型的8 kHz采樣率的語音訓(xùn)練測試條件下,系統(tǒng)識別性能良好。而高采樣率語音訓(xùn)練測試的模型系統(tǒng)識別效果優(yōu)于低采樣率語音的模型系統(tǒng),較大規(guī)模的PLDA自適應(yīng)訓(xùn)練集對系統(tǒng)識別性能的提升更有幫助,但需要綜合考慮自適應(yīng)訓(xùn)練集的采集成本??傮w而言,基于深度神經(jīng)網(wǎng)絡(luò)模型構(gòu)建的說話人自動識別系統(tǒng)識別性能良好,具有較高的應(yīng)用價(jià)值和潛力。
此外,本系統(tǒng)在該類場景數(shù)據(jù)的識別性能較為理想,但并不代表該系統(tǒng)在其他實(shí)際案件語音條件下的驗(yàn)證測試中都能夠達(dá)到同樣效果。司法實(shí)踐中,每個(gè)案件的場景或多或少都有一定差別,如信道設(shè)備、環(huán)境噪聲、言語風(fēng)格等,導(dǎo)致其數(shù)據(jù)質(zhì)量和特點(diǎn)也會有所差別。因此,必須進(jìn)行系統(tǒng)驗(yàn)證,才能科學(xué)客觀地評價(jià)法庭說話人自動識別系統(tǒng)的準(zhǔn)確性和可靠性。在科學(xué)研究中,應(yīng)該盡可能對豐富多樣的、能夠反映實(shí)際案件條件的語音數(shù)據(jù)進(jìn)行驗(yàn)證。在司法實(shí)踐中,還要基于被檢案件的具體語音條件進(jìn)行驗(yàn)證。而對于不同的方法系統(tǒng),開展基于現(xiàn)實(shí)案件語音條件下的系統(tǒng)性能驗(yàn)證具有雙重價(jià)值,一方面可以及時(shí)發(fā)現(xiàn)與解決自動識別系統(tǒng)在現(xiàn)實(shí)應(yīng)用中存在的問題,改進(jìn)和提升系統(tǒng)的識別性能;另一方面能夠表明不同典型場景數(shù)據(jù)條件下所使用系統(tǒng)方法的準(zhǔn)確性和可靠性,為司法實(shí)踐提供客觀的量化依據(jù)。