網(wǎng)絡(luò)媒體語音的法庭說話人識(shí)別

2022-11-18 10:50:46張翠玲劉奔航

中國(guó)刑警學(xué)院學(xué)報(bào) 2022年5期

張翠玲劉奔航

（1 西南政法大學(xué)刑事偵查學(xué)院重慶 401120；2 重慶高校刑事科學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室重慶 401120）

1 引言

隨著社會(huì)的不斷發(fā)展，網(wǎng)絡(luò)媒體及音視頻技術(shù)也越發(fā)普及。眾多網(wǎng)絡(luò)交流媒體平臺(tái)為人們提供巨大便捷的同時(shí)，也帶來了較大的社會(huì)安全隱患。近年來，越來越多的不法分子利用網(wǎng)絡(luò)平臺(tái)從事違法犯罪活動(dòng)。2021年3月8日，最高人民檢察院發(fā)布的工作報(bào)告顯示，2020年共起訴網(wǎng)絡(luò)犯罪14.2萬人，在刑事案件總量下降背景下，網(wǎng)絡(luò)犯罪卻同比上升了47.9%[1]。典型的網(wǎng)絡(luò)犯罪包括諸如“殺魚盤”“殺豬盤”等詐騙案件，以及諸如“快播案”[2]等利用“抖音”“快手”等短視頻社交平臺(tái)實(shí)施造謠、傳播虛假信息類案件。隨著網(wǎng)絡(luò)媒體的井噴式發(fā)展，媒體平臺(tái)上的大量語音信息成為偵查破案的有利線索和重要證據(jù)。由此，網(wǎng)絡(luò)媒體語音數(shù)據(jù)也成為司法語音研究中的一類新的場(chǎng)景對(duì)象。

法庭說話人識(shí)別通過對(duì)檢材語音與樣本語音的分析比較，推斷二者的同源性[3]。司法實(shí)踐中，法庭說話人識(shí)別的基本方法可以大體分為兩類，即聽覺-聲學(xué)-語音學(xué)分析方法和自動(dòng)說話人識(shí)別方法。聽覺-聲學(xué)-語音學(xué)分析方法主要依靠人工專家，提取檢材語音和樣本語音中的相同音節(jié)，進(jìn)行聽覺和聲學(xué)上的分析比較。該方法嚴(yán)重依賴專家的主觀經(jīng)驗(yàn)，客觀性較差，對(duì)檢材語音和樣本語音的要求較高，且耗時(shí)費(fèi)力。比較而言，自動(dòng)說話人識(shí)別不僅對(duì)檢材語音和樣本語音的要求低，省時(shí)省力，而且客觀性、透明性、可重復(fù)性都很好。特別是面對(duì)存在大量涉案語音數(shù)據(jù)的復(fù)雜場(chǎng)景，自動(dòng)識(shí)別的優(yōu)越性則更加凸顯。此外，基于似然比框架的法庭說話人識(shí)別不僅可以量化評(píng)估語音證據(jù)的價(jià)值，還可以通過對(duì)反映案件現(xiàn)實(shí)條件的、相關(guān)背景語音數(shù)據(jù)的系統(tǒng)驗(yàn)證，測(cè)試該案件場(chǎng)景下系統(tǒng)識(shí)別的準(zhǔn)確性和可靠性[4]，從而更好地滿足法庭對(duì)科學(xué)證據(jù)的標(biāo)準(zhǔn)要求[5-7]。

近年來，國(guó)際國(guó)內(nèi)都不同程度地開展了法庭說話人自動(dòng)識(shí)別系統(tǒng)的研究，并基于似然比框架方法對(duì)不同系統(tǒng)進(jìn)行了實(shí)驗(yàn)測(cè)試和性能驗(yàn)證。2016年，Morrison等人基于一起實(shí)際語音案件條件構(gòu)建了一個(gè)法庭語音評(píng)價(jià)數(shù)據(jù)庫(kù)（forensic_eval_01），并對(duì)國(guó)際上基于不同統(tǒng)計(jì)模型的10個(gè)說話人自動(dòng)識(shí)別系統(tǒng)開展了性能驗(yàn)證研究[8]。驗(yàn)證的結(jié)果表明，相對(duì)GMM-UBM（Gaussian Mixture Model-Universal Background Model）和i-vector PLDA（Probabilistic Linear Discriminant Analysis）模型來說，x-vector PLDA模型系統(tǒng)取得了最好的識(shí)別效果[9]。2021年，國(guó)際上13位法庭科學(xué)家和7位支持者聯(lián)名發(fā)表了關(guān)于法庭語音比較系統(tǒng)驗(yàn)證的共識(shí)聲明[10]，建立了似然比框架下進(jìn)行法庭說話人識(shí)別系統(tǒng)驗(yàn)證的國(guó)際標(biāo)準(zhǔn)。該聲明明確提出，應(yīng)該使用反映案件現(xiàn)實(shí)條件的數(shù)據(jù)庫(kù)，基于似然比框架進(jìn)行系統(tǒng)的驗(yàn)證測(cè)試。在國(guó)內(nèi)，張翠玲等也利用forensic_eval_01數(shù)據(jù)庫(kù)，對(duì)基于GMM-UBM模型的法庭說話人自動(dòng)識(shí)別系統(tǒng)BATVOX 3.1進(jìn)行了驗(yàn)證測(cè)試，結(jié)果表明其識(shí)別性能是所有參評(píng)系統(tǒng)中性能最差的[11]。張艷云等基于深度神經(jīng)網(wǎng)絡(luò)的x-vector模型系統(tǒng)和似然比框架方法，對(duì)較大規(guī)模的重慶方言標(biāo)準(zhǔn)采集語音數(shù)據(jù)進(jìn)行了法庭說話人識(shí)別測(cè)試，驗(yàn)證了該場(chǎng)景下自動(dòng)識(shí)別系統(tǒng)的良好性能[12]?？偟膩砜矗瑖?guó)內(nèi)在這方面開展的研究還相對(duì)較少。此外，不同案件的場(chǎng)景不同，條件不一，涉及的語音數(shù)據(jù)的類型和特點(diǎn)也不盡相同。在同一案件場(chǎng)景和驗(yàn)證數(shù)據(jù)庫(kù)條件下，不同系統(tǒng)的識(shí)別性能會(huì)有所不同；而在不同案件場(chǎng)景和驗(yàn)證數(shù)據(jù)庫(kù)條件下，同一系統(tǒng)的識(shí)別性能也會(huì)有所差別。司法實(shí)踐中，不管使用任何系統(tǒng)，都應(yīng)該進(jìn)行所涉案件現(xiàn)實(shí)條件下的系統(tǒng)驗(yàn)證，從而有利于證據(jù)價(jià)值的客觀評(píng)價(jià)和科學(xué)采信。因此，針對(duì)各類案件場(chǎng)景語音數(shù)據(jù)開展說話人識(shí)別系統(tǒng)的驗(yàn)證及其相關(guān)研究是十分必要的。

本文以網(wǎng)絡(luò)媒體語音為研究對(duì)象，基于似然比框架的法庭說話人自動(dòng)識(shí)別系統(tǒng)，對(duì)不同特性和不同條件的語音數(shù)據(jù)進(jìn)行驗(yàn)證測(cè)試，評(píng)估該系統(tǒng)的性能表現(xiàn)，分析研究其中的規(guī)律問題，進(jìn)而為法庭說話人自動(dòng)識(shí)別的司法實(shí)踐提供參考和依據(jù)。

2 法庭說話人自動(dòng)識(shí)別系統(tǒng)

2.1 特征提取

本研究中使用的法庭說話人自動(dòng)識(shí)別系統(tǒng)（FREES lite 1.0）是基于深度神經(jīng)網(wǎng)構(gòu)建的x-vector[13]模型系統(tǒng)。系統(tǒng)首先對(duì)語音進(jìn)行預(yù)加重、分幀、加窗、短時(shí)傅里葉變換、Mel濾波，然后提取FBank（Filter Banks）作為前端語音特征。每個(gè)語音段提取23維的FBank特征，提取的幀長(zhǎng)為25ms，幀移為10ms。

2.2 說話人識(shí)別模型

系統(tǒng)采用的說話人識(shí)別模型是基于embeddings方法的深度神經(jīng)網(wǎng)絡(luò)的DNN x-vector模型。這是目前說話人識(shí)別領(lǐng)域的一種主流模型，因其性能優(yōu)越而得到業(yè)內(nèi)普遍認(rèn)可。該模型基于時(shí)延神經(jīng)網(wǎng)絡(luò)（Time-delay Neural Network，TDNN）結(jié)構(gòu)[14]，將每一幀的fbank特征放入TDNN網(wǎng)絡(luò)學(xué)習(xí)，得到幀級(jí)別語音特征后，再通過池化層將各幀特征聚合為段級(jí)別語音特征，最后再連接2個(gè)全連接層和一個(gè)softmax層，將每個(gè)語音段映射到對(duì)應(yīng)的說話人標(biāo)簽。從第一個(gè)全連接層中提取出低維特征向量x-vector后，再使用線性判別分析[15]對(duì)embeddings進(jìn)行降維處理，將特征數(shù)據(jù)從512維降至128維。關(guān)于本系統(tǒng)模型的詳細(xì)介紹見文獻(xiàn)[12]。

2.3 識(shí)別打分

系統(tǒng)使用概率線性判別分析（Probabilistic Linear Discriminant Analysis，PLDA）[16]模型作為分類器，進(jìn)行說話人識(shí)別打分，同時(shí)進(jìn)行跨信道補(bǔ)償。PLDA是概率形式的線性判別分析，具有良好的信道補(bǔ)償能力，可用于解決實(shí)際場(chǎng)景語音數(shù)據(jù)與已經(jīng)訓(xùn)練好的基礎(chǔ)模型之間的信道失配問題，有效提升系統(tǒng)的識(shí)別性能。

PLDA基于兩種假設(shè)，計(jì)算兩段語音的比較得分。公式（1）為PLDA得分計(jì)算公式，其中，Hs為同一空間假設(shè)，代表假設(shè)檢材語音與樣本語音的embeddings來自同一說話人；Hd為不同空間假設(shè)，代表假設(shè)檢材語音與樣本語音的embeddings來自同一說話人。n1和n2分別為兩段語音的x-vector矢量。得到的對(duì)數(shù)似然比得分score值越大，檢材語音與樣本語音來自同一說話人的可能性越大。

2.4 得分校準(zhǔn)和似然比計(jì)算

通過PLDA算法得到得分score后，還要基于一定規(guī)模的相關(guān)背景人群語音數(shù)據(jù)庫(kù)進(jìn)行得分校準(zhǔn)。校準(zhǔn)過程也是似然比轉(zhuǎn)換過程，可以通過邏輯回歸算法將得分值轉(zhuǎn)換為似然比LR。LR值是證據(jù)強(qiáng)度的量化評(píng)價(jià)指標(biāo)，以1為界限。LR值大于1，表明證據(jù)支持同一說話人假設(shè)；LR值小于1，表明證據(jù)支持不同說話人假設(shè)；LR值距離1越大或越小，表明證據(jù)支持對(duì)應(yīng)假設(shè)的力度越大，證據(jù)價(jià)值越高。LR值等于1，表明支持兩個(gè)競(jìng)爭(zhēng)假設(shè)的程度相等，因而沒有價(jià)值。關(guān)于似然比框架的詳細(xì)介紹，參見文獻(xiàn)[17-18]。

3 實(shí)驗(yàn)數(shù)據(jù)和測(cè)試方法

3.1 數(shù)據(jù)收集與處理

本文的數(shù)據(jù)來源于“抖音”“快手”等網(wǎng)絡(luò)自媒體平臺(tái)，通過這些自媒體軟件進(jìn)行開放視頻的下載。從“抖音”平臺(tái)和“快手”平臺(tái)上分別選擇了75名用戶，每名用戶下載10個(gè)視頻。視頻中的發(fā)音人均為男性，年齡在20-55歲之間，普通話發(fā)音，水平良好。發(fā)音人職業(yè)比較廣泛，包括教師、律師、主持人、醫(yī)生、自媒體從業(yè)者等。每個(gè)用戶的視頻均為室內(nèi)錄制，比較安靜，噪聲小。視頻錄制的時(shí)間間隔為幾天到一個(gè)月不等，視頻時(shí)長(zhǎng)在一分鐘以上不等。對(duì)視頻進(jìn)音頻提取處理，采用格式工廠軟件（X64 5.6.0），將全部視頻中的音頻提取出來，保存為“PCM.wav”格式，總計(jì)提取到1500個(gè)音頻。

3.2 測(cè)試內(nèi)容與數(shù)據(jù)類型

本文重點(diǎn)關(guān)注采樣率、校準(zhǔn)集規(guī)模、音頻數(shù)量及音頻時(shí)長(zhǎng)對(duì)法庭說話人自動(dòng)識(shí)別的影響，因此測(cè)試內(nèi)容共有4項(xiàng)，即分別測(cè)試不同采樣率、不同規(guī)模校準(zhǔn)集、不同音頻數(shù)量及不同音頻時(shí)長(zhǎng)條件下系統(tǒng)識(shí)別的性能表現(xiàn)。由于測(cè)試的內(nèi)容各有不同，每項(xiàng)測(cè)試使用的數(shù)據(jù)集、數(shù)據(jù)類型、數(shù)據(jù)規(guī)模也有一定差別。關(guān)于每項(xiàng)測(cè)試中所使用測(cè)試集的音頻基本屬性、數(shù)據(jù)類型和數(shù)據(jù)規(guī)模，詳見表1。

表1 4項(xiàng)測(cè)試使用的音頻數(shù)據(jù)列表

3.2 測(cè)試方法

開展說話人識(shí)別系統(tǒng)驗(yàn)證時(shí)一般使用3類語音數(shù)據(jù)集，即訓(xùn)練集、校準(zhǔn)集和測(cè)試集。訓(xùn)練集用于對(duì)PLDA模型做域自適應(yīng)訓(xùn)練，以解決測(cè)試集語音的言語風(fēng)格、方言特征、信道條件和錄制環(huán)境與已訓(xùn)練基礎(chǔ)模型不匹配的問題。校準(zhǔn)集用于對(duì)PLDA模型的打分結(jié)果進(jìn)行校準(zhǔn)，需要使用人工標(biāo)定好的、已知真實(shí)來源的數(shù)據(jù)進(jìn)行。訓(xùn)練集和校準(zhǔn)集的使用，都是為了提高識(shí)別系統(tǒng)的準(zhǔn)確性。測(cè)試集用于對(duì)說話人識(shí)別系統(tǒng)的性能進(jìn)行測(cè)試，測(cè)試結(jié)果通過具體評(píng)測(cè)指標(biāo)進(jìn)行評(píng)價(jià)。

3.3 評(píng)價(jià)指標(biāo)

系統(tǒng)評(píng)價(jià)采用基于似然比框架的系統(tǒng)評(píng)測(cè)的標(biāo)準(zhǔn)指標(biāo)進(jìn)行。系統(tǒng)評(píng)價(jià)的數(shù)據(jù)指標(biāo)有兩個(gè)，一個(gè)是對(duì)數(shù)似然比代價(jià)函數(shù)（Log likelihood ratio）[19]，另一個(gè)是等誤率（Equal Error Rate，EER）。的表達(dá)式見下式（2）：

3.3.2 EER值

EER是說話人識(shí)別測(cè)試中常用的評(píng)價(jià)指標(biāo)，是指系統(tǒng)的錯(cuò)誤接受率和錯(cuò)誤拒絕率相等時(shí)的概率。EER值越低，系統(tǒng)的識(shí)別性能越好。

3.3.3 Tippett圖

Tippett圖，也稱可靠性函數(shù)圖，是似然比框架下法庭說話人識(shí)別系統(tǒng)驗(yàn)證的標(biāo)準(zhǔn)圖示[20]。Tippett圖的橫軸為以10為底的對(duì)數(shù)似然比（log10LR），縱軸為同一說話人和不同說話人比較的概率累計(jì)分布（見圖1）。Tippett圖中，向右上延伸的曲線代表同一說話人之間的比較，向左上延伸的曲線代表不同說話人之間的比較。兩條曲線交點(diǎn)處對(duì)應(yīng)的概率就是EER。兩條曲線分得越開，交叉點(diǎn)越低，系統(tǒng)識(shí)別的效果越好。

4 實(shí)驗(yàn)結(jié)果和討論

4.1 采樣率對(duì)系統(tǒng)識(shí)別性能的影響

一般來說，語音的采樣率越高，代表語音的質(zhì)量越好，因而說話人識(shí)別的效果也就越好。然而，現(xiàn)實(shí)案件條件下，基于信道傳輸和存儲(chǔ)空間的考慮，通常情況下語音數(shù)據(jù)的采樣率保持在8KHz，如手機(jī)通話語音。采樣率降低會(huì)造成法庭說話人識(shí)別性能的下降，但是具體下降到何種程度還需要實(shí)驗(yàn)測(cè)試和量化評(píng)價(jià)。為此，我們將50人（每人10個(gè)音頻）的校準(zhǔn)集和50人的測(cè)試集（每人10個(gè)音頻）中的全部音頻進(jìn)行了采樣率調(diào)整，分成16KHz和8KHz兩個(gè)組別，音頻長(zhǎng)度均為60秒。將兩組測(cè)試集數(shù)據(jù)分別輸入系統(tǒng)進(jìn)行說話人識(shí)別，利用相同采樣率的校準(zhǔn)集進(jìn)行校準(zhǔn)，測(cè)試結(jié)果見表2。

表2 兩種不同采樣率條件下的說話人識(shí)別結(jié)果

從表2中的數(shù)據(jù)可以看出，總體上，兩種采樣率條件下的系統(tǒng)識(shí)別效果都很好。在8KHz采樣率條件下，值達(dá)到0.217，已經(jīng)充分表明了系統(tǒng)的有效性能。但是，相對(duì)于16KHz的采樣率組來說，8KHz采樣率組的識(shí)別性能大幅下降，值增加了103%，EER值增加了138%。這充分說明采樣率不同直接對(duì)系統(tǒng)識(shí)別的準(zhǔn)確性造成了較大影響，使其識(shí)別性能下降一倍還多。圖1為兩種采樣率條件下系統(tǒng)識(shí)別的Tippett圖。

圖1 8KHz和16KHz采樣率條件下說話人識(shí)別的Tippett圖

就本文采集的短視頻平臺(tái)語音來說，語音的采樣率都很高，絕大部分的音頻都能達(dá)到44KHz，這是網(wǎng)絡(luò)平臺(tái)對(duì)音質(zhì)要求較高的緣故。這為法庭說話人識(shí)別提供了非常好的數(shù)據(jù)質(zhì)量和識(shí)別性能。需要指出的是，過高的采樣率并不會(huì)帶來系統(tǒng)識(shí)別性能的顯著提升。對(duì)于8KHz頻率范圍的人類語音來說，16KHz的采樣率已經(jīng)足夠保證說話人識(shí)別的性能。而多數(shù)場(chǎng)景下8KHz采樣率的語音的說話人識(shí)別效果也在合理范圍。當(dāng)然，司法實(shí)踐中，有條件情況下還是要首選高采樣率語音數(shù)據(jù)。

4.2 校準(zhǔn)集規(guī)模對(duì)系統(tǒng)識(shí)別性能的影響

校準(zhǔn)集的使用是法庭說話人自動(dòng)識(shí)別的一個(gè)標(biāo)準(zhǔn)步驟，可以有效提升說話人識(shí)別的效果。但是，究竟使用多大規(guī)模的校準(zhǔn)集最為合理，目前還沒有固定標(biāo)準(zhǔn)。校準(zhǔn)集過小，起不到應(yīng)有的效果；校準(zhǔn)集過大，又會(huì)給數(shù)據(jù)采集帶來較大困難。為了研究校準(zhǔn)集規(guī)模的大小對(duì)系統(tǒng)識(shí)別性能的影響，我們基于16KHz的采樣率數(shù)據(jù)，在50人測(cè)試集（每人10個(gè)音頻）不變條件下，調(diào)整校準(zhǔn)集的大小分別進(jìn)行說話人識(shí)別測(cè)試。校準(zhǔn)集的規(guī)模從20人開始，依次遞增，每次增加10人，直到最后達(dá)到100人規(guī)模。10組校準(zhǔn)集規(guī)模的說話人識(shí)別結(jié)果見表3。

表3 9種不同規(guī)模校準(zhǔn)集條件下的說話人識(shí)別結(jié)果

圖2為不同規(guī)模校準(zhǔn)集的識(shí)別結(jié)果的折線圖，從中可以更為明顯地看到這種變化規(guī)律。值和EER值以60人規(guī)模為分界點(diǎn)，逐漸趨于平穩(wěn)，也就是說，60人規(guī)模處于拐點(diǎn)位置。由此，司法實(shí)踐中，可以考慮將60人規(guī)模的校準(zhǔn)集作為下限使用，至少在該類案件語音場(chǎng)景下可供參考。

圖2 不同規(guī)模校準(zhǔn)集條件下的系統(tǒng)識(shí)別性能圖

利用不同規(guī)模校準(zhǔn)集進(jìn)行說話人識(shí)別的Tippett圖，見圖3。

圖3 不同規(guī)模校準(zhǔn)集條件下說話人識(shí)別的Tippett圖

4.3 校準(zhǔn)集的音頻數(shù)量對(duì)系統(tǒng)識(shí)別性能的影響

對(duì)于校準(zhǔn)集來說，一般要求每個(gè)人至少要有兩個(gè)以上音頻才可以實(shí)現(xiàn)校準(zhǔn)功能。校準(zhǔn)集中每個(gè)人的音頻數(shù)越多，校準(zhǔn)和識(shí)別的效果越好嗎？我們利用50人的校準(zhǔn)集，基于16KHz的采樣率數(shù)據(jù)，將每個(gè)說話人的音頻數(shù)量分為2、3、5、7、10等5個(gè)組，然后對(duì)50人（每人10個(gè)音頻）的測(cè)試集進(jìn)行了說話人識(shí)別測(cè)試，結(jié)果見表4。

表4 不同音頻數(shù)量校準(zhǔn)集條件下的說話人識(shí)別結(jié)果

從表4可以得出，對(duì)校準(zhǔn)集進(jìn)行不同音頻數(shù)量的調(diào)整之后，系統(tǒng)識(shí)別的值、EER值發(fā)生了一定程度的變化，但整體上相差不大。就值來說，音頻數(shù)量為3個(gè)和7個(gè)時(shí)的值最低（0.091），但與音頻數(shù)量為5個(gè)的結(jié)果（0.092）沒有本質(zhì)差別。音頻數(shù)量為10個(gè)時(shí)的值最高（0.102），但與音頻數(shù)量為2個(gè)的結(jié)果（0.101）在同一水平。對(duì)于EER值來說，音頻數(shù)量為5個(gè)時(shí)的EER值最低（0.018），但是與音頻數(shù)量為7個(gè)和10個(gè)時(shí)的EER值基本保持在同一水平。音頻數(shù)量為2個(gè)和3個(gè)時(shí)的結(jié)果接近，都在0.02左右。綜合來看，校準(zhǔn)集中每個(gè)人音頻數(shù)量的持續(xù)增加并沒有帶來系統(tǒng)性能的穩(wěn)定性提高，加之各組指標(biāo)之間的變化幅度比較小，因此，基于系統(tǒng)性能和樣本采集成本的雙重考慮，我們認(rèn)為實(shí)踐中校準(zhǔn)集的每個(gè)人音頻數(shù)仍是至少兩個(gè)，當(dāng)然有條件能夠采集3個(gè)更好。

利用不同音頻數(shù)量的校準(zhǔn)集進(jìn)行說話人識(shí)別的Tippett圖，見圖4。

圖4 不同音頻數(shù)量校準(zhǔn)集條件下說話人識(shí)別的Tippett圖

4.4 語音時(shí)長(zhǎng)對(duì)系統(tǒng)識(shí)別性能的影響

音頻時(shí)長(zhǎng)會(huì)對(duì)說話人識(shí)別的效果造成較大的影響，因?yàn)閺睦碚撋现v，音頻時(shí)長(zhǎng)越長(zhǎng)，語音所含的特征信息越豐富，因而越有利于說話人的識(shí)別。但是，在案件現(xiàn)實(shí)條件下，檢材語音都比較短，特別是在刑事案件中，有的案件中檢材語音僅有幾秒鐘。為了探究較短時(shí)長(zhǎng)語音對(duì)說話人自動(dòng)識(shí)別系統(tǒng)的影響程度，我們?cè)?0個(gè)人的測(cè)試集中，基于16KHz的采樣率數(shù)據(jù)，從每人的10個(gè)音頻中隨機(jī)選取2個(gè)音頻進(jìn)行剪輯處理。前面的測(cè)試集中每個(gè)人均采用的是10個(gè)音頻，目的是為了增加測(cè)試的難度，該項(xiàng)測(cè)試中之所以選擇兩個(gè)音頻，主要是基于案件現(xiàn)實(shí)場(chǎng)景考慮。實(shí)際案件中，檢材語音和樣本語音各有一段的情況居多。

利用“Adobe Audition 2019”軟件對(duì)所有的音頻進(jìn)行批量剪輯，將全部音頻分別剪切為5s、10s、15s、20s 4個(gè)長(zhǎng)度組別，然后進(jìn)行說話人識(shí)別測(cè)試，結(jié)果見表5。

表5 不同音頻時(shí)長(zhǎng)條件下的說話人識(shí)別結(jié)果

表5中的數(shù)據(jù)表明，整體上，音頻時(shí)長(zhǎng)的增加確實(shí)帶來了系統(tǒng)性能的改善，時(shí)長(zhǎng)為15s時(shí)系統(tǒng)識(shí)別效果最佳。以15s為基準(zhǔn)，當(dāng)時(shí)長(zhǎng)從5s增加到15s時(shí)，值降低了31%，EER值降低了38%，系統(tǒng)性能得到了明顯提升。當(dāng)時(shí)長(zhǎng)從10s增加到15s時(shí)，值降低了11%，EER值降低了44%，系統(tǒng)性能仍在提升。但是，當(dāng)時(shí)長(zhǎng)由15s增加到20s時(shí)，值未降反升，提高了15%，EER值也未改變。這意味著，音頻時(shí)長(zhǎng)達(dá)到一定程度以后，繼續(xù)增加并沒有帶來系統(tǒng)性能的持續(xù)改善。當(dāng)然，這與相同音頻時(shí)長(zhǎng)內(nèi)的有效語音信息量并不相等有關(guān)。實(shí)踐中，在檢材語音長(zhǎng)度可控性較低的情況下，還是應(yīng)該盡可能采集較長(zhǎng)的樣本語音進(jìn)行比較，以保證識(shí)別的效果。

不同音頻時(shí)長(zhǎng)條件下進(jìn)行說話人識(shí)別的Tippett圖，見圖5。

圖5 不同音頻時(shí)長(zhǎng)下進(jìn)行說話人識(shí)別的Tippett圖

此外，需要指出的是，本研究中4項(xiàng)測(cè)試的時(shí)長(zhǎng)均是音頻的總體時(shí)長(zhǎng)，并非去掉靜默段后的有效時(shí)長(zhǎng)。針對(duì)4種時(shí)長(zhǎng)音頻的有效時(shí)長(zhǎng)進(jìn)行了初步統(tǒng)計(jì)，每種選擇了10個(gè)代表性音頻進(jìn)行了有效時(shí)長(zhǎng)的平均值提取，5s、10s、15s、20s音頻去掉靜默段的有效時(shí)長(zhǎng)平均在4.5s、8.7s、13.7s、17.8s左右。網(wǎng)絡(luò)媒體的音視頻鑒于時(shí)長(zhǎng)的限制，一般語速為中等偏上，因此有效時(shí)長(zhǎng)相對(duì)較長(zhǎng)。在這種情況下，系統(tǒng)取得了很好的識(shí)別效果，進(jìn)一步驗(yàn)證了該模型系統(tǒng)的良好性能。

5 結(jié)論

本文采用基于似然比框架的法庭說話人自動(dòng)識(shí)別系統(tǒng)，對(duì)150名男性的1500個(gè)網(wǎng)絡(luò)媒體語音進(jìn)行了法庭說話人識(shí)別驗(yàn)證研究，分別測(cè)試了不同采樣率、不同規(guī)模校準(zhǔn)集、校準(zhǔn)集不同音頻數(shù)量、以及測(cè)試集不同音頻時(shí)長(zhǎng)條件下的系統(tǒng)性能，量化分析和評(píng)價(jià)了這些因素對(duì)系統(tǒng)識(shí)別性能的影響。研究表明，在未進(jìn)行PLDA自適應(yīng)訓(xùn)練情況下，系統(tǒng)識(shí)別仍然得到了很好的識(shí)別結(jié)果，表明系統(tǒng)在該類網(wǎng)絡(luò)媒體語音場(chǎng)景下的良好識(shí)別性能。總體上看，雖然音頻的采樣率越高、校準(zhǔn)集的規(guī)模越大、校準(zhǔn)集說話人音頻數(shù)量越多、測(cè)試音頻時(shí)長(zhǎng)越長(zhǎng)，系統(tǒng)的識(shí)別性能越好，但是這一趨勢(shì)并不穩(wěn)定，當(dāng)指標(biāo)達(dá)到一定程度后，繼續(xù)增加指標(biāo)并不會(huì)帶來系統(tǒng)性能的穩(wěn)定提升。

司法實(shí)踐中，我們需要在系統(tǒng)性能和時(shí)效成本之間找到一個(gè)平衡點(diǎn)?；诒狙芯康恼Z音數(shù)據(jù)質(zhì)量，8KHz采樣率、60人規(guī)模的校準(zhǔn)集、校準(zhǔn)集中每人2～3個(gè)音頻，以及15s的音頻時(shí)長(zhǎng)條件下已經(jīng)取得了很好的自動(dòng)說話人識(shí)別效果，而這些條件也反映了一定的案件現(xiàn)實(shí)情況。因此，本研究結(jié)果不僅可以為法庭說話人自動(dòng)識(shí)別技術(shù)的實(shí)踐應(yīng)用提供量化依據(jù)，還可以為自動(dòng)識(shí)別系統(tǒng)的性能改進(jìn)提供參考。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看