• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)媒體語音的法庭說話人識(shí)別

      2022-11-18 10:50:46張翠玲劉奔航
      關(guān)鍵詞:自動(dòng)識(shí)別法庭音頻

      張翠玲 劉奔航

      (1 西南政法大學(xué)刑事偵查學(xué)院 重慶 401120;2 重慶高校刑事科學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室 重慶 401120)

      1 引言

      隨著社會(huì)的不斷發(fā)展,網(wǎng)絡(luò)媒體及音視頻技術(shù)也越發(fā)普及。眾多網(wǎng)絡(luò)交流媒體平臺(tái)為人們提供巨大便捷的同時(shí),也帶來了較大的社會(huì)安全隱患。近年來,越來越多的不法分子利用網(wǎng)絡(luò)平臺(tái)從事違法犯罪活動(dòng)。2021年3月8日,最高人民檢察院發(fā)布的工作報(bào)告顯示,2020年共起訴網(wǎng)絡(luò)犯罪14.2萬人,在刑事案件總量下降背景下,網(wǎng)絡(luò)犯罪卻同比上升了47.9%[1]。典型的網(wǎng)絡(luò)犯罪包括諸如“殺魚盤”“殺豬盤”等詐騙案件,以及諸如“快播案”[2]等利用“抖音”“快手”等短視頻社交平臺(tái)實(shí)施造謠、傳播虛假信息類案件。隨著網(wǎng)絡(luò)媒體的井噴式發(fā)展,媒體平臺(tái)上的大量語音信息成為偵查破案的有利線索和重要證據(jù)。由此,網(wǎng)絡(luò)媒體語音數(shù)據(jù)也成為司法語音研究中的一類新的場(chǎng)景對(duì)象。

      法庭說話人識(shí)別通過對(duì)檢材語音與樣本語音的分析比較,推斷二者的同源性[3]。司法實(shí)踐中,法庭說話人識(shí)別的基本方法可以大體分為兩類,即聽覺-聲學(xué)-語音學(xué)分析方法和自動(dòng)說話人識(shí)別方法。聽覺-聲學(xué)-語音學(xué)分析方法主要依靠人工專家,提取檢材語音和樣本語音中的相同音節(jié),進(jìn)行聽覺和聲學(xué)上的分析比較。該方法嚴(yán)重依賴專家的主觀經(jīng)驗(yàn),客觀性較差,對(duì)檢材語音和樣本語音的要求較高,且耗時(shí)費(fèi)力。比較而言,自動(dòng)說話人識(shí)別不僅對(duì)檢材語音和樣本語音的要求低,省時(shí)省力,而且客觀性、透明性、可重復(fù)性都很好。特別是面對(duì)存在大量涉案語音數(shù)據(jù)的復(fù)雜場(chǎng)景,自動(dòng)識(shí)別的優(yōu)越性則更加凸顯。此外,基于似然比框架的法庭說話人識(shí)別不僅可以量化評(píng)估語音證據(jù)的價(jià)值,還可以通過對(duì)反映案件現(xiàn)實(shí)條件的、相關(guān)背景語音數(shù)據(jù)的系統(tǒng)驗(yàn)證,測(cè)試該案件場(chǎng)景下系統(tǒng)識(shí)別的準(zhǔn)確性和可靠性[4],從而更好地滿足法庭對(duì)科學(xué)證據(jù)的標(biāo)準(zhǔn)要求[5-7]。

      近年來,國(guó)際國(guó)內(nèi)都不同程度地開展了法庭說話人自動(dòng)識(shí)別系統(tǒng)的研究,并基于似然比框架方法對(duì)不同系統(tǒng)進(jìn)行了實(shí)驗(yàn)測(cè)試和性能驗(yàn)證。2016年,Morrison等人基于一起實(shí)際語音案件條件構(gòu)建了一個(gè)法庭語音評(píng)價(jià)數(shù)據(jù)庫(kù)(forensic_eval_01),并對(duì)國(guó)際上基于不同統(tǒng)計(jì)模型的10個(gè)說話人自動(dòng)識(shí)別系統(tǒng)開展了性能驗(yàn)證研究[8]。驗(yàn)證的結(jié)果表明,相對(duì)GMM-UBM(Gaussian Mixture Model-Universal Background Model)和i-vector PLDA(Probabilistic Linear Discriminant Analysis)模型來說,x-vector PLDA模型系統(tǒng)取得了最好的識(shí)別效果[9]。2021年,國(guó)際上13位法庭科學(xué)家和7位支持者聯(lián)名發(fā)表了關(guān)于法庭語音比較系統(tǒng)驗(yàn)證的共識(shí)聲明[10],建立了似然比框架下進(jìn)行法庭說話人識(shí)別系統(tǒng)驗(yàn)證的國(guó)際標(biāo)準(zhǔn)。該聲明明確提出,應(yīng)該使用反映案件現(xiàn)實(shí)條件的數(shù)據(jù)庫(kù),基于似然比框架進(jìn)行系統(tǒng)的驗(yàn)證測(cè)試。在國(guó)內(nèi),張翠玲等也利用forensic_eval_01數(shù)據(jù)庫(kù),對(duì)基于GMM-UBM模型的法庭說話人自動(dòng)識(shí)別系統(tǒng)BATVOX 3.1進(jìn)行了驗(yàn)證測(cè)試,結(jié)果表明其識(shí)別性能是所有參評(píng)系統(tǒng)中性能最差的[11]。張艷云等基于深度神經(jīng)網(wǎng)絡(luò)的x-vector模型系統(tǒng)和似然比框架方法,對(duì)較大規(guī)模的重慶方言標(biāo)準(zhǔn)采集語音數(shù)據(jù)進(jìn)行了法庭說話人識(shí)別測(cè)試,驗(yàn)證了該場(chǎng)景下自動(dòng)識(shí)別系統(tǒng)的良好性能[12]??偟膩砜矗瑖?guó)內(nèi)在這方面開展的研究還相對(duì)較少。此外,不同案件的場(chǎng)景不同,條件不一,涉及的語音數(shù)據(jù)的類型和特點(diǎn)也不盡相同。在同一案件場(chǎng)景和驗(yàn)證數(shù)據(jù)庫(kù)條件下,不同系統(tǒng)的識(shí)別性能會(huì)有所不同;而在不同案件場(chǎng)景和驗(yàn)證數(shù)據(jù)庫(kù)條件下,同一系統(tǒng)的識(shí)別性能也會(huì)有所差別。司法實(shí)踐中,不管使用任何系統(tǒng),都應(yīng)該進(jìn)行所涉案件現(xiàn)實(shí)條件下的系統(tǒng)驗(yàn)證,從而有利于證據(jù)價(jià)值的客觀評(píng)價(jià)和科學(xué)采信。因此,針對(duì)各類案件場(chǎng)景語音數(shù)據(jù)開展說話人識(shí)別系統(tǒng)的驗(yàn)證及其相關(guān)研究是十分必要的。

      本文以網(wǎng)絡(luò)媒體語音為研究對(duì)象,基于似然比框架的法庭說話人自動(dòng)識(shí)別系統(tǒng),對(duì)不同特性和不同條件的語音數(shù)據(jù)進(jìn)行驗(yàn)證測(cè)試,評(píng)估該系統(tǒng)的性能表現(xiàn),分析研究其中的規(guī)律問題,進(jìn)而為法庭說話人自動(dòng)識(shí)別的司法實(shí)踐提供參考和依據(jù)。

      2 法庭說話人自動(dòng)識(shí)別系統(tǒng)

      2.1 特征提取

      本研究中使用的法庭說話人自動(dòng)識(shí)別系統(tǒng)(FREES lite 1.0)是基于深度神經(jīng)網(wǎng)構(gòu)建的x-vector[13]模型系統(tǒng)。系統(tǒng)首先對(duì)語音進(jìn)行預(yù)加重、分幀、加窗、短時(shí)傅里葉變換、Mel濾波,然后提取FBank(Filter Banks)作為前端語音特征。每個(gè)語音段提取23維的FBank特征,提取的幀長(zhǎng)為25ms,幀移為10ms。

      2.2 說話人識(shí)別模型

      系統(tǒng)采用的說話人識(shí)別模型是基于embeddings方法的深度神經(jīng)網(wǎng)絡(luò)的DNN x-vector模型。這是目前說話人識(shí)別領(lǐng)域的一種主流模型,因其性能優(yōu)越而得到業(yè)內(nèi)普遍認(rèn)可。該模型基于時(shí)延神經(jīng)網(wǎng)絡(luò)(Time-delay Neural Network,TDNN)結(jié)構(gòu)[14],將每一幀的fbank特征放入TDNN網(wǎng)絡(luò)學(xué)習(xí),得到幀級(jí)別語音特征后,再通過池化層將各幀特征聚合為段級(jí)別語音特征,最后再連接2個(gè)全連接層和一個(gè)softmax層,將每個(gè)語音段映射到對(duì)應(yīng)的說話人標(biāo)簽。從第一個(gè)全連接層中提取出低維特征向量x-vector后,再使用線性判別分析[15]對(duì)embeddings進(jìn)行降維處理,將特征數(shù)據(jù)從512維降至128維。關(guān)于本系統(tǒng)模型的詳細(xì)介紹見文獻(xiàn)[12]。

      2.3 識(shí)別打分

      系統(tǒng)使用概率線性判別分析(Probabilistic Linear Discriminant Analysis,PLDA)[16]模型作為分類器,進(jìn)行說話人識(shí)別打分,同時(shí)進(jìn)行跨信道補(bǔ)償。PLDA是概率形式的線性判別分析,具有良好的信道補(bǔ)償能力,可用于解決實(shí)際場(chǎng)景語音數(shù)據(jù)與已經(jīng)訓(xùn)練好的基礎(chǔ)模型之間的信道失配問題,有效提升系統(tǒng)的識(shí)別性能。

      PLDA基于兩種假設(shè),計(jì)算兩段語音的比較得分。公式(1)為PLDA得分計(jì)算公式,其中,Hs為同一空間假設(shè),代表假設(shè)檢材語音與樣本語音的embeddings來自同一說話人;Hd為不同空間假設(shè),代表假設(shè)檢材語音與樣本語音的embeddings來自同一說話人。n1和n2分別為兩段語音的x-vector矢量。得到的對(duì)數(shù)似然比得分score值越大,檢材語音與樣本語音來自同一說話人的可能性越大。

      2.4 得分校準(zhǔn)和似然比計(jì)算

      通過PLDA算法得到得分score后,還要基于一定規(guī)模的相關(guān)背景人群語音數(shù)據(jù)庫(kù)進(jìn)行得分校準(zhǔn)。校準(zhǔn)過程也是似然比轉(zhuǎn)換過程,可以通過邏輯回歸算法將得分值轉(zhuǎn)換為似然比LR。LR值是證據(jù)強(qiáng)度的量化評(píng)價(jià)指標(biāo),以1為界限。LR值大于1,表明證據(jù)支持同一說話人假設(shè);LR值小于1,表明證據(jù)支持不同說話人假設(shè);LR值距離1越大或越小,表明證據(jù)支持對(duì)應(yīng)假設(shè)的力度越大,證據(jù)價(jià)值越高。LR值等于1,表明支持兩個(gè)競(jìng)爭(zhēng)假設(shè)的程度相等,因而沒有價(jià)值。關(guān)于似然比框架的詳細(xì)介紹,參見文獻(xiàn)[17-18]。

      3 實(shí)驗(yàn)數(shù)據(jù)和測(cè)試方法

      3.1 數(shù)據(jù)收集與處理

      本文的數(shù)據(jù)來源于“抖音”“快手”等網(wǎng)絡(luò)自媒體平臺(tái),通過這些自媒體軟件進(jìn)行開放視頻的下載。從“抖音”平臺(tái)和“快手”平臺(tái)上分別選擇了75名用戶,每名用戶下載10個(gè)視頻。視頻中的發(fā)音人均為男性,年齡在20-55歲之間,普通話發(fā)音,水平良好。發(fā)音人職業(yè)比較廣泛,包括教師、律師、主持人、醫(yī)生、自媒體從業(yè)者等。每個(gè)用戶的視頻均為室內(nèi)錄制,比較安靜,噪聲小。視頻錄制的時(shí)間間隔為幾天到一個(gè)月不等,視頻時(shí)長(zhǎng)在一分鐘以上不等。對(duì)視頻進(jìn)音頻提取處理,采用格式工廠軟件(X64 5.6.0),將全部視頻中的音頻提取出來,保存為“PCM.wav”格式,總計(jì)提取到1500個(gè)音頻。

      3.2 測(cè)試內(nèi)容與數(shù)據(jù)類型

      本文重點(diǎn)關(guān)注采樣率、校準(zhǔn)集規(guī)模、音頻數(shù)量及音頻時(shí)長(zhǎng)對(duì)法庭說話人自動(dòng)識(shí)別的影響,因此測(cè)試內(nèi)容共有4項(xiàng),即分別測(cè)試不同采樣率、不同規(guī)模校準(zhǔn)集、不同音頻數(shù)量及不同音頻時(shí)長(zhǎng)條件下系統(tǒng)識(shí)別的性能表現(xiàn)。由于測(cè)試的內(nèi)容各有不同,每項(xiàng)測(cè)試使用的數(shù)據(jù)集、數(shù)據(jù)類型、數(shù)據(jù)規(guī)模也有一定差別。關(guān)于每項(xiàng)測(cè)試中所使用測(cè)試集的音頻基本屬性、數(shù)據(jù)類型和數(shù)據(jù)規(guī)模,詳見表1。

      表1 4項(xiàng)測(cè)試使用的音頻數(shù)據(jù)列表

      3.2 測(cè)試方法

      開展說話人識(shí)別系統(tǒng)驗(yàn)證時(shí)一般使用3類語音數(shù)據(jù)集,即訓(xùn)練集、校準(zhǔn)集和測(cè)試集。訓(xùn)練集用于對(duì)PLDA模型做域自適應(yīng)訓(xùn)練,以解決測(cè)試集語音的言語風(fēng)格、方言特征、信道條件和錄制環(huán)境與已訓(xùn)練基礎(chǔ)模型不匹配的問題。校準(zhǔn)集用于對(duì)PLDA模型的打分結(jié)果進(jìn)行校準(zhǔn),需要使用人工標(biāo)定好的、已知真實(shí)來源的數(shù)據(jù)進(jìn)行。訓(xùn)練集和校準(zhǔn)集的使用,都是為了提高識(shí)別系統(tǒng)的準(zhǔn)確性。測(cè)試集用于對(duì)說話人識(shí)別系統(tǒng)的性能進(jìn)行測(cè)試,測(cè)試結(jié)果通過具體評(píng)測(cè)指標(biāo)進(jìn)行評(píng)價(jià)。

      3.3 評(píng)價(jià)指標(biāo)

      系統(tǒng)評(píng)價(jià)采用基于似然比框架的系統(tǒng)評(píng)測(cè)的標(biāo)準(zhǔn)指標(biāo)進(jìn)行。系統(tǒng)評(píng)價(jià)的數(shù)據(jù)指標(biāo)有兩個(gè),一個(gè)是對(duì)數(shù)似然比代價(jià)函數(shù)(Log likelihood ratio)[19],另一個(gè)是等誤率(Equal Error Rate,EER)。的表達(dá)式見下式(2):

      3.3.2 EER值

      EER是說話人識(shí)別測(cè)試中常用的評(píng)價(jià)指標(biāo),是指系統(tǒng)的錯(cuò)誤接受率和錯(cuò)誤拒絕率相等時(shí)的概率。EER值越低,系統(tǒng)的識(shí)別性能越好。

      3.3.3 Tippett圖

      Tippett圖,也稱可靠性函數(shù)圖,是似然比框架下法庭說話人識(shí)別系統(tǒng)驗(yàn)證的標(biāo)準(zhǔn)圖示[20]。Tippett圖的橫軸為以10為底的對(duì)數(shù)似然比(log10LR),縱軸為同一說話人和不同說話人比較的概率累計(jì)分布(見圖1)。Tippett圖中,向右上延伸的曲線代表同一說話人之間的比較,向左上延伸的曲線代表不同說話人之間的比較。兩條曲線交點(diǎn)處對(duì)應(yīng)的概率就是EER。兩條曲線分得越開,交叉點(diǎn)越低,系統(tǒng)識(shí)別的效果越好。

      4 實(shí)驗(yàn)結(jié)果和討論

      4.1 采樣率對(duì)系統(tǒng)識(shí)別性能的影響

      一般來說,語音的采樣率越高,代表語音的質(zhì)量越好,因而說話人識(shí)別的效果也就越好。然而,現(xiàn)實(shí)案件條件下,基于信道傳輸和存儲(chǔ)空間的考慮,通常情況下語音數(shù)據(jù)的采樣率保持在8KHz,如手機(jī)通話語音。采樣率降低會(huì)造成法庭說話人識(shí)別性能的下降,但是具體下降到何種程度還需要實(shí)驗(yàn)測(cè)試和量化評(píng)價(jià)。為此,我們將50人(每人10個(gè)音頻)的校準(zhǔn)集和50人的測(cè)試集(每人10個(gè)音頻)中的全部音頻進(jìn)行了采樣率調(diào)整,分成16KHz和8KHz兩個(gè)組別,音頻長(zhǎng)度均為60秒。將兩組測(cè)試集數(shù)據(jù)分別輸入系統(tǒng)進(jìn)行說話人識(shí)別,利用相同采樣率的校準(zhǔn)集進(jìn)行校準(zhǔn),測(cè)試結(jié)果見表2。

      表2 兩種不同采樣率條件下的說話人識(shí)別結(jié)果

      從表2中的數(shù)據(jù)可以看出,總體上,兩種采樣率條件下的系統(tǒng)識(shí)別效果都很好。在8KHz采樣率條件下,值達(dá)到0.217,已經(jīng)充分表明了系統(tǒng)的有效性能。但是,相對(duì)于16KHz的采樣率組來說,8KHz采樣率組的識(shí)別性能大幅下降,值增加了103%,EER值增加了138%。這充分說明采樣率不同直接對(duì)系統(tǒng)識(shí)別的準(zhǔn)確性造成了較大影響,使其識(shí)別性能下降一倍還多。圖1為兩種采樣率條件下系統(tǒng)識(shí)別的Tippett圖。

      圖1 8KHz和16KHz采樣率條件下說話人識(shí)別的Tippett圖

      就本文采集的短視頻平臺(tái)語音來說,語音的采樣率都很高,絕大部分的音頻都能達(dá)到44KHz,這是網(wǎng)絡(luò)平臺(tái)對(duì)音質(zhì)要求較高的緣故。這為法庭說話人識(shí)別提供了非常好的數(shù)據(jù)質(zhì)量和識(shí)別性能。需要指出的是,過高的采樣率并不會(huì)帶來系統(tǒng)識(shí)別性能的顯著提升。對(duì)于8KHz頻率范圍的人類語音來說,16KHz的采樣率已經(jīng)足夠保證說話人識(shí)別的性能。而多數(shù)場(chǎng)景下8KHz采樣率的語音的說話人識(shí)別效果也在合理范圍。當(dāng)然,司法實(shí)踐中,有條件情況下還是要首選高采樣率語音數(shù)據(jù)。

      4.2 校準(zhǔn)集規(guī)模對(duì)系統(tǒng)識(shí)別性能的影響

      校準(zhǔn)集的使用是法庭說話人自動(dòng)識(shí)別的一個(gè)標(biāo)準(zhǔn)步驟,可以有效提升說話人識(shí)別的效果。但是,究竟使用多大規(guī)模的校準(zhǔn)集最為合理,目前還沒有固定標(biāo)準(zhǔn)。校準(zhǔn)集過小,起不到應(yīng)有的效果;校準(zhǔn)集過大,又會(huì)給數(shù)據(jù)采集帶來較大困難。為了研究校準(zhǔn)集規(guī)模的大小對(duì)系統(tǒng)識(shí)別性能的影響,我們基于16KHz的采樣率數(shù)據(jù),在50人測(cè)試集(每人10個(gè)音頻)不變條件下,調(diào)整校準(zhǔn)集的大小分別進(jìn)行說話人識(shí)別測(cè)試。校準(zhǔn)集的規(guī)模從20人開始,依次遞增,每次增加10人,直到最后達(dá)到100人規(guī)模。10組校準(zhǔn)集規(guī)模的說話人識(shí)別結(jié)果見表3。

      表3 9種不同規(guī)模校準(zhǔn)集條件下的說話人識(shí)別結(jié)果

      圖2為不同規(guī)模校準(zhǔn)集的識(shí)別結(jié)果的折線圖,從中可以更為明顯地看到這種變化規(guī)律。值和EER值以60人規(guī)模為分界點(diǎn),逐漸趨于平穩(wěn),也就是說,60人規(guī)模處于拐點(diǎn)位置。由此,司法實(shí)踐中,可以考慮將60人規(guī)模的校準(zhǔn)集作為下限使用,至少在該類案件語音場(chǎng)景下可供參考。

      圖2 不同規(guī)模校準(zhǔn)集條件下的系統(tǒng)識(shí)別性能圖

      利用不同規(guī)模校準(zhǔn)集進(jìn)行說話人識(shí)別的Tippett圖,見圖3。

      圖3 不同規(guī)模校準(zhǔn)集條件下說話人識(shí)別的Tippett圖

      4.3 校準(zhǔn)集的音頻數(shù)量對(duì)系統(tǒng)識(shí)別性能的影響

      對(duì)于校準(zhǔn)集來說,一般要求每個(gè)人至少要有兩個(gè)以上音頻才可以實(shí)現(xiàn)校準(zhǔn)功能。校準(zhǔn)集中每個(gè)人的音頻數(shù)越多,校準(zhǔn)和識(shí)別的效果越好嗎?我們利用50人的校準(zhǔn)集,基于16KHz的采樣率數(shù)據(jù),將每個(gè)說話人的音頻數(shù)量分為2、3、5、7、10等5個(gè)組,然后對(duì)50人(每人10個(gè)音頻)的測(cè)試集進(jìn)行了說話人識(shí)別測(cè)試,結(jié)果見表4。

      表4 不同音頻數(shù)量校準(zhǔn)集條件下的說話人識(shí)別結(jié)果

      從表4可以得出,對(duì)校準(zhǔn)集進(jìn)行不同音頻數(shù)量的調(diào)整之后,系統(tǒng)識(shí)別的值、EER值發(fā)生了一定程度的變化,但整體上相差不大。就值來說,音頻數(shù)量為3個(gè)和7個(gè)時(shí)的值最低(0.091),但與音頻數(shù)量為5個(gè)的結(jié)果(0.092)沒有本質(zhì)差別。音頻數(shù)量為10個(gè)時(shí)的值最高(0.102),但與音頻數(shù)量為2個(gè)的結(jié)果(0.101)在同一水平。對(duì)于EER值來說,音頻數(shù)量為5個(gè)時(shí)的EER值最低(0.018),但是與音頻數(shù)量為7個(gè)和10個(gè)時(shí)的EER值基本保持在同一水平。音頻數(shù)量為2個(gè)和3個(gè)時(shí)的結(jié)果接近,都在0.02左右。綜合來看,校準(zhǔn)集中每個(gè)人音頻數(shù)量的持續(xù)增加并沒有帶來系統(tǒng)性能的穩(wěn)定性提高,加之各組指標(biāo)之間的變化幅度比較小,因此,基于系統(tǒng)性能和樣本采集成本的雙重考慮,我們認(rèn)為實(shí)踐中校準(zhǔn)集的每個(gè)人音頻數(shù)仍是至少兩個(gè),當(dāng)然有條件能夠采集3個(gè)更好。

      利用不同音頻數(shù)量的校準(zhǔn)集進(jìn)行說話人識(shí)別的Tippett圖,見圖4。

      圖4 不同音頻數(shù)量校準(zhǔn)集條件下說話人識(shí)別的Tippett圖

      4.4 語音時(shí)長(zhǎng)對(duì)系統(tǒng)識(shí)別性能的影響

      音頻時(shí)長(zhǎng)會(huì)對(duì)說話人識(shí)別的效果造成較大的影響,因?yàn)閺睦碚撋现v,音頻時(shí)長(zhǎng)越長(zhǎng),語音所含的特征信息越豐富,因而越有利于說話人的識(shí)別。但是,在案件現(xiàn)實(shí)條件下,檢材語音都比較短,特別是在刑事案件中,有的案件中檢材語音僅有幾秒鐘。為了探究較短時(shí)長(zhǎng)語音對(duì)說話人自動(dòng)識(shí)別系統(tǒng)的影響程度,我們?cè)?0個(gè)人的測(cè)試集中,基于16KHz的采樣率數(shù)據(jù),從每人的10個(gè)音頻中隨機(jī)選取2個(gè)音頻進(jìn)行剪輯處理。前面的測(cè)試集中每個(gè)人均采用的是10個(gè)音頻,目的是為了增加測(cè)試的難度,該項(xiàng)測(cè)試中之所以選擇兩個(gè)音頻,主要是基于案件現(xiàn)實(shí)場(chǎng)景考慮。實(shí)際案件中,檢材語音和樣本語音各有一段的情況居多。

      利用“Adobe Audition 2019”軟件對(duì)所有的音頻進(jìn)行批量剪輯,將全部音頻分別剪切為5s、10s、15s、20s 4個(gè)長(zhǎng)度組別,然后進(jìn)行說話人識(shí)別測(cè)試,結(jié)果見表5。

      表5 不同音頻時(shí)長(zhǎng)條件下的說話人識(shí)別結(jié)果

      表5中的數(shù)據(jù)表明,整體上,音頻時(shí)長(zhǎng)的增加確實(shí)帶來了系統(tǒng)性能的改善,時(shí)長(zhǎng)為15s時(shí)系統(tǒng)識(shí)別效果最佳。以15s為基準(zhǔn),當(dāng)時(shí)長(zhǎng)從5s增加到15s時(shí),值降低了31%,EER值降低了38%,系統(tǒng)性能得到了明顯提升。當(dāng)時(shí)長(zhǎng)從10s增加到15s時(shí),值降低了11%,EER值降低了44%,系統(tǒng)性能仍在提升。但是,當(dāng)時(shí)長(zhǎng)由15s增加到20s時(shí),值未降反升,提高了15%,EER值也未改變。這意味著,音頻時(shí)長(zhǎng)達(dá)到一定程度以后,繼續(xù)增加并沒有帶來系統(tǒng)性能的持續(xù)改善。當(dāng)然,這與相同音頻時(shí)長(zhǎng)內(nèi)的有效語音信息量并不相等有關(guān)。實(shí)踐中,在檢材語音長(zhǎng)度可控性較低的情況下,還是應(yīng)該盡可能采集較長(zhǎng)的樣本語音進(jìn)行比較,以保證識(shí)別的效果。

      不同音頻時(shí)長(zhǎng)條件下進(jìn)行說話人識(shí)別的Tippett圖,見圖5。

      圖5 不同音頻時(shí)長(zhǎng)下進(jìn)行說話人識(shí)別的Tippett圖

      此外,需要指出的是,本研究中4項(xiàng)測(cè)試的時(shí)長(zhǎng)均是音頻的總體時(shí)長(zhǎng),并非去掉靜默段后的有效時(shí)長(zhǎng)。針對(duì)4種時(shí)長(zhǎng)音頻的有效時(shí)長(zhǎng)進(jìn)行了初步統(tǒng)計(jì),每種選擇了10個(gè)代表性音頻進(jìn)行了有效時(shí)長(zhǎng)的平均值提取,5s、10s、15s、20s音頻去掉靜默段的有效時(shí)長(zhǎng)平均在4.5s、8.7s、13.7s、17.8s左右。網(wǎng)絡(luò)媒體的音視頻鑒于時(shí)長(zhǎng)的限制,一般語速為中等偏上,因此有效時(shí)長(zhǎng)相對(duì)較長(zhǎng)。在這種情況下,系統(tǒng)取得了很好的識(shí)別效果,進(jìn)一步驗(yàn)證了該模型系統(tǒng)的良好性能。

      5 結(jié)論

      本文采用基于似然比框架的法庭說話人自動(dòng)識(shí)別系統(tǒng),對(duì)150名男性的1500個(gè)網(wǎng)絡(luò)媒體語音進(jìn)行了法庭說話人識(shí)別驗(yàn)證研究,分別測(cè)試了不同采樣率、不同規(guī)模校準(zhǔn)集、校準(zhǔn)集不同音頻數(shù)量、以及測(cè)試集不同音頻時(shí)長(zhǎng)條件下的系統(tǒng)性能,量化分析和評(píng)價(jià)了這些因素對(duì)系統(tǒng)識(shí)別性能的影響。研究表明,在未進(jìn)行PLDA自適應(yīng)訓(xùn)練情況下,系統(tǒng)識(shí)別仍然得到了很好的識(shí)別結(jié)果,表明系統(tǒng)在該類網(wǎng)絡(luò)媒體語音場(chǎng)景下的良好識(shí)別性能。總體上看,雖然音頻的采樣率越高、校準(zhǔn)集的規(guī)模越大、校準(zhǔn)集說話人音頻數(shù)量越多、測(cè)試音頻時(shí)長(zhǎng)越長(zhǎng),系統(tǒng)的識(shí)別性能越好,但是這一趨勢(shì)并不穩(wěn)定,當(dāng)指標(biāo)達(dá)到一定程度后,繼續(xù)增加指標(biāo)并不會(huì)帶來系統(tǒng)性能的穩(wěn)定提升。

      司法實(shí)踐中,我們需要在系統(tǒng)性能和時(shí)效成本之間找到一個(gè)平衡點(diǎn)?;诒狙芯康恼Z音數(shù)據(jù)質(zhì)量,8KHz采樣率、60人規(guī)模的校準(zhǔn)集、校準(zhǔn)集中每人2~3個(gè)音頻,以及15s的音頻時(shí)長(zhǎng)條件下已經(jīng)取得了很好的自動(dòng)說話人識(shí)別效果,而這些條件也反映了一定的案件現(xiàn)實(shí)情況。因此,本研究結(jié)果不僅可以為法庭說話人自動(dòng)識(shí)別技術(shù)的實(shí)踐應(yīng)用提供量化依據(jù),還可以為自動(dòng)識(shí)別系統(tǒng)的性能改進(jìn)提供參考。

      猜你喜歡
      自動(dòng)識(shí)別法庭音頻
      法庭不需要煽情的辯護(hù)詞
      上法庭必須戴假發(fā)?
      必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      自動(dòng)識(shí)別系統(tǒng)
      特別健康(2018年3期)2018-07-04 00:40:18
      音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      金屬垃圾自動(dòng)識(shí)別回收箱
      法庭爭(zhēng)孫究竟為哪般?
      公民與法治(2016年7期)2016-05-17 04:11:15
      基于IEC61850的配網(wǎng)終端自動(dòng)識(shí)別技術(shù)
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      全椒县| 鄱阳县| 鲁山县| 慈利县| 左权县| 常山县| 葫芦岛市| 永兴县| 富蕴县| 茶陵县| 沂南县| 开化县| 安宁市| 微博| 嘉祥县| 宁蒗| 桐柏县| 惠安县| 罗定市| 南康市| 铜陵市| 普兰店市| 永寿县| 兴义市| 洞头县| 宜兰市| 天长市| 信阳市| 镶黄旗| 加查县| 耒阳市| 涿州市| 泰来县| 汶川县| 久治县| 乌兰浩特市| 马关县| 浦县| 独山县| 延吉市| 海晏县|