法庭說話人識別語音數(shù)據(jù)庫的構(gòu)建

2016-03-06 08:12:06張翠玲GeoffreyStewartMorrison

中國刑警學(xué)院學(xué)報 2016年4期

關(guān)鍵詞：檢材錄音法庭

張翠玲Geoffrey Stewart Morrison

（1西南政法大學(xué) 重慶市高校物證技術(shù)工程研究中心重慶 401120；2阿爾伯塔大學(xué) 加拿大阿爾伯塔 T6G 2E7）

法庭說話人識別語音數(shù)據(jù)庫的構(gòu)建

張翠玲1Geoffrey Stewart Morrison2

（1西南政法大學(xué) 重慶市高校物證技術(shù)工程研究中心重慶 401120；2阿爾伯塔大學(xué) 加拿大阿爾伯塔 T6G 2E7）

為建立具有代表性的法庭話者識別相關(guān)背景人群語音數(shù)據(jù)庫，促進法庭語音數(shù)據(jù)的資源共享，從法庭話者識別的研究和實踐出發(fā)，提出了一套基于漢語的法庭語音數(shù)據(jù)庫構(gòu)建方案，對語音數(shù)據(jù)的采集、處理和應(yīng)用也提出了相關(guān)建議。這樣的數(shù)據(jù)庫更貼近典型案件條件，更適合法庭語音研究及應(yīng)用，也適合其他自然口語語音研究。

法庭說話人識別相關(guān)背景人群語音數(shù)據(jù)庫

近年來，隨著視聽證據(jù)法律地位的確立，錄音證據(jù)在各類刑事、民事案件中的出現(xiàn)率顯著遞增。特別是在綁架勒索、爆炸恐怖威脅等重大案件中，錄音不僅是重要的證據(jù)，往往還是唯一的證據(jù)。因此，分析錄音中說話人的語音特征，特別是鑒別說話人的身份，對于查清案件事實、揭露和證實犯罪具有重要意義。

法庭話者識別是指將罪犯的語音（檢材）與犯罪嫌疑人的語音（樣本）進行比較鑒別，通過對兩者同源性的判斷評估為法庭提供線索和證據(jù)的一門技術(shù)。語音具有特異性和相對穩(wěn)定性，但也具有變異性。一個人的語音在不同場景下會產(chǎn)生變化，不同人的語音也具有一定的相似性。而語音在不同環(huán)境下的變化性、不同人語音之間的差異性，檢材與樣本特征的相似性及其在相關(guān)背景人群中的典型性等都是法庭話者識別的關(guān)鍵問題。這些問題只有通過對大量語音數(shù)據(jù)的量化分析和統(tǒng)計評估才能解決，而擁有較大規(guī)模的、能夠代表案件實際條件的相關(guān)背景人群語音數(shù)據(jù)庫則是開展這些工作前提和基礎(chǔ)。

目前，國際國內(nèi)在法庭說話人識別語音數(shù)據(jù)庫方面已經(jīng)取得了一定成果，特別是針對自動識別系統(tǒng)開展的數(shù)據(jù)庫建設(shè)[1-3]。然而，在語音數(shù)據(jù)的采集內(nèi)容和方式上還存在一定問題，例如，以朗讀語體為主（如讀一段報紙），與實際交流的自然口語語體不符；以發(fā)音人自述為主（如自我介紹），與實際對話交流的語用場景不符；以同期語音為主，與檢材和樣本的非同時性不符等。由于這樣的數(shù)據(jù)不符合法庭語音的實際場景條件，缺乏代表性和典型性，因此，其發(fā)揮的作用也有限。

本文從法庭話者識別的研究和實踐應(yīng)用出發(fā)，結(jié)合案件語音的特點，提出一套基于漢語的法庭語音數(shù)據(jù)庫構(gòu)建方案，并對語音數(shù)據(jù)的采集、處理和應(yīng)用提出了相關(guān)建議。該數(shù)據(jù)庫構(gòu)建方案也適用于相近研究目的和其它語種語音數(shù)據(jù)的采集。

1 案件語音的特點

鑒于發(fā)生場景的特殊性，案件語音主要表現(xiàn)為以下特點：

（1）錄音檢材低質(zhì)化。錄音條件的復(fù)雜性和不可控性導(dǎo)致檢材質(zhì)量低下是案件語音的最大特點。其原因涉及到發(fā)音及錄音的各個層面，如錄音場合、講話環(huán)境、情緒狀態(tài)、錄音設(shè)備、傳輸信道、錄音方式、格式壓縮等。而這些因素往往混雜交織在一起，因此，增加了分析檢驗的難度。

（2）檢材與樣本語音條件不匹配。這是案件語音的典型場景問題。由于檢材語音和樣本語音在采集的時間、場合、設(shè)備條件、發(fā)音人狀態(tài)等方面的差異，導(dǎo)致兩者整體語音條件不匹配。這直接導(dǎo)致檢材和樣本之間的差異程度增大，進一步加大了說話人識別的難度。

2 建庫原則及要求

法庭語音數(shù)據(jù)庫應(yīng)考慮典型案件的語音特點，采集具有代表性的語音。其原則及要求如下：

（1）數(shù)據(jù)庫中應(yīng)包含發(fā)音人至少兩次的非同期錄音。這是基于對實際案件中檢材錄音與樣本錄音采集的非同時性考慮。一般情況下，樣本的采集總是滯后于檢材，有時甚至?xí)喔魩啄辍ＵZ音建庫時必須考慮語音的歷時性變化，采集發(fā)音人不同時間場合的語音，因為同期錄音往往會低估語音的變異程度?？紤]到采集的時效性，可以分2次或3次采集發(fā)音人的錄音，時間間隔可以是幾個星期或幾個月。

（2）數(shù)據(jù)庫中的言語風(fēng)格應(yīng)該代表典型案件的語音特點。典型案件中的語音檢材有部分來源于當(dāng)事人雙方（或多方）面對面的交談錄音，而大部分來源于當(dāng)事人雙方的電話通話錄音。這些都屬于自然交談的口語形式，但由于案件性質(zhì)的不同有時講話的內(nèi)容和方式有所差別。例如，在詐騙案件中可能涉及到銀行賬號等信息，表達這些信息時人們一般采用“照單宣讀”的（半）朗讀語體。而樣本的采集一般是通過辦案人員對犯罪嫌疑人進行詢問而錄制的，因此，樣本一般多為被動的“問答”風(fēng)格。有時也讓犯罪嫌疑人照讀按照事先準備好的（檢材）內(nèi)容。為此，本文設(shè)計了自由交談、信息核對和模擬警察詢問等代表上述情形的3項任務(wù)。

（3）數(shù)據(jù)庫必須具有實用性，要考慮到檢材和樣本錄音條件的不匹配性。實際案件中，檢材與樣本錄音條件的不匹配突出表現(xiàn)在錄音設(shè)備和傳輸信道方面，此外，還有噪聲和混響等。為此，我們采集高質(zhì)量的麥克錄音，目的是為了后期可以根據(jù)不同的案件條件設(shè)計濾波器，模擬不同的傳輸信道，還可以進行案件噪聲和混響的加載模擬，進而分析各種失配條件下的語音差異及其對話者識別的影響。而如果采集低質(zhì)錄音則不利于各種因素的分析。當(dāng)然，也可以考慮幾種設(shè)備信道同步錄音，只是后期處理的任務(wù)較重。

3 錄音設(shè)備、方法與內(nèi)容

3.1 錄音設(shè)備

應(yīng)選取高保真的專業(yè)錄音設(shè)備，提取高質(zhì)量的語音信號。另外，不同地區(qū)和部門采用設(shè)備條件應(yīng)盡可能一致，以便實現(xiàn)各部門數(shù)據(jù)庫之間的資源共享。聲卡：日本生產(chǎn)的羅蘭聲卡（外置）（RolandVR UA-25EX, Roland Corporation,Hamamatsu,Japan）。麥克：德國生產(chǎn)的森海塞爾領(lǐng)夾式麥克（Flat-frequency-response lapel microphones，Sennheiser MKE 2 P-C,Sennheiser electronicGmbH&Co.KG,Wedemark,Germany）。耳機：奧地利生產(chǎn)的專業(yè)監(jiān)聽耳機（頭戴式AKG? K701）。錄音軟件：Cooledit Pro 2.1。

3.2 錄音方法

錄音地點選擇在專業(yè)錄音室（或隔音間），發(fā)音人A和B每人戴一個麥克，分別在兩個房間通過電話與對方交談，研究人員在外面的監(jiān)控室（第3個房間）進行實時錄音監(jiān)控。兩個麥克與監(jiān)控室的聲卡（左右聲道）和計算機相連。利用Cooledit軟件進行左（發(fā)音人A）右聲道（發(fā)音人B）同時錄音。采樣率設(shè)為44.1KHz，量化精度為16位。錄音采集方法[4]如圖1和圖2所示。

圖1 錄音采集示意圖

圖2 左右聲道語音同時采集

3.3 錄音內(nèi)容

錄音內(nèi)容共3項，每項任務(wù)的時間為10分鐘。

（1）自由交談。每組發(fā)音人兩個：A和B（兩人最好熟悉，如同學(xué)、同事、師生、親人或朋友），A給B打電話，兩人通過電話自由交談，話題自選。這項任務(wù)的設(shè)計主要是出于案件語音話題的開放性考慮。實際案件中，由于案情各異，談話的主題各種各樣，五花八門。自由對話可以展示發(fā)音人的自然講話狀態(tài)、講話特點和言語習(xí)慣，還可以涵蓋各種常用詞匯和高頻音節(jié)。

（2）信息核對。自由對話結(jié)束以后，給兩位發(fā)音人（A和B）每人一份產(chǎn)品報價單傳真件。兩份單子內(nèi)容相同，但是由于傳真效果不好，上面各有幾行不清楚。兩人還是通過電話交談，對照確認各自傳真上的模糊信息，并寫在報價單的相應(yīng)位置。這項任務(wù)的設(shè)計是考慮有些案件中會涉及到個人信息的提供，如姓名、身份證號碼、住址、銀行賬戶信息等。采用信息核對方式是模擬這些信息提供時的朗讀風(fēng)格。此外，報價單的內(nèi)容是在綜合考察漢語普通話音節(jié)的各類輔音-元音搭配、聲調(diào)、數(shù)字、字母等基礎(chǔ)上設(shè)計挑選的。之所以讓發(fā)音人將模糊信息記錄下來，是因為這樣可以出現(xiàn)相同音節(jié)的多次重復(fù)和漢字的拼寫確認，更符合實際場景，而且多個重復(fù)音節(jié)也有利于法庭語音分析。

產(chǎn)品報價單的樣例如圖3所示。

圖3 模糊的產(chǎn)品報價單傳真樣例（發(fā)音人A）

（3）模擬警察詢問。在傳真核對任務(wù)完成以后，由研究人員分別對每位發(fā)音人進行面對面的提問（不用電話），發(fā)音人（仍戴著麥克）進行回答。這是模擬警察對犯罪嫌疑人進行詢問的場景，但是不需要角色扮演，詢問的內(nèi)容也不涉及任何案件。例如，可以詢問發(fā)音人某天從早到晚一天的活動情況。首先讓發(fā)音人自行陳述，內(nèi)容越詳細越好。然后，研究人員就其自述內(nèi)容進行細節(jié)盤問，發(fā)音人回答。由于實際案件中經(jīng)常會出現(xiàn)“不知道”、“不清楚”、“不是”等否定性應(yīng)答，因此，可以就其回答的細節(jié)進行反復(fù)盤問，引導(dǎo)發(fā)音人進行多次的確認或否認回答。當(dāng)然，這需要研究人員有一定的問話技巧。

4 數(shù)據(jù)處理和應(yīng)用

4.1 錄音處理

（1）語音切分及命名保存。由于3項任務(wù)的錄音是連續(xù)進行的，因此，2人一組整段錄音的時長至少在30～40分鐘以上。研究人員首先將整段錄音保存為“PCM.wav”格式的立體聲文件，命名按照錄音日期、（左右聲道）發(fā)音人身份編號和錄音次數(shù)順序進行。例如，文件名“2015-03-15_003(1)_004(1).wav”表明這是發(fā)音人003和004在2015年3月15日進行的第1次錄音。其中，指定前10個字符“2015-03-15”代表錄制日期，第1個下劃線“_”后的3位數(shù)字“003”代表左聲道發(fā)音人A的身份編號，括號中的數(shù)字“（1）”代表第1次錄音，第2個下劃線后連的右聲道發(fā)音人B的身份編號“004”和錄音次數(shù)“第1次”。

接下來要將兩個人的3項任務(wù)錄音分別進行切分保存。研究人員通過監(jiān)聽，進行人工定位和手動切分。首先，將整段錄音切分為自由對話（cnv）、傳真核對（fax）和警察詢問（int）3個立體聲文件保存，命名規(guī)則是在整段錄音文件名基礎(chǔ)上添加下劃線“_”和任務(wù)種類，例如：“2015-03-15_003(1)_004(1)_cnv.wav”、“2015-03-15_003(1)_004(1)_fax.wav”、“2015-03-15_003 (1)_004(1)_int.wav”。然后，將它們分為左右聲道分別保存，命名規(guī)則是在任務(wù)命名基礎(chǔ)上再添加下劃線“_”和左（L）右（R）聲道信息，例如，“2015-03-15_03 (1)_004(1)_cnv_L.wav”和“2015-03-15_003(1)_004(1) _cnv_R.wav”。

（2）靜音段剔除。經(jīng)過上述切分，每位發(fā)音人每項任務(wù)的錄音時長約為10分鐘，而其實際上的發(fā)音時間僅占一半左右，錄音中還有一些靜音段（無聲間歇段）。由于長聲音文件不便于聲學(xué)-語音學(xué)分析，因此，需要將這些靜音段（可能含一定噪音）剔除，將整段聲音文件切分為很多小語音段，存放在一個文件夾中。采用語音編輯軟件“Sound File CutterUpper”按照“呼吸群”進行有聲語段的自動切分（也可以采用Adobe Audition等通用軟件進行切分）。首先計算整段錄音運行振幅的均方根（RMS），然后查找并保存超過幅度閾值的錄音部分，低于閾值的部分則被忽略。總的有效參數(shù)設(shè)置為：使用100ms寬的Hamming窗測量RMS的分貝值，閾值設(shè)置為最大與最小振幅之間幅程的1/3。忽略的聲音最長為100ms，忽略的靜音段最長為50ms。錄音從高于閾值上升的前100ms開始保存，于低于閾值下降后的100ms結(jié)束。操作時一般采用預(yù)設(shè)參數(shù)就可以，個別時候需要進行參數(shù)調(diào)整。剔除靜音段以后的多個短文件被自動保存在文件夾中（與原文件同名，只是去除了擴展名）。文件夾中每個文件用其相對于原文件的時間來命名，例如，“00-02-37_00-03-76.wav”，其中，前半部分和后半部分分別代表錄音的起始時間和結(jié)束時間，即從源文件的2分37秒到3分76秒。

圖4 錄音切分和靜音段剔除

（3）噪音去除。剔除靜音段后的錄音也不全是我們需要的語音段，有時還包含一些噪音或研究人員的語音，這些也都需要去除?？梢岳谩癆dobe Audition等通用軟件進行這些“噪音”的人工辨聽和手工去除。其中，對于整段噪音的文件可以直接進行刪除，對于一段錄音中含有的部分噪音則采取將其振幅歸零的方式去除，這樣可以完整保留文件的時間序列，便于進行以時間為線索的文件批處理。

4.2 數(shù)據(jù)庫應(yīng)用

法庭話者識別的難點就在于語音具有較大的變異性，而客觀評估話者自身變異和話者之間差異一直都是法庭語音學(xué)家關(guān)心的問題。利用這樣的語音數(shù)據(jù)庫可以更好地開展此類研究。例如，可以對相關(guān)背景人群的語音進行特征提取和定量測量，建立特征統(tǒng)計模型，定量分析和評估參數(shù)特征的變化性、相似性和典型性。此外，還可以通過話者識別測試，對各種參數(shù)特征、提取方法、統(tǒng)計模型、計算方法和特征系統(tǒng)的有效性進行分析評測，為其實踐應(yīng)用提供數(shù)據(jù)和方法支持。

此外，如何對不匹配條件下的檢材語音與樣本語音的進行比較分析和特征補償，對于提高法庭話者識別的可靠性和準確性具有重要意義。這樣的數(shù)據(jù)庫既可用于信道補償方面的研究，也可作為案件檢驗的相關(guān)背景人群數(shù)據(jù)庫使用。例如，可以根據(jù)具體的案件語音條件，設(shè)定濾波器，對高質(zhì)量語音信號進行（信道、噪聲及混響等）案件條件模擬。這樣，不僅可以分析典型案件條件下的語音變化規(guī)律，評估各種因素對話者識別的影響，還可以對檢材和樣本聲學(xué)特征的相似性和（在反映案件條件的相關(guān)背景人群中的）典型性進行評估，進而對語音證據(jù)的價值進行量化評估。

5 結(jié)語

該語音數(shù)據(jù)庫建庫方案主要為法庭話者識別的科研和辦案而設(shè)計，它克服了以往同類數(shù)據(jù)庫與實際案件條件不符、缺乏代表性的問題，語音數(shù)據(jù)更貼近典型案件條件，更適合法庭語音分析及應(yīng)用。此外，這是國際通用方案，適用于包括漢語在內(nèi)的所有語種的語音數(shù)據(jù)采集（信息核對的內(nèi)容依語種而變）。目前，國際上已有部分語音數(shù)據(jù)庫項目采用了該建庫方案，如東北漢語普通話、澳大利亞英語、澳大利亞英語、半島西班牙語、葡萄牙語、粵語和智利西班牙語等。

多年以來，法庭語音工作者們一直希望能擁有一個強大的語音數(shù)據(jù)庫資源。然而，數(shù)據(jù)庫的建設(shè)是一項繁雜的長期任務(wù)，需要多方共同努力與協(xié)作。希望該方案能為法庭語音數(shù)據(jù)庫的建設(shè)提供參考和借鑒，推動和促進我國法庭語音數(shù)據(jù)的資源共享和法庭語音技術(shù)的進步。

[1]Orte ga-García J,González-Rodríguez J, Marrero-Aguilar V.AHUMADA:A large speech corpus in Spanish for speaker characterization and identification [J].Speech Communication,2000(2-3):255-264.

[2]Nolan F,McDougallK,de JongG,et al.The DyVis database:Style-controlled recordingsof 100 homogeneous speakers for forensic phonetic research[J].International JournalofSpeech,LangandtheLaw,2009(1):31-57.

[3]李敬陽,胡國平,王莉.聲紋自動識別技術(shù)與聲紋庫建設(shè)應(yīng)用[J].警察技術(shù),2012(4):66-69.

[4]Morrison G S,Rose P,Zhang C.Protocol for the collection of databases of recordings for forensic-voice-comparison research and practice[J].Australian Journal of Forensic Science,2012(2):155-167.

（責(zé)任編輯：于萍）

H017

2095-7939（2016）04-0061-04

10.14060/j.issn.2095-7939.2016.04.013

2016-11-16

國家社科基金重點項目（編號：16AYY015）；2015年西南政法大學(xué)科研資助項目（編號：2015-XZRCXM003）。

張翠玲（1972-），女，遼寧沈陽人，西南政法大學(xué)刑事偵查學(xué)院教授，博士，主要從事公安視聽技術(shù)研究。

法庭說話人識別語音數(shù)據(jù)庫的構(gòu)建

1 案件語音的特點

2 建庫原則及要求

3 錄音設(shè)備、方法與內(nèi)容

4 數(shù)據(jù)處理和應(yīng)用

5 結(jié)語

3 錄音設(shè)備、方法與內(nèi)容