劉貽杰, 李江春, 陳維娜, 黃頎涵
(1.中國(guó)人民公安大學(xué)偵查學(xué)院, 北京 100038; 2.法庭科學(xué)湖北省重點(diǎn)實(shí)驗(yàn)室(湖北警官學(xué)院), 湖北武漢 430034)
從1962年Kersta[1]首次提出“聲紋鑒定”這一概念之后,語(yǔ)音同一認(rèn)定技術(shù)已成功服務(wù)于法庭科學(xué)[2]。基頻是語(yǔ)音同一認(rèn)定中的一個(gè)重要的聲學(xué)參數(shù)[3-5]。說(shuō)話人通過(guò)控制其聲帶的振動(dòng)速率,產(chǎn)生不同的音高,振動(dòng)速率通過(guò)聲學(xué)參數(shù)“基頻”(通常標(biāo)記為F0)來(lái)表征[6]。基頻的生理基礎(chǔ)是聲帶的解剖學(xué)特征,而每個(gè)人的聲帶長(zhǎng)短、薄厚等均存在一定的差異;同時(shí),后天的發(fā)音習(xí)慣也存在差異,故可利用基頻來(lái)對(duì)說(shuō)話人進(jìn)行鑒別。
LaRiviere[7]對(duì)8名志愿者所發(fā)元音的基頻值和共振峰頻率進(jìn)行測(cè)量,并對(duì)數(shù)據(jù)進(jìn)行分析,認(rèn)為基頻和共振峰頻率均能應(yīng)用于語(yǔ)音同一認(rèn)定,且兩者的價(jià)值相當(dāng)。Jessen[8]等人進(jìn)行了一項(xiàng)針對(duì)說(shuō)話人在正常朗讀、正常對(duì)話、大聲朗讀和大聲對(duì)話4個(gè)條件下基頻值變化的研究,發(fā)現(xiàn)平均基頻會(huì)隨著音量的提高而升高,另外在朗讀模式下,大聲朗讀的基頻個(gè)體穩(wěn)定性明顯弱于正常朗讀,但在對(duì)話模式下未發(fā)現(xiàn)明顯差異。Nolan[9]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)了選擇音段的長(zhǎng)短對(duì)個(gè)體識(shí)別有一定的影響。Labutin[10]等人嘗試將基頻應(yīng)用于說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的訓(xùn)練當(dāng)中,使用了包括平均值、最大值、最小值、最大值-3%、F0平均下降速度等十幾項(xiàng)參數(shù),并對(duì)參數(shù)的權(quán)重作調(diào)整,結(jié)果發(fā)現(xiàn),隨著測(cè)量音段的時(shí)長(zhǎng)增加,相等錯(cuò)誤率(EER)下降。上述研究主要針對(duì)的是英語(yǔ)、德語(yǔ)等非聲調(diào)語(yǔ)言,而漢語(yǔ)屬于聲調(diào)語(yǔ)言[11],國(guó)內(nèi)外尚缺乏對(duì)漢語(yǔ)普通話基頻用于語(yǔ)音同一認(rèn)定的相關(guān)研究。
當(dāng)前,我國(guó)電信網(wǎng)絡(luò)詐騙案件呈高發(fā)態(tài)勢(shì),嫌疑人往往“只聞其聲、不見其人”,需要通過(guò)聲紋自動(dòng)識(shí)別、語(yǔ)音同一認(rèn)定來(lái)提供關(guān)鍵信息以及證據(jù)。研究能夠用于語(yǔ)音同一認(rèn)定的漢語(yǔ)普通話語(yǔ)音聲學(xué)參數(shù)、豐富語(yǔ)音特征指標(biāo)的評(píng)價(jià)體系是亟待解決的問題。因此,將漢語(yǔ)普通話基頻作為研究對(duì)象,在結(jié)合國(guó)外學(xué)者對(duì)非聲調(diào)類語(yǔ)言基頻的研究成果基礎(chǔ)上,針對(duì)漢語(yǔ)普通話的聲調(diào)語(yǔ)言特性,分別對(duì)單音節(jié)字、多音節(jié)詞、句子及語(yǔ)段的基頻進(jìn)行測(cè)量及統(tǒng)計(jì)分析,研究音段選取長(zhǎng)度對(duì)漢語(yǔ)普通話基頻分析的影響,進(jìn)而確定基頻特征在同一人發(fā)音中的穩(wěn)定性和不同人間的差異性,以期為語(yǔ)音同一認(rèn)定的檢案實(shí)踐提供參考。
本實(shí)驗(yàn)邀請(qǐng)20名男性志愿者進(jìn)行錄音,分別編號(hào)為1~20,相關(guān)信息見表1。20名志愿者均能流利地講出標(biāo)準(zhǔn)的普通話,在錄音時(shí)健康狀況良好,發(fā)音正常,無(wú)明顯沙啞、囊鼻等狀況。實(shí)驗(yàn)選擇的語(yǔ)料是《他和我們四個(gè)人一起去無(wú)錫市旅游》,該語(yǔ)料基本包含了漢語(yǔ)普通話所有韻母類型。
表1 20名志愿者簡(jiǎn)要信息
1.2.1 錄音設(shè)備及軟件
冠牌iD- 330MU型USB接口麥克風(fēng)、聯(lián)想ThinkPad S230u Twist計(jì)算機(jī)、Adobe Audition 2.0。
1.2.2 分析設(shè)備及軟件
戴爾G3 3590計(jì)算機(jī)、Praat v.6.1.09、IBM SPSS Statistics R26.0.0.0 32位版。
錄音環(huán)境為專業(yè)的語(yǔ)音實(shí)驗(yàn)室,門窗關(guān)閉,未開空調(diào);錄音距離控制在約10 cm。在錄音前志愿者先熟悉語(yǔ)料內(nèi)容,然后正式開始錄音。錄音參數(shù)設(shè)置16 000 Hz的采樣率和16 bit的采樣精度,單聲道,wav格式。志愿者按照自己平時(shí)的言語(yǔ)習(xí)慣進(jìn)行自然狀態(tài)下的發(fā)聲,每人就同一語(yǔ)料錄制3遍。錄音文件以志愿者的編號(hào)來(lái)命名。
1.4.1 基頻值測(cè)量
單音節(jié)字基頻。分別測(cè)量20位志愿者在3次錄制中的“今”“他”“家”“三”“八”5個(gè)單音節(jié)字的基頻值,記錄每次測(cè)量的基頻數(shù)值及發(fā)音時(shí)長(zhǎng)。
多音節(jié)詞基頻。分別測(cè)量20位志愿者在3次錄制中的“旅游”“畢業(yè)于”“四川大學(xué)”3個(gè)多音節(jié)詞語(yǔ)的基頻值,記錄每次測(cè)量的基頻數(shù)值及其發(fā)音時(shí)長(zhǎng)。
句子基頻。分別測(cè)量20位志愿者在3次錄制中的“今天……旅游”“他的……九零”共兩個(gè)句子的基頻均值、最小值和最大值,分別標(biāo)記為“句一mean”“句一min”“句一max”“句二mean”“句二min”“句二max”,同時(shí)記錄每次所截取句子的發(fā)音時(shí)長(zhǎng)。
語(yǔ)段基頻。分別測(cè)量20位志愿者3次錄制的完整語(yǔ)料的基頻均值、最小值、最大值,分別標(biāo)記為“語(yǔ)段mean”“語(yǔ)段min”“語(yǔ)段max”,同時(shí)記錄每次所截取的語(yǔ)段時(shí)長(zhǎng)。
1.4.2 統(tǒng)計(jì)分析
使用方差均值比統(tǒng)計(jì)分析個(gè)體相對(duì)穩(wěn)定性。計(jì)算出同一人3次發(fā)音中各單音節(jié)字、多音節(jié)詞的平均時(shí)長(zhǎng)、基頻均值、方差、標(biāo)準(zhǔn)差和方差均值比;以及句子、語(yǔ)段的平均時(shí)長(zhǎng)、基頻均值、最小值、最大值的方差、標(biāo)準(zhǔn)差和方差均值比等。當(dāng)方差均值比大于10%時(shí)表示數(shù)據(jù)并不穩(wěn)定、波動(dòng)性較強(qiáng),而當(dāng)方差均值比小于10%時(shí)則表明數(shù)據(jù)較穩(wěn)定。
使用皮爾遜相關(guān)性檢驗(yàn)初步統(tǒng)計(jì)分析發(fā)音個(gè)體間差異性[12]。皮爾遜相關(guān)性檢驗(yàn)用于體現(xiàn)兩變量之間的相關(guān)性,而檢驗(yàn)的顯著性(即“Sig值”)用于體現(xiàn)個(gè)體間差異;顯著性小于0.05時(shí),拒絕原假設(shè),個(gè)體間存在差異,反之則不存在差異或差異不明顯。
使用歐氏距離綜合統(tǒng)計(jì)分析句子、語(yǔ)段基頻的發(fā)音個(gè)體間差異性[13]。歐氏距離用于直觀體現(xiàn)多維向量間的差異,評(píng)價(jià)相似度時(shí)則用距離加1取倒數(shù),得到一個(gè)數(shù)值,若大于0.8則相似度非常高,大于0.5小于0.8則中等相似,大于0.5小于0.3則相似度較低,小于0.3則基本不相似。
經(jīng)統(tǒng)計(jì),20位志愿者發(fā)單音節(jié)字的平均時(shí)長(zhǎng)在0.100~0.126 s之間,發(fā)多音節(jié)詞的平均時(shí)長(zhǎng)在0.316~0.636 s之間,句子發(fā)音的平均時(shí)長(zhǎng)在3.184~3.492 s之間,念讀語(yǔ)段的平均時(shí)長(zhǎng)為13.010 s,具體發(fā)音時(shí)長(zhǎng)情況如圖1所示。由圖1可知,同類音段的語(yǔ)料單元發(fā)音時(shí)長(zhǎng)較為接近,而不同類音段的語(yǔ)料單元發(fā)音時(shí)長(zhǎng)有明顯差異,這有助于分析發(fā)音時(shí)長(zhǎng)變化對(duì)基頻值測(cè)量的影響。此外,截取音段時(shí)長(zhǎng)統(tǒng)計(jì)表明:?jiǎn)我艄?jié)字和多音節(jié)詞發(fā)音時(shí)長(zhǎng)均較短,故此類音段的基頻特征僅能考察到均值這一單一指標(biāo);而句子和語(yǔ)段的發(fā)音時(shí)長(zhǎng)較長(zhǎng),語(yǔ)音基頻信息豐富,可考察基頻均值、最大值和最小值等多項(xiàng)指標(biāo)。
圖1 20位志愿者不同音段長(zhǎng)度的發(fā)音時(shí)長(zhǎng)
2.2.1 單音節(jié)字基頻個(gè)體穩(wěn)定性的統(tǒng)計(jì)結(jié)果
對(duì)于音節(jié)“今”,有13個(gè)人的基頻值方差均值比大于10%,占65%;對(duì)于音節(jié)“他”,有10個(gè)人的基頻值方差均值比大于10%,占50%;對(duì)于音節(jié)“家”,有13個(gè)人的基頻值方差均值比大于10%,占65%;對(duì)于音節(jié)“三”,有5個(gè)人的基頻值方差均值比大于10%,占25%;對(duì)于音節(jié)“八”,有5個(gè)人的基頻值方差均值比大于10%,占25%。統(tǒng)計(jì)結(jié)果如圖2所示。
圖2 20名志愿者單音節(jié)字基頻值方差均值比
2.2.2 多音節(jié)詞基頻個(gè)體穩(wěn)定性的統(tǒng)計(jì)結(jié)果
對(duì)于詞語(yǔ)“旅游”,有8位志愿者的基頻值方差均值比大于10%,占40%;對(duì)于詞語(yǔ)“畢業(yè)于”,有4位志愿者的基頻值方差均值比大于10%,占20%;對(duì)于詞語(yǔ)“四川大學(xué)”,有6位志愿者的基頻值方差均值比大于10%,占30%。統(tǒng)計(jì)結(jié)果如圖3所示。
圖3 20名志愿者多音節(jié)詞基頻值方差均值比
2.2.3 句子基頻個(gè)體穩(wěn)定性的統(tǒng)計(jì)結(jié)果
對(duì)于句一mean,僅有3人基頻值的方差均值比大于10%,占15%,而對(duì)于句二mean,僅有2人基頻值的方差均值比大于10%,占10%。而對(duì)于句一min,有10個(gè)人的基頻值的方差均值比大于10%,占50%,且對(duì)于句一max,有16個(gè)人的基頻值的方差均值比大于10%,占80%;同樣,對(duì)于句二min,有9個(gè)人的基頻值的方差均值比大于10%,占45%,且對(duì)于句二max,有12個(gè)人的基頻值的方差均值比大于10%,占60%。統(tǒng)計(jì)結(jié)果如圖4所示。
圖4 20名志愿者句子基頻值方差均值比
2.2.4 語(yǔ)段基頻個(gè)體穩(wěn)定性的統(tǒng)計(jì)結(jié)果
對(duì)于語(yǔ)段基頻mean,沒有志愿者的基頻值方差均值比大于10%;對(duì)于語(yǔ)段基頻min,有7個(gè)人的基頻值的方差均值比大于10%,占35%;對(duì)于語(yǔ)段基頻max,有10個(gè)人的基頻值的方差均值比大于10%,占50%。統(tǒng)計(jì)結(jié)果如圖5所示。
圖5 20名志愿者語(yǔ)段基頻值方差均值比
通過(guò)對(duì)不同時(shí)長(zhǎng)音段的基頻個(gè)體穩(wěn)定性進(jìn)行統(tǒng)計(jì)分析發(fā)現(xiàn):?jiǎn)我艄?jié)字的基頻值表現(xiàn)并不穩(wěn)定,即不具備個(gè)體穩(wěn)定性;多音節(jié)詞的基頻個(gè)體穩(wěn)定性同樣較差;而在句子的各項(xiàng)基頻參數(shù)指標(biāo)中,僅均值具有較好的個(gè)體穩(wěn)定性,而基頻最大值、最小值穩(wěn)定性均較弱;語(yǔ)段基頻均值具有良好的個(gè)體穩(wěn)定性,而語(yǔ)段基頻的最大值和最小值穩(wěn)定性較弱。同時(shí),從圖2~圖5中可發(fā)現(xiàn)隨著音段時(shí)長(zhǎng)的增加,基頻均值的穩(wěn)定性也隨之增強(qiáng),表現(xiàn)為:語(yǔ)段>句子>多音節(jié)詞>單音節(jié)字。
2.3.1 單一基頻指標(biāo)人間差異性統(tǒng)計(jì)結(jié)果
分別對(duì)20位志愿者單音節(jié)字、多音節(jié)詞、句子、語(yǔ)段的單一基頻值指標(biāo)(僅均值、最大值或最小值)進(jìn)行皮爾遜相關(guān)性檢驗(yàn)結(jié)果如表2~表5所示。
表2 20名志愿者在單音節(jié)字基頻值間的皮爾遜相關(guān)性檢驗(yàn)結(jié)果
表3 20名志愿者在多音節(jié)詞基頻值間的皮爾遜相關(guān)性檢驗(yàn)結(jié)果
表4 20名志愿者在句子基頻值間的皮爾遜相關(guān)性檢驗(yàn)結(jié)果
表5 20名志愿者在語(yǔ)段基頻值間的皮爾遜相關(guān)性檢驗(yàn)結(jié)果
由表2的統(tǒng)計(jì)分析結(jié)果可知:20位志愿者在發(fā)音節(jié)“今”“他”“家”“三”“八”時(shí)的顯著性分別為0.233、0.311、0.161、0.255、0.279,均大于0.05,不能拒絕原假設(shè),即單音節(jié)字的基頻值在發(fā)音個(gè)體間沒有差異性或差異性不大。
由表3的結(jié)果可知:20位志愿者在發(fā)多音節(jié)詞“旅游”“畢業(yè)于”“四川大學(xué)”時(shí)的顯著性為0.623、0.342、0.418,均大于0.05,不能拒絕原假設(shè),即多音節(jié)詞基頻的個(gè)體間沒有差異性或差異性不大。
由表4的結(jié)果可知:對(duì)于句一,志愿者在句一mean、句一min、句一max的顯著性分別為0.522、0.228、0.488,均大于0.05;對(duì)于句二,志愿者在句二mean、句二min、句二max的顯著性分別為0.459、0.894、0.360,均大于0.05,即句子的基頻均值、最小值、最大值在單一使用時(shí)均不存在個(gè)體間差異或存在的差異不明顯。
由表5的結(jié)果可知:20位志愿者語(yǔ)段mean、語(yǔ)段min、語(yǔ)段max的顯著性分別為0.471、0.172、0.507,均大于0.05,不能拒絕原假設(shè),即語(yǔ)段的基頻均值、最小值、最大值在單一使用時(shí)不存在個(gè)體間差異或存在的差異不明顯。
上述結(jié)果表明,無(wú)論選取的音段長(zhǎng)或短,僅通過(guò)單一基頻值指標(biāo)(包括均值、最小值和最大值)無(wú)法區(qū)分不同的發(fā)音人。
2.3.2 復(fù)合基頻指標(biāo)人間差異性統(tǒng)計(jì)結(jié)果
20位志愿者句子和語(yǔ)段的基頻具備均值、最大值和最小值等多項(xiàng)指標(biāo),通過(guò)計(jì)算歐氏距離分別對(duì)句子、語(yǔ)段的基頻均值、最大值和最小值進(jìn)行綜合分析,統(tǒng)計(jì)結(jié)果如圖6~圖8所示。
圖6 20名志愿者句一基頻歐氏距離統(tǒng)計(jì)結(jié)果
圖7 20名志愿者句二基頻歐氏距離統(tǒng)計(jì)結(jié)果
圖8 20名志愿者語(yǔ)段基頻歐氏距離統(tǒng)計(jì)結(jié)果
根據(jù)圖6呈現(xiàn)的統(tǒng)計(jì)結(jié)果,20名志愿者句一基頻的歐氏距離最小為7號(hào)志愿者與14號(hào)志愿者,其距離值為2.830,相似度換算得0.261,基本無(wú)相關(guān)性,即20名志愿者兩兩間均存在較大差異。
根據(jù)圖7呈現(xiàn)的統(tǒng)計(jì)結(jié)果,20名志愿者句二基頻的歐氏距離最小為1號(hào)志愿者與13號(hào)志愿者,其距離值為3.111,相似度換算得0.243,基本無(wú)相關(guān)性,即20名志愿者兩兩間均存在較大差異。
根據(jù)圖8呈現(xiàn)的統(tǒng)計(jì)結(jié)果,20名志愿者語(yǔ)段基頻的歐氏距離最小為1號(hào)志愿者與11號(hào)志愿者,其距離值為2.465,相似度換算得0.289,基本無(wú)相關(guān)性,即20名志愿者兩兩間均存在較大差異。
復(fù)合基頻指標(biāo)人間差異性統(tǒng)計(jì)結(jié)果表明,對(duì)于句子和語(yǔ)段,綜合使用基頻的均值、最小值和最大值進(jìn)行分析,能更好地體現(xiàn)人間差異,實(shí)現(xiàn)發(fā)音人的個(gè)體識(shí)別。
從20名志愿者的單音節(jié)字基頻方差均值比結(jié)果和皮爾遜相關(guān)性檢驗(yàn)結(jié)果中可以看出:?jiǎn)我艄?jié)字的基頻既不具備個(gè)體相對(duì)穩(wěn)定性,也不具備明顯的人間差異性,即單音節(jié)字的基頻不適合應(yīng)用于語(yǔ)音同一認(rèn)定中。
從20名志愿者的多音節(jié)詞基頻方差均值比結(jié)果和皮爾遜相關(guān)性檢驗(yàn)結(jié)果中可以看出:與單音節(jié)字基頻相比,多音節(jié)詞基頻的個(gè)體穩(wěn)定性相對(duì)有所提高,但人間差異性仍然不明顯。因此,多音節(jié)詞基頻同樣不適合應(yīng)用于語(yǔ)音同一認(rèn)定中。
從20名志愿者的句子、語(yǔ)段基頻值方差均值比統(tǒng)計(jì)結(jié)果和皮爾遜相關(guān)性檢驗(yàn)結(jié)果中可以看出:句子、語(yǔ)段的基頻均值個(gè)體相對(duì)穩(wěn)定性均較好,可用于語(yǔ)音同一認(rèn)定中;但僅使用基頻均值、最小值或最大值的單一指標(biāo),無(wú)法區(qū)分發(fā)音個(gè)體,需將基頻均值、最小值和最大值結(jié)合起來(lái)進(jìn)行綜合分析應(yīng)用于語(yǔ)音同一認(rèn)定。
綜上所述,在語(yǔ)音同一認(rèn)定實(shí)踐中,可嘗試截取句子、語(yǔ)段或更長(zhǎng)的音段來(lái)進(jìn)行基頻分析,綜合運(yùn)用基頻均值、最大值和最小值能夠?yàn)闄z驗(yàn)鑒定提供更為可靠的參數(shù)。