共振峰編輯法區(qū)別鼻化元音中口、鼻音共振峰的實證探究?

2021-01-02 09:25:32趙擎華楊俊杰

應用聲學 2021年6期

趙擎華楊俊杰

(1山西大學語言科學研究所太原 030006)

(2山西警察學院太原 030021)

0 引言

20世紀30年代至今，司法話者識別技術已經(jīng)歷了近90年的發(fā)展歷程。當前，國內(nèi)外司法話者識別方法主要有聲學語音學識別、全自動話者識別及半自動話者識別3種[1]。其中，依靠“聽覺－聲學－語音識別”由專家進行綜合判別的聲學語音學識別方法，因其結(jié)論準確性及可解釋性為各國法庭普遍采信，成為國內(nèi)外司法話者識別專家普遍采用的方法。全自動話者識別具有快速高效的特點，但識別準確率隨著樣本庫容、語種、信道等的異同而穩(wěn)定性較差，故主要應用在門禁系統(tǒng)、犯罪預防、軍事等領域；在打擊犯罪領域主要是利用其快速特點進行嫌疑對象的篩查與串并案件。而基于人工與自動識別相結(jié)合的半自動話者識別技術，正處于研究階段，尚未有成熟可信的系統(tǒng)可供使用。在聲學語音學的司法話者識別方法中，共振峰頻率是最為常見的聲學測量參數(shù)之一[2]，對其應用主要體現(xiàn)在共振峰的動態(tài)模式與靜態(tài)模式上，因其是話者發(fā)音器官言語中運動習慣動力定型的聲學表現(xiàn)，能夠充分體現(xiàn)個體間發(fā)音習慣的異同。而基于第一、第二共振峰構(gòu)建的元音聲學空間(F1-F2sapce)度量模型是對共振峰模式最直觀體現(xiàn)的方式之一[3]。而今，這一度量模型還被廣泛應用于檢測耳蝸植入物的語音感知[4]、語言疾病評估[5?6]、構(gòu)音障礙矯治[7]、語音清晰度評估[8]、語音識別[9]、跨語言比較[10]、漢語方言學研究[11]等多項研究中。

盡管元音聲學空間度量模型已有較為廣泛的研究應用，但鼻化元音共振峰的階次問題一直是個繞不開的挑戰(zhàn)。鼻音和鼻化音在言語中不可或缺，是聲道口腔部分與鼻腔、副鼻腔(又稱副鼻竇)耦合的結(jié)果。鼻腔和副鼻腔的解剖結(jié)構(gòu)相當復雜。Dang等[12?13]利用核磁共振成像(Magnetic resonance imaging,MRI)研究了鼻腔、副鼻腔的形態(tài)與之對應的聲學關系，發(fā)現(xiàn)二者形態(tài)的個體差異大，左右不對稱明顯。這種形態(tài)上的復雜性在聲學實驗中會產(chǎn)生極其復雜的頻率響應，導致元音鼻化后在口音共振峰附近引入額外鼻音共振峰的數(shù)目和位置并不固定，具有明顯的個體變異和人間差異。從語音學角度，Ladefoged[14]證實在第一共振峰F1與第二共振峰F2之間存在一個鼻音共振峰Fn。Fujimura等[15]通過對聲道的掃描測量，認為通常在F1以下和第三共振峰F3區(qū)域引入了零極點對；Hawkins等[16]指出除了F1附近存在一個以上的共振峰外，自然語音中的鼻音化還可以在較高頻率頻譜中引入其他共振峰，而且這些共振峰變化在不同個體和元音中并不一致；方強等[17]驗證了元音鼻化后會在250 Hz附近出現(xiàn)弱的鼻音共振峰，1000 Hz和2000 Hz之間會出現(xiàn)幾個能量較弱的譜峰，不同元音鼻化后所表現(xiàn)的聲學特征也各不相同。此外，在研究分析個體鼻化元音聲學特征時，往往是基于已知元音發(fā)生鼻化，且有與之對應的口元音為參照的前提。然實踐中，某些個體因生理或方言發(fā)音習慣等因素的影響，會把口元音發(fā)成鼻化元音，進而難以找到口元音做參照，使得共振峰的分析工作更加困難。即便常見單元音的前3個共振峰有數(shù)據(jù)可參考[18]，但要區(qū)分某個具體元音中的某個共振峰是口音峰還是鼻音峰卻也非常不易。因此，在司法話者識別領域，李敬陽等[19]提出，不論哪種強峰都是個人語音音色特性的體現(xiàn)，檢案中，可以按說話人語音出現(xiàn)的強峰，依次標稱為第一、第二、第三強峰或者直接沿用語音學“共振峰”的稱謂，省去口、鼻音共振峰判定的繁復過程。然而，口音共振峰數(shù)據(jù)的準確性是通過F1、F2構(gòu)建元音聲學空間模型來識別說話人的首要要求，如不明確區(qū)分口音、鼻音共振峰，構(gòu)建元音聲學空間的準確性便無從談起。更何況由于個體間鼻腔與副鼻腔的人間差異顯著，其聲學特性具有明顯的人間差異[20]，如不能進行細致的區(qū)分，則無法充分發(fā)掘鼻音峰的區(qū)別價值。

為此，本文探究了一種通過編輯元音共振峰的能量，結(jié)合專家聽辨，觀察編輯前后元音音質(zhì)的改變情況，來區(qū)分口音、鼻音共振峰的方法，以期對司法話者識別中構(gòu)建元音聲學空間模型能有所幫助。

1 理論依據(jù)

早在1948年，Joos[21]就提出了F1、F2與舌位的高低和前后的直接關聯(lián)。1951年，Delattre[22]對舌位和共振峰進行了詳細比較，得出結(jié)論：F1反映發(fā)音人舌位的高低(或嘴巴的開合度)，F(xiàn)2反映舌位的前后或嘴唇的圓展，F(xiàn)3主要反映舌尖的上翹(卷舌)。鮑懷翹等[18]分別用不同的方法討論了舌位和聲道形狀與共振峰頻率之間的關系，得到了一致的結(jié)果“舌位高低主要與F1相關；舌位前后可用F2的值來推算”。

根據(jù)F1、F2與調(diào)音器官動作特性(舌位)的對應關系，有理由推測如果語音的F1或F2被剪切掉，則元音音色發(fā)生改變，相應的舌位特征在聽感上也必然會被改變。反之，如果對某個共振峰進行了剪切，元音音色有所改變，而該元音舌位特征在聽感上并沒有發(fā)生變化，則剪切掉的一定不是F1或F2。對于鼻化元音，當其鼻音共振峰與口音共振峰交錯混雜在一起難以分辨時，通過對某個共振峰的剪輯，再根據(jù)元音音色是否改變、如何改變，則可判斷被去除的是否是口音共振峰以及是哪個口音共振峰。

2 實證分析

2.1 實驗設備及參數(shù)

2.1.1 實驗設備

北京陽宸IV-12計算機語音工作站(V10.5)。

2.1.2 參數(shù)設置

(1)采樣參數(shù)

8 kHz采樣率，16位，單聲道。

(2)共振峰帶寬參數(shù)

帶寬為300～500 Hz，具體依據(jù)個體基頻進行調(diào)整，但保證同一個體參數(shù)的一致。通常，男性帶寬設置為300 Hz，女性設置為400 Hz。

(3)頻域編輯參數(shù)

頻域編輯參數(shù)設置原則：一是頻率起止范圍不能低于所選帶寬；二是衰減操作對周圍共振峰的語圖影響最小。

頻率范圍確認方法：調(diào)整語圖衰減參數(shù)，使共振峰顯示效果最佳。當目標共振峰邊界顯示分明時，以該共振峰上下邊界為衰減頻率范圍；當兩峰疊接無明顯邊界時，取合峰的中間位置為兩個共振峰的邊界，再以該合峰的上邊界或下邊界為衰減上限或下限頻率范圍。

頻帶減弱(dB)設為30(實驗時衰減兩次，共60 dB，詳細討論見第3.3節(jié))，時段參數(shù)設為“選定時段”，邊界漸變時段設置為“5”，如圖1所示。

圖1 頻域編輯參數(shù)設置Fig.1 Frequency domain editing parameter settings

2.2 語料

2.2.1 發(fā)音人

成年男女發(fā)音人各一人。二人均無明顯構(gòu)音障礙，但發(fā)音均存在不同程度的鼻化。

2.2.2 語料

為考察發(fā)音人自然語流中的元音特征，實驗所用的發(fā)音材料由句子“小紅喜歡用毛筆寫大字”等和文章《烏鴉喝水》“一只烏鴉口渴了，到處找水喝……它打算停下來歇一歇，就落在一棵樹上……”組成。發(fā)音人熟悉材料后用自然語氣述讀。

2.2.3 聲樣選擇

本文選取了不受鼻音聲母和韻尾影響的單元音韻母/a/為實證分析聲樣。原因有三：一是高元音不易鼻化，低元音最容易鼻化[23]，元音/a/的鼻化現(xiàn)象更具普遍性；二是前低元音/a/發(fā)音時開口度很大，F(xiàn)1是所有元音中最高的，F(xiàn)1與F2共振峰距離很近，與F1、F2距離較遠的前高元音相比，鼻音共振峰的位置更不易判斷；三是發(fā)音人將不受鼻音聲母和韻尾影響的單元音韻母發(fā)為鼻化元音，一般已固化成發(fā)音習慣，在案檢聲樣中不易找到對應的口元音作為參照分析。

2.2.4 聽辨人

聽辨人由5位經(jīng)過國際音標系統(tǒng)訓練且常年從事語音研究的專業(yè)人員組成。

2.3 實驗過程

實驗采用成對比較法進行元音聽辨，以提高聽辨的準確性同時減緩聽覺疲勞。成對比較法又稱為AB比較法，其特點是聽音人只對呈現(xiàn)的兩個信號的某特性做相對判斷，并比較這種特性在兩個信號中哪一個更為顯著[24]；其優(yōu)點是判斷準確、重復性好。實驗中根據(jù)成對比較法的分組原則，將編輯后的元音與待檢元音兩兩配對，依次比較兩者開口度、舌位前后、鼻化程度在聽感上的不同。

2.3.1 實證分析1

男性發(fā)音人的待檢元音為[t?](如圖2所示)。從語圖中可發(fā)現(xiàn)，在2.5 kHz以下有4個“強峰”，依次標記為F′1、F′2、F′3、F′4，然后逐個進行共振峰編輯和聽辨分析(本文語音樣本已上傳至網(wǎng)絡，見https://cloud.189.cn/web/share?code=ji6Rr2fuA32m)。

圖2 男性發(fā)音人[t?]音節(jié)的寬帶語圖Fig.2 Wide-band spectrogram of the[t?]spoken by the male speaker

(1)第1組：待檢元音-編輯元音1(去除F1’)

如圖3所示，對待檢元音的共振峰進行能量衰減去除F′1(見紅框部分，下同)，命名為“編輯元音1”?！熬庉嬙?”與“待檢元音”相比，從語音音色角度來看，編輯后的元音在聽感上變的單薄。

圖3 待檢元音與編輯元音1對比圖Fig.3 Comparison of the vowel to be checked and the edited vowel 1

從元音音質(zhì)角度來看，元音的開口度、舌位前后在聽感上均無明顯變化，元音鼻化程度明顯變?nèi)?，如?所示。其中，5位聽辨人就元音音質(zhì)變化的聽辨結(jié)果基本一致，僅對變化的程度在感知上稍有差異，并不影響實驗分析結(jié)果，下同。可以確定口音共振峰沒有受到影響，衰減的是鼻音共振峰。也就是說，“待檢元音”中的第一個“強峰”是。

表1 去除元音音質(zhì)變化評價Table1 Evaluationofvowelquality change after removing

開口度變化舌位前后變化元音鼻化程度元音音質(zhì)變化去除F′1 無無明顯減弱微弱

如圖4所示，對待檢元音共振峰進行能量衰減，同時去除F′1和F′2，命名為“編輯元音2”。與“編輯元音1”相比，“編輯元音2”在聽感上開口度變大，舌位前后和元音鼻化程度無明顯變化，如表2所示。由于F1的位置高低反映了元音的開口度大小，因此在聽感上感知到開口度發(fā)生變化，可以確定F1的位置發(fā)生了變化。據(jù)此得出：“待檢元音”中的第二個“強峰”F′2是口音共振峰F1。

圖4 編輯元音1與編輯元音2對比圖Fig.4 Comparison of the edited vowel 1 and the edited vowel 2

表2 去除元音音質(zhì)變化評價Table2 Evaluationofvowelquality change after removing

開口度變化舌位前后變化元音鼻化程度元音音質(zhì)變化去除F′2 變大無無顯著

圖5 編輯元音1與編輯元音3對比圖Fig.5 Comparison of the edited vowel 1 and the edited vowel 3

表3 去除元音音質(zhì)變化評價Table3 Evaluationofvowelquality change after removing

開口度變化舌位前后變化元音鼻化程度元音音質(zhì)變化去除F′3 稍微變小無微弱微弱

圖6 編輯元音1與編輯元音4對比圖Fig.6 Comparison of the edited vowel 1 and the edited vowel 4

表4 去除元音音質(zhì)變化評價Table4 Evaluationofvowelquality change after removing

開口度變化舌位前后變化元音鼻化程度元音音質(zhì)變化去除F′4 無向后無顯著

2.3.2 實證分析2

女性發(fā)音人的待檢元音[t?](如圖7所示)。從語圖中可以發(fā)現(xiàn)在2.5 kHz以下有4個“強峰”，依次標記為、、、。

圖7 女性發(fā)音人[t?]音節(jié)的寬帶語圖Fig.7 Wide-band spectrogram of the[t?]spoken by the female speaker

對女性發(fā)音人的待檢元音進行共振峰能量衰減編輯，聽辨后發(fā)現(xiàn)分別去除、后元音音質(zhì)的變化特征和實證分析1基本一致，可以容易得出是鼻音共振峰、是口音共振峰F2。具體分析過程不再贅述。分別去除和后，元音的開口度在聽感上都發(fā)生了變化，不同的是去除后，元音開口度變化更加顯著，元音的音質(zhì)變化也更加明顯，如表5所示。所以是鼻音共振峰，是口音共振峰，這與男性發(fā)音人的共振峰階次正好相反。

表5 去除、元音音質(zhì)變化評價Table 5 Evaluation of vowel quality change after removing and respectively

開口度變化舌位前后變化元音音質(zhì)變化去除F′2 稍微變大無微弱去除F′3 明顯變小無顯著

2.4 實驗結(jié)果

由上述實驗，可以知道兩個發(fā)音人所發(fā)的[a]元音都發(fā)生了鼻化，且口音共振峰和鼻音共振峰的“身份”也得到了明確：男性發(fā)音人鼻化元音[?]的前4個共振峰分布依次是Fn1、F1、Fn2、F2；女性發(fā)音人鼻化元音/?/的前4個共振峰分布依次是Fn1、Fn2、F1、F2(如圖8所示)。

圖8 男性發(fā)音人女性發(fā)音人鼻化元音[?]的共振峰分布圖Fig.8 The formant distribution diagram of the nasalized vowel[?]spoken by the male speaker and the female speaker

3 分析與討論

3.1 實驗結(jié)果分析

通過共振峰編輯法得出的男性發(fā)音人口、鼻共振峰分布狀態(tài)與方強等[17]的研究結(jié)果基本一致。從語圖(圖8)中可以看出，F(xiàn)1以下大概250 Hz附近會出現(xiàn)共振峰，同時F1與F2之間也有可能出現(xiàn)鼻音共振峰。[?]的F1與鼻音的Fn1相距較遠，相互疊加的部分少，基本上對250 Hz附近的頻譜沒有影響。鼻音共振峰Fn2與口音共振峰F1、F2都比較靠近。不同的是，方強等認為第二鼻音峰很難在頻譜上表現(xiàn)出來，而男性發(fā)音人的第二鼻音峰清晰可見。

與男性發(fā)音人口、鼻共振峰依次交替分布不同，女性發(fā)音人在F1以下大概250 Hz和600 Hz處存在一弱一強兩個鼻音共振峰。對于這種現(xiàn)象，Hawkins等[16]認為鼻腔的阻抗在大概1.5 kHz以下有多個低頻共振，因此在鼻元音的聲譜中有時可以觀察到F1附近存在一個以上的鼻音共振峰。

3.2 共振峰編輯法需去除低頻鼻音干擾

實驗中發(fā)現(xiàn)，低頻共振峰對元音聽辨的影響較大。尤其是在去除F1附近的共振峰時，感知到語音最大的變化特征是發(fā)悶、發(fā)嗡，而不是元音開口度的變化。Kiefte等[25]、Andrus[26]認為通過降低共振峰的振幅來改變元音音質(zhì)時，低頻共振峰同時掩蓋了高頻共振峰，掩蔽效應和共振峰的頻譜對比度可能都在元音感知中起到一定的作用。為此，本文實驗中去除了低頻鼻音共振峰以消除掩蔽效應。低頻鼻音峰與舌位的高低、前后并無明顯相關性，去除之后不僅不會影響元音舌位特征的感知，且會使聽辨過程更加容易，聽辨結(jié)果也更加可靠。

3.3 共振峰編輯法需將能量衰減至完全消除

影響元音音質(zhì)的因素不僅有共振峰頻率，還有共振峰的強度。Lindqvist等[27]、Ainsworth等[28]、Aaltonen[29]、Hedrick等[30]通過語音合成實驗發(fā)現(xiàn)，隨著共振峰相對強度的變化，合成元音的音質(zhì)也會同時發(fā)生改變。其中，Ainsworth的實驗表明，當F2與F1的能量差小于28 dB時，F(xiàn)2強度的降低對共振峰頻率沒有影響，元音音質(zhì)基本無變化；隨著F2峰強的繼續(xù)衰減，元音音質(zhì)先是變得模糊不清，最終變得與剩余F1相對應元音的音質(zhì)相近(這與本文對自然語音完全去除F2后前元音/a/的音質(zhì)變?yōu)楹笤?/的結(jié)果一致)。

為避免因共振峰強度衰減不足，未能使共振峰頻率發(fā)生根本性改變，或使共振峰相對強度的變化成為元音音質(zhì)改變的主要原因，進而影響共振峰頻率和調(diào)音器官動作特性對應關系的判斷，所以本文實驗中將共振峰能量衰減至完全消除。因北京陽宸IV-12計算機語音工作站(V10.5)每次最多只能衰減30 dB，故實驗時連續(xù)衰減兩次(共60 dB)，以達到完全去除共振峰的效果。

3.4 共振峰編輯法區(qū)分口鼻共振峰的價值

3.4.1 對司法話者識別領域的價值

實驗發(fā)現(xiàn)，不同人語音共振峰存在“形似而質(zhì)異”的情況。兩發(fā)音人所發(fā)相同鼻化元音的共振峰模式相似，在2.5 kHz以下均存在4個強峰，但共振峰“身份”屬性卻存明顯相異(如圖8所示)。同樣，同一人語音共振峰也存在“形異而質(zhì)似”的情況。同一發(fā)音人多次所發(fā)相同鼻化元音共振峰的分布也可能不同。尤其是F1和F2之間鼻音峰的穩(wěn)定性較差，存在明顯的個體變異。如圖9所示，男性發(fā)音人兩次所發(fā)音節(jié)[?]的寬帶語圖，分別為4個和3個強峰。

圖9 男性發(fā)音人兩次所發(fā)音節(jié)[?]的寬帶語圖Fig.9 Wide-band spectrogram of the syllable[t?]produced by male speaker twice

實際案檢中，如對共振峰的“身份”不加以區(qū)分，以“強峰”一概而論，只考察檢材和樣本整體共振峰的“形”，卻忽略單個共振峰的“質(zhì)”，這樣得出的鑒定結(jié)論顯然未充分發(fā)揮出鼻音峰的區(qū)別價值。

共振峰編輯法利用共振峰和調(diào)音器官動作特性的相關性，可以對共振峰進行逐個分析，針對性強，特征規(guī)律容易把握，可有效區(qū)分鼻化元音的口、鼻共振峰。明確鼻化元音中每個共振峰的“身份”屬性，不僅可以為建立元音聲學空間模型提供可靠的口音共振峰數(shù)據(jù)，對利用共振峰特征進行司法話者識別的其他方法，也可充分利用鼻化元音口音、鼻音成分的共振峰個體特征，提高其結(jié)論的可靠性。

3.4.2 對其他研究領域的價值

如前文所述，基于F1和F2的元音聲學空間度量模型已廣泛應用于醫(yī)療、語音、語言研究等多個領域。該模型多利用口音共振峰頻率經(jīng)數(shù)學運算形成量化指標，主要有：基于三元音、四元音以及多元音空間系統(tǒng)的元音聲學空間面積(Vowel space area)[7,9]，基于元音空間的角元音共振峰頻率和的商的共振峰集中度(Formant centralization ratio)[6]，基于元音間平均距離或各元音到元音空間中心距離的共振峰離散度(vowel formant dispersion)[4,8]等。當元音聲學空間模型包含鼻化元音時，如能明確區(qū)分口、鼻共振峰，保證共振峰基礎數(shù)據(jù)的準確性，對提高量化指標的可靠性則顯而易見。

4 結(jié)論

本文探討的這種區(qū)別鼻化元音口音、鼻音共振峰的方法，旨在幫助通過構(gòu)建元音聲學空間模型來進行司法話者識別時提供準確的共振峰數(shù)據(jù)。該方法對共振峰進行編輯剪切后，通過聽辨就能得到準確判斷，具有快速、便捷等優(yōu)點。其既可以有效解決在缺少同一人的口元音來確認口音共振峰時，難以分辨鼻化元音中共振峰“身份”的問題，還可以有效解決方言學、語音學、自動語音識別、語言病理學、語音臨床評估、語言障礙矯治等多個領域中對共振峰性質(zhì)的區(qū)分問題，為應對這一挑戰(zhàn)提供了一種新的可行方案。

共振峰編輯法區(qū)別鼻化元音中口、鼻音共振峰的實證探究?