鄭紅娜
摘要: 本文通過(guò)電磁發(fā)音儀(Electro Magnetic Articulography,EMA)AG500,以200幀/秒的采樣率采集了英語(yǔ)和漢語(yǔ)的標(biāo)準(zhǔn)發(fā)音動(dòng)作數(shù)據(jù),然而,交叉語(yǔ)言比較的首要任務(wù)就是要消除特定說(shuō)話人聲道特性及其它個(gè)人生理特性等音素而引起的固有差別,本文采用了基于說(shuō)話人歸一化的普氏算法來(lái)進(jìn)行說(shuō)話人歸一化處理,獲得了英漢相似音素發(fā)音的元音對(duì)比最小對(duì),最后成功揭示了2種語(yǔ)言易混淆元音發(fā)音文本對(duì)在口腔內(nèi)外發(fā)音動(dòng)作上的區(qū)別。
關(guān)鍵詞:發(fā)音動(dòng)作; 電磁發(fā)音儀(EMA)AG500; 中英文交叉語(yǔ)言; 普氏變換; 對(duì)比最小對(duì)
中圖分類號(hào): TP393
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 2095-2163(2016)06-0081-03
0引言
語(yǔ)音是一種多模式的通信形態(tài),包括視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等自然模式,以及大腦電極活動(dòng)、電磁活動(dòng)等非自然模式[1]。除了整體表現(xiàn)出物理屬性和社會(huì)屬性外,語(yǔ)音還具有相應(yīng)的生理屬性[2]。近年來(lái),隨著發(fā)音動(dòng)作觀測(cè)技術(shù)的快速發(fā)展,越來(lái)越多的研究開(kāi)始關(guān)注語(yǔ)音的生理屬性,語(yǔ)音可視化就是在上述背景下得以創(chuàng)立并已進(jìn)入深度探索的一門(mén)重要的基礎(chǔ)功能技術(shù)。
在眾多發(fā)音動(dòng)作觀測(cè)的新技術(shù)中,電磁發(fā)音儀(Electro Magnetic Articulography,EMA)是研究微小復(fù)雜動(dòng)作的專用設(shè)備。該儀器可逼真模擬多數(shù)情況下不易察覺(jué)的舌頭、軟腭等發(fā)音器官運(yùn)動(dòng)的發(fā)音動(dòng)作[3]。
為了糾正英語(yǔ)和普通話發(fā)音中的常見(jiàn)錯(cuò)誤,需要生成英漢雙語(yǔ)的發(fā)音文本,從而有效地幫助母語(yǔ)為漢語(yǔ)的學(xué)習(xí)者學(xué)習(xí)英語(yǔ)發(fā)音,反之也可同樣幫助母語(yǔ)為英語(yǔ)的學(xué)習(xí)者學(xué)習(xí)漢語(yǔ)普通話。另外,根據(jù)第二語(yǔ)言學(xué)習(xí)的有關(guān)研究可知,母語(yǔ)對(duì)第二語(yǔ)言的學(xué)習(xí)有一定的副作用[4],例如,當(dāng)以漢語(yǔ)為母語(yǔ)的主體在學(xué)習(xí)英語(yǔ)時(shí),那些英語(yǔ)音素常會(huì)被一個(gè)母語(yǔ)中的類似音素替代。
綜合以上分析論述可知,有必要通過(guò)交叉語(yǔ)言對(duì)比的方法探尋得到英語(yǔ)和漢語(yǔ)中易被第二語(yǔ)言學(xué)習(xí)者錯(cuò)發(fā)或漏發(fā)的發(fā)音文本對(duì),并有針對(duì)性地展開(kāi)交叉對(duì)比研究。本文即針對(duì)這一研究?jī)?nèi)容給出如下闡釋分析。
[BT4]1經(jīng)驗(yàn)法獲得中英文三維發(fā)音動(dòng)作文本
為了獲得一個(gè)雙語(yǔ)的EMA發(fā)音動(dòng)作數(shù)據(jù)庫(kù),提取中英文發(fā)音動(dòng)作的特征,分別采集了普通話和英語(yǔ)的三維多通道EMA發(fā)音動(dòng)作數(shù)據(jù),數(shù)據(jù)采集者分別是2名本土的女性說(shuō)話人。
首先,研究以《英語(yǔ)發(fā)音字典》[5]、《語(yǔ)音學(xué)》[6]、《標(biāo)準(zhǔn)漢語(yǔ)》[7]和《標(biāo)準(zhǔn)漢語(yǔ)語(yǔ)音學(xué)》[8]為準(zhǔn)則選出2種語(yǔ)言中特有的音素(漢語(yǔ)中不存在的英語(yǔ)音素以及英語(yǔ)中不存在的漢語(yǔ)音素,及其相近音素)。表1中列出了這些音素,表中的所有音素都用國(guó)際音標(biāo)(International Phonetic Alphabet,IPA)的符號(hào)規(guī)范書(shū)寫(xiě)。
由表1中的音素對(duì)可知,經(jīng)驗(yàn)的易混淆元音音素包括5個(gè)中文元音、7個(gè)英文元音,共計(jì)12個(gè)易混淆的元音音素。這些音素對(duì)在聽(tīng)覺(jué)上將難于辨識(shí),然而,其舌頭和唇部的發(fā)音動(dòng)作卻存在著明顯差異。各音素對(duì)的圖形對(duì)比如圖1所示。
圖1描繪了中英文的元音的相似音素的靜態(tài)幀和關(guān)鍵幀,圖中所有音素的靜態(tài)幀都選為同一幀,用虛線標(biāo)示;英語(yǔ)音素的關(guān)鍵幀用實(shí)線標(biāo)示;而普通話的關(guān)鍵幀用點(diǎn)劃線標(biāo)示。圖中用T1、T2、T3分別標(biāo)示了舌尖、舌體和舌后3個(gè)數(shù)據(jù)采集點(diǎn),而用L1、L2和L4分別標(biāo)示了左嘴角、上唇和下唇3個(gè)離散數(shù)據(jù)采集點(diǎn)。
分析圖1可知:這些易混淆的音素具有相同的發(fā)音部位,但是其發(fā)音方法和發(fā)音動(dòng)作(包括唇形、舌位舌頭與牙齒或上顎的接觸程度等)卻截然不同。這與已有的經(jīng)驗(yàn)分析結(jié)果也是一致的,例如:在元音的學(xué)習(xí)中,很多中國(guó)學(xué)生不能正確區(qū)分松元音(lax vowels)和緊元音(tense vowels),認(rèn)為二者的區(qū)別僅僅是發(fā)音時(shí)長(zhǎng)的不同,卻忽略了英語(yǔ)中的元音具有更加復(fù)雜的舌位。
因此,有必要進(jìn)一步在發(fā)音動(dòng)作的層面上區(qū)分這些易混淆的因素對(duì),揭示這些易混淆音素對(duì)的內(nèi)在聯(lián)系和區(qū)別,幫助第二語(yǔ)言學(xué)習(xí)者訓(xùn)練并歸結(jié)到準(zhǔn)確發(fā)音。
[BT4]2基于說(shuō)話人歸一化的普氏變換
為了證實(shí)由經(jīng)驗(yàn)得到的中英文易混淆發(fā)音文本對(duì),并精確衡定這些易混淆發(fā)音文本對(duì),從而揭示這2種語(yǔ)言相似發(fā)音文本在發(fā)音動(dòng)作上的根本區(qū)別,則需要進(jìn)行量化的交叉語(yǔ)言比較。然而,量化的交叉語(yǔ)言比較的一個(gè)主要的問(wèn)題是如何克服、且消除由說(shuō)話人本身的特性(包括由特定說(shuō)話人聲道特性及其它個(gè)人生理特性等因素)所帶來(lái)的固有差別。
基于這一研究需求,本文采用了基于說(shuō)話人歸一化的普氏變換(Procrustes transformation)算法。該算法是由原多點(diǎn)物向目標(biāo)多點(diǎn)物的線性幾何變換,普氏變換由旋轉(zhuǎn)變換、尺度變換和平移變換組成,其誤差度量是最小均方根誤差[9]。
假設(shè)研究時(shí)需將原說(shuō)話人的發(fā)音動(dòng)作數(shù)據(jù)D1變換到目的說(shuō)話人的發(fā)音動(dòng)作數(shù)據(jù)D2,而D1的歸一化數(shù)據(jù)為D3;由旋轉(zhuǎn)變換、尺度變換和平移變換組成的混合變換則如公式(1)所示:
[HT5SS]D3=[WT5HX]H[WT5BX]D1a+b[HT5”SS][JY](1)
其中,歸一化參數(shù)([WT5”HX]H[WT5”BX],a,b)由目標(biāo)數(shù)據(jù)D2和原數(shù)據(jù)的歸一化數(shù)據(jù)D3之間的最小均方根誤差進(jìn)行優(yōu)化。
具體地,旋轉(zhuǎn)矩陣[WT5”HX]H[WT5”BX]可通過(guò)奇異值分解得到:
[HT5SS](D1′)TD2′=[WT5HX]U[WT5BX][WT5HX]V[WT5BX]T[HT5”SS][JY](2)
[HT5SS][WT5HX]H[WT5BX]=[WT5HX]V[WT5BX]Λ[WT5HX]U[WT5BX]T[HT5”SS][JY](3)
式中,是對(duì)角矩陣,[WT5”HX]U[WT5”BX]和[WT5”HX]V[WT5”BX]是正交矩陣,Λ是對(duì)角線元素絕對(duì)值為1的對(duì)角矩陣,對(duì)角線元素的符號(hào)取決于矩陣相應(yīng)位置處的元素符號(hào)。
對(duì)數(shù)據(jù)定制設(shè)計(jì)了歸一化處理后,就消除了不同說(shuō)話人的固有差別,接著需要形成一個(gè)說(shuō)話人無(wú)關(guān)的發(fā)音空間(speaker independent articulatory space),從而在這個(gè)統(tǒng)一的說(shuō)話人無(wú)關(guān)的發(fā)音空間上進(jìn)行易混淆的中英文發(fā)音文本對(duì)的分析比較。
分層聚類分析算法(Hierarchical Clustering Analysis, HCA)和多維標(biāo)度定位算法(Multi-Dimension Scaling, MDS)是將交叉語(yǔ)言音素之間的差異實(shí)現(xiàn)可視化的有效方式。
本文采用多維標(biāo)度定位算法進(jìn)行了量化比較,將英語(yǔ)和漢語(yǔ)中的音素之間的差距在一個(gè)跨語(yǔ)言的語(yǔ)音空間上給出了可視化展示;同時(shí)采用分層聚類分析算法對(duì)2種語(yǔ)言的相似音素提出了聚類分析的描述結(jié)果。經(jīng)由上述處理,歸一化的數(shù)據(jù)就形成了一個(gè)說(shuō)話人無(wú)關(guān)的發(fā)音空間。
3結(jié)束語(yǔ)
由于英語(yǔ)和漢語(yǔ)這2種語(yǔ)言中有些發(fā)音是極為相似的,這些相似的發(fā)音會(huì)經(jīng)常將外語(yǔ)初學(xué)者帶入漏讀或者錯(cuò)讀,為了更加有效地幫助以漢語(yǔ)為母語(yǔ)的學(xué)習(xí)者練習(xí)英語(yǔ)發(fā)音以及幫助以英語(yǔ)為母語(yǔ)的學(xué)習(xí)者練習(xí)普通話發(fā)音,本文針對(duì)2種語(yǔ)言的特點(diǎn),進(jìn)行了基于最小音素對(duì)的交叉語(yǔ)言對(duì)比。利用說(shuō)話人無(wú)關(guān)的普氏算法消除了說(shuō)話人聲道特性本身的固有差別,產(chǎn)生了英語(yǔ)和漢語(yǔ)中易被第二語(yǔ)言學(xué)習(xí)者錯(cuò)發(fā)或漏發(fā)的元音發(fā)音文本對(duì)。
參考文獻(xiàn):
HERACLEOUS P, BADIN P, BAILLY G, et al. Exploiting multimodal[JP] data fusion in robust speech recognition[C]//Multimedia and Expo (ICME),2010 IEEE International Conference on. Suntec City,Singapore: IEEE, 2010: 568-572.
[2] 黃伯榮, 廖序東. 現(xiàn)代漢語(yǔ)[M]. 北京:高等教育出版社, 2002: 1-138.
[3] [JP3]SUMBY W H, POLLACK I. Visual contribution to speech[JP] intelligibility in noise[J]. Acoustical Society of America, 1954, 26: 212.
[4] [JP3]蘇留華. 母語(yǔ)遷移對(duì)第二語(yǔ)言學(xué)習(xí)的影響[J]. 北京第二外國(guó)語(yǔ)學(xué)院學(xué)報(bào), 2000(4): 44-52.[JP]
[5] JONES D, ROACH P, HARTMAN J. English pronouncing dictionary[M]. Cambridge, UK:Cambridge University Press, 2006.
[6] BALL M J. PHONETICS—The science of speech[J]. Acoustical Society of America Journal, 1999, 108(6): 2695.
[7] LEE W S, ZEE E. Standard Chinese(Beijing)[J]. Journal of the International Phonetic Association, 2003, 33(1): 109-112.
[8] DUANMU S. The phonology of standard Chinese[M]. USA:Oxford University Press, 2003.
[9] GOWER J C. Generalized procrustes analysis[J]. Psychometrika, 1975, 40(1): 33-51.