張 凱, 王舒蕾, 齊婷婷, 張義民
(1.沈陽化工大學(xué)裝備可靠性研究所 沈陽,110042) (2.沈陽音樂學(xué)院戲劇影視學(xué)院 沈陽,110818)
美聲唱法由于音色清脆高亢、靈活多變及音量較大[1],對(duì)于歌唱者的發(fā)聲技巧要求較多,且美聲唱法的共鳴是“所有腔體共同運(yùn)作達(dá)到整體效果的展現(xiàn)”。相比于其他唱法,美聲唱法需要共鳴腔體以及骨骼都參與共鳴,即要求身體的各個(gè)器官放在一起共同產(chǎn)生共鳴。其他唱法參與共鳴的器官相對(duì)較少,發(fā)聲的位置也有所不同[2],導(dǎo)致美聲初學(xué)者在頭腔、口腔、胸腔和咬字等方式上相對(duì)于其他唱法出現(xiàn)的問題較多。目前,在聲樂領(lǐng)域的教學(xué)中,基本是通過老師的言傳身教來糾正學(xué)生歌唱技巧上的錯(cuò)誤。為了更深入研究美聲發(fā)聲的特點(diǎn),筆者利用美聲發(fā)聲信號(hào)的功率譜去評(píng)價(jià)初學(xué)者的發(fā)音狀態(tài),從振動(dòng)理論的角度比較發(fā)音的異同,從功率譜中提取美聲發(fā)聲的信號(hào)特征。
國內(nèi)外學(xué)者圍繞美聲發(fā)聲原理開展了相關(guān)研究。文獻(xiàn)[3-5]從聲門振動(dòng)和空氣動(dòng)力學(xué)的角度對(duì)聲音信號(hào)進(jìn)行了分析。Mayr[6]利用長期平均頻譜(long-term average spectrum,簡稱LTAS)和功率譜對(duì)美聲男高音的生理和聲學(xué)特征進(jìn)行了研究,比較了假音和胸腔音的差異。Souza[7]通過對(duì)女高音的共振峰分析比較,得到音高的變化會(huì)導(dǎo)致基頻和共振峰的不同。Hasan 等[8]使用經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,簡稱EMD)方法對(duì)歌曲的清音和濁音進(jìn)行能量估計(jì),以觀察學(xué)習(xí)者歌聲中的差異和錯(cuò)誤。Zysk 等[9]設(shè)計(jì)了一套聲音記錄程序,利用頻譜特征對(duì)女高音的頭部和胸部音域表演進(jìn)行分類。Barlow 等[10]根據(jù)平均元音譜(average vowel spectra,簡稱AVS)和長期平均譜對(duì)歌手在古典和現(xiàn)代風(fēng)格之間的聲樂作品的差異進(jìn)行了量化。
國內(nèi)學(xué)者的研究主要集中在美聲唱法與民族唱法、流行唱法的融合與對(duì)比領(lǐng)域[11-13],但針對(duì)聲音信號(hào)特點(diǎn)進(jìn)行研究的文獻(xiàn)較少。錢一凡等[14]針對(duì)標(biāo)準(zhǔn)元音提取了其基頻、共振峰和各通道振幅,比較不同元音的聲學(xué)特征,分析得知不同的元音發(fā)聲與身體不同部位的共鳴有關(guān)。
大部分關(guān)于發(fā)聲信號(hào)的研究采用傅里葉變換的方法,將原時(shí)域信號(hào)轉(zhuǎn)化為頻域信號(hào)。然而,頻域信號(hào)僅對(duì)變換后信號(hào)的實(shí)部進(jìn)行對(duì)比,忽略了相頻信息。另外,對(duì)美聲唱法樣本的采集主要集中在美聲與通俗唱法的對(duì)比上,但是通俗唱法從發(fā)聲特點(diǎn)上與美聲唱法存在明顯差異,難以突出美聲聲音信號(hào)的特殊性。
針對(duì)上述問題,筆者利用功率譜的估計(jì)對(duì)信號(hào)進(jìn)行研究,即從能量的觀點(diǎn)對(duì)信號(hào)進(jìn)行分析,保留頻譜法所丟掉的相位信息。同時(shí),從美聲初學(xué)者與歌唱技巧成熟的美聲老師中提取樣本并進(jìn)行對(duì)比研究。因?yàn)槊缆暢鯇W(xué)者的發(fā)音近似美聲,所以更適合對(duì)美聲發(fā)音的規(guī)范性進(jìn)行系統(tǒng)評(píng)價(jià)。
筆者對(duì)美聲聲音信號(hào)的特征提取主要分為以下步驟:①對(duì)聲音信號(hào)進(jìn)行采集;②對(duì)采集到的聲音信號(hào)進(jìn)行端點(diǎn)檢測(cè)處理,去除無用的語音段;③對(duì)處理后的信號(hào)做Burg 法功率譜分析;④將得到的功率譜進(jìn)行局部二次回歸平滑處理。
對(duì)5 名美聲初學(xué)者和3 名美聲老師進(jìn)行女高音信號(hào)的采集、篩選和分類。錄音時(shí)要求發(fā)音人在相同錄音環(huán)境下依次清唱出基礎(chǔ)元音/a/,/i/和/u/,在錄制的聲音樣本中選取發(fā)聲時(shí)長在3~5 s 的語音信號(hào),最終得到老師的發(fā)音樣本50 條(設(shè)定為正確發(fā)聲信號(hào))和學(xué)生的錯(cuò)誤發(fā)音樣本350 條。美聲老師分別對(duì)學(xué)生的樣本進(jìn)行錯(cuò)誤分析,指出發(fā)聲存在的問題,總結(jié)出“口腔沒打開”、“咬字位置不正確”等一系列錯(cuò)誤原因。為了便于分析,下面只討論發(fā)聲為/a/的分析結(jié)果,并不影響其統(tǒng)計(jì)規(guī)律。
由于采集到的美聲信號(hào)中存在無效的靜音段和噪聲段,會(huì)對(duì)功率譜分析和特征提取存在一定程度的干擾,增加運(yùn)算量,因此需要對(duì)聲音信號(hào)進(jìn)行端點(diǎn)檢測(cè),確定其起點(diǎn)和終點(diǎn),以便提高計(jì)算效率。筆者采用一種基于短時(shí)能量和譜質(zhì)心特征進(jìn)行端點(diǎn)檢測(cè)的方法[15],其方法步驟如下。
首先,對(duì)語音信號(hào)中的每一幀提取短時(shí)能量,設(shè)xi(n)(n=1~N)為第i幀信號(hào),長度為N,該幀的能量E(i)為
其次,提取該幀的譜質(zhì)心。設(shè)第i幀的譜質(zhì)心Ci為
其中:Xi(k)(k=1~N)為第i幀的離散傅里葉變換;N為幀長度。
最后,估計(jì)短時(shí)能量和譜質(zhì)心特征序列的閾值,設(shè)M1和M2分別為2 個(gè)局部最大值的位置,則閾值T為
其中:W為筆者設(shè)置的參數(shù),W越大,閾值就越靠近M1。
經(jīng)過上述閾值化處理,可以得到一段標(biāo)記語音段的閾值化序列,將該序列代入原始信號(hào)中,就可獲得語音段在原始信號(hào)中開始和結(jié)束的位置。
將完成端點(diǎn)檢測(cè)的信號(hào)進(jìn)行Burg 法功率譜分析。在對(duì)隨機(jī)信號(hào)的分析中,可以利用自回歸(autoregressive model,簡稱AR)模型進(jìn)行功率譜估計(jì)。其中,Burg 法無需對(duì)自相關(guān)函數(shù)進(jìn)行估算,而是用已知序列x(n)求出反射系數(shù),再利用Levinson 遞推算法,由反射系數(shù)來計(jì)算回歸模型參數(shù),以得到較好的譜估計(jì)結(jié)果。
利用Burg 法估計(jì)AR 模型參數(shù),首先要確定式(4)所示的初始條件,其次根據(jù)序列x(n)求出式(5)所示的自相關(guān)函數(shù)σ20
令k=1,計(jì)算AR 模型的反射系數(shù)Kk
在Levinson 關(guān)系式的ak(i)(i=1~k-1)中,分別代入p階AR 模型反射系數(shù)和p-1 階AR 模型反射系數(shù),計(jì)算aki(i=1~k-1)、前向預(yù)測(cè)誤差ek(n)和后向預(yù)測(cè)誤差bk(n),分別為
根 據(jù)計(jì) 算 出σ2k,令k=k+1。重復(fù)上述步驟,直至預(yù)計(jì)的階數(shù)為止,以求出所有階的AR 模型參數(shù)。
Burg 估計(jì)算法的遞推過程建立在已知序列的基礎(chǔ)上,很好地避免了對(duì)于序列自相關(guān)函數(shù)的計(jì)算,與其他算法相比,有著較好的頻率分辨率[16]。
筆者使用局部二次回歸平滑對(duì)Burg 法得到的功率譜進(jìn)行平滑處理。局部二次回歸平滑就是使用二次多項(xiàng)式作為局部多項(xiàng)式的回歸擬合,是一種用于局部回歸分析的非參數(shù)方法。
在對(duì)信號(hào)進(jìn)行二次回歸平滑時(shí),首先要確定擬合點(diǎn)的數(shù)量和位置,再以擬合點(diǎn)為中心,確定k個(gè)最鄰近的點(diǎn),通過權(quán)重函數(shù)計(jì)算這些點(diǎn)的權(quán)重。其中,對(duì)權(quán)重的計(jì)算要先確定區(qū)間內(nèi)的點(diǎn)到擬合點(diǎn)的x軸的距離,找到區(qū)間內(nèi)的最大值,然后對(duì)其他距離做歸一化處理。歸一化函數(shù)表達(dá)式為
使用三次指數(shù)函數(shù)對(duì)權(quán)重進(jìn)行轉(zhuǎn)化,三次函數(shù)表達(dá)式為
接下來對(duì)區(qū)間內(nèi)的散點(diǎn)進(jìn)行局部二次回歸擬合,考慮到離擬合點(diǎn)的遠(yuǎn)近不同,點(diǎn)的取值對(duì)擬合線的影響也不同,故在定義損失函數(shù)時(shí),應(yīng)率先降低近的點(diǎn)與擬合線的誤差,即對(duì)最小二乘法加上權(quán)重。加權(quán)最小二乘法的表達(dá)式為
對(duì)區(qū)間內(nèi)的樣本進(jìn)行多項(xiàng)式擬合后,不斷重復(fù)擬合過程,得到不同區(qū)間內(nèi)的加權(quán)回歸曲線,最后通過對(duì)回歸曲線中心的連接,便可生成完整的平滑曲線。
筆者選取BP 神經(jīng)網(wǎng)絡(luò)用于美聲特征的分類。BP 神經(jīng)網(wǎng)絡(luò)作為一種多層的前饋神經(jīng)網(wǎng)絡(luò),由輸入層、隱藏層和輸出層組成。本研究對(duì)BP 神經(jīng)網(wǎng)絡(luò)設(shè)置2 個(gè)隱藏層:第1 個(gè)隱藏層包含10 個(gè)神經(jīng)元,使用線性函數(shù)作為激活函數(shù);第2 個(gè)隱藏層包含2 個(gè)神經(jīng)元,使用對(duì)數(shù)S 形轉(zhuǎn)移函數(shù)作為激活函數(shù)。所選樣本數(shù)據(jù)為平滑處理后的信號(hào)功率譜特征值,最后選擇梯度下降自適應(yīng)學(xué)習(xí)率的反向傳播算法作為訓(xùn)練函數(shù)來訓(xùn)練BP 神經(jīng)網(wǎng)絡(luò)。
采集某音樂學(xué)院5 名女高音新生和3 名老師的美聲發(fā)聲信號(hào)共400 條,利用Matlab 軟件對(duì)經(jīng)過預(yù)處理的美聲信號(hào)進(jìn)行Burg 功率譜估計(jì),對(duì)比正確樣本與錯(cuò)誤樣本之間功率譜形態(tài)走勢(shì)的區(qū)別,對(duì)與正確功率譜圖像差距較大的地方做函數(shù)圖像的擬合,并提取譜圖的特征參數(shù),最后比較科學(xué)美聲發(fā)聲和錯(cuò)誤美聲發(fā)聲之間功率譜曲線與參數(shù)的差距。
聲音信號(hào)端點(diǎn)檢測(cè)時(shí)域波形如圖1 所示。首先對(duì)采集到的美聲信號(hào)進(jìn)行端點(diǎn)檢測(cè),原始信號(hào)的時(shí)域波形見圖1(a),去除多余的靜音段和噪聲段,得到無干擾的聲信號(hào)時(shí)域波形見圖1(b)。
圖1 聲音信號(hào)端點(diǎn)檢測(cè)時(shí)域波形Fig.1 Time domain waveform of sound signal endpoint detection
將預(yù)處理后的信號(hào)帶入25 階AR 模型,美聲發(fā)聲信號(hào)功率譜曲線如圖2 所示,得到正確美聲信號(hào)功率譜和3 種具有代表性的、不同錯(cuò)誤類型的美聲信號(hào)功率譜。根據(jù)圖中功率譜整體的波動(dòng)和走勢(shì)情況,可將功率譜劃分為3 個(gè)能量區(qū),如圖2 中豎線所示。其中:0~6 kHz 為第1 能量區(qū);6~11 kHz 為第2能量區(qū);11~15 kHz 為第3 能量區(qū)。
圖2 美聲發(fā)聲信號(hào)功率譜曲線Fig.2 Power spectrum curve of bel canto signal
由功率譜曲線可以看出,高音信號(hào)的功率譜整體均呈下降趨勢(shì)。由圖2(a)的標(biāo)準(zhǔn)美聲信號(hào)功率譜中可以發(fā)現(xiàn),1,6 和15 kHz 處均存在明顯的峰值變化,6 kHz 處有明顯的下降趨勢(shì),波谷平均深度為-100 dB,與波峰有著40 dB 的落差。曲線從10 kHz開始平穩(wěn)下降且無較大波動(dòng),在15 kHz 處下降速度加快,曲線陡峭,至17 kHz 處降至最低點(diǎn)-140 dB。
在錯(cuò)誤美聲信號(hào)的功率譜中,圖2(b)所示的錯(cuò)誤樣本1 存在著“口腔沒有打開、氣息沒有用上”的錯(cuò)誤,其功率譜在6 kHz 處的波谷相對(duì)較淺,與左側(cè)波峰的落差僅有20 dB,而在15 kHz 處的曲線呈明顯上升趨勢(shì)的波動(dòng),持續(xù)約1 kHz 后加速下降至最低點(diǎn)。由圖2(c)所示的錯(cuò)誤樣本2 可以看出,曲線在1,6 和11 kHz 處均有波谷產(chǎn)生,且波動(dòng)幅度較大,曲線相對(duì)不穩(wěn)定,存在“咬字位置不對(duì)”的錯(cuò)誤,在15 kHz 處變陡加速下降。由圖2(d)所示的錯(cuò)誤樣本3 可以看出,曲線整體無較大波動(dòng),幾乎呈平穩(wěn)態(tài)勢(shì)下降,直至15 kHz 處曲線變陡并下降至最低點(diǎn),存在“口腔發(fā)聲位置錯(cuò)誤”的問題。
從能量區(qū)的分割上可以看出,錯(cuò)誤樣本曲線在每個(gè)能量區(qū)中均有不同幅度的波動(dòng);而正確樣本曲線只有在進(jìn)入第2 能量區(qū)后有一處波谷,從第2 能量區(qū)中部至第3 能量區(qū)結(jié)束之間的圖像下降勻速,無明顯起伏特征。
基于上述情況,筆者在功率譜曲線區(qū)別較大的區(qū)間內(nèi)進(jìn)行基于最小二乘法的一階擬合和二階擬合,得到一元二次曲線方程和一元一次直線方程,再對(duì)2 種方程的系數(shù)取平均值和方差。其中,一元二次方程擬合了3~7 kHz 之間功率譜中存在的波谷曲線,由于2 種信號(hào)在其區(qū)間內(nèi)的變化差距較大,得到的方程在系數(shù)上有著較大差別。功率譜曲線一元二次方程擬合系數(shù)如表1 所示,正確發(fā)聲信號(hào)曲線的一次項(xiàng)系數(shù)b大于錯(cuò)誤信號(hào),而二次項(xiàng)系數(shù)a和常數(shù)項(xiàng)c則小于錯(cuò)誤信號(hào)。
表1 功率譜曲線一元二次方程擬合系數(shù)Tab.1 Fitting coefficient of the power spectrum curve by the quadratic equation
在曲線方程中,二次項(xiàng)系數(shù)a代表函數(shù)拋物線的開口大小,a的絕對(duì)值越大,拋物線的開口越窄。對(duì)于2 條拋物線A1x2+B1x+C1y+D1=0 和A2x2+B2x+C2y+D2=0,其開度公式分別為
將正確信號(hào)和錯(cuò)誤信號(hào)的多項(xiàng)式系數(shù)分別代入σ1和σ2,得到σ1>σ2,即正確信號(hào)拋物線的開口度要大于錯(cuò)誤信號(hào)。
再對(duì)圖中10~15 kHz 的下降直線進(jìn)行擬合,得到了斜截式的一次函數(shù)直線方程,功率譜曲線一元一次方程擬合系數(shù)如表2 所示??梢园l(fā)現(xiàn),正確信號(hào)的斜率k要小于錯(cuò)誤信號(hào),而截距b大于錯(cuò)誤信號(hào),即正確信號(hào)的傾斜坡度較大,錯(cuò)誤信號(hào)坡度較為平緩。
表2 功率譜曲線一元一次方程擬合系數(shù)Tab.2 Fitting coefficient of power spectrum curve by linear equation
為了更直觀地觀察數(shù)據(jù)的離散分布情況,了解數(shù)據(jù)分布狀態(tài),將擬合出的多項(xiàng)式系數(shù)進(jìn)行箱式圖分析,如圖3 所示。由圖3(a)所示的二次項(xiàng)系數(shù)a的箱式圖可以看出:錯(cuò)誤信號(hào)的系數(shù)整體低于正確信號(hào),其箱式圖長度較短,數(shù)據(jù)多集中分布在很小的范圍內(nèi);正確信號(hào)的箱式圖較長,表明數(shù)據(jù)間差異比較大,方差也大于錯(cuò)誤信號(hào)。由圖3(b)所示的斜率k的箱式圖可以看出:正確信號(hào)的數(shù)據(jù)波動(dòng)較大,但在錯(cuò)誤信號(hào)中存在一處離群值,導(dǎo)致方差比正確信號(hào)的方差大。
圖3 多項(xiàng)式系數(shù)箱式圖Fig.3 Box-plot with polynomial coefficients
由箱式圖可知,在二次項(xiàng)系數(shù)箱式圖的5×10-6處和斜率箱式圖的-3×10-3處均有明顯的分界,可以把正確信號(hào)和錯(cuò)誤信號(hào)按照分界數(shù)值直接區(qū)分開,故采用閾值法的識(shí)別率可達(dá)到100%。
對(duì)美聲信號(hào)的功率譜曲線做特征值統(tǒng)計(jì),如表3 所示。由表可知,錯(cuò)誤信號(hào)的方差明顯大于正確信號(hào),說明錯(cuò)誤信號(hào)的功率譜數(shù)據(jù)波動(dòng)較大,數(shù)據(jù)分布比較分散,在平均數(shù)附近波動(dòng)較大,且存在較大的上下限差。
表3 美聲信號(hào)功率譜統(tǒng)計(jì)特征值Tab.3 Statistical eigenvalues of power spectrum of bel canto signal
對(duì)400 條聲音信號(hào)進(jìn)行訓(xùn)練集和測(cè)試集的劃分,其中75%的數(shù)據(jù)作為訓(xùn)練集導(dǎo)入BP 神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,使BP 神經(jīng)對(duì)兩類發(fā)聲信號(hào)的特征值有記憶能力;再將剩余的15%數(shù)據(jù)作為測(cè)試集,來測(cè)試BP 神經(jīng)網(wǎng)絡(luò)的識(shí)別正確率。BP 神經(jīng)網(wǎng)絡(luò)收斂圖如圖4 所示,由圖可以看出,訓(xùn)練在120 次左右達(dá)到收斂,識(shí)別率為95.23%。
圖4 BP 神經(jīng)網(wǎng)絡(luò)收斂圖Fig.4 Convergence diagram of BP neural network
由BP 神經(jīng)網(wǎng)絡(luò)的識(shí)別結(jié)果可知,相比于利用BP 神經(jīng)網(wǎng)絡(luò)對(duì)美聲進(jìn)行分類,基于系數(shù)箱式圖的閾值法可以更直接地將2 種類別區(qū)分開,且識(shí)別率達(dá)100%。因此,采用函數(shù)擬合的方法明顯優(yōu)于直接對(duì)功率譜特征值進(jìn)行分類訓(xùn)練的方法。
1) 標(biāo)準(zhǔn)美聲唱法的功率譜僅在6 kHz 左右有一處明顯的波谷,下降落差約為40 dB,其余頻率并無較大的波谷產(chǎn)生。在錯(cuò)誤的美聲唱法中,有些譜線沒有明顯的波谷,而有些譜線波谷較多,波動(dòng)幅度較大。對(duì)3~7 kHz 內(nèi)的波谷曲線和10~15 kHz 內(nèi)的下降直線分別做一元二次函數(shù)擬合和一元一次函數(shù)擬合,可以得出正確信號(hào)在擬合的曲線上有著更大的開口度和更深的波谷,在直線上有著更大的傾斜度。在系數(shù)箱式圖中使用閾值法,可以將2 種類型的信號(hào)直接區(qū)分開。
2) 根據(jù)功率譜的波動(dòng)和走勢(shì),可將其劃分為3個(gè)能量區(qū)。在能量區(qū)中,錯(cuò)誤樣本的曲線波動(dòng)頻率更大,且在區(qū)域交界處有波谷;正確樣本僅在第1、第2 能量區(qū)之間有波動(dòng),其余區(qū)域波動(dòng)較不明顯。
3) 使用美聲聲音信號(hào)功率譜進(jìn)行2 種聲音信號(hào)的BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練和分類識(shí)別,識(shí)別正確率可達(dá)95.23%;而使用系數(shù)閾值法,可實(shí)現(xiàn)對(duì)2 種發(fā)聲信號(hào)的100%分類,表明本研究提出的美聲發(fā)聲信號(hào)特征閾值法更加有效。
4) 可以利用筆者目前的研究結(jié)果建立一套針對(duì)美聲發(fā)聲的打分系統(tǒng),用于評(píng)估聲樂初學(xué)者在發(fā)聲訓(xùn)練時(shí)的標(biāo)準(zhǔn)程度。