竇旭霞
(煙臺職業(yè)學(xué)院,山東 煙臺 264670)
隨著語音信號處理技術(shù)的發(fā)展,采用語音信號識別方法進行英語口語發(fā)音錯誤捕捉,能夠有效提高英語口語發(fā)音錯誤捕捉能力,因此對該問題的研究在提高英語口語教學(xué)有效性方面具有重要意義[1]。由于相關(guān)的英語口語發(fā)音錯誤捕捉方法對于英語口語發(fā)音規(guī)范化具有促進作用,因此對于英語口語發(fā)音錯誤捕捉方法的研究受到人們的極大關(guān)注。傳統(tǒng)英語口語發(fā)音錯誤捕捉方法是建立在語音信號分析基礎(chǔ)上,采用動態(tài)特征分析方法進行英語口語發(fā)音錯誤捕捉和特征識別[2],但是該方法存在英語口語發(fā)音錯誤捕捉準(zhǔn)確性較低的問題,實際應(yīng)用效果并不理想。為了解決傳統(tǒng)方法存在的問題,提出了基于深層神經(jīng)網(wǎng)絡(luò)的英語口語發(fā)音錯誤捕捉方法。
1.英語口語發(fā)音語音信號模型
為了實現(xiàn)基于深層神經(jīng)網(wǎng)絡(luò)的英語口語發(fā)音錯誤捕捉,首先構(gòu)建英語口語發(fā)音語音信號檢測模型,采用多傳感檢測方法,進行英語口語發(fā)音語音信號的原始數(shù)據(jù)采集,對采集到的英語口語發(fā)音語音信號進行尺度分解和特征提取[3],在此基礎(chǔ)上進行英語口語發(fā)音錯誤捕捉和特征檢測。其中,英語口語發(fā)音語音信號的數(shù)學(xué)模型表達式為:
(1)
上式中,a(t)稱為英語口語發(fā)音語音信號在第n個陣元接收信號幅度,有時也稱為包絡(luò);φ(t)稱為多均勻直線寬帶陣列相位,Z(f)可由S(f)通過傅里葉變換得到,H(f)為英語口語發(fā)音語音信號的階躍式傳輸函數(shù)。
基于粒子群算法進行英語口語發(fā)音語音信號建模和檢測識別,得到語音信息采樣的陣元分布為vm,m∈[1,n]。英語口語發(fā)音語音信號的回波脈沖表示為:
(3)
上式中,f(t)為接收到的英語口語發(fā)音語音信號的瞬時頻率估計值,ρ(a,b)為寬帶信號入射到陣元上的延時分量,a為信號的高階統(tǒng)計特征信息,b為頻移分布[4]。在新的簇頭節(jié)點,得到英語口語發(fā)音信息的特征分量為:
(4)
更新融合權(quán)重,得到輸出信號分量Xp(u),表示為:
(5)
其中,p為最佳接收極化矢量的階數(shù),可以為任意實數(shù),語音檢測的相位為α=pπ/2,當(dāng)足π/2時,即旋轉(zhuǎn)至頻率軸,由此實現(xiàn)對英語口語發(fā)音語音信號的統(tǒng)計信息建模[5]。
2.英語口語發(fā)音譜特征量分析
采用多傳感融合跟蹤識別方法進行英語口語發(fā)音的語音信號采集,結(jié)合時頻特征分解方法進行英語口語發(fā)音錯誤信息特征提取,英語口語發(fā)音語音信號長度l,得到英語口語發(fā)音語音信號的譜特征量為:
(6)
l=a·fl+b
(7)
其中,a、b表示英語口語發(fā)音語音信號的塊稀疏特征參數(shù)。對于給定的寬帶高分辨英語口語發(fā)音語音信號x(n)和尺度d,采用期望和方差聯(lián)合估計方法進行英語口語發(fā)音語音信號動態(tài)檢測,設(shè)置英語口語發(fā)音語音信號x(n)在尺度d的方差用E(ni,d)表示、最大功率譜特征量用max{E(ni,d)}表示,英語口語發(fā)音語音信號的模糊度辨識參數(shù)為:
(8)
對x(t)進行抽樣濾波處理后,能夠獲取英語口語發(fā)音語音信號的離散特征分量x(n),英語口語發(fā)音語音信號的集成窗函數(shù)h(t)的寬度為T=(2d+1)Ts,F(xiàn)s=1/Ts。設(shè)寬帶高分辨英語口語發(fā)音語音信號為x(t),對其進行加窗操作[6],英語口語發(fā)音語音信號在頻譜分布區(qū)間[m0-Δm/2,m0+Δm/2]上服從均勻分布,英語口語發(fā)音語音信號的譜特征量為:
r(t)=g(t)+n(t)
(9)
式中,g(t)為概率密度函數(shù),采用多級濾波方法進行英語口語發(fā)音語音信號的稀疏性檢測,結(jié)構(gòu)模型如圖1所示。根據(jù)英語口語發(fā)音語音信號的譜特征分離結(jié)果,實現(xiàn)英語口語發(fā)音譜特征量分析。
圖1 英語口語發(fā)音語音信號的譜特征檢測模型
1.英語口語發(fā)音信號的特征篩選和分類識別
假設(shè)輸入的英語口語發(fā)音語音信號為一個單頻信號cos2πf0t,其中f0為英語口語發(fā)音頻率,設(shè)第1個陣元檢測到的英語口語發(fā)音語音信號的基準(zhǔn)分量,構(gòu)建英語口語發(fā)音的錯誤特征篩選模型,采用時頻特征變換方法進行英語口語發(fā)音語音信號動態(tài)檢測和特征篩選處理[7],則第m個塊稀疏特征量為:
sm(t)=cos{2πf0[t+τm(θ)]}
(10)
采用目標(biāo)源信號檢測方法,進行英語口語發(fā)音語音信號的特征監(jiān)測,得到英語口語發(fā)音錯誤特征分布為:
(11)
其中:
um=cos[2πf0τm(θ)];vm=sin[2πf0τm(θ)]
(12)
通過上述過程提取到英語口語發(fā)音語音信號的特征量,采用波束形成方法進行英語口語發(fā)音語音信號的特征聚焦,采用深層神經(jīng)網(wǎng)絡(luò)檢測方法進行英語口語發(fā)音語音信號錯誤特征檢測[8],輸出為:
y1(t)=A1(t)exp{j2π[F(t-ta)ln(t-ta)-
F(t-ta)-FlnDt+fe1t]}
(13)
輸出的英語口語發(fā)音錯誤特征量表示為:
y2(t)=A2(t)exp{j2π[F(t-ta)ln(t-ta)-
F(t-ta)-FlnDt+fe2t]}
(14)
式中,fe1為波束域截止頻率,fe2為諧波截止頻率。采用統(tǒng)計特征分析方法進行英語口語發(fā)音錯誤特征分離[9],得到英語口語發(fā)音錯誤信息為:
y(t)=s(t)+n(t)
(15)
英語口語發(fā)音錯誤信息的頻譜為:
Yp(u)=Fa[y(t)]
=Fa[s(t)+n(t)]
=Fa[s(t)]+Fa[n(t)]
(16)
在信號的先驗概率滿足收斂條件的情況下,計算英語口語發(fā)音語音信號的時間寬度:
(17)
英語口語發(fā)音語音信號的頻域特性描述為:
(18)
根據(jù)貝葉斯公式,進行英語口語發(fā)音信號的特征篩選,檢測輸出為:
(19)
采用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法,進行英語口語發(fā)音信號的特征篩選和分類識別。
2.英語口語發(fā)音語音錯誤捕捉輸出
建立英語口語發(fā)音錯誤信號的統(tǒng)計特征分析模型,采用深層神經(jīng)網(wǎng)絡(luò)分類器進行英語口語發(fā)音信號的特征篩選和分類識別,根據(jù)特征分類結(jié)果實現(xiàn)英語口語發(fā)音錯誤信息捕捉和識別,為了防止過擬合,對L個塊特征量采用模糊狀態(tài)分離方法,得到特征參數(shù)a1(t)和a2(t)由下式確定:
(20)
根據(jù)英語口語發(fā)音語音錯誤特征篩選輸出為:
(21)
上式中,a(t)稱為英語口語發(fā)音語音信號的z(t)瞬時幅度,φ(t)稱為英語口語發(fā)音錯誤特征的模糊狀態(tài)分量,采用如下檢測門限進行英語口語發(fā)音語音錯誤特征檢測:
xmin,j=max{xmin,j,xg,j-ρ(xmax,j-xmin,j)}
(22)
xmax,j=min{xmax,j,xg,j+ρ(xmax,j-xmin,j)}
(23)
結(jié)合先驗概率和似然函數(shù)估計方法[10],得到英語口語發(fā)音錯誤特征檢測輸出為:
(24)
此時英語口語發(fā)音語音錯誤捕捉輸出表示為:
其中,γ代表英語口語發(fā)音錯誤特征分量。
為了測試本文算法在實現(xiàn)英語口語發(fā)音錯誤捕捉方面的性能,進行仿真實驗,實驗采用Matlab 7仿真軟件設(shè)計,英語口語發(fā)音信號采樣節(jié)點數(shù)量為120,特征提取的分辨率為200KHZ,輸出的英語口語發(fā)音語音信號長度為1200,待測語音信號集個數(shù)為20,干擾信噪比為20dB,根據(jù)上述仿真參量設(shè)定,進行英語口語發(fā)音錯誤捕捉仿真分析,其中英語口語發(fā)音信號模型如圖2所示。
圖2 英語口語發(fā)音信號模型
以圖2的英語口語發(fā)音信號為研究對象,進行英語口語發(fā)音的錯誤捕捉,得到捕捉結(jié)果如圖3所示。
圖3 英語口語發(fā)音的錯誤捕捉結(jié)果
分析圖3得知,本文方法能有效實現(xiàn)對英語口語發(fā)音的錯誤捕捉和特征分離。測試不同方法英語口語發(fā)音的錯誤捕捉的精度,得到對比結(jié)果如圖4所示。
圖4 捕捉精度對比
分析圖4得知,本文方法的英語口語發(fā)音的錯誤捕捉的精度較高,實用性較強。
研究英語口語發(fā)音錯誤捕捉方法,在提高英語口語教學(xué)有效性方面具有重要意義,能夠促進英語口語發(fā)音規(guī)范化,因此本文提出基于深層神經(jīng)網(wǎng)絡(luò)的英語口語發(fā)音錯誤捕捉方法。給出英語口語發(fā)音語音信號檢測模型,采用多傳感檢測方法進行英語口語發(fā)音語音信號的原始數(shù)據(jù)采集,對采集到的英語口語發(fā)音語音信號進行尺度分解和特征提取,提取英語口語發(fā)音語音信號的特征量,采用波束形成方法進行英語口語發(fā)音語音信號的特征聚焦,采用深層神經(jīng)網(wǎng)絡(luò)檢測方法實現(xiàn)英語口語發(fā)音語音信號錯誤特征檢測和捕捉。分析得知,本文方法進行英語口語發(fā)音錯誤捕捉的精度較高,可靠性與實用性較強。