基于深層神經(jīng)網(wǎng)絡(luò)的英語口語發(fā)音錯誤捕捉方法研究

2020-10-23 08:54:52竇旭霞

黑龍江工業(yè)學(xué)院學(xué)報(綜合版) 2020年8期

竇旭霞

(煙臺職業(yè)學(xué)院，山東煙臺 264670)

隨著語音信號處理技術(shù)的發(fā)展，采用語音信號識別方法進行英語口語發(fā)音錯誤捕捉，能夠有效提高英語口語發(fā)音錯誤捕捉能力，因此對該問題的研究在提高英語口語教學(xué)有效性方面具有重要意義[1]。由于相關(guān)的英語口語發(fā)音錯誤捕捉方法對于英語口語發(fā)音規(guī)范化具有促進作用，因此對于英語口語發(fā)音錯誤捕捉方法的研究受到人們的極大關(guān)注。傳統(tǒng)英語口語發(fā)音錯誤捕捉方法是建立在語音信號分析基礎(chǔ)上，采用動態(tài)特征分析方法進行英語口語發(fā)音錯誤捕捉和特征識別[2]，但是該方法存在英語口語發(fā)音錯誤捕捉準(zhǔn)確性較低的問題，實際應(yīng)用效果并不理想。為了解決傳統(tǒng)方法存在的問題，提出了基于深層神經(jīng)網(wǎng)絡(luò)的英語口語發(fā)音錯誤捕捉方法。

一、英語口語發(fā)音語音信號模型和特征分析

1.英語口語發(fā)音語音信號模型

為了實現(xiàn)基于深層神經(jīng)網(wǎng)絡(luò)的英語口語發(fā)音錯誤捕捉，首先構(gòu)建英語口語發(fā)音語音信號檢測模型，采用多傳感檢測方法，進行英語口語發(fā)音語音信號的原始數(shù)據(jù)采集，對采集到的英語口語發(fā)音語音信號進行尺度分解和特征提取[3]，在此基礎(chǔ)上進行英語口語發(fā)音錯誤捕捉和特征檢測。其中，英語口語發(fā)音語音信號的數(shù)學(xué)模型表達式為：

(1)

上式中，a(t)稱為英語口語發(fā)音語音信號在第n個陣元接收信號幅度，有時也稱為包絡(luò)；φ(t)稱為多均勻直線寬帶陣列相位，Z(f)可由S(f)通過傅里葉變換得到，H(f)為英語口語發(fā)音語音信號的階躍式傳輸函數(shù)。

基于粒子群算法進行英語口語發(fā)音語音信號建模和檢測識別，得到語音信息采樣的陣元分布為vm，m∈[1,n]。英語口語發(fā)音語音信號的回波脈沖表示為：

(3)

上式中，f(t)為接收到的英語口語發(fā)音語音信號的瞬時頻率估計值，ρ(a,b)為寬帶信號入射到陣元上的延時分量，a為信號的高階統(tǒng)計特征信息，b為頻移分布[4]。在新的簇頭節(jié)點，得到英語口語發(fā)音信息的特征分量為：

(4)

更新融合權(quán)重，得到輸出信號分量Xp(u)，表示為：

(5)

其中，p為最佳接收極化矢量的階數(shù)，可以為任意實數(shù)，語音檢測的相位為α=pπ/2，當(dāng)足π/2時，即旋轉(zhuǎn)至頻率軸，由此實現(xiàn)對英語口語發(fā)音語音信號的統(tǒng)計信息建模[5]。

2.英語口語發(fā)音譜特征量分析

采用多傳感融合跟蹤識別方法進行英語口語發(fā)音的語音信號采集，結(jié)合時頻特征分解方法進行英語口語發(fā)音錯誤信息特征提取，英語口語發(fā)音語音信號長度l，得到英語口語發(fā)音語音信號的譜特征量為：

(6)

l=a·fl+b

(7)

其中，a、b表示英語口語發(fā)音語音信號的塊稀疏特征參數(shù)。對于給定的寬帶高分辨英語口語發(fā)音語音信號x(n)和尺度d，采用期望和方差聯(lián)合估計方法進行英語口語發(fā)音語音信號動態(tài)檢測，設(shè)置英語口語發(fā)音語音信號x(n)在尺度d的方差用E(ni,d)表示、最大功率譜特征量用max{E(ni,d)}表示，英語口語發(fā)音語音信號的模糊度辨識參數(shù)為：

(8)

對x(t)進行抽樣濾波處理后，能夠獲取英語口語發(fā)音語音信號的離散特征分量x(n)，英語口語發(fā)音語音信號的集成窗函數(shù)h(t)的寬度為T=(2d+1)Ts，F(xiàn)s=1/Ts。設(shè)寬帶高分辨英語口語發(fā)音語音信號為x(t)，對其進行加窗操作[6]，英語口語發(fā)音語音信號在頻譜分布區(qū)間[m0-Δm/2,m0+Δm/2]上服從均勻分布，英語口語發(fā)音語音信號的譜特征量為：

r(t)=g(t)+n(t)

(9)

式中，g(t)為概率密度函數(shù)，采用多級濾波方法進行英語口語發(fā)音語音信號的稀疏性檢測，結(jié)構(gòu)模型如圖1所示。根據(jù)英語口語發(fā)音語音信號的譜特征分離結(jié)果，實現(xiàn)英語口語發(fā)音譜特征量分析。

圖1 英語口語發(fā)音語音信號的譜特征檢測模型

二、英語口語發(fā)音語音錯誤捕捉優(yōu)化

1.英語口語發(fā)音信號的特征篩選和分類識別

假設(shè)輸入的英語口語發(fā)音語音信號為一個單頻信號cos2πf0t，其中f0為英語口語發(fā)音頻率，設(shè)第1個陣元檢測到的英語口語發(fā)音語音信號的基準(zhǔn)分量，構(gòu)建英語口語發(fā)音的錯誤特征篩選模型，采用時頻特征變換方法進行英語口語發(fā)音語音信號動態(tài)檢測和特征篩選處理[7]，則第m個塊稀疏特征量為：

sm(t)=cos{2πf0[t+τm(θ)]}

(10)

采用目標(biāo)源信號檢測方法，進行英語口語發(fā)音語音信號的特征監(jiān)測，得到英語口語發(fā)音錯誤特征分布為：

(11)

其中：

um=cos[2πf0τm(θ)]；vm=sin[2πf0τm(θ)]

(12)

通過上述過程提取到英語口語發(fā)音語音信號的特征量，采用波束形成方法進行英語口語發(fā)音語音信號的特征聚焦，采用深層神經(jīng)網(wǎng)絡(luò)檢測方法進行英語口語發(fā)音語音信號錯誤特征檢測[8]，輸出為：

y1(t)=A1(t)exp{j2π[F(t-ta)ln(t-ta)-

F(t-ta)-FlnDt+fe1t]}

(13)

輸出的英語口語發(fā)音錯誤特征量表示為：

y2(t)=A2(t)exp{j2π[F(t-ta)ln(t-ta)-

F(t-ta)-FlnDt+fe2t]}

(14)

式中，fe1為波束域截止頻率，fe2為諧波截止頻率。采用統(tǒng)計特征分析方法進行英語口語發(fā)音錯誤特征分離[9]，得到英語口語發(fā)音錯誤信息為：

y(t)=s(t)+n(t)

(15)

英語口語發(fā)音錯誤信息的頻譜為：

Yp(u)=Fa[y(t)]

=Fa[s(t)+n(t)]

=Fa[s(t)]+Fa[n(t)]

(16)

在信號的先驗概率滿足收斂條件的情況下，計算英語口語發(fā)音語音信號的時間寬度：

(17)

英語口語發(fā)音語音信號的頻域特性描述為：

(18)

根據(jù)貝葉斯公式，進行英語口語發(fā)音信號的特征篩選，檢測輸出為：

(19)

采用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法，進行英語口語發(fā)音信號的特征篩選和分類識別。

2.英語口語發(fā)音語音錯誤捕捉輸出

建立英語口語發(fā)音錯誤信號的統(tǒng)計特征分析模型，采用深層神經(jīng)網(wǎng)絡(luò)分類器進行英語口語發(fā)音信號的特征篩選和分類識別，根據(jù)特征分類結(jié)果實現(xiàn)英語口語發(fā)音錯誤信息捕捉和識別，為了防止過擬合，對L個塊特征量采用模糊狀態(tài)分離方法，得到特征參數(shù)a1(t)和a2(t)由下式確定：

(20)

根據(jù)英語口語發(fā)音語音錯誤特征篩選輸出為：

(21)

上式中，a(t)稱為英語口語發(fā)音語音信號的z(t)瞬時幅度，φ(t)稱為英語口語發(fā)音錯誤特征的模糊狀態(tài)分量，采用如下檢測門限進行英語口語發(fā)音語音錯誤特征檢測：

xmin,j=max{xmin,j,xg,j-ρ(xmax,j-xmin,j)}

(22)

xmax,j=min{xmax,j,xg,j+ρ(xmax,j-xmin,j)}

(23)

結(jié)合先驗概率和似然函數(shù)估計方法[10]，得到英語口語發(fā)音錯誤特征檢測輸出為：

(24)

此時英語口語發(fā)音語音錯誤捕捉輸出表示為：

其中，γ代表英語口語發(fā)音錯誤特征分量。

三、仿真實驗與結(jié)果分析

為了測試本文算法在實現(xiàn)英語口語發(fā)音錯誤捕捉方面的性能，進行仿真實驗，實驗采用Matlab 7仿真軟件設(shè)計，英語口語發(fā)音信號采樣節(jié)點數(shù)量為120，特征提取的分辨率為200KHZ，輸出的英語口語發(fā)音語音信號長度為1200，待測語音信號集個數(shù)為20，干擾信噪比為20dB，根據(jù)上述仿真參量設(shè)定，進行英語口語發(fā)音錯誤捕捉仿真分析，其中英語口語發(fā)音信號模型如圖2所示。

圖2 英語口語發(fā)音信號模型

以圖2的英語口語發(fā)音信號為研究對象，進行英語口語發(fā)音的錯誤捕捉，得到捕捉結(jié)果如圖3所示。

圖3 英語口語發(fā)音的錯誤捕捉結(jié)果

分析圖3得知，本文方法能有效實現(xiàn)對英語口語發(fā)音的錯誤捕捉和特征分離。測試不同方法英語口語發(fā)音的錯誤捕捉的精度，得到對比結(jié)果如圖4所示。

圖4 捕捉精度對比

分析圖4得知，本文方法的英語口語發(fā)音的錯誤捕捉的精度較高，實用性較強。

結(jié)語

研究英語口語發(fā)音錯誤捕捉方法，在提高英語口語教學(xué)有效性方面具有重要意義，能夠促進英語口語發(fā)音規(guī)范化，因此本文提出基于深層神經(jīng)網(wǎng)絡(luò)的英語口語發(fā)音錯誤捕捉方法。給出英語口語發(fā)音語音信號檢測模型，采用多傳感檢測方法進行英語口語發(fā)音語音信號的原始數(shù)據(jù)采集，對采集到的英語口語發(fā)音語音信號進行尺度分解和特征提取，提取英語口語發(fā)音語音信號的特征量，采用波束形成方法進行英語口語發(fā)音語音信號的特征聚焦，采用深層神經(jīng)網(wǎng)絡(luò)檢測方法實現(xiàn)英語口語發(fā)音語音信號錯誤特征檢測和捕捉。分析得知，本文方法進行英語口語發(fā)音錯誤捕捉的精度較高，可靠性與實用性較強。

基于深層神經(jīng)網(wǎng)絡(luò)的英語口語發(fā)音錯誤捕捉方法研究

一、英語口語發(fā)音語音信號模型和特征分析

二、英語口語發(fā)音語音錯誤捕捉優(yōu)化

三、仿真實驗與結(jié)果分析

結(jié)語

一、英語口語發(fā)音語音信號模型和特征分析

二、英語口語發(fā)音語音錯誤捕捉優(yōu)化

三、仿真實驗與結(jié)果分析