基于神經(jīng)網(wǎng)絡(luò)的語音識別點名系統(tǒng)

2017-04-12 15:20劉夢君陳雅詩

科技資訊 2017年5期

劉夢君+陳雅詩

摘要：伴隨著現(xiàn)代科學(xué)與計算機技術(shù)的發(fā)展，人們意識到了語音識別技術(shù)所具有的重要理論價值和廣闊的應(yīng)用前景，而語音識別技術(shù)也成為了現(xiàn)代計算機技術(shù)研究和發(fā)展的重要領(lǐng)域之一。考勤是評價學(xué)生平時成績的重要指標(biāo)，傳統(tǒng)的點名方式效率低下，真實性得不到保證，而目前實施的點名系統(tǒng)無法改善此類現(xiàn)象。針對上述問題，設(shè)計一種基于神經(jīng)網(wǎng)絡(luò)的語音點名識別系統(tǒng)來提高點名的準確率。在基于神經(jīng)網(wǎng)絡(luò)的語音識別點名系統(tǒng)中，通過比對說話人聲音特征的方式來確定學(xué)生的出勤，從大量的實驗數(shù)據(jù)中可以發(fā)現(xiàn)，此種點名方式可有效地提高點名的準確率。

關(guān)鍵詞：語音識別特征提取神經(jīng)網(wǎng)絡(luò)

中圖分類號：TN912 文獻標(biāo)識碼：A 文章編號：1672-3791（2017）02（b）-0016-02

考勤是評價學(xué)生平時成績的重要指標(biāo)，但其準確率和真實性卻往往得不到保證。在過去的點名方式中，比較為人們所熟知的有：老師喊學(xué)生名字，學(xué)生回答“到”。這是最為傳統(tǒng)的一種，但是此種方式的弊端也顯而易見——在學(xué)生達到30人及以上時，由于人數(shù)過多，老師難以準確制止學(xué)生之間相互代答的現(xiàn)象，導(dǎo)致學(xué)生“渾水摸魚”，蒙混過關(guān)，考勤成績不具有真實、準確性；另外，在手機的快速發(fā)展和普及下，一種APP點名方式也逐漸興起。在需要點名時打開手機APP點擊簽到即可，點名的時間不固定，老師通過簽到的情況來確定學(xué)生是否缺勤。但這其中忽略的問題則是雖然點名時間是隨機的，但是出勤的同學(xué)可以用多種方式來告知缺勤的同學(xué)使其完成簽到，這種情況下，考勤結(jié)果依然無法辨別。

針對上述問題，設(shè)計出一種基于神經(jīng)網(wǎng)絡(luò)的語音點名識別系統(tǒng)來提高點名的準確率。在課堂點名的時候，錄入學(xué)生的實時語音，對輸入的語音信號進行預(yù)處理，包括聲音的預(yù)加重、加窗分幀處理與端點檢測等。語音信號經(jīng)過預(yù)處理后，再進行特征參數(shù)提取。在訓(xùn)練階段，對特征參數(shù)進行一定的處理之后，為每個詞條得到一個模板，保存為模板庫。在識別階段，語音信號經(jīng)過相同的方法得到語音參數(shù)，生成測試模板，與參考模板進行匹配，將匹配相似度最高的參考模板作為識別結(jié)果。通過識別結(jié)果來判斷是否為同一個學(xué)生回答，這樣則可減少老師點名工作的繁雜度，并且可以大幅增加考勤的有效性以及準確率，來更好地達到“考勤”這一行為的預(yù)期目的。

通過實驗表明，該系統(tǒng)具有較高的準確率。從之前的老師點名學(xué)生回答和APP點名等方式對真實性的一無所知、無法預(yù)測到現(xiàn)如今該系統(tǒng)可以使考勤的準確率達到85%以上，都表明了這種基于神經(jīng)網(wǎng)絡(luò)的語音點名識別系統(tǒng)可以有效地減少學(xué)生代替答到的行為并提高學(xué)?？记诘臏蚀_率，使評價學(xué)生平時成績的重要指標(biāo)——考勤結(jié)果更加真實、可靠。

1 具體方案

1.1 模型庫建立

1.1.1 語音識別的預(yù)處理

語音信號的預(yù)處理是語音識別的基礎(chǔ)與前提，包括語言的預(yù)濾波、采樣、預(yù)加重、加窗分幀處理與端點檢測等。

（1）預(yù)濾波、采樣。

預(yù)濾波的目的是：抑制語音信號中超過f/2（f為采樣頻率）的分量對語音產(chǎn)生混疊的現(xiàn)象；有效地實現(xiàn)對50 Hz電源干擾的抑制。

濾波時使用的是個帶通濾波器，采樣定理要求采樣頻率至少要是語音頻率的兩倍。

在濾波和采樣結(jié)束后，將模擬信號轉(zhuǎn)換成數(shù)字信號。

（2）預(yù)加重。

聲音信號中，處于低頻段的信號能量比較大，集中了語音信號的絕大多數(shù)信息量。預(yù)加重就是將語音信號在輸入端對高頻部分進行增大，達到提高信噪比的目的[1-2]。

（3）分幀與加窗。

分幀可以采用連續(xù)分段的方法，但是為了使幀與幀之間能夠平滑過渡，保持很好的連續(xù)性，現(xiàn)在一般采用交疊分段的方法。前一幀和后一幀的交疊部分稱為幀移，幀移與幀長的比值一般取0～1/2。

在語音信號處理中常用的窗函數(shù)是矩形窗和漢明（Hamm ing）窗等。由于漢明窗的旁瓣高度是最小的，而主瓣是最高的，其對抑制頻譜的泄露比較有效果，漢明窗有比其他窗函數(shù)更好的低通性[3]。

1.1.2 語音識別的特征參數(shù)提取

特征提取是指從說話人的語音信號中獲得一組能夠描述語音信號的特征參數(shù)的過程，人們發(fā)現(xiàn)說話人語音的個性特征在很大程度上取決于說話人的發(fā)音聲道。特征參數(shù)可以是能量、共振峰值、零相交率等語音參數(shù)。因為不同的人所說出語音的各項特征參數(shù)不相同，因此，可以將特征參數(shù)作為判斷兩段語音是否為同一個人的重要判斷依據(jù)[4]。

1.2 語音識別

1.2.1 人工肝神經(jīng)網(wǎng)絡(luò)簡介

人工神經(jīng)網(wǎng)絡(luò)（ANN）簡稱神經(jīng)網(wǎng)絡(luò)，使用計算機網(wǎng)絡(luò)系統(tǒng)模擬生物神經(jīng)網(wǎng)絡(luò)的智能計算系統(tǒng)。它是基于人腦神經(jīng)元的原理，模擬人腦神經(jīng)元的結(jié)構(gòu)和活動建立的一種識別模型，其最終目的是建成一種具有自學(xué)習(xí)能力、聯(lián)想能力、識別能力的系統(tǒng)[5]。

1.2.2 BP神經(jīng)網(wǎng)絡(luò)

BP算法，也稱為EBA算法，也就是誤差反向傳播算法，系統(tǒng)地解決了多層神經(jīng)元網(wǎng)絡(luò)中隱單元層連接權(quán)的學(xué)習(xí)問題，并在數(shù)學(xué)上給出了完整的推導(dǎo)[7]。

按照神經(jīng)元之間的連接方式，可將神經(jīng)網(wǎng)絡(luò)分為兩大類：分層網(wǎng)絡(luò)和互聯(lián)型網(wǎng)絡(luò)[8]。

2 實驗過程與討論

程序的起始界面如圖3。

在該系統(tǒng)中，聲音文件的格式均為.wav格式，頻率默認為8 000。

首先在錄入學(xué)生信息時采集學(xué)生的語音，一并存入數(shù)據(jù)庫，通過預(yù)處理、特征提取等工作提取出每個學(xué)生的聲音特征，例如速度、能量等，將這些數(shù)據(jù)存入模型庫文件trainer中，提供給之后的神經(jīng)網(wǎng)絡(luò)訓(xùn)練使用以及作為課堂點名時的聲音樣本。在日常上課點名時實時采集每個學(xué)生回答同樣話語的聲音，經(jīng)過預(yù)處理及特征提取等同樣的步驟放入文件夾speaker中來與模型庫中的語音樣本進行比對，文件名為該學(xué)生學(xué)號。若是同一人回答，則會顯示trainer** matches speaker** ，兩者文件名數(shù)字相同；若顯示匹配的數(shù)字不相同，則代表可能不是同一人。

圖4為一段語音的特征參數(shù)圖形。

由圖4可以更加直觀地看出，不同的語音所具有的特征參數(shù)波形圖是不一樣的，我們就可以利用這個特性來達到分辨是否為同一個人回答的目的。

3 結(jié)語

語音識別、神經(jīng)網(wǎng)絡(luò)都是現(xiàn)在學(xué)術(shù)界的研究熱點，以基于人工網(wǎng)絡(luò)的語音識別為基礎(chǔ)，對語音識別的過程進行了系統(tǒng)和深入的研究?；谡Z音識別的原理和過程，結(jié)合BP神經(jīng)網(wǎng)絡(luò)的理論和特點，研究了基于MFCC的語音識別，完成了相關(guān)算法與軟件的編寫，結(jié)合神經(jīng)網(wǎng)絡(luò)語音識別等知識，運行出了一個簡易的點名系統(tǒng)。可以大大減少學(xué)生代替答到的現(xiàn)象，塑造一個良好的課堂環(huán)境并得到可靠的考勤結(jié)果。符合科技日益發(fā)展的現(xiàn)代社會的需要，課堂與生活一起與時俱進。

參考文獻

[1] 王偉臻.基于神經(jīng)網(wǎng)絡(luò)的語音識別研究[D].浙江大學(xué)計算機學(xué)院，2008.

[2] 張穩(wěn).基于神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)的實現(xiàn)[D].成都理工大學(xué)，2013.

[3] 吳煒燁.基于神經(jīng)網(wǎng)絡(luò)語音識別算法的研究[D].中南大學(xué)，2009.

[4] 雷濤.基于神經(jīng)網(wǎng)絡(luò)的語音識別研究[D].浙江工業(yè)大學(xué)，2005.

[5] 施彥，韓立群.神經(jīng)網(wǎng)絡(luò)設(shè)計方法與實例分析[D].北京郵電大學(xué)，2009.

[6] 余建潮，張瑞林.基于MFCC和LPCC的說話人識別[J].計算機工程與設(shè)計，2009，30（5）：1189-1191.

[7] 王明.基于神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)研究與實現(xiàn)[D].電子科技大學(xué)，2012.

[8] 李昌立，吳善陪.數(shù)字語音-語音編碼實用教程[M].北京郵電出版社，2004.