計算機語音識別系統(tǒng)的架構(gòu)設(shè)計

2018-12-31 05:42:38劉敏

移動信息 2018年9期

劉敏

劉敏

山東勝軟科技股份有限公司，山東東營 257000

近些年，隨著計算機技術(shù)的普及，計算機產(chǎn)品已成為人們工作生活中不可或缺的產(chǎn)品，在這樣的形式下需要提升計算機平臺媒體的便捷性?，F(xiàn)階段語音識別系統(tǒng)是最好的轉(zhuǎn)變選擇。語音識別系統(tǒng)的主要原理是計算機設(shè)備使用自己的語音識別和理解系統(tǒng)將語音信號轉(zhuǎn)換成文本文件或以命令的形式輸出。計算機語音識別系統(tǒng)的主要任務(wù)是提取語音信息和識別語音信號的含義。經(jīng)過幾十年的研究和開發(fā)，目前的語音識別技術(shù)在計算機軟硬件的指導(dǎo)下取得了很好的成果。如果研究人員和設(shè)計者設(shè)計出一種能夠在單片機上實現(xiàn)語音識別的系統(tǒng)，這將具有重要意義。因此，相關(guān)人員應(yīng)使用VC++過程模擬來開發(fā)一個小詞匯量、獨立的單詞識別系統(tǒng)，并建立一個更完善的計算機語音識別系統(tǒng)。

計算機；語音識別系統(tǒng)；架構(gòu)設(shè)計

1 簡述計算技術(shù)語音識別系統(tǒng)技術(shù)

從計算機的發(fā)明到現(xiàn)在的普及，在操作計算機時一直是在使用鍵盤，但是在現(xiàn)實的世界中還有一種物質(zhì)可以將計算機與人們進行聯(lián)系，這就是聲音。合理利用聲音構(gòu)建起人與計算機間的聯(lián)系就是計算機語音識別技術(shù)。簡單地說，計算機語音識別技術(shù)是計算機傾聽人類語言的一種工程。當(dāng)人們對著計算機說話時，計算機語音識別系統(tǒng)會將其理解成“語言”，并將其輸入內(nèi)部系統(tǒng)，利用相關(guān)程序?qū)⒄Z音信息轉(zhuǎn)化為文本形式。在識別過程中，計算機根據(jù)語音識別模型將存儲在計算機中的語音模板的特征與輸入語音信號進行比較，并根據(jù)一定的搜索和匹配策略找到一系列與輸入語音匹配的最佳模板。然后，根據(jù)模板的定義，可以參考表格給出計算機的識別結(jié)果。顯然，這個優(yōu)化結(jié)果直接關(guān)系特征選擇、語音模型質(zhì)量和模板精度[1]。

2 語音識別技術(shù)的發(fā)展現(xiàn)狀

通過多年的研究與努力，語音識別技術(shù)也得到了非常大的發(fā)展。語音識別已經(jīng)由研發(fā)階段發(fā)展到實際使用階段。在試驗階段語音識別信號最好的情況下使用者連續(xù)進行朗讀，信號的識別率可達到90%以上。因此語音識別技術(shù)也從試驗階段轉(zhuǎn)換到實際應(yīng)用階段，實現(xiàn)了商業(yè)化。通過相關(guān)學(xué)者的研究已有兩大聽寫設(shè)備，即IBM ViaVoice和Dragon Dictation。語音識別技術(shù)也從一開始的小眾化發(fā)展到現(xiàn)在的大眾化。語音識別系統(tǒng)在進行語音識別時可以校對語言并糾正錯誤信息，在此基礎(chǔ)上保證語音識別的速度與質(zhì)量。因此，為了充分發(fā)揮語音識別技術(shù)的應(yīng)用優(yōu)勢，確保該系統(tǒng)能夠克服不同環(huán)境和口音造成的識別偏差，相關(guān)研究人員應(yīng)進行進一步研究，以克服這些問題，并在此基礎(chǔ)上確保語音識別系統(tǒng)能夠更好地應(yīng)用于實際生產(chǎn)和生活[1]。從現(xiàn)階段來看，現(xiàn)有的語音識別系統(tǒng)在識別特殊單詞方面發(fā)揮了很好的作用，特別是在電話查詢、電話交換和數(shù)字字符串設(shè)置方面。接收這些任務(wù)后，系統(tǒng)不僅可以自動接收和存儲信息，還可以實現(xiàn)實際數(shù)據(jù)與實驗室數(shù)據(jù)的一致性，確保100%的識別率。但是可以限制語音識別系統(tǒng)的因素也相對較多，因此相關(guān)的技術(shù)人員還應(yīng)對此項技術(shù)進行進一步的研發(fā)與優(yōu)化[2]。

3 計算機語音識別系統(tǒng)的架構(gòu)設(shè)計

3.1 用戶界面模塊

計算機語音識別系統(tǒng)中用戶界面模塊的主菜單主要包括運行過程中的識別程序，并且可以選擇要在工具欄中顯示的波形原始圖或波形處理圖。此模塊中的狀態(tài)欄包括一個消息對話框和一個狀態(tài)顯示，并監(jiān)控系統(tǒng)中的軟件。

3.2 語音信號采集模塊

語音識別系統(tǒng)中語音信號采集模塊的主要任務(wù)是將聽到的聲音記錄到系統(tǒng)中，然后用MGI功能記錄聽到的聲音，最后得到帶有MGI功能的指令和消息。錄音過程中的聲音輸入通過麥克風(fēng)完成，并存儲在定制模板中，該模板可用作WAV文件[3]。

3.3 特征值提取模塊

每一段語音信號都具有一定的代表性但不是很穩(wěn)定，因此無法對有爭端的語音進行識別與處理。當(dāng)出現(xiàn)此情況時可以將其切割成長度不等的語音信號，在滿足相關(guān)信號處理條件下可以運用相關(guān)的公式進行計算并對信號進行處理[4]。目前，最常用的參數(shù)是：平衡振幅、短期能量和電流預(yù)測系統(tǒng)。在實際處理中，可以首先將輸入語音波形轉(zhuǎn)換成另一組離散參數(shù)向量。然后提取語音特征，主要是獲取能夠通過語音產(chǎn)生的波形反映語音特征的主要信息，排除一些不相關(guān)的語音信息。最典型的方案是收集樣本信號。首先，不同的時間間隔可以通過開窗來分開，然后可以在此基礎(chǔ)上設(shè)置時間間隔[5]，最常見的設(shè)定間隔為1～50 ms，最后可以在不同的間隔幀上提取不同的特征矢量。在這其中較簡單的特征分為短時能量和過零率兩種，但其頻率特征相對是比較穩(wěn)定的。LPC分析是其中比較典型的特征，可以直接反映共振峰值的性質(zhì)。

3.4 特征庫管理模塊

特征庫中的一些相關(guān)參數(shù)可以分為兩類：一類是音頻文件、語音揚聲器名稱和語音內(nèi)容等：一類是信號處理后產(chǎn)生的相關(guān)聲音內(nèi)容的語音特征參數(shù)。兩者都設(shè)置了相應(yīng)的誤差范圍。

3.5 模式識別模塊

模塊識別模塊可以收集用戶發(fā)出的聲音并監(jiān)控其終端，最終提取其特征。提取的聲音應(yīng)與模板一致，并且可以用作識別的最終結(jié)果。匹配的主要方式是矢量可變距離。矢量量化是指特征值中的參數(shù)來構(gòu)造相應(yīng)的特征值，它們之間的加權(quán)距離可以在匹配過程中計算出來。匹配后獲得的加權(quán)距離越小，兩者之間的距離越近。如果匹配在誤差范圍內(nèi)就是成功；如果匹配在誤差范圍外則不成功，可以根據(jù)系統(tǒng)中的動力學(xué)產(chǎn)生的誤差來確定它是否是預(yù)期模板[6]。

4 計算機語言識別技術(shù)的發(fā)展趨勢

在科技的帶動下，計算機語音識別系統(tǒng)也在不斷完善與更新，其良好的特征也完美地呈現(xiàn)在人們面前。計算機語音識別系統(tǒng)的特征主要體現(xiàn)在從認識到語音識別技術(shù)的發(fā)展趨勢，并逐漸滿足社會發(fā)展的需要，利用獨有的特點與專業(yè)性技術(shù)來解決不同領(lǐng)域中遇到的問題。此外，可以看出計算機語言識別系統(tǒng)使用范圍非常廣泛，可被利用到不同的領(lǐng)域中。如將其應(yīng)用到通信領(lǐng)域中，應(yīng)將大量的與通信領(lǐng)域相關(guān)的詞匯利用專業(yè)的語音識別系統(tǒng)進行輸入。這樣既可以提升語音識別系統(tǒng)的清晰性，又可以提升其定位功能的準確性，充分發(fā)揮計算機語音識別系統(tǒng)的作用。計算機語音識別系統(tǒng)也在計算機技術(shù)的發(fā)展中取得了突破性進展，并逐漸擴展到日常工作和生活中。集成不同的語言可以共享相關(guān)的任務(wù)。更令人驚訝的是，計算機語音識別系統(tǒng)能夠收集、總結(jié)和分析大量詞匯信息，從而突破了多語言的限制。

5 結(jié)語

通過近些年來對計算機語音識別系統(tǒng)的進一步研究，利用VC++技術(shù)可以構(gòu)建起一個更加完善的語音識別系統(tǒng)，并在模擬后實現(xiàn)對系統(tǒng)的調(diào)試。在現(xiàn)代移植技術(shù)的輔助下實現(xiàn)了將系統(tǒng)移植到單片機上，有效地提升了計算機語音識別系統(tǒng)的處理效果，達到最初的處理與控制目的。

[1]郭洪榮. 計算機語音識別技術(shù)的應(yīng)用分析[J]. 黑龍江科技信息，2012（31）：96.

[2]高忠生，高紅琴. 計算機語音識別系統(tǒng)的架構(gòu)設(shè)計[J]. 信息記錄材料，2013，14（3）：50-53.

[3]高翔. 計算機語音錄入系統(tǒng)中準確性問題的研究[J].自動化與儀器儀表，2015（2）：103-104.

[4]茍鵬程. 基于Android的語音識別設(shè)計及應(yīng)用[D]. 天津：天津大學(xué)，2017.

[5]李剛. 智能語音識別技術(shù)的架構(gòu)與設(shè)計[J]. 電腦知識與技術(shù)，2018（18）：175-177.

[6]王青偉，馬鐲，崔琳，等. 語音識別領(lǐng)域計算機程序或算法專利申請審查[J]. 電聲技術(shù)，2012，36（S1）：50-52.

Architecture Design of Computer Speech Recognition System

Liu Min

Shandong Victorysoft Co., Ltd., Shandong Dongying 257000

In recent years, with the popularization of computer technology, computer products have become an indispensable product in people’s work and life. In this form, the convenience of the computer platform media needs to be improved. It can be said that the current stage of speech recognition system is the best choice for transformation. The main principle of the speech recognition system is that the computer device uses its own speech recognition and understanding system to convert the speech signal into a text file or output in the form of a command. The main task of the computer speech recognition system is to extract speech information and recognize the meaning of the speech signal. After decades of research and development, the current speech recognition technology has achieved high results under the guidance of computer hardware and software. It would be important if researchers and designers design a system that can implement speech recognition on a micro controller. Therefore, relevant personnel should use VC++process simulation to develop a small vocabulary and independent word recognition system, and establish a more complete computer speech recognition system.

computer; speech recognition system; architecture design

TN912.34

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

計算機語音識別系統(tǒng)的架構(gòu)設(shè)計

1 簡述計算技術(shù)語音識別系統(tǒng)技術(shù)

2 語音識別技術(shù)的發(fā)展現(xiàn)狀

3 計算機語音識別系統(tǒng)的架構(gòu)設(shè)計

3.1 用戶界面模塊

3.2 語音信號采集模塊

3.3 特征值提取模塊

3.4 特征庫管理模塊

3.5 模式識別模塊

4 計算機語言識別技術(shù)的發(fā)展趨勢

5 結(jié)語