語音識(shí)別技術(shù)在軟件工程中的應(yīng)用

2021-11-22 00:14:01胡新月

電子技術(shù)與軟件工程 2021年4期

胡新月

（江蘇師范大學(xué)科文學(xué)院江蘇省徐州市 221116）

軟件工程是一門研究工程化方法構(gòu)建和維護(hù)有效的實(shí)用的的軟件學(xué)科，語音識(shí)別是很重要的技術(shù)之一，在1950年，才開始了語音識(shí)別技術(shù)的發(fā)展。1952年著名的AT&T Bell 實(shí)驗(yàn)室就開始了這么面的研究，其中 K．H．DaVis 等人則是采用帶通濾波器的方式進(jìn)行對(duì)語音信號(hào)進(jìn)行檢測(cè)分析，同時(shí)獲取了一定數(shù)量的字母。在語音識(shí)別技術(shù)領(lǐng)域，音頻信息隱藏技術(shù)不僅僅被應(yīng)用在個(gè)人隱私的保護(hù)和國防信息保護(hù)中，而作為關(guān)鍵技術(shù)的信息隱藏技術(shù)逐漸成為了一個(gè)重要的技術(shù)領(lǐng)域，因此，軟件工程中關(guān)鍵技術(shù)之一的語音識(shí)別技術(shù)也引起了國家和各大公司關(guān)注，這項(xiàng)技術(shù)不僅對(duì)國家至關(guān)重要，也時(shí)刻影響著每一個(gè)人。到目前為止，人們一直在針對(duì)語音識(shí)別技術(shù)進(jìn)行深入探索，同時(shí)也在考慮如何保證信息的安全性，如何可以把這項(xiàng)技術(shù)投入到每一個(gè)人的日常生活中去，這樣才能充分體現(xiàn)出技術(shù)本身的價(jià)值。

1 軟件工程中語音識(shí)別技術(shù)的相關(guān)介紹

1.1 語音識(shí)別技術(shù)的應(yīng)用和誕生

國內(nèi)的軟件工程領(lǐng)域研究起步比較晚，從1980年開始，國家在開啟一系列計(jì)劃推動(dòng)下，軟件工程領(lǐng)域發(fā)展的相當(dāng)迅猛，研究人員也逐漸將研究對(duì)象變得公眾化，不再局限于實(shí)驗(yàn)中，其中最為突出的清華大學(xué)中的一些院校，比如電子工程系在和其他研究所針對(duì)模式識(shí)別技術(shù)研發(fā)的國家重點(diǎn)實(shí)驗(yàn)室。其中清華大學(xué)在歷時(shí)三年的時(shí)間內(nèi)研發(fā)出5000 詞，與語音識(shí)別的相似度達(dá)到96.27%，三個(gè)字母的容錯(cuò)率達(dá)98.99%；同時(shí)該技術(shù)可以不僅可以識(shí)別普通話，還可以識(shí)別地方方言，同時(shí)還達(dá)到基本實(shí)用要求。還有一些實(shí)驗(yàn)室研究出中文的語音識(shí)別產(chǎn)品，自此結(jié)束了中文語音識(shí)別產(chǎn)品的空缺，自上世紀(jì)九十年代以來，這項(xiàng)技術(shù)一直被國外壟斷。

但是到目前為止，仍存在幾大問題需要解決：

（1）噪聲環(huán)境干擾問題；

（2）非特定人的魯棒性問題；

（3）學(xué)習(xí)語料的缺乏。

因此，只有在徹底解決上述問題的基礎(chǔ)上語音識(shí)別技術(shù)才能夠更加廣泛的應(yīng)用于各個(gè)領(lǐng)域，創(chuàng)造社會(huì)會(huì)經(jīng)濟(jì)價(jià)值。而目前音頻的信息隱藏主要應(yīng)用場合仍然在水印認(rèn)證方面和秘密通信的隱寫方面，也是造成軟件工程發(fā)展緩慢的原因。

1.2 軟件工程中語音識(shí)別技術(shù)的相關(guān)原理

語音識(shí)別就是將人的聲音信號(hào)轉(zhuǎn)換為文字或指令的過程是人工智能的知識(shí)，而且還涉及微機(jī)操作，信號(hào)處理，分析模式識(shí)別聲學(xué)等多個(gè)領(lǐng)域，語音識(shí)別系統(tǒng)，按照不同的限制條件可以分為孤立詞，連接詞和連續(xù)語音識(shí)別等多種方式，對(duì)語言產(chǎn)生對(duì)象的依賴程度能夠劃分為特定人以及非特定人兩個(gè)方面。從本質(zhì)上來看，語音識(shí)別系統(tǒng)最重要的內(nèi)容就是以統(tǒng)計(jì)模型為代表，融合了語音學(xué)和語言學(xué)的大量信息，將語音輸入對(duì)象作為一系列的轉(zhuǎn)化，特定量續(xù)，最終形成的聲學(xué)模型。在聲學(xué) 模型建立完畢后，需要對(duì)語音特征進(jìn)行提取建模，簡單而言就是對(duì)獲取的語音信息進(jìn)行模塊化處理，結(jié)合聲紋參數(shù)，最終識(shí)別。利用下達(dá)指令后才能夠進(jìn)行下一步操作。

語音識(shí)別的基本步驟包括信號(hào)獲取，信號(hào)預(yù)處理，特征提取，相似度分析，模塊匹配等多個(gè)步驟，因?yàn)檎Z音信號(hào)本質(zhì) 上屬于非平穩(wěn)信號(hào)，目前對(duì)語音信號(hào)的識(shí)別是建立在短時(shí)平穩(wěn) 假設(shè)基礎(chǔ)上的，而與聲學(xué)模型作為整個(gè)系統(tǒng)中最重要的構(gòu)成部分。主要存在于建模階段，狀態(tài)聚類和參數(shù)選擇等多個(gè)方面。語音識(shí)別作為電氣感之模式識(shí)別的重要分支，幫助機(jī)器聽懂人類口述的語言。這里的聽懂有兩方面含義，一是逐字逐句弄懂，而不是轉(zhuǎn)化成書面文字語言。二是對(duì)口述語言所包含的要求或詢問進(jìn)行快速理解，做出正確響應(yīng)。語音識(shí)別系統(tǒng)主要有四個(gè)性能指標(biāo)。詞匯范圍：這是指機(jī)器能識(shí)別的單詞或短語的范圍。限制發(fā)言者：無論是只承認(rèn)指定發(fā)言者的聲音，還是承認(rèn)任何發(fā)言者的聲音。三個(gè)訓(xùn)練要求：使用前是否要訓(xùn)練，即是否讓機(jī)器“聽”給定的聲音和訓(xùn)練多少次。正確的識(shí)別率，語音識(shí)別系統(tǒng)的性能受到多種因素的影響，包括不同的揚(yáng)聲器，語音模式，環(huán)境噪聲等，需要提高系統(tǒng)的魯棒性和適應(yīng)性，確保對(duì)各種語音指令準(zhǔn)確識(shí)別。

2 語音識(shí)別在信息安全中的應(yīng)用

2.1 音頻信息隱藏的研究

在人類的聽覺系統(tǒng)中。HAS 系統(tǒng)能感知的最大和最小的功率比遠(yuǎn)大于115，能感知的最大和最小頻率比遠(yuǎn)大于106。HAS 系統(tǒng)對(duì)于噪聲的敏感度很高，對(duì)于周圍80dB 的噪聲都可以接收到。因?yàn)槿梭w結(jié)構(gòu)決定了人在聽覺方面獨(dú)特的特性。人自身的聽覺系統(tǒng)HAS 擁有很好的掩蔽特性；經(jīng)過調(diào)查發(fā)現(xiàn)，耳朵對(duì)于聲音的感覺是非線性關(guān)系；但是HAS 系統(tǒng)對(duì)聲音就比較敏感相，但是不能感知它的方位。正是人的耳朵有這些缺陷，造成了我們可以在音頻中進(jìn)行一些數(shù)據(jù)的藏匿。

目前為止，針對(duì)語音識(shí)別在信息安全中的研究，主要還是為了以信息數(shù)據(jù)的保護(hù)為主，首先考慮如何改進(jìn)信息保護(hù)的技術(shù)，而因?yàn)楸Ｗo(hù)對(duì)象不同，所采用的技術(shù)也有所差異。目前為止語音識(shí)別對(duì)象由其儲(chǔ)存方式的不同可以分為三類：

（1）通過波表合成的識(shí)別音頻以及PCM 類識(shí)別音頻；

（2）實(shí)用類語音識(shí)別音頻；

（3）復(fù)合人類聽覺系統(tǒng)的語音識(shí)別音頻。

2.2 軟件工程中信息隱藏技術(shù)

目前，語音的傳輸方式大概可以分為三大類，其中的一種是通過有線網(wǎng)絡(luò)通信通道，就像如家用電話那種形式，一種是通過無線技術(shù)的通信信道，比如衛(wèi)星，廣播等，第三種是voip 通道。研究通過在效性、安全性、可靠性的基礎(chǔ)上針對(duì)現(xiàn)有的通信系統(tǒng)進(jìn)行優(yōu)化，目的就是為了優(yōu)化數(shù)量和質(zhì)量方面的技術(shù)問題。其中有效性指的是占用最少的空間和資源發(fā)送更多信息。但是這個(gè)在無線通信中的要求特別高，這是因?yàn)闊o線信道所占的資源是有限的，而提高無線通信的有效性，則需要通過語音編碼完成。

2.3 軟件工程中感知編碼的應(yīng)用

對(duì)于軟件工程中的感知編碼，就是利用人體自身在聽覺方面的特點(diǎn)，選取音頻中人類需要的信號(hào)，將無效的聽覺信號(hào)進(jìn)行刪除。對(duì)于一般的感知編碼以及絕對(duì)聽覺門限、臨界帶寬、掩蔽效應(yīng)、感知熵等概念，需通過心理聲學(xué)的方式對(duì)其進(jìn)行編碼。依據(jù)MPEG系列標(biāo)準(zhǔn)，通過適應(yīng)感知的壓縮方法，從而制作出音頻文件，文件主要形式有mp3 形式的音頻和AAC 形式的音頻。就是因?yàn)镸p3作為現(xiàn)如今互聯(lián)網(wǎng)中主流的音頻格式，所以現(xiàn)在采用的是MPEGl的layer3 壓縮規(guī)則。從C 是MPEG 一2 和MPEG 一4 中定義的壓縮音頻，因此不難看出，DVD 和mp3 就是通過這種方式實(shí)現(xiàn)的。

3 音頻信息隱藏在信息安全中的應(yīng)用方法

軟件工程中的語音識(shí)別在市場中的應(yīng)用比越來越重要如下為音頻信息隱藏在信息安全中的應(yīng)用：

3.1 利用漢語語音端點(diǎn)后冗余的信息隱藏

漢語的結(jié)構(gòu)相對(duì)比較復(fù)雜，是由聲母和韻母拼音構(gòu)成的。而在在音節(jié)的表達(dá)中，每個(gè)音節(jié)最多只能擁有有四個(gè)因素，但是也至少會(huì)擁有1 個(gè)音素，但是漢語有很大的區(qū)別，漢語音節(jié)音素基本都是濁音，特別是在末尾中的音節(jié)．在對(duì)濁音的處理之中，在聲學(xué)學(xué)科領(lǐng)域，通?？梢岳斫鉃闇?zhǔn)周期的脈沖串對(duì)聲道激勵(lì)所產(chǎn)生信號(hào)的輸出。而信息研究很大程度就是通過這方面的特性展開的，憑借語音的端點(diǎn)檢測(cè)，從而來辨別“有聲和無聲”。作為語音的特性之一的能量，通過比較可以得出，一般情況下清音的能量會(huì)相對(duì)較小，而濁音的能量相對(duì)較大。對(duì)語音能量的分布研究，現(xiàn)階段主要集中在短時(shí)能量和短時(shí)平均幅度上，可以利用語音端點(diǎn)的檢測(cè)方法。

3.2 MFCC在語音識(shí)別中的應(yīng)用

目前一些學(xué)者已經(jīng)把美爾頻率倒譜系數(shù)MFCC 用于語音識(shí)別的領(lǐng)域。將語音信號(hào)總體打包然后產(chǎn)生哈希摘要，作為水印的一部分，但是要針對(duì)不同文檔不能進(jìn)行復(fù)制，以此來防止水??；在音樂中，可以將幀分出是話語言信號(hào)幀還是音樂信號(hào)，分別用不同的參數(shù)進(jìn)行水印嵌入，而在水印抽取時(shí)話語幀和樂音幀的區(qū)分就使用MFCC 做對(duì)比參數(shù) ，利用美爾頻率倒譜系數(shù)MFCC 的一種信息隱藏方法，它能有效地將信息隱藏在語音的MFCC 中，但是語音并不會(huì)收到影響。所以可以把該方法帶入Internet 的文件形式的服務(wù)信道或流信道。

4 語音識(shí)別技術(shù)在信息安全中的應(yīng)用現(xiàn)狀以及展望

信息隱藏是20 世紀(jì)90年代逐漸興起的一門新的技術(shù)。從音頻的信息隱藏流程與語言交流的流程對(duì)照來看，語音識(shí)別過程與信息隱藏的信息提取過程有著相似性，因而對(duì)音頻特別是語音的信息隱藏可以嘗試使用語音識(shí)別的手段和方法。

隨著軟件工程的大力推廣與普及，機(jī)器人的運(yùn)行控制方式也發(fā)生了顯著變化，比如直接操控機(jī)器人查詢?cè)O(shè)備狀態(tài)的問題，為了有效發(fā)揮無人值班電力系統(tǒng)的優(yōu)勢(shì)，實(shí)現(xiàn)機(jī)器人自動(dòng)巡檢與自動(dòng)查詢，必須要增強(qiáng)語音識(shí)別控制系統(tǒng)，根據(jù)值班人員的口令和操作，能夠?yàn)檎麄€(gè)無人值班系統(tǒng)的巡檢提供重要的參考，利用無線話筒能夠發(fā)布口令。值班機(jī)器人可以根據(jù)拾音器獲得的語音信號(hào)進(jìn)行提取，完成數(shù)據(jù)模塊對(duì)比驗(yàn)證，最終根據(jù) 識(shí)別到的指令進(jìn)行操作。諸如此類應(yīng)用在未來將會(huì)遍布各個(gè)領(lǐng)域，如教育、家居、工廠等。

在未來，隨著智能家居、智能園區(qū)、電動(dòng)汽車充電樁等部分共同構(gòu)成智慧領(lǐng)域，拓寬軟件工程的發(fā)展空間，必須要充分發(fā)揮智能語音控制技術(shù)的優(yōu)勢(shì)，智能語音控制，在智能家電領(lǐng)域中的應(yīng)用可以實(shí)現(xiàn)“1+1＞2”的效果，語音控制技術(shù)也是智能家居設(shè)計(jì)的重要組成部分，隨著語音控制技術(shù)不斷發(fā)展成熟，能夠?yàn)槲磥碇悄茴I(lǐng)域的發(fā)展打下堅(jiān)實(shí)基礎(chǔ)。而軟件工程在智能感知，識(shí)別與運(yùn)算方面能夠充分發(fā)揮語音控制技術(shù)的優(yōu)勢(shì) 。

5 結(jié)束語

隨著社會(huì)主義現(xiàn)代化的加快進(jìn)行，ics 在國家的關(guān)鍵基礎(chǔ)建設(shè)中有著舉足輕重的地位. 同時(shí), 通過把信息化和工業(yè)化倆個(gè)不同的領(lǐng)域進(jìn)行一定的融合和軟件工程領(lǐng)域的大面積使用推廣，IT 系統(tǒng)的網(wǎng)絡(luò)安全威脅，一部分因素就是工業(yè)的控制系統(tǒng)防護(hù)效果不好，但是在21 世紀(jì)的工業(yè)控制系統(tǒng)中，ICS 與IT 系統(tǒng)之間也有著相對(duì)很大的差別，因此不能輕易將傳統(tǒng)IT 安全技術(shù)應(yīng)用于ICS 中，通過實(shí)際需求的研究適用的安全技術(shù)，但是這將是我國起步較晚的工業(yè)控制系統(tǒng)信息安全面臨第一個(gè)嚴(yán)峻的挑戰(zhàn)。文章通過對(duì) 2018年 ICS-CSR 會(huì)議涉及一部分有關(guān)ICS 信息安全方面的內(nèi)容做出分析，并根據(jù)現(xiàn)在國家和市場的實(shí)際需求對(duì)研究方向提出針對(duì)性建議?？傊浖こ淘谛畔踩袠I(yè)剛剛步入初始階段，自身的成長空間將會(huì)非常大，但是仍需要研究人員對(duì)工業(yè)控制系統(tǒng)信息安全技術(shù)不斷地做出新的研究，而作為軟件工程關(guān)鍵技術(shù)之一的語音識(shí)別，則成為了需要攻克的首要技術(shù)壁壘。