胡新月
(江蘇師范大學(xué)科文學(xué)院 江蘇省徐州市 221116)
軟件工程是一門研究工程化方法構(gòu)建和維護(hù)有效的實(shí)用的的軟件學(xué)科,語音識(shí)別是很重要的技術(shù)之一,在1950年,才開始了語音識(shí)別技術(shù)的發(fā)展。1952年著名的AT&T Bell 實(shí)驗(yàn)室就開始了這么面的研究,其中 K.H.DaVis 等人則是采用帶通濾波器的方式進(jìn)行對(duì)語音信號(hào)進(jìn)行檢測(cè)分析,同時(shí)獲取了一定數(shù)量的字母。在語音識(shí)別技術(shù)領(lǐng)域,音頻信息隱藏技術(shù)不僅僅被應(yīng)用在個(gè)人隱私的保護(hù)和國防信息保護(hù)中,而作為關(guān)鍵技術(shù)的信息隱藏技術(shù)逐漸成為了一個(gè)重要的技術(shù)領(lǐng)域,因此,軟件工程中關(guān)鍵技術(shù)之一的語音識(shí)別技術(shù)也引起了國家和各大公司關(guān)注,這項(xiàng)技術(shù)不僅對(duì)國家至關(guān)重要,也時(shí)刻影響著每一個(gè)人。到目前為止,人們一直在針對(duì)語音識(shí)別技術(shù)進(jìn)行深入探索,同時(shí)也在考慮如何保證信息的安全性,如何可以把這項(xiàng)技術(shù)投入到每一個(gè)人的日常生活中去,這樣才能充分體現(xiàn)出技術(shù)本身的價(jià)值。
國內(nèi)的軟件工程領(lǐng)域研究起步比較晚,從1980年開始,國家在開啟一系列計(jì)劃推動(dòng)下,軟件工程領(lǐng)域發(fā)展的相當(dāng)迅猛,研究人員也逐漸將研究對(duì)象變得公眾化,不再局限于實(shí)驗(yàn)中,其中最為突出的清華大學(xué)中的一些院校,比如電子工程系在和其他研究所針對(duì)模式識(shí)別技術(shù)研發(fā)的國家重點(diǎn)實(shí)驗(yàn)室。其中清華大學(xué)在歷時(shí)三年的時(shí)間內(nèi)研發(fā)出5000 詞,與語音識(shí)別的相似度達(dá)到96.27%,三個(gè)字母的容錯(cuò)率達(dá)98.99%;同時(shí)該技術(shù)可以不僅可以識(shí)別普通話,還可以識(shí)別地方方言,同時(shí)還達(dá)到基本實(shí)用要求。還有一些實(shí)驗(yàn)室研究出中文的語音識(shí)別產(chǎn)品,自此結(jié)束了中文語音識(shí)別產(chǎn)品的空缺,自上世紀(jì)九十年代以來,這項(xiàng)技術(shù)一直被國外壟斷。
但是到目前為止,仍存在幾大問題需要解決:
(1)噪聲環(huán)境干擾問題;
(2)非特定人的魯棒性問題;
(3)學(xué)習(xí)語料的缺乏。
因此,只有在徹底解決上述問題的基礎(chǔ)上語音識(shí)別技術(shù)才能夠更加廣泛的應(yīng)用于各個(gè)領(lǐng)域,創(chuàng)造社會(huì)會(huì)經(jīng)濟(jì)價(jià)值。而目前音頻的信息隱藏主要應(yīng)用場合仍然在水印認(rèn)證方面和秘密通信的隱寫方面,也是造成軟件工程發(fā)展緩慢的原因。
語音識(shí)別就是將人的聲音信號(hào)轉(zhuǎn)換為文字或指令的過程是人工智能的知識(shí),而且還涉及微機(jī)操作,信號(hào)處理,分析模式 識(shí)別聲學(xué)等多個(gè)領(lǐng)域,語音識(shí)別系統(tǒng),按照不同的限制條件可 以分為孤立詞,連接詞和連續(xù)語音識(shí)別等多種方式,對(duì)語言產(chǎn)生對(duì)象的依賴程度能夠劃分為特定人以及非特定人兩個(gè)方面。從本質(zhì)上來看,語音識(shí)別系統(tǒng)最重要的內(nèi)容就是以統(tǒng)計(jì)模型為代表,融合了語音學(xué)和語言學(xué)的大量信息,將語音輸入對(duì)象作 為一系列的轉(zhuǎn)化,特定量續(xù),最終形成的聲學(xué)模型。在聲學(xué) 模型建立完畢后,需要對(duì)語音特征進(jìn)行提取建模,簡單而言就是對(duì)獲取的語音信息進(jìn)行模塊化處理,結(jié)合聲紋參數(shù),最終識(shí)別。利用下達(dá)指令后才能夠進(jìn)行下一步操作。
語音識(shí)別的基本步驟包括信號(hào)獲取,信號(hào)預(yù)處理,特征提取,相似度分析,模塊匹配等多個(gè)步驟,因?yàn)檎Z音信號(hào)本質(zhì) 上屬于非平穩(wěn)信號(hào),目前對(duì)語音信號(hào)的識(shí)別是建立在短時(shí)平穩(wěn) 假設(shè)基礎(chǔ)上的,而與聲學(xué)模型作為整個(gè)系統(tǒng)中最重要的構(gòu)成部分。主要存在于建模階段,狀態(tài)聚類和參數(shù)選擇等多個(gè)方面。語音識(shí)別作為電氣感之模式識(shí)別的重要分支,幫助機(jī)器聽懂人 類口述的語言。這里的聽懂有兩方面含義,一是逐字逐句弄 懂,而不是轉(zhuǎn)化成書面文字語言。二是對(duì)口述語言所包含的要 求或詢問進(jìn)行快速理解,做出正確響應(yīng)。語音識(shí)別系統(tǒng)主要有 四個(gè)性能指標(biāo)。詞匯范圍:這是指機(jī)器能識(shí)別的單詞或短語的范圍。限制發(fā)言者:無論是只承認(rèn)指定發(fā)言者的聲音,還是 承認(rèn)任何發(fā)言者的聲音。三個(gè)訓(xùn)練要求:使用前是否要訓(xùn)練, 即是否讓機(jī)器“聽”給定的聲音和訓(xùn)練多少次。正確的識(shí)別率,語音識(shí)別系統(tǒng)的性能受到多種因素的影響,包括不同的揚(yáng)聲器,語音模式,環(huán)境噪聲等,需要提高系統(tǒng)的魯棒性和適應(yīng)性,確保對(duì)各種語音指令準(zhǔn)確識(shí)別。
在人類的聽覺系統(tǒng)中。HAS 系統(tǒng)能感知的最大和最小的功率比遠(yuǎn)大于115,能感知的最大和最小頻率比遠(yuǎn)大于106。HAS 系統(tǒng)對(duì)于噪聲的敏感度很高,對(duì)于周圍80dB 的噪聲都可以接收到。因?yàn)槿梭w結(jié)構(gòu)決定了人在聽覺方面獨(dú)特的特性。人自身的聽覺系統(tǒng)HAS 擁有很好的掩蔽特性;經(jīng)過調(diào)查發(fā)現(xiàn),耳朵對(duì)于聲音的感覺是非線性關(guān)系;但是HAS 系統(tǒng)對(duì)聲音就比較敏感相,但是不能感知它的方位。正是人的耳朵有這些缺陷,造成了我們可以在音頻中進(jìn)行一些數(shù)據(jù)的藏匿。
目前為止,針對(duì)語音識(shí)別在信息安全中的研究,主要還是為了以信息數(shù)據(jù)的保護(hù)為主,首先考慮如何改進(jìn)信息保護(hù)的技術(shù),而因?yàn)楸Wo(hù)對(duì)象不同,所采用的技術(shù)也有所差異。目前為止語音識(shí)別對(duì)象由其儲(chǔ)存方式的不同可以分為三類:
(1)通過波表合成的識(shí)別音頻以及PCM 類識(shí)別音頻;
(2)實(shí)用類語音識(shí)別音頻;
(3)復(fù)合人類聽覺系統(tǒng)的語音識(shí)別音頻。
目前,語音的傳輸方式大概可以分為三大類,其中的一種是通過有線網(wǎng)絡(luò)通信通道,就像如家用電話那種形式,一 種是通過無線技術(shù)的通信信道,比如衛(wèi)星,廣播等,第三種是voip 通道。研究通過在效性、 安全性、可靠性的基礎(chǔ)上針對(duì)現(xiàn)有的通信系統(tǒng)進(jìn)行優(yōu)化,目的就是為了優(yōu)化數(shù)量和質(zhì)量方面的技術(shù)問題。其中有效性指的是占用最少的空間和資源發(fā)送更多信息。但是這個(gè)在無線通信中的要求特別高,這是因?yàn)闊o線信道所占的資源是有限的,而提高無線通信的有效性,則需要通過語音編碼完成。
對(duì)于軟件工程中的感知編碼,就是利用人體自身在聽覺方面的特點(diǎn),選取音頻中人類需要的信號(hào),將無效的聽覺信號(hào)進(jìn)行刪除。對(duì)于一般的感知編碼以及絕對(duì)聽覺門限、臨界帶 寬、掩蔽效應(yīng)、感知熵等概念,需通過心理聲學(xué)的方式對(duì)其進(jìn)行編碼。依據(jù)MPEG系列標(biāo)準(zhǔn),通過適應(yīng)感知的壓縮方法,從而制作出音頻文件,文件主要形式有mp3 形式的音頻和AAC 形式的音頻。就是因?yàn)镸p3作為現(xiàn)如今互聯(lián)網(wǎng)中主流的音頻格式,所以現(xiàn)在采用的是MPEGl的layer3 壓縮規(guī)則。從C 是MPEG 一2 和MPEG 一4 中定義的壓縮音頻,因此不難看出,DVD 和mp3 就是通過這種方式實(shí)現(xiàn)的。
軟件工程中的語音識(shí)別在市場中的應(yīng)用比越來越重要如下為音頻信息隱藏在信息安全中的應(yīng)用:
漢語的結(jié)構(gòu)相對(duì)比較復(fù)雜,是由聲母和韻母拼音構(gòu)成的。而在在音節(jié)的表達(dá)中,每個(gè)音節(jié)最多只能擁有有四個(gè)因素,但是也至少會(huì)擁有1 個(gè)音素,但是漢語有很大的區(qū)別,漢語音節(jié)音素基本都是濁音,特別是在末尾中的音節(jié).在對(duì)濁音的處理之中,在聲學(xué)學(xué)科領(lǐng)域,通??梢岳斫鉃闇?zhǔn)周期的脈沖串對(duì)聲道激勵(lì)所產(chǎn)生信號(hào)的輸出。而信息研究很大程度就是通過這方面的特性展開的,憑借語音的端點(diǎn)檢測(cè),從而來辨別“有聲和無聲”。作為語音的特性之一的能量,通過比較可以得出,一般情況下清音的能量會(huì)相對(duì)較小,而濁音的能量相對(duì)較大。對(duì)語音能量的分布研究,現(xiàn)階段主要集中在短時(shí)能量和短時(shí)平均幅度上, 可以利用語音端點(diǎn)的檢測(cè)方法。
目前一些學(xué)者已經(jīng)把美爾頻率倒譜系數(shù)MFCC 用于語音識(shí)別的領(lǐng)域。將語音信號(hào)總體打包然后產(chǎn)生哈希摘要,作為水印的一部分,但是要針對(duì)不同文檔不能進(jìn)行復(fù)制,以此來防止水??;在音樂中,可以將幀分出是話語言信號(hào)幀還是音樂信號(hào),分別用不同的參數(shù)進(jìn)行水印嵌入,而在水印抽取時(shí)話語幀和樂 音幀的區(qū)分就使用MFCC 做對(duì)比參數(shù) ,利用美爾頻率倒譜系數(shù)MFCC 的一種信息隱藏方法,它能有效地將信息隱藏在語音的MFCC 中,但是語音并不會(huì)收到影響。所以可以把該方法帶入Internet 的文件形式的服務(wù)信道或流信道。
信息隱藏是20 世紀(jì)90年代逐漸興起的一門新的技術(shù)。從音頻的信息隱藏 流程與語言交流的流程對(duì)照來看,語音識(shí)別過程與信息隱藏的信息提取過程有 著相似性,因而對(duì)音頻特別是語音的信息隱藏可以嘗試使用語音識(shí)別的手段和方法。
隨著軟件工程的大力推廣與普及,機(jī)器人的運(yùn)行控制方式也發(fā)生了顯著變化,比如直接操控機(jī)器人查詢?cè)O(shè)備狀態(tài)的問題, 為了有效發(fā)揮無人值班電力系統(tǒng)的優(yōu)勢(shì),實(shí)現(xiàn)機(jī)器人自動(dòng)巡檢與自動(dòng)查詢,必須要增強(qiáng)語音識(shí)別控制系統(tǒng),根據(jù)值班人員的口令和操作,能夠?yàn)檎麄€(gè)無人值班系統(tǒng)的巡檢提供重要的參考,利用無線話筒能夠發(fā)布口令。值班機(jī)器人可以根據(jù)拾音器 獲得的語音信號(hào)進(jìn)行提取,完成數(shù)據(jù)模塊對(duì)比驗(yàn)證,最終根據(jù) 識(shí)別到的指令進(jìn)行操作。諸如此類應(yīng)用在未來將會(huì)遍布各個(gè)領(lǐng)域,如教育、家居、工廠等。
在未來,隨著智能家居、智能園區(qū)、電動(dòng)汽車充電樁等部分共同構(gòu)成智慧領(lǐng)域,拓寬軟件工程的發(fā)展空間,必須要充分發(fā)揮智能語音控制技術(shù)的優(yōu)勢(shì),智能語音控制,在智能家電領(lǐng)域中的應(yīng)用可以實(shí)現(xiàn)“1+1>2”的效果,語音控制技術(shù)也是智能家居設(shè)計(jì)的重要組成部分,隨著語音控制技術(shù)不斷發(fā)展成熟,能夠?yàn)槲磥碇悄茴I(lǐng)域的發(fā)展打下堅(jiān)實(shí)基礎(chǔ)。而軟件工程在智能感知,識(shí)別與運(yùn)算方面能夠充分發(fā)揮語音控制技術(shù)的優(yōu)勢(shì) 。
隨著社會(huì)主義現(xiàn)代化的加快進(jìn)行,ics 在國家的關(guān)鍵基礎(chǔ)建設(shè)中有著舉足輕重的地位. 同時(shí), 通過把信息化和工業(yè)化倆個(gè)不同的領(lǐng)域進(jìn)行一定的融合和軟件工程領(lǐng)域的大面積使用推廣,IT 系統(tǒng)的網(wǎng)絡(luò)安全威脅,一部分因素就是工業(yè)的控制系統(tǒng)防護(hù)效果不好,但是在21 世紀(jì)的工業(yè)控制系統(tǒng)中,ICS 與IT 系統(tǒng)之間也有著相對(duì)很大的差別,因此不能輕易將傳統(tǒng)IT 安全技術(shù)應(yīng)用于ICS 中,通過實(shí)際需求的研究適用的安全技術(shù),但是這將是我國起步較晚的工業(yè)控制系統(tǒng)信息安全面臨第一個(gè)嚴(yán)峻的挑戰(zhàn)。文章通過對(duì) 2018年 ICS-CSR 會(huì)議涉及一部分有關(guān)ICS 信息安全方面的內(nèi)容做出分析,并根據(jù)現(xiàn)在國家和市場的實(shí)際需求對(duì)研究方向提出針對(duì)性建議??傊浖こ淘谛畔踩袠I(yè)剛剛步入初始階段,自身的成長空間將會(huì)非常大, 但是仍需要研究人員對(duì)工業(yè)控制系統(tǒng)信息安全技術(shù)不斷地做出新的研究,而作為軟件工程關(guān)鍵技術(shù)之一的語音識(shí)別,則成為了需要攻克的首要技術(shù)壁壘。