文/趙楊陽(yáng)
當(dāng)前,電磁環(huán)境越來(lái)越復(fù)雜,如何有效利用無(wú)線電頻率資源,最大限度地提升廣播電視視頻業(yè)務(wù)的綜合質(zhì)量,充分優(yōu)化頻譜資源的優(yōu)化配置以更好地為人民群眾提供廣播電視服務(wù),這些都是廣播電視監(jiān)測(cè)監(jiān)管人員需要負(fù)責(zé)的重要工作。具體來(lái)說(shuō),語(yǔ)音識(shí)別技術(shù)是指借助某種算法,通過(guò)計(jì)算機(jī)來(lái)識(shí)別語(yǔ)音信號(hào),且把這些信號(hào)轉(zhuǎn)換成文本的技術(shù)。對(duì)于現(xiàn)階段的語(yǔ)音識(shí)別技術(shù)來(lái)說(shuō),廣播新聞的識(shí)別率為90%左右,其中語(yǔ)音識(shí)別技術(shù)涵蓋關(guān)鍵詞識(shí)別技術(shù)、模糊語(yǔ)音技術(shù)等多種技術(shù)。說(shuō)話人識(shí)別技術(shù)也指聲紋識(shí)別技術(shù),結(jié)合語(yǔ)音信號(hào)對(duì)說(shuō)話人身份進(jìn)行識(shí)別;關(guān)鍵詞識(shí)別技術(shù)指借助文本信息來(lái)獲取關(guān)鍵詞。在廣播電視監(jiān)測(cè)業(yè)務(wù)中運(yùn)用語(yǔ)音識(shí)別技術(shù),能夠?qū)φZ(yǔ)音信號(hào)的特點(diǎn)做出針對(duì)性的判斷,并智能化地識(shí)別頻譜占用情況,以此為基礎(chǔ)有效監(jiān)管廣播電視的播出內(nèi)容。
語(yǔ)音識(shí)別技術(shù)作為一門綜合性交叉型的學(xué)科,涵蓋了多種領(lǐng)域的學(xué)科知識(shí)。隨著科學(xué)技術(shù)的進(jìn)步,語(yǔ)音識(shí)別技術(shù)得到廣泛運(yùn)用。這項(xiàng)技術(shù)利用把輸入的聲信號(hào)轉(zhuǎn)化成其所對(duì)應(yīng)的命令或是文字的一種現(xiàn)代化技術(shù),借助語(yǔ)音識(shí)別技術(shù),可以不用傳統(tǒng)的鍵盤(pán)、鼠標(biāo)等操作設(shè)備,只需利用語(yǔ)言就能夠發(fā)號(hào)施令,從而更加簡(jiǎn)便快捷地完成在多種情況下的任務(wù),這項(xiàng)技術(shù)在社會(huì)中具有十分重要的作用[1]。
自開(kāi)始研究語(yǔ)音識(shí)別技術(shù)到現(xiàn)在,語(yǔ)音識(shí)別技術(shù)的發(fā)展已有超過(guò)半個(gè)世紀(jì)的歷史。最開(kāi)始對(duì)于語(yǔ)音識(shí)別技術(shù)的研究只是Audry系統(tǒng)的研究,其是那個(gè)階段第一個(gè)能夠得到幾個(gè)英文字母的系統(tǒng)。在20世紀(jì)60年代,計(jì)算機(jī)技術(shù)得到發(fā)展,促進(jìn)了語(yǔ)音識(shí)別技術(shù)進(jìn)一步發(fā)展,利用線性預(yù)測(cè)分析技術(shù)與動(dòng)態(tài)規(guī)劃技術(shù)能夠?qū)φZ(yǔ)音信號(hào)出現(xiàn)的模型問(wèn)題進(jìn)行有效解決,這一技術(shù)是語(yǔ)音識(shí)別中最為關(guān)鍵的技術(shù)。到了20世紀(jì)70年代,語(yǔ)音識(shí)別技術(shù)獲得重大突破,表現(xiàn)在動(dòng)態(tài)時(shí)間規(guī)整技術(shù)基本成熟,讓語(yǔ)音能夠等長(zhǎng),同時(shí),矢量量化、隱馬爾科夫模型理論得到進(jìn)一步完善,為語(yǔ)音識(shí)別技術(shù)的進(jìn)步奠定了良好的基礎(chǔ)。在20世紀(jì)80年代,相關(guān)人員更加深入地探究了語(yǔ)音識(shí)別技術(shù),提出了多種語(yǔ)音識(shí)別算法,最為顯著的成就為人工神經(jīng)網(wǎng)絡(luò)與HMM模型。在20世紀(jì)90年代,語(yǔ)音識(shí)別技術(shù)得到更加廣泛的應(yīng)用,更多的科技互聯(lián)網(wǎng)公司均在語(yǔ)音識(shí)別技術(shù)的研究與開(kāi)發(fā)上投入了龐大的資金。進(jìn)入21世紀(jì)后,對(duì)于語(yǔ)音識(shí)別技術(shù)的研究,主要是對(duì)多種語(yǔ)種的同聲翻譯、即興口語(yǔ)及自然對(duì)話進(jìn)行重點(diǎn)研究[2]。
語(yǔ)音識(shí)別技術(shù)常用的方法有:(1)基于語(yǔ)言學(xué)與聲學(xué)的方法。這種方法在語(yǔ)音識(shí)別技術(shù)中得到最早運(yùn)用,然而該方法涵蓋的知識(shí)十分匱乏,這就造成現(xiàn)如今這一方法仍就沒(méi)有得到大范圍應(yīng)用;(2)隨機(jī)模型法?,F(xiàn)如今,隨機(jī)模型法已得到比較成熟的應(yīng)用,這種方法選擇提取特征、訓(xùn)練模塊、分類模塊、判斷模塊的步驟來(lái)識(shí)別語(yǔ)音,涉及了隱馬爾科夫模型(HMM)理論、動(dòng)態(tài)時(shí)間規(guī)整(DTW)、矢量量化(VQ)技術(shù),其中最為簡(jiǎn)便優(yōu)質(zhì)的技術(shù)為隱馬爾科夫模型算法,其在語(yǔ)音識(shí)別性能上更加優(yōu)異,所以大多數(shù)語(yǔ)音識(shí)別系統(tǒng)都選擇隱馬爾科夫模型;(3)神經(jīng)網(wǎng)絡(luò)的方法。這一方法是在語(yǔ)音識(shí)別發(fā)展的后期出現(xiàn)的一種新的識(shí)別方法,其能夠?qū)θ祟惖纳窠?jīng)活動(dòng)進(jìn)行模擬,并具備人的一些特性,例如自主學(xué)習(xí)和自動(dòng)適應(yīng)等,其歸類能力與映射能力比較強(qiáng),在語(yǔ)音識(shí)別技術(shù)中具備較高的利用價(jià)值,在行業(yè)中通過(guò)有機(jī)結(jié)合神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的方法,取長(zhǎng)補(bǔ)短,從而在極大程度上提升語(yǔ)音識(shí)別的效率[3];(4)概率語(yǔ)法分析法。這種方法屬于一種可以識(shí)別大長(zhǎng)度語(yǔ)段的技術(shù),能夠?qū)崿F(xiàn)區(qū)別語(yǔ)言的特征,借助多種層次的知識(shí)來(lái)解決多種層次的問(wèn)題,但是這種方法也存在一些不足,最為明顯的是需要構(gòu)建合適、有效的適用知識(shí)系統(tǒng)。
語(yǔ)音識(shí)別程序主要包括:(1)語(yǔ)音識(shí)別的工作模式:主要為命令模式與識(shí)別模式,結(jié)合這兩種模式的區(qū)別來(lái)選擇對(duì)應(yīng)類型的程序,從而實(shí)現(xiàn)語(yǔ)音識(shí)別程序;識(shí)別模式的工作原理為引擎系統(tǒng)在后臺(tái)直接提供一個(gè)詞庫(kù)與識(shí)別模塊庫(kù),所有系統(tǒng)無(wú)需進(jìn)一步改動(dòng)識(shí)別語(yǔ)法,只需結(jié)合識(shí)別引擎所具備的主程序源代碼加以改寫(xiě)就能夠完成;與之相比,命令模式比較難以實(shí)現(xiàn),必須由程序員來(lái)編寫(xiě)詞典,再加以編程,然后結(jié)合語(yǔ)音詞典進(jìn)行更正與處理;命令模式與識(shí)別模式最大的區(qū)別是程序員應(yīng)結(jié)合詞典內(nèi)容來(lái)修改和核對(duì)代碼;(2)語(yǔ)音識(shí)別環(huán)境設(shè)置。通常語(yǔ)音識(shí)別程序的環(huán)境設(shè)置主要有:CTI服務(wù)器硬件默認(rèn)參數(shù)采集和設(shè)定、識(shí)別硬件采集卡初始化、引擎端口設(shè)置等,其中應(yīng)用程序的全部工作均要結(jié)合CTI技術(shù)來(lái)開(kāi)展工作;對(duì)于語(yǔ)音采集系統(tǒng)的初始化,語(yǔ)音識(shí)別的平臺(tái)可通過(guò)對(duì)是否已經(jīng)輸入語(yǔ)音進(jìn)行判斷來(lái)開(kāi)展工作,再利用語(yǔ)音采集系統(tǒng)獲得語(yǔ)音,同時(shí)利用語(yǔ)音卡來(lái)對(duì)語(yǔ)音進(jìn)行輸出與采集;在實(shí)際工作中,將語(yǔ)音卡中具備的板卡打開(kāi),再在程序中加入?yún)?shù)就能夠運(yùn)行;對(duì)于引擎端口設(shè)置,語(yǔ)音開(kāi)發(fā)平臺(tái)提供了硬件API接口函數(shù),這樣做只需要調(diào)用與賦值函數(shù)就能夠運(yùn)行;(3)編譯語(yǔ)音字典。對(duì)于語(yǔ)音字典的設(shè)置,主要內(nèi)容有:識(shí)別語(yǔ)音的規(guī)則、語(yǔ)法、語(yǔ)音模板制作等,結(jié)合語(yǔ)音平臺(tái)的標(biāo)準(zhǔn)來(lái)開(kāi)展。對(duì)于語(yǔ)音字典的設(shè)置,應(yīng)先對(duì)語(yǔ)音識(shí)別核心包進(jìn)行設(shè)置,再結(jié)合自己編譯的語(yǔ)言標(biāo)準(zhǔn)來(lái)實(shí)現(xiàn)字典的設(shè)置;(4)編制識(shí)別主程序。這是語(yǔ)音識(shí)別程序編譯的最后環(huán)節(jié),程序員應(yīng)為主程序的Graphical User Interface界面進(jìn)行編寫(xiě),從而方便使用者和計(jì)算機(jī)開(kāi)展交互操作[4]。
除此之外,現(xiàn)如今國(guó)內(nèi)外提供語(yǔ)音識(shí)別技術(shù)的廠商非常多,本文對(duì)語(yǔ)音識(shí)別平臺(tái)進(jìn)行了橫向?qū)Ρ?,具體見(jiàn)表1。結(jié)合表1的內(nèi)容可以認(rèn)識(shí)到商家的語(yǔ)音識(shí)別技術(shù)都有一定的優(yōu)勢(shì)和特點(diǎn),企業(yè)可結(jié)合相應(yīng)的應(yīng)用場(chǎng)景來(lái)選擇恰當(dāng)?shù)恼Z(yǔ)音識(shí)別技術(shù)。
語(yǔ)音識(shí)別技術(shù)利用語(yǔ)音波形對(duì)人的行為特點(diǎn)進(jìn)行分析,從而識(shí)別出講話人的身份。一方面,對(duì)于講話人身份的識(shí)別,可評(píng)估出說(shuō)話人;另一方面,需要評(píng)估判定某一個(gè)語(yǔ)音是否為指定人聲。語(yǔ)音信號(hào)始終是開(kāi)展聲紋識(shí)別的基礎(chǔ)所在,依據(jù)一個(gè)人的發(fā)音特點(diǎn)對(duì)說(shuō)話人的性格特征進(jìn)行掌握。作為生物因子認(rèn)證范疇內(nèi)的重要內(nèi)容,聲紋識(shí)別和我們較為熟悉的指紋有一定的相通之處,都是根據(jù)人體生物特征來(lái)加以評(píng)估的。所不同的是,聲紋識(shí)別主要是依照說(shuō)話人的特征加以針對(duì)性的識(shí)別[5]。
這里我們所介紹的內(nèi)容辨識(shí)主要是指,以語(yǔ)音的生理屬性、物理屬性為出發(fā)點(diǎn),結(jié)合其內(nèi)容來(lái)進(jìn)行針對(duì)性的分析、鑒別,主要目標(biāo)是對(duì)語(yǔ)音信號(hào)承載內(nèi)容的判斷。但是在內(nèi)容識(shí)別方面仍然存在一定的提升空間,如發(fā)音習(xí)慣、方言等,都對(duì)識(shí)別效果有著直接的影響;對(duì)于這一問(wèn)題的處理,可利用聲紋識(shí)別加以解決。為能夠使語(yǔ)法、語(yǔ)義和聲紋相一致,需要借助詞性標(biāo)記、詞語(yǔ)區(qū)分、語(yǔ)境理解等綜合判定語(yǔ)音內(nèi)容,不過(guò)整體上來(lái)說(shuō),其需要在短時(shí)間內(nèi)做出大量的對(duì)比判斷[6]。
語(yǔ)種識(shí)別指對(duì)語(yǔ)音材料兼容的語(yǔ)種特點(diǎn)進(jìn)行評(píng)估,在語(yǔ)種識(shí)別的基礎(chǔ)上進(jìn)一步研究而得到語(yǔ)音內(nèi)容判斷與智能翻譯技術(shù)。同時(shí),語(yǔ)種識(shí)別可以評(píng)估計(jì)算機(jī)中多種語(yǔ)音材料,通過(guò)識(shí)別系統(tǒng)對(duì)語(yǔ)音材料加以提取是該技術(shù)主要應(yīng)用的方法。與此同時(shí),標(biāo)準(zhǔn)語(yǔ)音模型和個(gè)人語(yǔ)音的對(duì)比,是語(yǔ)音評(píng)估標(biāo)準(zhǔn)判定過(guò)程中明確不標(biāo)準(zhǔn)發(fā)音的主要手段。
表1 橫向比較語(yǔ)音識(shí)別技術(shù)
現(xiàn)階段,隨著語(yǔ)音識(shí)別技術(shù)的不斷突破和發(fā)展,自動(dòng)化語(yǔ)音識(shí)別技術(shù)的應(yīng)用,可以幫助我們針對(duì)性地判斷廣播頻率節(jié)目播出的實(shí)時(shí)狀態(tài),并從中提取關(guān)鍵數(shù)據(jù)信息,從而對(duì)語(yǔ)音類型和語(yǔ)種進(jìn)行分析,并對(duì)言語(yǔ)信號(hào)、靜音和噪音進(jìn)行分析,從而實(shí)現(xiàn)頻道中多個(gè)頻譜能夠同時(shí)使用語(yǔ)音識(shí)別技術(shù)進(jìn)行充分研究。同時(shí),廣播電視監(jiān)測(cè)中引入了電視內(nèi)容監(jiān)測(cè)與語(yǔ)音識(shí)別,這就大大降低了人力資源方面的投入,極大地提升了廣播電視監(jiān)測(cè)監(jiān)管效率[7]。具體表現(xiàn)在以下幾個(gè)方面:(1)電視監(jiān)測(cè)方面。通過(guò)該技術(shù)的靈活應(yīng)用,可以有效構(gòu)建語(yǔ)音模板、文字模板,進(jìn)而實(shí)現(xiàn)特定語(yǔ)音的識(shí)別以及特定文字的識(shí)別,并進(jìn)行實(shí)時(shí)錄像,從而準(zhǔn)確判斷廣播電視播出異態(tài);然后借助監(jiān)測(cè)監(jiān)管系統(tǒng)將異態(tài)上報(bào)給監(jiān)測(cè)席位,且發(fā)出預(yù)警信號(hào),以便工作人員進(jìn)行及時(shí)有效的處理,確保廣播電視安全播出;在廣播電視監(jiān)測(cè)中運(yùn)用語(yǔ)音識(shí)別技術(shù),可將系統(tǒng)判斷率提升至99%,實(shí)現(xiàn)廣播電視監(jiān)測(cè)智能化;(2)廣播監(jiān)測(cè)方面。在廣播電視監(jiān)測(cè)中語(yǔ)種識(shí)別技術(shù)具有十分關(guān)鍵的意義,由于國(guó)外電臺(tái)在我國(guó)的播音時(shí)間和語(yǔ)種很多,需要花費(fèi)大量的人力和時(shí)間來(lái)利用人工對(duì)這些語(yǔ)種和播音時(shí)間進(jìn)行實(shí)時(shí)判斷;針對(duì)上述問(wèn)題,我們可以通過(guò)衛(wèi)星實(shí)現(xiàn)語(yǔ)音識(shí)別庫(kù)的搜集和接收,然后通過(guò)錄制音頻和語(yǔ)音庫(kù)中數(shù)據(jù)的對(duì)比,判斷出所述語(yǔ)言種類。不過(guò)由于語(yǔ)音物理數(shù)據(jù)差異較大,因此,語(yǔ)言判斷應(yīng)用在實(shí)際的使用過(guò)程中仍然存在一定的問(wèn)題。同時(shí),將音頻指紋相近度法引入語(yǔ)音識(shí)別中來(lái),可以通過(guò)大量的學(xué)習(xí)而適應(yīng)濾波器,具有信道模型的功能[8]。
主要內(nèi)容有:(1)信號(hào)解調(diào)設(shè)備。待系統(tǒng)完成監(jiān)測(cè)信號(hào)源解調(diào)工作之后,將會(huì)根據(jù)實(shí)際情況調(diào)用調(diào)幅廣播解調(diào)器、有線電視解調(diào)器以及調(diào)頻廣播解調(diào)器,從而將所搜集到的廣播電視信號(hào)解調(diào)為普通音頻信號(hào),然后通過(guò)搜集站對(duì)這些音頻信號(hào)進(jìn)行錄音。具體的解調(diào)器和調(diào)頻廣播的數(shù)量,可按照監(jiān)測(cè)頻道數(shù)量進(jìn)行針對(duì)性的選擇;(2)信號(hào)預(yù)處理設(shè)備。為最大限度地提升信號(hào)的判斷效果,可以引入AQC4信號(hào)預(yù)處理設(shè)備,這樣就可以通過(guò)該設(shè)備對(duì)音頻信號(hào)進(jìn)行預(yù)處理,然后通過(guò)控制信號(hào)處理器對(duì)語(yǔ)音信號(hào)加以進(jìn)一步的處理,修正信號(hào)失真,為后續(xù)操作提供必要的信號(hào)源文件,進(jìn)而完成對(duì)頻道內(nèi)容的監(jiān)測(cè)和監(jiān)管;(3)多路信號(hào)搜集站。如上文所述,通過(guò)有線電視解調(diào)器可解調(diào)影像和伴音,從而形成能夠?yàn)橄到y(tǒng)所識(shí)別的視頻信號(hào)和模擬音頻信號(hào),然后通過(guò)信號(hào)搜集站對(duì)其進(jìn)行記錄,具體的有線電視解調(diào)器數(shù)量可按照監(jiān)測(cè)頻道數(shù)量進(jìn)行恰當(dāng)安排;除此之外,多路監(jiān)測(cè)信號(hào)搜集站可以對(duì)廣播音頻信號(hào)和電視信號(hào)進(jìn)行接收,對(duì)信號(hào)進(jìn)行搜集和壓縮,然后存儲(chǔ)到服區(qū)前陣列柜中,其中搜集站可分為廣播信號(hào)和電視信號(hào)兩種搜集站,前者能夠同時(shí)進(jìn)行所有廣播信號(hào)的采集和記錄,并實(shí)時(shí)呈現(xiàn)音量,配合軟調(diào)音臺(tái)不僅能夠?qū)崿F(xiàn)對(duì)信號(hào)增益水平的有效控制,而且可以實(shí)現(xiàn)對(duì)所有輸入信號(hào)的完整監(jiān)控,定時(shí)設(shè)計(jì)了采集和記錄時(shí)間表,以確保采集和記錄的及時(shí)性、合理性,極大提升了系統(tǒng)的整體運(yùn)行效率水平,并且能夠提供全方位的監(jiān)聽(tīng)服務(wù)支持,系統(tǒng)會(huì)在信號(hào)異常的情況下自動(dòng)發(fā)出警報(bào),避免由于信號(hào)故障等問(wèn)題所導(dǎo)致的音頻丟失,還可以根據(jù)具體播出時(shí)間來(lái)調(diào)整錄音時(shí)間;(4)視頻信號(hào)采集站。在實(shí)際的應(yīng)用過(guò)程中能夠?qū)崿F(xiàn)8路電視信號(hào)的采集和記錄。操作中,利用視頻信號(hào)采集站完整復(fù)合電視信號(hào)的音頻信號(hào)碼。一般來(lái)說(shuō),可以任意選擇壓縮碼,并結(jié)合頻道播出時(shí)間獨(dú)立設(shè)計(jì)每個(gè)頻道的采錄時(shí)間。在具體的采錄過(guò)程中,通常以 MPEG壓縮格式進(jìn)行。頁(yè)面可以呈現(xiàn)出所有視頻圖像且監(jiān)聽(tīng)視頻信號(hào);同時(shí),對(duì)各路信號(hào)的飽和度、色度及對(duì)比度進(jìn)行整體調(diào)節(jié),以確保采錄質(zhì)量[9]。
總而言之,對(duì)于廣播電視監(jiān)測(cè)監(jiān)管人員而言,無(wú)線電頻率管理和監(jiān)測(cè)監(jiān)管工作至關(guān)重要,隨著無(wú)線電技術(shù)得到普及,無(wú)線電頻率資源日趨緊張,廣播電視監(jiān)測(cè)監(jiān)管工作也同樣開(kāi)始朝著全自動(dòng)化方向發(fā)展,這就需要有效運(yùn)用語(yǔ)音識(shí)別技術(shù),提升廣播電視監(jiān)測(cè)的工作質(zhì)量及效率。因此,為能夠確保廣播電視監(jiān)測(cè)監(jiān)管事業(yè)的蓬勃發(fā)展,必須注重并加強(qiáng)語(yǔ)音識(shí)別技術(shù)在廣播電視監(jiān)測(cè)中有效、合理及大范圍的應(yīng)用。