語(yǔ)音識(shí)別技術(shù)在廣播電視監(jiān)測(cè)中的應(yīng)用

2019-03-07 12:21:00趙楊陽(yáng)

中國(guó)傳媒科技 2019年1期

文/趙楊陽(yáng)

引言

當(dāng)前，電磁環(huán)境越來(lái)越復(fù)雜，如何有效利用無(wú)線電頻率資源，最大限度地提升廣播電視視頻業(yè)務(wù)的綜合質(zhì)量，充分優(yōu)化頻譜資源的優(yōu)化配置以更好地為人民群眾提供廣播電視服務(wù)，這些都是廣播電視監(jiān)測(cè)監(jiān)管人員需要負(fù)責(zé)的重要工作。具體來(lái)說(shuō)，語(yǔ)音識(shí)別技術(shù)是指借助某種算法，通過(guò)計(jì)算機(jī)來(lái)識(shí)別語(yǔ)音信號(hào)，且把這些信號(hào)轉(zhuǎn)換成文本的技術(shù)。對(duì)于現(xiàn)階段的語(yǔ)音識(shí)別技術(shù)來(lái)說(shuō)，廣播新聞的識(shí)別率為90%左右，其中語(yǔ)音識(shí)別技術(shù)涵蓋關(guān)鍵詞識(shí)別技術(shù)、模糊語(yǔ)音技術(shù)等多種技術(shù)。說(shuō)話人識(shí)別技術(shù)也指聲紋識(shí)別技術(shù)，結(jié)合語(yǔ)音信號(hào)對(duì)說(shuō)話人身份進(jìn)行識(shí)別；關(guān)鍵詞識(shí)別技術(shù)指借助文本信息來(lái)獲取關(guān)鍵詞。在廣播電視監(jiān)測(cè)業(yè)務(wù)中運(yùn)用語(yǔ)音識(shí)別技術(shù)，能夠?qū)φZ(yǔ)音信號(hào)的特點(diǎn)做出針對(duì)性的判斷，并智能化地識(shí)別頻譜占用情況，以此為基礎(chǔ)有效監(jiān)管廣播電視的播出內(nèi)容。

1.語(yǔ)音識(shí)別技術(shù)

語(yǔ)音識(shí)別技術(shù)作為一門綜合性交叉型的學(xué)科，涵蓋了多種領(lǐng)域的學(xué)科知識(shí)。隨著科學(xué)技術(shù)的進(jìn)步，語(yǔ)音識(shí)別技術(shù)得到廣泛運(yùn)用。這項(xiàng)技術(shù)利用把輸入的聲信號(hào)轉(zhuǎn)化成其所對(duì)應(yīng)的命令或是文字的一種現(xiàn)代化技術(shù)，借助語(yǔ)音識(shí)別技術(shù)，可以不用傳統(tǒng)的鍵盤(pán)、鼠標(biāo)等操作設(shè)備，只需利用語(yǔ)言就能夠發(fā)號(hào)施令，從而更加簡(jiǎn)便快捷地完成在多種情況下的任務(wù)，這項(xiàng)技術(shù)在社會(huì)中具有十分重要的作用[1]。

自開(kāi)始研究語(yǔ)音識(shí)別技術(shù)到現(xiàn)在，語(yǔ)音識(shí)別技術(shù)的發(fā)展已有超過(guò)半個(gè)世紀(jì)的歷史。最開(kāi)始對(duì)于語(yǔ)音識(shí)別技術(shù)的研究只是Audry系統(tǒng)的研究，其是那個(gè)階段第一個(gè)能夠得到幾個(gè)英文字母的系統(tǒng)。在20世紀(jì)60年代，計(jì)算機(jī)技術(shù)得到發(fā)展，促進(jìn)了語(yǔ)音識(shí)別技術(shù)進(jìn)一步發(fā)展，利用線性預(yù)測(cè)分析技術(shù)與動(dòng)態(tài)規(guī)劃技術(shù)能夠?qū)φZ(yǔ)音信號(hào)出現(xiàn)的模型問(wèn)題進(jìn)行有效解決，這一技術(shù)是語(yǔ)音識(shí)別中最為關(guān)鍵的技術(shù)。到了20世紀(jì)70年代，語(yǔ)音識(shí)別技術(shù)獲得重大突破，表現(xiàn)在動(dòng)態(tài)時(shí)間規(guī)整技術(shù)基本成熟，讓語(yǔ)音能夠等長(zhǎng)，同時(shí)，矢量量化、隱馬爾科夫模型理論得到進(jìn)一步完善，為語(yǔ)音識(shí)別技術(shù)的進(jìn)步奠定了良好的基礎(chǔ)。在20世紀(jì)80年代，相關(guān)人員更加深入地探究了語(yǔ)音識(shí)別技術(shù)，提出了多種語(yǔ)音識(shí)別算法，最為顯著的成就為人工神經(jīng)網(wǎng)絡(luò)與HMM模型。在20世紀(jì)90年代，語(yǔ)音識(shí)別技術(shù)得到更加廣泛的應(yīng)用，更多的科技互聯(lián)網(wǎng)公司均在語(yǔ)音識(shí)別技術(shù)的研究與開(kāi)發(fā)上投入了龐大的資金。進(jìn)入21世紀(jì)后，對(duì)于語(yǔ)音識(shí)別技術(shù)的研究，主要是對(duì)多種語(yǔ)種的同聲翻譯、即興口語(yǔ)及自然對(duì)話進(jìn)行重點(diǎn)研究[2]。

2.語(yǔ)音識(shí)別方法

語(yǔ)音識(shí)別技術(shù)常用的方法有:（1）基于語(yǔ)言學(xué)與聲學(xué)的方法。這種方法在語(yǔ)音識(shí)別技術(shù)中得到最早運(yùn)用，然而該方法涵蓋的知識(shí)十分匱乏，這就造成現(xiàn)如今這一方法仍就沒(méi)有得到大范圍應(yīng)用；（2）隨機(jī)模型法?，F(xiàn)如今，隨機(jī)模型法已得到比較成熟的應(yīng)用，這種方法選擇提取特征、訓(xùn)練模塊、分類模塊、判斷模塊的步驟來(lái)識(shí)別語(yǔ)音，涉及了隱馬爾科夫模型（HMM）理論、動(dòng)態(tài)時(shí)間規(guī)整（DTW）、矢量量化（VQ）技術(shù)，其中最為簡(jiǎn)便優(yōu)質(zhì)的技術(shù)為隱馬爾科夫模型算法，其在語(yǔ)音識(shí)別性能上更加優(yōu)異，所以大多數(shù)語(yǔ)音識(shí)別系統(tǒng)都選擇隱馬爾科夫模型；（3）神經(jīng)網(wǎng)絡(luò)的方法。這一方法是在語(yǔ)音識(shí)別發(fā)展的后期出現(xiàn)的一種新的識(shí)別方法，其能夠?qū)θ祟惖纳窠?jīng)活動(dòng)進(jìn)行模擬，并具備人的一些特性，例如自主學(xué)習(xí)和自動(dòng)適應(yīng)等，其歸類能力與映射能力比較強(qiáng)，在語(yǔ)音識(shí)別技術(shù)中具備較高的利用價(jià)值，在行業(yè)中通過(guò)有機(jī)結(jié)合神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的方法，取長(zhǎng)補(bǔ)短，從而在極大程度上提升語(yǔ)音識(shí)別的效率[3]；（4）概率語(yǔ)法分析法。這種方法屬于一種可以識(shí)別大長(zhǎng)度語(yǔ)段的技術(shù)，能夠?qū)崿F(xiàn)區(qū)別語(yǔ)言的特征，借助多種層次的知識(shí)來(lái)解決多種層次的問(wèn)題，但是這種方法也存在一些不足，最為明顯的是需要構(gòu)建合適、有效的適用知識(shí)系統(tǒng)。

3.語(yǔ)音識(shí)別程序

語(yǔ)音識(shí)別程序主要包括:（1）語(yǔ)音識(shí)別的工作模式:主要為命令模式與識(shí)別模式，結(jié)合這兩種模式的區(qū)別來(lái)選擇對(duì)應(yīng)類型的程序，從而實(shí)現(xiàn)語(yǔ)音識(shí)別程序；識(shí)別模式的工作原理為引擎系統(tǒng)在后臺(tái)直接提供一個(gè)詞庫(kù)與識(shí)別模塊庫(kù)，所有系統(tǒng)無(wú)需進(jìn)一步改動(dòng)識(shí)別語(yǔ)法，只需結(jié)合識(shí)別引擎所具備的主程序源代碼加以改寫(xiě)就能夠完成；與之相比，命令模式比較難以實(shí)現(xiàn)，必須由程序員來(lái)編寫(xiě)詞典，再加以編程，然后結(jié)合語(yǔ)音詞典進(jìn)行更正與處理；命令模式與識(shí)別模式最大的區(qū)別是程序員應(yīng)結(jié)合詞典內(nèi)容來(lái)修改和核對(duì)代碼；（2）語(yǔ)音識(shí)別環(huán)境設(shè)置。通常語(yǔ)音識(shí)別程序的環(huán)境設(shè)置主要有:CTI服務(wù)器硬件默認(rèn)參數(shù)采集和設(shè)定、識(shí)別硬件采集卡初始化、引擎端口設(shè)置等，其中應(yīng)用程序的全部工作均要結(jié)合CTI技術(shù)來(lái)開(kāi)展工作；對(duì)于語(yǔ)音采集系統(tǒng)的初始化，語(yǔ)音識(shí)別的平臺(tái)可通過(guò)對(duì)是否已經(jīng)輸入語(yǔ)音進(jìn)行判斷來(lái)開(kāi)展工作，再利用語(yǔ)音采集系統(tǒng)獲得語(yǔ)音，同時(shí)利用語(yǔ)音卡來(lái)對(duì)語(yǔ)音進(jìn)行輸出與采集；在實(shí)際工作中，將語(yǔ)音卡中具備的板卡打開(kāi)，再在程序中加入?yún)?shù)就能夠運(yùn)行；對(duì)于引擎端口設(shè)置，語(yǔ)音開(kāi)發(fā)平臺(tái)提供了硬件API接口函數(shù)，這樣做只需要調(diào)用與賦值函數(shù)就能夠運(yùn)行；（3）編譯語(yǔ)音字典。對(duì)于語(yǔ)音字典的設(shè)置，主要內(nèi)容有:識(shí)別語(yǔ)音的規(guī)則、語(yǔ)法、語(yǔ)音模板制作等，結(jié)合語(yǔ)音平臺(tái)的標(biāo)準(zhǔn)來(lái)開(kāi)展。對(duì)于語(yǔ)音字典的設(shè)置，應(yīng)先對(duì)語(yǔ)音識(shí)別核心包進(jìn)行設(shè)置，再結(jié)合自己編譯的語(yǔ)言標(biāo)準(zhǔn)來(lái)實(shí)現(xiàn)字典的設(shè)置；（4）編制識(shí)別主程序。這是語(yǔ)音識(shí)別程序編譯的最后環(huán)節(jié)，程序員應(yīng)為主程序的Graphical User Interface界面進(jìn)行編寫(xiě)，從而方便使用者和計(jì)算機(jī)開(kāi)展交互操作[4]。

除此之外，現(xiàn)如今國(guó)內(nèi)外提供語(yǔ)音識(shí)別技術(shù)的廠商非常多，本文對(duì)語(yǔ)音識(shí)別平臺(tái)進(jìn)行了橫向?qū)Ρ?，具體見(jiàn)表1。結(jié)合表1的內(nèi)容可以認(rèn)識(shí)到商家的語(yǔ)音識(shí)別技術(shù)都有一定的優(yōu)勢(shì)和特點(diǎn)，企業(yè)可結(jié)合相應(yīng)的應(yīng)用場(chǎng)景來(lái)選擇恰當(dāng)?shù)恼Z(yǔ)音識(shí)別技術(shù)。

4.廣播電視監(jiān)測(cè)監(jiān)管中語(yǔ)音識(shí)別技術(shù)的價(jià)值

4.1 聲紋識(shí)別

語(yǔ)音識(shí)別技術(shù)利用語(yǔ)音波形對(duì)人的行為特點(diǎn)進(jìn)行分析，從而識(shí)別出講話人的身份。一方面，對(duì)于講話人身份的識(shí)別，可評(píng)估出說(shuō)話人；另一方面，需要評(píng)估判定某一個(gè)語(yǔ)音是否為指定人聲。語(yǔ)音信號(hào)始終是開(kāi)展聲紋識(shí)別的基礎(chǔ)所在，依據(jù)一個(gè)人的發(fā)音特點(diǎn)對(duì)說(shuō)話人的性格特征進(jìn)行掌握。作為生物因子認(rèn)證范疇內(nèi)的重要內(nèi)容，聲紋識(shí)別和我們較為熟悉的指紋有一定的相通之處，都是根據(jù)人體生物特征來(lái)加以評(píng)估的。所不同的是，聲紋識(shí)別主要是依照說(shuō)話人的特征加以針對(duì)性的識(shí)別[5]。

4.2 內(nèi)容辨識(shí)

這里我們所介紹的內(nèi)容辨識(shí)主要是指，以語(yǔ)音的生理屬性、物理屬性為出發(fā)點(diǎn)，結(jié)合其內(nèi)容來(lái)進(jìn)行針對(duì)性的分析、鑒別，主要目標(biāo)是對(duì)語(yǔ)音信號(hào)承載內(nèi)容的判斷。但是在內(nèi)容識(shí)別方面仍然存在一定的提升空間，如發(fā)音習(xí)慣、方言等，都對(duì)識(shí)別效果有著直接的影響；對(duì)于這一問(wèn)題的處理，可利用聲紋識(shí)別加以解決。為能夠使語(yǔ)法、語(yǔ)義和聲紋相一致，需要借助詞性標(biāo)記、詞語(yǔ)區(qū)分、語(yǔ)境理解等綜合判定語(yǔ)音內(nèi)容，不過(guò)整體上來(lái)說(shuō)，其需要在短時(shí)間內(nèi)做出大量的對(duì)比判斷[6]。

4.3 語(yǔ)種與語(yǔ)音的分辨

語(yǔ)種識(shí)別指對(duì)語(yǔ)音材料兼容的語(yǔ)種特點(diǎn)進(jìn)行評(píng)估，在語(yǔ)種識(shí)別的基礎(chǔ)上進(jìn)一步研究而得到語(yǔ)音內(nèi)容判斷與智能翻譯技術(shù)。同時(shí)，語(yǔ)種識(shí)別可以評(píng)估計(jì)算機(jī)中多種語(yǔ)音材料，通過(guò)識(shí)別系統(tǒng)對(duì)語(yǔ)音材料加以提取是該技術(shù)主要應(yīng)用的方法。與此同時(shí)，標(biāo)準(zhǔn)語(yǔ)音模型和個(gè)人語(yǔ)音的對(duì)比，是語(yǔ)音評(píng)估標(biāo)準(zhǔn)判定過(guò)程中明確不標(biāo)準(zhǔn)發(fā)音的主要手段。

5.語(yǔ)音識(shí)別技術(shù)在廣播電視監(jiān)測(cè)的具體應(yīng)用

5.1 具體應(yīng)用內(nèi)容

表1 橫向比較語(yǔ)音識(shí)別技術(shù)

現(xiàn)階段，隨著語(yǔ)音識(shí)別技術(shù)的不斷突破和發(fā)展，自動(dòng)化語(yǔ)音識(shí)別技術(shù)的應(yīng)用，可以幫助我們針對(duì)性地判斷廣播頻率節(jié)目播出的實(shí)時(shí)狀態(tài)，并從中提取關(guān)鍵數(shù)據(jù)信息，從而對(duì)語(yǔ)音類型和語(yǔ)種進(jìn)行分析，并對(duì)言語(yǔ)信號(hào)、靜音和噪音進(jìn)行分析，從而實(shí)現(xiàn)頻道中多個(gè)頻譜能夠同時(shí)使用語(yǔ)音識(shí)別技術(shù)進(jìn)行充分研究。同時(shí)，廣播電視監(jiān)測(cè)中引入了電視內(nèi)容監(jiān)測(cè)與語(yǔ)音識(shí)別，這就大大降低了人力資源方面的投入，極大地提升了廣播電視監(jiān)測(cè)監(jiān)管效率[7]。具體表現(xiàn)在以下幾個(gè)方面:（1）電視監(jiān)測(cè)方面。通過(guò)該技術(shù)的靈活應(yīng)用，可以有效構(gòu)建語(yǔ)音模板、文字模板，進(jìn)而實(shí)現(xiàn)特定語(yǔ)音的識(shí)別以及特定文字的識(shí)別，并進(jìn)行實(shí)時(shí)錄像，從而準(zhǔn)確判斷廣播電視播出異態(tài)；然后借助監(jiān)測(cè)監(jiān)管系統(tǒng)將異態(tài)上報(bào)給監(jiān)測(cè)席位，且發(fā)出預(yù)警信號(hào)，以便工作人員進(jìn)行及時(shí)有效的處理，確保廣播電視安全播出；在廣播電視監(jiān)測(cè)中運(yùn)用語(yǔ)音識(shí)別技術(shù)，可將系統(tǒng)判斷率提升至99%，實(shí)現(xiàn)廣播電視監(jiān)測(cè)智能化；（2）廣播監(jiān)測(cè)方面。在廣播電視監(jiān)測(cè)中語(yǔ)種識(shí)別技術(shù)具有十分關(guān)鍵的意義，由于國(guó)外電臺(tái)在我國(guó)的播音時(shí)間和語(yǔ)種很多，需要花費(fèi)大量的人力和時(shí)間來(lái)利用人工對(duì)這些語(yǔ)種和播音時(shí)間進(jìn)行實(shí)時(shí)判斷；針對(duì)上述問(wèn)題，我們可以通過(guò)衛(wèi)星實(shí)現(xiàn)語(yǔ)音識(shí)別庫(kù)的搜集和接收，然后通過(guò)錄制音頻和語(yǔ)音庫(kù)中數(shù)據(jù)的對(duì)比，判斷出所述語(yǔ)言種類。不過(guò)由于語(yǔ)音物理數(shù)據(jù)差異較大，因此，語(yǔ)言判斷應(yīng)用在實(shí)際的使用過(guò)程中仍然存在一定的問(wèn)題。同時(shí)，將音頻指紋相近度法引入語(yǔ)音識(shí)別中來(lái)，可以通過(guò)大量的學(xué)習(xí)而適應(yīng)濾波器，具有信道模型的功能[8]。

5.2 實(shí)際案例

主要內(nèi)容有:（1）信號(hào)解調(diào)設(shè)備。待系統(tǒng)完成監(jiān)測(cè)信號(hào)源解調(diào)工作之后，將會(huì)根據(jù)實(shí)際情況調(diào)用調(diào)幅廣播解調(diào)器、有線電視解調(diào)器以及調(diào)頻廣播解調(diào)器，從而將所搜集到的廣播電視信號(hào)解調(diào)為普通音頻信號(hào)，然后通過(guò)搜集站對(duì)這些音頻信號(hào)進(jìn)行錄音。具體的解調(diào)器和調(diào)頻廣播的數(shù)量，可按照監(jiān)測(cè)頻道數(shù)量進(jìn)行針對(duì)性的選擇；（2）信號(hào)預(yù)處理設(shè)備。為最大限度地提升信號(hào)的判斷效果，可以引入AQC4信號(hào)預(yù)處理設(shè)備，這樣就可以通過(guò)該設(shè)備對(duì)音頻信號(hào)進(jìn)行預(yù)處理，然后通過(guò)控制信號(hào)處理器對(duì)語(yǔ)音信號(hào)加以進(jìn)一步的處理，修正信號(hào)失真，為后續(xù)操作提供必要的信號(hào)源文件，進(jìn)而完成對(duì)頻道內(nèi)容的監(jiān)測(cè)和監(jiān)管；（3）多路信號(hào)搜集站。如上文所述，通過(guò)有線電視解調(diào)器可解調(diào)影像和伴音，從而形成能夠?yàn)橄到y(tǒng)所識(shí)別的視頻信號(hào)和模擬音頻信號(hào)，然后通過(guò)信號(hào)搜集站對(duì)其進(jìn)行記錄，具體的有線電視解調(diào)器數(shù)量可按照監(jiān)測(cè)頻道數(shù)量進(jìn)行恰當(dāng)安排；除此之外，多路監(jiān)測(cè)信號(hào)搜集站可以對(duì)廣播音頻信號(hào)和電視信號(hào)進(jìn)行接收，對(duì)信號(hào)進(jìn)行搜集和壓縮，然后存儲(chǔ)到服區(qū)前陣列柜中，其中搜集站可分為廣播信號(hào)和電視信號(hào)兩種搜集站，前者能夠同時(shí)進(jìn)行所有廣播信號(hào)的采集和記錄，并實(shí)時(shí)呈現(xiàn)音量，配合軟調(diào)音臺(tái)不僅能夠?qū)崿F(xiàn)對(duì)信號(hào)增益水平的有效控制，而且可以實(shí)現(xiàn)對(duì)所有輸入信號(hào)的完整監(jiān)控，定時(shí)設(shè)計(jì)了采集和記錄時(shí)間表，以確保采集和記錄的及時(shí)性、合理性，極大提升了系統(tǒng)的整體運(yùn)行效率水平，并且能夠提供全方位的監(jiān)聽(tīng)服務(wù)支持，系統(tǒng)會(huì)在信號(hào)異常的情況下自動(dòng)發(fā)出警報(bào)，避免由于信號(hào)故障等問(wèn)題所導(dǎo)致的音頻丟失，還可以根據(jù)具體播出時(shí)間來(lái)調(diào)整錄音時(shí)間；（4）視頻信號(hào)采集站。在實(shí)際的應(yīng)用過(guò)程中能夠?qū)崿F(xiàn)8路電視信號(hào)的采集和記錄。操作中，利用視頻信號(hào)采集站完整復(fù)合電視信號(hào)的音頻信號(hào)碼。一般來(lái)說(shuō)，可以任意選擇壓縮碼，并結(jié)合頻道播出時(shí)間獨(dú)立設(shè)計(jì)每個(gè)頻道的采錄時(shí)間。在具體的采錄過(guò)程中，通常以 MPEG壓縮格式進(jìn)行。頁(yè)面可以呈現(xiàn)出所有視頻圖像且監(jiān)聽(tīng)視頻信號(hào)；同時(shí)，對(duì)各路信號(hào)的飽和度、色度及對(duì)比度進(jìn)行整體調(diào)節(jié)，以確保采錄質(zhì)量[9]。

結(jié)語(yǔ)

總而言之，對(duì)于廣播電視監(jiān)測(cè)監(jiān)管人員而言，無(wú)線電頻率管理和監(jiān)測(cè)監(jiān)管工作至關(guān)重要，隨著無(wú)線電技術(shù)得到普及，無(wú)線電頻率資源日趨緊張，廣播電視監(jiān)測(cè)監(jiān)管工作也同樣開(kāi)始朝著全自動(dòng)化方向發(fā)展，這就需要有效運(yùn)用語(yǔ)音識(shí)別技術(shù)，提升廣播電視監(jiān)測(cè)的工作質(zhì)量及效率。因此，為能夠確保廣播電視監(jiān)測(cè)監(jiān)管事業(yè)的蓬勃發(fā)展，必須注重并加強(qiáng)語(yǔ)音識(shí)別技術(shù)在廣播電視監(jiān)測(cè)中有效、合理及大范圍的應(yīng)用。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看