連續(xù)語音識別網(wǎng)格技術(shù)在新聞制播平臺的應用

2010-08-10 07:47:42張秋野王力劭

電視技術(shù) 2010年2期

張秋野，王力劭，丁鵬

（1.中國國際廣播電臺，北京 100040；2.中國科學院自動化所，北京 100080）

1 引言

眾所周知，對于視音頻類內(nèi)容，經(jīng)典的檢索方法依賴于前期的內(nèi)容編目過程，針對多媒體信息的元數(shù)據(jù)標引細度決定了多媒體文件日后可被資產(chǎn)化利用的程度?！懊襟w”能夠成為“資產(chǎn)”不僅依賴內(nèi)容的海量性，更重要的是在需要時能夠被低成本、高精度地定位。

基于音素網(wǎng)絡的連續(xù)語音識別技術(shù)顛覆了經(jīng)典的新聞素材檢索方法。如果僅考慮多媒體數(shù)據(jù)內(nèi)涵而不關心其外延衍生信息，并不需要人工編目標引過程，而是通過對新聞類視音頻伴音進行處理，采用音素網(wǎng)絡技術(shù)提取發(fā)音信息并作為元數(shù)據(jù)，這種變革為多媒體新聞制播平臺帶來質(zhì)變，并能夠最大限度提升多媒體素材資產(chǎn)化能力。

2 非特定人連續(xù)語音識別技術(shù)

非特定人語音識別常用技術(shù)分為基于有限詞表集合的詞表識別技術(shù)和連續(xù)識別技術(shù)[1]。詞表識別技術(shù)是指對識別結(jié)果在預先給定的有限詞表中進行匹配，根據(jù)置信度來篩選結(jié)果并進行后續(xù)工作，例如語音撥號、信息查詢以及設備聲控等。連續(xù)識別技術(shù)則是將語音段落進行預處理，先將其形成“音素”集合，然后將待識別內(nèi)容轉(zhuǎn)化為“音素”短語，通過語言模型在音素集合中進行類似“全文檢索”式的匹配查找。這種技術(shù)非常適合應用在語音素材檢索領域。

連續(xù)語音識別技術(shù)一般有3種基本方法：有限集全文識別并匹配關鍵詞方法[2]、關鍵詞加垃圾網(wǎng)絡識別法[3]和音素網(wǎng)絡法[4-5]。只有音素網(wǎng)絡能夠連續(xù)有效地在相對開放的識別集合范圍內(nèi)提供良好的識別結(jié)果。因此，針對信息量大、內(nèi)容靈活的新聞類素材進行檢索的要求來說，該方法是最有效的連續(xù)語音識別方法。

3 連續(xù)語音識別網(wǎng)格技術(shù)

3.1 音素網(wǎng)絡識別技術(shù)簡介

此技術(shù)分為2個階段，第1階段通常稱為索引階段，系統(tǒng)利用音素（音節(jié))特性產(chǎn)生音素網(wǎng)絡；第2階段為檢索階段，根據(jù)相似度在網(wǎng)絡上搜尋關鍵詞。這種技術(shù)的優(yōu)點是更換詞表方便，不需要二次識別，很適合新聞類音頻信息內(nèi)容的識別。

音素網(wǎng)絡的構(gòu)建就是記錄語音識別過程中間結(jié)果的一種緊湊的表示方式，是1個有向無環(huán)的加權(quán)圖，其中，音素網(wǎng)絡的橫坐標為時間軸，音素網(wǎng)絡上每個節(jié)點表示1個在特定時間結(jié)尾的音素，到達該結(jié)點的邊表示該詞的持續(xù)時間區(qū)間，邊上的權(quán)值為其對應的聲學得分。音素網(wǎng)絡的生成是通過語音識別過程得到的：每搜索到一個音素的尾部，系統(tǒng)就將這個詞記錄到音素網(wǎng)絡結(jié)點中，并且記錄相應的得分和狀態(tài)信息。在音素網(wǎng)絡上每條從起始結(jié)點到終止結(jié)點的路徑，都是一個候選識別結(jié)果，利用音素網(wǎng)絡系統(tǒng)就可以得到很多的識別結(jié)果候選，這些候選都是在搜索的競爭過程中保留下來的[5]。當用戶輸入檢索詞匯時，系統(tǒng)會自動將檢索詞匯轉(zhuǎn)換為音素，并在索引過程中生成的音素網(wǎng)絡上進行搜索，計算聲學得分作為輸出的置信度。

3.2 連續(xù)語音識別網(wǎng)格構(gòu)建

綜上所述，采用音素網(wǎng)絡連續(xù)識別技術(shù)需要2個步驟：多媒體信息的識別索引過程和檢索識別過程[6]。由于識別索引是個耗時操作，因此可以采用網(wǎng)格技術(shù)構(gòu)建音素索引集群以構(gòu)成連續(xù)語音識別網(wǎng)格系統(tǒng)（Continuous Speech Recognition Grid，CSRG），從而大規(guī)模提升系統(tǒng)效率。圖1為應用在多媒體新聞直播平臺上典型的CSRG結(jié)構(gòu)拓撲圖。

圖1 CSRG結(jié)構(gòu)拓撲圖

3.3 CSRG效率分析

3.3.1 CSRG系統(tǒng)參數(shù)

前端的語音信號經(jīng)采集系統(tǒng)通過AD轉(zhuǎn)換形成數(shù)據(jù)，然后通過調(diào)度系統(tǒng)經(jīng)CSRG產(chǎn)生音素數(shù)據(jù)集合。從排隊論的觀點來看，新聞素材隨機到達，CSRG構(gòu)成了一個M/M/n的排隊模型，CSRG服務能力參數(shù)為

式中：λ為新聞素材采集強度，t為新聞素材在CSRG節(jié)點的平均服務時間。

通過上述CSRG系統(tǒng)參數(shù)，可以精確定義CSRG的服務能力，并且可以根據(jù)新聞素材的生成強度來確定CSRG的規(guī)模。因此，CSRG是可控的，如果素材到達強度過大，通過適度追加網(wǎng)格節(jié)點，無限排隊過程是完全可避免的，而且并不需要重建集群，僅需追加少量設備投入。

3.3.2 CSRG相對于經(jīng)典新聞音視頻檢索方法的優(yōu)勢

為了對特定短語從新聞視音頻伴音素材庫中進行充分檢索，經(jīng)典方法需要通過人工預聽進行編目標引后產(chǎn)生元數(shù)據(jù)，方可進行全文檢索。一般來說，識別檢索環(huán)節(jié)的算法效率與目前主流全文檢索技術(shù)是相同的，因此形成元數(shù)據(jù)所耗費的時間將產(chǎn)生不同檢索技術(shù)間的成本差別。

設待處理的新聞有x小時，經(jīng)典的人工方法中新聞閱讀的平均語速為每小時μ個字，y個人類工作者，每個工作者記錄每小時內(nèi)容的時間為內(nèi)容時間的λ倍，且每小時平均錄入z個字，則最理想狀態(tài)下采用經(jīng)典方法，x小時的內(nèi)容通過編目轉(zhuǎn)化為文本元數(shù)據(jù)所需要的時間成本（先聽1次進行速記后再進行錄入的時間總和）t1為

同樣x小時的新聞，CSRG由n個處理單元組成，每個單元處理能力為實際內(nèi)容時長的m倍，則x小時內(nèi)容通過CSRG轉(zhuǎn)化為可識別音素集合的時間成本t2為

則時間成本比ρ為

根據(jù)上述公式給出算例如下：目前的計算機設備條件下最優(yōu)的語素網(wǎng)絡識別算法至少可以達到m=1/3[2]。假設工作者記錄內(nèi)容的速度均可達到140字/分鐘（速記員水平），μ=280 字/分鐘[7]，則 λ=μ/140=2，z=140 字/分鐘（速錄員水平）。假設CSRG由4個節(jié)點組成，即n=4，為了達到ρ=1，即水平相當，帶入式（9）得y=48。說明為了達到同樣的檢索目的，4節(jié)點的CSRG理論上需要48個人連續(xù)工作方可滿足，如果每個工作者每天只能工作8小時，三班輪換則需要144人可達到4節(jié)點CSRG的服務水平。

上述結(jié)果是人類工作者在理想的極限條件下計算得到的，實際工作中不可能長時間集中精力進行如此高強度的工作，而且工作過程中的錯誤會高于CSRG，所以CSRG的表現(xiàn)將遠優(yōu)于上述計算數(shù)據(jù)。由此可知，CSRG相對于經(jīng)典多媒體新聞檢索方法具有極大的優(yōu)勢。

4 CSRG在中國國際廣播電臺（CRI）多媒體新聞制播平臺的應用

由上述分析可知，CSRG在多媒體新聞制播平臺的應用能夠為其新聞素材帶來更高的資產(chǎn)化水平。因此，CRI在2008年奧運會前搭建的多媒體全業(yè)務新聞處理平臺（以下簡稱“平臺”）上，引進并充分融入了CSRG技術(shù)。

平臺涉及音頻、視頻、文稿等多種媒體形式的新聞內(nèi)容涵蓋采集、制作、存儲到播出的整體流程，業(yè)務流程之間具有復雜的關系。平臺設計采用云計算模型，內(nèi)部通過信息門戶（SOA）結(jié)構(gòu)模型借助系統(tǒng)（ESB）/媒體（EMB）雙總線及插件式系統(tǒng)實現(xiàn)異構(gòu)系統(tǒng)的在線擴充能力，并且通過企業(yè)信息門戶將所有復雜系統(tǒng)關系屏蔽在云體內(nèi)，使用戶可以快速按需獲取功能，輕易享受云計算中軟件即服務（SaaS）特性所帶來的便捷性[8-9]。同時，在整體系統(tǒng)平臺上根據(jù)安全極差進行了多層次網(wǎng)絡受限連接[10]，從而提供了靈活而安全的良好動態(tài)系統(tǒng)擴充架構(gòu)。

在平臺中，平行于視音頻采集系統(tǒng)構(gòu)建了CSRG系統(tǒng)，該系統(tǒng)按照SOA架構(gòu)規(guī)范以插件系統(tǒng)方式接入平臺，成為緊密連接平臺的服務模塊。CSRG的連接方法采用帶外方式異步地對所有的新聞視音頻伴音進行索引，并將音素網(wǎng)絡數(shù)據(jù)存入主存儲空間，如圖2所示。

圖2 CSRG在CRI平臺的應用方式

伴以關鍵字檢索和全文檢索系統(tǒng)能夠帶來的外延式元數(shù)據(jù)提供，CSRG與其共同組成了企業(yè)信息門戶中強大的綜合檢索門戶，可以讓用戶采用多種手段快速定位到任意需要的多媒體內(nèi)容。通過整體設計結(jié)構(gòu)良好的云計算SaaS特性，用戶使用過程非常簡單，但是能夠獲得強大的資源素材再獲取能力。同時，CSRG的存在使平臺完全杜絕了多媒體新聞制播平臺中任何無效“死數(shù)據(jù)”的產(chǎn)生，使多媒體新聞的利用率和資產(chǎn)化達到了極高水平。檢索門戶界面如圖3所示，采用谷歌式（Google Like）的設計方式，便于用戶使用。

在支撐2008年奧運會宣傳報道及正式使用一年半的過程中，系統(tǒng)表現(xiàn)穩(wěn)定，能力出色，每日數(shù)據(jù)吞吐量達數(shù)十吉字節(jié)，平均用戶訪問量日近百次，對于關鍵字和全文無法獲取的數(shù)據(jù)以及未做編目標引的多媒體新聞素材，CSRG表現(xiàn)了異常出色的檢索效果，并發(fā)峰值在50線程情況下，響應時間在3 s以內(nèi)，識別正確率在96%以上，成為多媒體新聞制播平臺的輔助利器。

圖3 含語音識別檢索的谷歌式綜合檢索門戶界面

5 小結(jié)

非特定人連續(xù)語音識別技術(shù)是一種非常具有應用價值的模式識別技術(shù)[11-12]，基于音素網(wǎng)絡和網(wǎng)格技術(shù)構(gòu)建的連續(xù)語音識別網(wǎng)格（CSRG）具有極其出色的新聞視音頻伴音搜索特性。經(jīng)過精確分析和充分試驗后，CRI在其多媒體全業(yè)務新聞制播平臺中創(chuàng)新性地引入并可控地應用了CSRG，提高了平臺的檢索應用能力及素材資產(chǎn)化率，獲得了良好的應用效果。

[1]崔金芳，張雪英，白靜.基于OMAP5912的嵌入式非特定人連續(xù)語音識別系統(tǒng)[J]. 電聲技術(shù)，2009，33（9）：70－72.

[2]WEINTRAUB M.LVCSR log-likelihood ratio scoring for keyword spotting[C]//Proc.ICASSP 1995.[S.l.]：IEEE Press， 1995:297-300.

[3]LIANG Jiaen， MENG Meng， WANG Xiaorui， et al.An improved mandrin keyword spotting system using mce training and contextenhanced verification[C]//Proc.ICASSP 2006.Toulouse，F(xiàn)rance:IEEE Press， 2006：1-7.

[4]CHELBA C，ACERO A.Position specific posterior lattices for indexing speech[C]//Proc.ACL′05.Ann Arbor， Michigan:[s.n.]， 2005:443-450.

[5]MEMBER K T，SFIDHA S.Rapid and accurate spoken term detection[C]//Proc.ICASSP 2007.[S.l.]：IEEE Press， 2007：346-357.

[6]RABINER L R， JUANG B H.Fundamentals of speech recognition[M].北京：清華大學出版社，1999.

[7]孫紅梅.電視新聞播音語速之我見[J].聲屏世界，2004（12）：31-32.

[8]周毅，王力劭.云計算與多媒體綜合業(yè)務制播平臺[J].寬帶互聯(lián)網(wǎng)世界，2009（6）：14-20.

[9]王力劭，周毅.云模型與多媒體全業(yè)務平臺的結(jié)構(gòu)安全特性[J].電視技術(shù)，2009，33（10）：10－12.

[10]廣播電臺數(shù)字化網(wǎng)絡工作組.廣播電臺數(shù)字化網(wǎng)絡建設白皮書（2009）[EB/OL].[2008-01-31].http：//blog.fjtv.net/UpAttachment/2008-6/200861885613.doc.

[11]丁昊，姚天任.基于mel標度頻譜和音素分割的漢語語音單詞端點檢測方法[J].計算機與數(shù)字工程，2005（3）：57-59.

[12]江銘虎，袁保宗.一種適應域的漢語N-Gram語言模型平滑算法[J].清華大學學報：自然科學版，1999，39（9）：99-102.