• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      連續(xù)語音識別網(wǎng)格技術(shù)在新聞制播平臺的應用

      2010-08-10 07:47:42張秋野王力劭
      電視技術(shù) 2010年2期
      關鍵詞:音素檢索語音

      張秋野,王力劭,丁 鵬

      (1.中國國際廣播電臺,北京 100040;2.中國科學院自動化所,北京 100080)

      1 引言

      眾所周知,對于視音頻類內(nèi)容,經(jīng)典的檢索方法依賴于前期的內(nèi)容編目過程,針對多媒體信息的元數(shù)據(jù)標引細度決定了多媒體文件日后可被資產(chǎn)化利用的程度?!懊襟w”能夠成為“資產(chǎn)”不僅依賴內(nèi)容的海量性,更重要的是在需要時能夠被低成本、高精度地定位。

      基于音素網(wǎng)絡的連續(xù)語音識別技術(shù)顛覆了經(jīng)典的新聞素材檢索方法。如果僅考慮多媒體數(shù)據(jù)內(nèi)涵而不關心其外延衍生信息,并不需要人工編目標引過程,而是通過對新聞類視音頻伴音進行處理,采用音素網(wǎng)絡技術(shù)提取發(fā)音信息并作為元數(shù)據(jù),這種變革為多媒體新聞制播平臺帶來質(zhì)變,并能夠最大限度提升多媒體素材資產(chǎn)化能力。

      2 非特定人連續(xù)語音識別技術(shù)

      非特定人語音識別常用技術(shù)分為基于有限詞表集合的詞表識別技術(shù)和連續(xù)識別技術(shù)[1]。詞表識別技術(shù)是指對識別結(jié)果在預先給定的有限詞表中進行匹配,根據(jù)置信度來篩選結(jié)果并進行后續(xù)工作,例如語音撥號、信息查詢以及設備聲控等。連續(xù)識別技術(shù)則是將語音段落進行預處理,先將其形成“音素”集合,然后將待識別內(nèi)容轉(zhuǎn)化為“音素”短語,通過語言模型在音素集合中進行類似“全文檢索”式的匹配查找。這種技術(shù)非常適合應用在語音素材檢索領域。

      連續(xù)語音識別技術(shù)一般有3種基本方法:有限集全文識別并匹配關鍵詞方法[2]、關鍵詞加垃圾網(wǎng)絡識別法[3]和音素網(wǎng)絡法[4-5]。只有音素網(wǎng)絡能夠連續(xù)有效地在相對開放的識別集合范圍內(nèi)提供良好的識別結(jié)果。因此,針對信息量大、內(nèi)容靈活的新聞類素材進行檢索的要求來說,該方法是最有效的連續(xù)語音識別方法。

      3 連續(xù)語音識別網(wǎng)格技術(shù)

      3.1 音素網(wǎng)絡識別技術(shù)簡介

      此技術(shù)分為2個階段,第1階段通常稱為索引階段,系統(tǒng)利用音素(音節(jié))特性產(chǎn)生音素網(wǎng)絡;第2階段為檢索階段,根據(jù)相似度在網(wǎng)絡上搜尋關鍵詞。這種技術(shù)的優(yōu)點是更換詞表方便,不需要二次識別,很適合新聞類音頻信息內(nèi)容的識別。

      音素網(wǎng)絡的構(gòu)建就是記錄語音識別過程中間結(jié)果的一種緊湊的表示方式,是1個有向無環(huán)的加權(quán)圖,其中,音素網(wǎng)絡的橫坐標為時間軸,音素網(wǎng)絡上每個節(jié)點表示1個在特定時間結(jié)尾的音素,到達該結(jié)點的邊表示該詞的持續(xù)時間區(qū)間,邊上的權(quán)值為其對應的聲學得分。音素網(wǎng)絡的生成是通過語音識別過程得到的:每搜索到一個音素的尾部,系統(tǒng)就將這個詞記錄到音素網(wǎng)絡結(jié)點中,并且記錄相應的得分和狀態(tài)信息。在音素網(wǎng)絡上每條從起始結(jié)點到終止結(jié)點的路徑,都是一個候選識別結(jié)果,利用音素網(wǎng)絡系統(tǒng)就可以得到很多的識別結(jié)果候選,這些候選都是在搜索的競爭過程中保留下來的[5]。當用戶輸入檢索詞匯時,系統(tǒng)會自動將檢索詞匯轉(zhuǎn)換為音素,并在索引過程中生成的音素網(wǎng)絡上進行搜索,計算聲學得分作為輸出的置信度。

      3.2 連續(xù)語音識別網(wǎng)格構(gòu)建

      綜上所述,采用音素網(wǎng)絡連續(xù)識別技術(shù)需要2個步驟:多媒體信息的識別索引過程和檢索識別過程[6]。由于識別索引是個耗時操作,因此可以采用網(wǎng)格技術(shù)構(gòu)建音素索引集群以構(gòu)成連續(xù)語音識別網(wǎng)格系統(tǒng)(Continuous Speech Recognition Grid,CSRG),從而大規(guī)模提升系統(tǒng)效率。圖1為應用在多媒體新聞直播平臺上典型的CSRG結(jié)構(gòu)拓撲圖。

      圖1 CSRG結(jié)構(gòu)拓撲圖

      3.3 CSRG效率分析

      3.3.1 CSRG系統(tǒng)參數(shù)

      前端的語音信號經(jīng)采集系統(tǒng)通過AD轉(zhuǎn)換形成數(shù)據(jù),然后通過調(diào)度系統(tǒng)經(jīng)CSRG產(chǎn)生音素數(shù)據(jù)集合。從排隊論的觀點來看,新聞素材隨機到達,CSRG構(gòu)成了一個M/M/n的排隊模型,CSRG服務能力參數(shù)為

      式中:λ為新聞素材采集強度,t為新聞素材在CSRG節(jié)點的平均服務時間。

      通過上述CSRG系統(tǒng)參數(shù),可以精確定義CSRG的服務能力,并且可以根據(jù)新聞素材的生成強度來確定CSRG的規(guī)模。因此,CSRG是可控的,如果素材到達強度過大,通過適度追加網(wǎng)格節(jié)點,無限排隊過程是完全可避免的,而且并不需要重建集群,僅需追加少量設備投入。

      3.3.2 CSRG相對于經(jīng)典新聞音視頻檢索方法的優(yōu)勢

      為了對特定短語從新聞視音頻伴音素材庫中進行充分檢索,經(jīng)典方法需要通過人工預聽進行編目標引后產(chǎn)生元數(shù)據(jù),方可進行全文檢索。一般來說,識別檢索環(huán)節(jié)的算法效率與目前主流全文檢索技術(shù)是相同的,因此形成元數(shù)據(jù)所耗費的時間將產(chǎn)生不同檢索技術(shù)間的成本差別。

      設待處理的新聞有x小時,經(jīng)典的人工方法中新聞閱讀的平均語速為每小時μ個字,y個人類工作者,每個工作者記錄每小時內(nèi)容的時間為內(nèi)容時間的λ倍,且每小時平均錄入z個字,則最理想狀態(tài)下采用經(jīng)典方法,x小時的內(nèi)容通過編目轉(zhuǎn)化為文本元數(shù)據(jù)所需要的時間成本(先聽1次進行速記后再進行錄入的時間總和)t1為

      同樣x小時的新聞,CSRG由n個處理單元組成,每個單元處理能力為實際內(nèi)容時長的m倍,則x小時內(nèi)容通過CSRG轉(zhuǎn)化為可識別音素集合的時間成本t2為

      則時間成本比ρ為

      根據(jù)上述公式給出算例如下:目前的計算機設備條件下最優(yōu)的語素網(wǎng)絡識別算法至少可以達到m=1/3[2]。假設工作者記錄內(nèi)容的速度均可達到140字/分鐘(速記員水平),μ=280 字/分鐘[7],則 λ=μ/140=2,z=140 字/分鐘(速錄員水平)。假設CSRG由4個節(jié)點組成,即n=4,為了達到ρ=1,即水平相當,帶入式(9)得y=48。說明為了達到同樣的檢索目的,4節(jié)點的CSRG理論上需要48個人連續(xù)工作方可滿足,如果每個工作者每天只能工作8小時,三班輪換則需要144人可達到4節(jié)點CSRG的服務水平。

      上述結(jié)果是人類工作者在理想的極限條件下計算得到的,實際工作中不可能長時間集中精力進行如此高強度的工作,而且工作過程中的錯誤會高于CSRG,所以CSRG的表現(xiàn)將遠優(yōu)于上述計算數(shù)據(jù)。由此可知,CSRG相對于經(jīng)典多媒體新聞檢索方法具有極大的優(yōu)勢。

      4 CSRG在中國國際廣播電臺(CRI)多媒體新聞制播平臺的應用

      由上述分析可知,CSRG在多媒體新聞制播平臺的應用能夠為其新聞素材帶來更高的資產(chǎn)化水平。因此,CRI在2008年奧運會前搭建的多媒體全業(yè)務新聞處理平臺(以下簡稱“平臺”)上,引進并充分融入了CSRG技術(shù)。

      平臺涉及音頻、視頻、文稿等多種媒體形式的新聞內(nèi)容涵蓋采集、制作、存儲到播出的整體流程,業(yè)務流程之間具有復雜的關系。平臺設計采用云計算模型,內(nèi)部通過信息門戶(SOA)結(jié)構(gòu)模型借助系統(tǒng)(ESB)/媒體(EMB)雙總線及插件式系統(tǒng)實現(xiàn)異構(gòu)系統(tǒng)的在線擴充能力,并且通過企業(yè)信息門戶將所有復雜系統(tǒng)關系屏蔽在云體內(nèi),使用戶可以快速按需獲取功能,輕易享受云計算中軟件即服務(SaaS)特性所帶來的便捷性[8-9]。同時,在整體系統(tǒng)平臺上根據(jù)安全極差進行了多層次網(wǎng)絡受限連接[10],從而提供了靈活而安全的良好動態(tài)系統(tǒng)擴充架構(gòu)。

      在平臺中,平行于視音頻采集系統(tǒng)構(gòu)建了CSRG系統(tǒng),該系統(tǒng)按照SOA架構(gòu)規(guī)范以插件系統(tǒng)方式接入平臺,成為緊密連接平臺的服務模塊。CSRG的連接方法采用帶外方式異步地對所有的新聞視音頻伴音進行索引,并將音素網(wǎng)絡數(shù)據(jù)存入主存儲空間,如圖2所示。

      圖2 CSRG在CRI平臺的應用方式

      伴以關鍵字檢索和全文檢索系統(tǒng)能夠帶來的外延式元數(shù)據(jù)提供,CSRG與其共同組成了企業(yè)信息門戶中強大的綜合檢索門戶,可以讓用戶采用多種手段快速定位到任意需要的多媒體內(nèi)容。通過整體設計結(jié)構(gòu)良好的云計算SaaS特性,用戶使用過程非常簡單,但是能夠獲得強大的資源素材再獲取能力。同時,CSRG的存在使平臺完全杜絕了多媒體新聞制播平臺中任何無效“死數(shù)據(jù)”的產(chǎn)生,使多媒體新聞的利用率和資產(chǎn)化達到了極高水平。檢索門戶界面如圖3所示,采用谷歌式(Google Like)的設計方式,便于用戶使用。

      在支撐2008年奧運會宣傳報道及正式使用一年半的過程中,系統(tǒng)表現(xiàn)穩(wěn)定,能力出色,每日數(shù)據(jù)吞吐量達數(shù)十吉字節(jié),平均用戶訪問量日近百次,對于關鍵字和全文無法獲取的數(shù)據(jù)以及未做編目標引的多媒體新聞素材,CSRG表現(xiàn)了異常出色的檢索效果,并發(fā)峰值在50線程情況下,響應時間在3 s以內(nèi),識別正確率在96%以上,成為多媒體新聞制播平臺的輔助利器。

      圖3 含語音識別檢索的谷歌式綜合檢索門戶界面

      5 小結(jié)

      非特定人連續(xù)語音識別技術(shù)是一種非常具有應用價值的模式識別技術(shù)[11-12],基于音素網(wǎng)絡和網(wǎng)格技術(shù)構(gòu)建的連續(xù)語音識別網(wǎng)格(CSRG)具有極其出色的新聞視音頻伴音搜索特性。經(jīng)過精確分析和充分試驗后,CRI在其多媒體全業(yè)務新聞制播平臺中創(chuàng)新性地引入并可控地應用了CSRG,提高了平臺的檢索應用能力及素材資產(chǎn)化率,獲得了良好的應用效果。

      [1]崔金芳,張雪英,白靜.基于OMAP5912的嵌入式非特定人連續(xù)語音識別系統(tǒng)[J]. 電聲技術(shù),2009,33(9):70-72.

      [2]WEINTRAUB M.LVCSR log-likelihood ratio scoring for keyword spotting[C]//Proc.ICASSP 1995.[S.l.]:IEEE Press, 1995:297-300.

      [3]LIANG Jiaen, MENG Meng, WANG Xiaorui, et al.An improved mandrin keyword spotting system using mce training and contextenhanced verification[C]//Proc.ICASSP 2006.Toulouse,F(xiàn)rance:IEEE Press, 2006:1-7.

      [4]CHELBA C,ACERO A.Position specific posterior lattices for indexing speech[C]//Proc.ACL′05.Ann Arbor, Michigan:[s.n.], 2005:443-450.

      [5]MEMBER K T,SFIDHA S.Rapid and accurate spoken term detection[C]//Proc.ICASSP 2007.[S.l.]:IEEE Press, 2007:346-357.

      [6]RABINER L R, JUANG B H.Fundamentals of speech recognition[M].北京:清華大學出版社,1999.

      [7]孫紅梅.電視新聞播音語速之我見[J].聲屏世界,2004(12):31-32.

      [8]周毅,王力劭.云計算與多媒體綜合業(yè)務制播平臺[J].寬帶互聯(lián)網(wǎng)世界,2009(6):14-20.

      [9]王力劭,周毅.云模型與多媒體全業(yè)務平臺的結(jié)構(gòu)安全特性[J].電視技術(shù),2009,33(10):10-12.

      [10]廣播電臺數(shù)字化網(wǎng)絡工作組.廣播電臺數(shù)字化網(wǎng)絡建設白皮書(2009)[EB/OL].[2008-01-31].http://blog.fjtv.net/UpAttachment/2008-6/200861885613.doc.

      [11]丁昊,姚天任.基于mel標度頻譜和音素分割的漢語語音單詞端點檢測方法[J].計算機與數(shù)字工程,2005(3):57-59.

      [12]江銘虎,袁保宗.一種適應域的漢語N-Gram語言模型平滑算法[J].清華大學學報:自然科學版,1999,39(9):99-102.

      猜你喜歡
      音素檢索語音
      新目標英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
      依托繪本課程,培養(yǎng)學生英語音素意識
      小學英語課堂中音素意識與自然拼讀整合訓練的探索
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      2019年第4-6期便捷檢索目錄
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      ?不定冠詞a與an
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      湘潭市| 兴化市| 宜宾市| 丹东市| 拜泉县| 界首市| 吴堡县| 瑞金市| 崇阳县| 禹州市| 得荣县| 宜州市| 灵川县| 丰都县| 荆门市| 东平县| 桓台县| 太康县| 固镇县| 砀山县| 铜川市| 涪陵区| 彭泽县| 西乌珠穆沁旗| 七台河市| 娱乐| 平果县| 邳州市| 鄂温| 平顺县| 大姚县| 高淳县| 文登市| 昭苏县| 新建县| 潼关县| 沂南县| 中牟县| 伽师县| 托克托县| 尼木县|