王 琳,肖 晴,馬宇飛
(1.中國(guó)電信股份有限公司上海研究院 上海 200122;2.中國(guó)電信股份有限公司上海分公司 上海 200120)
隨著“三網(wǎng)融合”新政下業(yè)務(wù)的不斷發(fā)展,2012年整個(gè)行業(yè)已經(jīng)進(jìn)入智能化時(shí)代,IPTV正經(jīng)受著來自互聯(lián)網(wǎng)電視、移動(dòng)互聯(lián)網(wǎng)等多個(gè)方面的考驗(yàn)。為了保持在視訊領(lǐng)域的技術(shù)領(lǐng)先性,IPTV業(yè)務(wù)需要引入互聯(lián)網(wǎng)中具有用戶影響力的前沿技術(shù)。人機(jī)交互技術(shù),特別是智能語(yǔ)音控制技術(shù),是目前在智能電視、互聯(lián)網(wǎng)電視應(yīng)用的新興技術(shù),該技術(shù)的應(yīng)用不但提升了客戶體驗(yàn),而且有望助力電視界面成為新的用戶信息獲取界面。蘋果、谷歌、微軟等業(yè)界公司都積極地在相關(guān)的產(chǎn)品中引入智能語(yǔ)音控制技術(shù)。
為了適應(yīng)業(yè)務(wù)及技術(shù)的發(fā)展潮流,進(jìn)一步提升IPTV業(yè)務(wù)體驗(yàn),需要通過語(yǔ)音控制技術(shù)為用戶提供更好的人機(jī)交互手段,實(shí)現(xiàn)對(duì)傳統(tǒng)遙控習(xí)慣的改變。本文對(duì)比了現(xiàn)有智能電視語(yǔ)音搜索方案,針對(duì)現(xiàn)狀及需要,提出了一種新的智能電視語(yǔ)音搜索方案,并從智能電視語(yǔ)音搜索提供的業(yè)務(wù)、平臺(tái)功能要求、系統(tǒng)架構(gòu)等方面對(duì)方案進(jìn)行了闡述和分析。
智能電視語(yǔ)音搜索業(yè)務(wù)是指用戶在收看電視時(shí),可以利用語(yǔ)音遙控器或手機(jī)客戶端中安裝的語(yǔ)音控制產(chǎn)品,通過標(biāo)準(zhǔn)普通話對(duì)想要收看的節(jié)目進(jìn)行搜索,完成點(diǎn)播影片、頻道、節(jié)目等操作,使用自然語(yǔ)言理解控制代替遙控器控制,是視頻業(yè)務(wù)的一種新業(yè)務(wù)。
已有越來越多的智能電視開發(fā)語(yǔ)音搜索業(yè)務(wù),如聯(lián)想、TCL、長(zhǎng)虹、海信、三星智能電視以及 XBOX one、Dragon TV等。智能電視語(yǔ)音搜索方案的構(gòu)成主要包括兩個(gè)方面:終端側(cè)對(duì)語(yǔ)音的采集和展現(xiàn)、語(yǔ)音平臺(tái)側(cè)對(duì)語(yǔ)音的識(shí)別和理解。
終端側(cè)對(duì)語(yǔ)音的采集和展現(xiàn)主要包括語(yǔ)音搜索的啟動(dòng)和結(jié)束、語(yǔ)音搜索的交互界面、語(yǔ)音搜索結(jié)果的顯示等,以下將從這幾個(gè)方面對(duì)已有智能電視語(yǔ)音產(chǎn)品的語(yǔ)音使用方式進(jìn)行比較分析。
(1)語(yǔ)音搜索的啟動(dòng)與結(jié)束
智能電視語(yǔ)音搜索產(chǎn)品的語(yǔ)音開啟與關(guān)閉方式主要分為以下3種:
·通過長(zhǎng)按遙控器上的語(yǔ)音按鍵開啟語(yǔ)音功能,如聯(lián)想智能電視;
·通過按一下遙控器上的語(yǔ)音按鍵開啟語(yǔ)音功能,如TCL、長(zhǎng)虹、海信智能電視;
·通過純語(yǔ)音方式開啟語(yǔ)音功能,如XBOX one、Dragon TV、三星智能電視。
3種語(yǔ)音開啟方式的優(yōu)缺點(diǎn)比較見表1。
表1 語(yǔ)音開啟方式比較
(2)語(yǔ)音開啟頁(yè)面
語(yǔ)音搜索功能開啟后,智能電視產(chǎn)品會(huì)出現(xiàn)一個(gè)語(yǔ)音功能啟動(dòng)頁(yè)面,啟動(dòng)頁(yè)面的展現(xiàn)方式主要有以下4種:
·全屏顯示,如TCL產(chǎn)品;
·覆蓋屏幕中間顯示,如海信、長(zhǎng)虹、康佳產(chǎn)品;
·覆蓋屏幕上方顯示,如聯(lián)想產(chǎn)品;
·覆蓋屏幕下方顯示,如Dragon TV、創(chuàng)維、三星、XBOX one、Google TV 等產(chǎn)品。
4種語(yǔ)音開啟頁(yè)面顯示方式的優(yōu)缺點(diǎn)比較見表2。
表2 語(yǔ)音開啟頁(yè)面顯示方式比較
在智能電視產(chǎn)品中,語(yǔ)音功能啟動(dòng)時(shí)部分產(chǎn)品會(huì)出現(xiàn)卡通形象與用戶進(jìn)行模擬對(duì)話,如創(chuàng)維、康佳、長(zhǎng)虹、海信、TCL等產(chǎn)品。有無動(dòng)畫形象的語(yǔ)音頁(yè)面顯示的優(yōu)缺點(diǎn)比較見表3。
表3 語(yǔ)音開啟頁(yè)面動(dòng)畫形象顯示比較
(3)語(yǔ)音錄入后是否確認(rèn)執(zhí)行
智能電視語(yǔ)音搜索產(chǎn)品在語(yǔ)音錄入結(jié)束后,主要采用以下3種方式啟動(dòng)語(yǔ)音搜索的執(zhí)行功能:
·語(yǔ)音錄入結(jié)束后直接執(zhí)行搜索,如Google TV、Dragon TV、XBOX one、三星產(chǎn)品;
·語(yǔ)音錄入結(jié)束等待數(shù)秒后自動(dòng)執(zhí)行搜索,如康佳產(chǎn)品;
·語(yǔ)音錄入結(jié)束后,需先確認(rèn)識(shí)別結(jié)果再執(zhí)行搜索,如TCL、海信、聯(lián)想、長(zhǎng)虹產(chǎn)品。
以上3種操作反饋方式的優(yōu)缺點(diǎn)比較見表4。
(4)語(yǔ)音搜索結(jié)果的顯示
智能電視語(yǔ)音搜索產(chǎn)品在語(yǔ)音搜索的結(jié)果顯示方面,主要分為以下2類:
·覆蓋顯示,如長(zhǎng)虹、聯(lián)想、Dragon TV、三星、海信產(chǎn)品;
·全屏顯示,如康佳、Google TV、TCL產(chǎn)品。
2種語(yǔ)音搜索結(jié)果顯示方式的優(yōu)缺點(diǎn)比較見表5。
表4 語(yǔ)音搜索操作反饋方式比較
表5 語(yǔ)音搜索結(jié)果的顯示方式比較
從上述比較可以看出,語(yǔ)音采集時(shí)操作要相對(duì)方便,界面展現(xiàn)要能保留原先的視頻業(yè)務(wù)并使語(yǔ)音搜索的頁(yè)面不大且操作流暢,同時(shí)應(yīng)減少用戶的交互步驟,能相對(duì)快速地定位到想要搜索的節(jié)目,從而更能吸引用戶使用語(yǔ)音搜索業(yè)務(wù)。
本文設(shè)計(jì)了IPTV智能電視語(yǔ)音搜索產(chǎn)品的流程,如圖1所示,具體介紹如下。
(1)按下語(yǔ)音鍵即可開啟語(yǔ)音功能,從使用上來說,更方便快速,誤操作的成本也比較低,誤操作造成的影響基本可忽略。
(2)考慮到用戶啟動(dòng)語(yǔ)音錄音后,可能還要思考一下再輸入想要觀看的節(jié)目,故預(yù)留10 s的時(shí)間;如超過10 s用戶還未錄入語(yǔ)音,則提示未收到錄音,并退出語(yǔ)音錄音界面。
(3)語(yǔ)音錄音時(shí),啟動(dòng)端點(diǎn)檢測(cè)功能,對(duì)用戶的語(yǔ)音進(jìn)行分析,若檢測(cè)到語(yǔ)音停止,則直接啟動(dòng)語(yǔ)音識(shí)別及搜索功能,可以減少用戶的操作步驟,更符合語(yǔ)音產(chǎn)品快速簡(jiǎn)潔的定位要求。
(4)當(dāng)語(yǔ)音搜索結(jié)果唯一時(shí)直接播放,以減少用戶的操作步驟;若搜索結(jié)果不唯一,則顯示結(jié)果列表,讓用戶對(duì)搜索結(jié)果進(jìn)行選擇。
IPTV智能電視語(yǔ)音搜索的界面如圖2所示,具體介紹如下。
·用戶在觀看IPTV過程中,可以在任意頁(yè)面調(diào)出語(yǔ)音搜索功能,語(yǔ)音搜索界面以半透明的形式疊加在IPTV界面下方,如圖2(a)所示。用戶觀看的節(jié)目保持原來的播放速度,不影響觀看。
·用戶第一次使用語(yǔ)音功能時(shí),會(huì)彈出“幫助”圖示,告知用戶如何使用語(yǔ)音功能,使用戶能更快地掌握語(yǔ)音搜索業(yè)務(wù)的使用技巧,如圖2(b)所示。
·當(dāng)語(yǔ)音搜索有結(jié)果時(shí),搜索結(jié)果以半透明的形式疊加在IPTV界面下方,通過海報(bào)和節(jié)目名稱進(jìn)行呈現(xiàn),方便用戶選擇,如圖2(c)所示。當(dāng)搜索結(jié)果較多時(shí),用戶可以按翻頁(yè)鍵,以對(duì)更多的結(jié)果進(jìn)行選擇。
·當(dāng)沒有搜到用戶想觀看的節(jié)目時(shí),語(yǔ)音平臺(tái)根據(jù)用戶輸入的關(guān)鍵詞進(jìn)行分析,給出推薦的節(jié)目列表,如圖 2(d)所示。
圖1 IPTV智能電視語(yǔ)音搜索產(chǎn)品的流程
圖2 語(yǔ)音搜索界面
語(yǔ)音搜索業(yè)務(wù)到底能搜索到哪些節(jié)目,能聽懂用戶哪些語(yǔ)句,這些都需要語(yǔ)音平臺(tái)提供支持。本方案的IPTV語(yǔ)音平臺(tái)由語(yǔ)音識(shí)別服務(wù)器、語(yǔ)義理解服務(wù)器、IPTV知識(shí)庫(kù)構(gòu)成。用戶輸入的語(yǔ)音音頻先經(jīng)IPTV知識(shí)庫(kù)訓(xùn)練的語(yǔ)音識(shí)別服務(wù)器轉(zhuǎn)換為文本,再通過語(yǔ)義理解服務(wù)器將文本轉(zhuǎn)換為IPTV節(jié)目對(duì)象列表輸出,輸出的結(jié)果由機(jī)頂盒呈現(xiàn)。
(1)語(yǔ)音識(shí)別服務(wù)器
語(yǔ)音識(shí)別服務(wù)器的原理如圖3所示。
與IPTV相關(guān)的語(yǔ)音語(yǔ)料和文字語(yǔ)料分別通過訓(xùn)練形成聲學(xué)模型和語(yǔ)言模型,語(yǔ)音信號(hào)經(jīng)過特征提取后,與聲學(xué)模型和語(yǔ)言模型進(jìn)行比對(duì)并進(jìn)行語(yǔ)言解碼,輸出音頻相對(duì)應(yīng)的文字。
IPTV用戶輸入的語(yǔ)音音頻經(jīng)過語(yǔ)音識(shí)別服務(wù)器轉(zhuǎn)化為音頻對(duì)應(yīng)的文字。語(yǔ)音識(shí)別服務(wù)器可以支持全中文任意語(yǔ)音音頻的輸入,系統(tǒng)可以自動(dòng)將之轉(zhuǎn)化為對(duì)應(yīng)的文字并輸出到語(yǔ)義理解服務(wù)器。
(2)語(yǔ)義理解服務(wù)器
語(yǔ)義理解服務(wù)器的原理如圖4所示。
語(yǔ)音識(shí)別服務(wù)器輸出的文本通過與語(yǔ)義理解系統(tǒng)的句式模板相匹配,對(duì)語(yǔ)音識(shí)別服務(wù)器輸出結(jié)果進(jìn)行糾錯(cuò),同時(shí)提取其中的關(guān)鍵詞,再通過與IPTV相關(guān)的關(guān)鍵詞匹配,輸出對(duì)應(yīng)的節(jié)目列表,并按照特定的排序規(guī)則,輸出最終的節(jié)目列表。該方案采用語(yǔ)義理解服務(wù)器,在解析語(yǔ)音識(shí)別服務(wù)器輸出結(jié)果的同時(shí),還可以對(duì)語(yǔ)音識(shí)別服務(wù)器的輸出結(jié)果進(jìn)行二次糾錯(cuò),從而可以大大提高系統(tǒng)識(shí)別的準(zhǔn)確率。
圖3 語(yǔ)音識(shí)別服務(wù)器的原理
圖4 語(yǔ)義理解服務(wù)器的原理
(3)IPTV 知識(shí)庫(kù)
IPTV知識(shí)庫(kù)的原理如圖5所示。
圖5 IPTV知識(shí)庫(kù)的原理
IPTV知識(shí)庫(kù)主要實(shí)現(xiàn)以下3個(gè)功能:
·從IPTV節(jié)目服務(wù)器上下載節(jié)目信息并進(jìn)行存儲(chǔ);
·對(duì)節(jié)目信息進(jìn)行解析、分類,并提供給語(yǔ)義理解系統(tǒng)進(jìn)行關(guān)鍵詞匹配和節(jié)目列表輸出;
·將節(jié)目信息提煉成文字語(yǔ)料,供語(yǔ)音識(shí)別服務(wù)器訓(xùn)練成語(yǔ)言模型。
本方案將IPTV知識(shí)庫(kù)獨(dú)立于語(yǔ)音識(shí)別服務(wù)器和語(yǔ)義理解服務(wù)器,可以使它在為語(yǔ)義理解服務(wù)器提供IPTV節(jié)目更新庫(kù)的同時(shí),也能為語(yǔ)音識(shí)別服務(wù)器提供最新的訓(xùn)練語(yǔ)料,從而大大提高整個(gè)系統(tǒng)的實(shí)時(shí)性。
本方案的優(yōu)勢(shì)主要體現(xiàn)在以下3個(gè)方面。
·與市面上的智能電視語(yǔ)音控制系統(tǒng)相比,真正實(shí)現(xiàn)了全中文語(yǔ)音的任意輸出以及全量節(jié)目的任意搜索。集成了全中文語(yǔ)言模型的語(yǔ)音識(shí)別引擎,可以針對(duì)任意中文語(yǔ)音輸入進(jìn)行語(yǔ)音識(shí)別,再配合集成豐富句式模板的語(yǔ)義理解引擎,可以從任意句式的文本中提取出業(yè)務(wù)信息。
·語(yǔ)音識(shí)別與自然語(yǔ)義理解技術(shù)相結(jié)合,保證輸出結(jié)果的準(zhǔn)確性。市面上大多數(shù)語(yǔ)音控制電視僅用語(yǔ)音識(shí)別技術(shù)將音頻信息轉(zhuǎn)化為文本結(jié)果,但語(yǔ)音識(shí)別的識(shí)別準(zhǔn)確率與音頻源文件的質(zhì)量關(guān)系很大,并不能保證完全識(shí)別準(zhǔn)確。本方案利用語(yǔ)義理解技術(shù)對(duì)語(yǔ)音識(shí)別的輸出文本進(jìn)行二次糾錯(cuò),大大提高了輸出結(jié)果的準(zhǔn)確性。
·將IPTV知識(shí)庫(kù)獨(dú)立出來,可以同時(shí)服務(wù)于語(yǔ)音識(shí)別系統(tǒng)和語(yǔ)義理解系統(tǒng),大大提高系統(tǒng)增量信息的更新效率。由于IPTV系統(tǒng)的節(jié)目更新時(shí)效性非常高,會(huì)出現(xiàn)很多新節(jié)目,如果不及時(shí)訓(xùn)練到語(yǔ)音識(shí)別平臺(tái)的語(yǔ)言模型中,會(huì)影響語(yǔ)音識(shí)別的準(zhǔn)確率,本方案將集成在語(yǔ)義理解平臺(tái)中的知識(shí)庫(kù)獨(dú)立出來,使它在為語(yǔ)義理解平臺(tái)提供節(jié)目搜索資源的同時(shí),也能建立語(yǔ)音識(shí)別平臺(tái)的訓(xùn)練庫(kù),并對(duì)語(yǔ)音識(shí)別平臺(tái)進(jìn)行實(shí)時(shí)訓(xùn)練,從而大大提高IPTV節(jié)目識(shí)別和更新的效率。
圖6為本文提出的IPTV語(yǔ)音搜索產(chǎn)品的總體系統(tǒng)架構(gòu)。
(1)用戶終端
用戶終端是指在用戶家庭內(nèi)部可以使用的智能終端,主要包括:語(yǔ)音遙控器,具備語(yǔ)音功能的IPTV遙控器,將用戶語(yǔ)音通過麥克風(fēng)進(jìn)行拾取,進(jìn)行A/D轉(zhuǎn)換之后傳給IPTV機(jī)頂盒;IPTV智能機(jī)頂盒,基于Android操作系統(tǒng),集成了中國(guó)電信的IPTV、視頻通信、TV伴侶、應(yīng)用商城等應(yīng)用,其中TV伴侶是語(yǔ)音客戶端內(nèi)集成的語(yǔ)音控制模塊和視頻疊加模塊,用于智能語(yǔ)音功能的實(shí)現(xiàn)和界面展現(xiàn)。
(2)智能語(yǔ)音平臺(tái)
包含語(yǔ)音識(shí)別平臺(tái)、語(yǔ)義理解平臺(tái)、IPTV知識(shí)庫(kù),提供針對(duì)IPTV應(yīng)用的語(yǔ)音識(shí)別客戶端調(diào)用能力,將語(yǔ)音轉(zhuǎn)化為文字并識(shí)別出客戶端傳遞的文字內(nèi)容含義,從而可以被客戶端用來對(duì)機(jī)頂盒進(jìn)行控制。
(3)TV 伴侶平臺(tái)
TV伴侶平臺(tái)是本方案所特有的,主要功能是將IPTV內(nèi)容元數(shù)據(jù)同步給智能語(yǔ)音平臺(tái)中的語(yǔ)義理解服務(wù)器,同步的內(nèi)容元數(shù)據(jù)包含點(diǎn)播內(nèi)容和直播頻道列表以及直播、回看節(jié)目單等IPTV智能語(yǔ)音遙控業(yè)務(wù)所需要的相關(guān)信息數(shù)據(jù)。
圖6 IPTV智能電視語(yǔ)音搜索產(chǎn)品架構(gòu)
IPTV的內(nèi)容每天都在實(shí)時(shí)更新,TV平臺(tái)需要實(shí)時(shí)將IPTV的播放內(nèi)容元數(shù)據(jù)注入語(yǔ)義理解服務(wù)器,從而保證用戶能隨時(shí)搜索到最新的IPTV視頻內(nèi)容和節(jié)目列表。
(4)IPTV 平臺(tái)
IPTV業(yè)務(wù)中提供EPG及流媒體服務(wù)的基本能力平臺(tái)具有EPG導(dǎo)航瀏覽、直播頻道、即時(shí)時(shí)移、菜單時(shí)移等基本業(yè)務(wù)功能。業(yè)務(wù)能力平臺(tái)接收來自于內(nèi)容運(yùn)營(yíng)平臺(tái)的基本業(yè)務(wù)內(nèi)容及服務(wù)打包關(guān)系,當(dāng)業(yè)務(wù)管理平臺(tái)完成內(nèi)容、服務(wù)、產(chǎn)品的打包后,由該平臺(tái)為用戶提供EPG瀏覽及視頻流媒體服務(wù)。用戶在使用業(yè)務(wù)過程中,通過與業(yè)務(wù)管理平臺(tái)的橫向接口完成基本的業(yè)務(wù)鑒權(quán)、訂購(gòu)等操作。
基于以上架構(gòu)的IPTV智能電視語(yǔ)音搜索業(yè)務(wù)已于2013年完成開發(fā),經(jīng)過3個(gè)多月的測(cè)試和優(yōu)化,2014年4月初在上海電信開始試商用。
隨著智能語(yǔ)音產(chǎn)品的全面推廣,語(yǔ)音技術(shù)正逐漸成為智能電視的標(biāo)配。語(yǔ)音識(shí)別技術(shù)面向語(yǔ)音交互控制的需求,還有許多需要完善的技術(shù)點(diǎn),以下兩個(gè)方面的研究需求最為急迫:第一,降噪技術(shù),語(yǔ)音交互控制的場(chǎng)景十分復(fù)雜,依靠硬件降噪的技術(shù)在產(chǎn)品實(shí)際推廣中會(huì)遇到問題,依靠軟件進(jìn)行服務(wù)端降噪及有效控制語(yǔ)音分離技術(shù)顯得非常重要;第二,語(yǔ)言模型實(shí)時(shí)或準(zhǔn)實(shí)時(shí)更新問題,雖然大詞匯量連續(xù)語(yǔ)音識(shí)別解決了目前所需的應(yīng)用問題,但語(yǔ)言模型本身的更新及維護(hù)在實(shí)際業(yè)務(wù)系統(tǒng)中還存在問題,即如何使語(yǔ)音識(shí)別系統(tǒng)適應(yīng)業(yè)務(wù)的發(fā)展,滿足業(yè)務(wù)內(nèi)容變動(dòng)的識(shí)別需求。
伴隨著語(yǔ)音識(shí)別技術(shù)和智能電視的發(fā)展,越來越多的用戶將會(huì)體驗(yàn)到智能電視語(yǔ)音搜索帶來的友好、智能的視頻體驗(yàn)。