• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      智慧屏AI人機(jī)交互能力評(píng)價(jià)研究

      2021-08-10 02:25:56
      電視技術(shù) 2021年6期
      關(guān)鍵詞:手勢(shì)語(yǔ)音人工智能

      李 瑋

      (中國(guó)信息通信研究院泰爾終端實(shí)驗(yàn)室,北京 100191)

      0 引 言

      人工智能是引領(lǐng)新一輪科技革命的戰(zhàn)略性技術(shù),是帶動(dòng)產(chǎn)業(yè)升級(jí)、推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展的動(dòng)力引擎。伴隨著5G、移動(dòng)互聯(lián)網(wǎng)、云計(jì)算及物聯(lián)網(wǎng)等技術(shù)和基礎(chǔ)設(shè)施的建設(shè)和成熟,人工智能賦能垂直領(lǐng)域已成為新的產(chǎn)業(yè)趨勢(shì)[1]。以人工智能技術(shù)為代表的人機(jī)交互發(fā)生了革命性發(fā)展,各廠(chǎng)商紛紛搶占智能家居入口進(jìn)行戰(zhàn)略布局,家庭生活中的電視成為人工智能賦能的最佳載體。

      2019年,華為公司首先提出了智慧屏概念并推出了兩款智慧屏產(chǎn)品,將智能語(yǔ)音和AI影像搭載在電視上,并與手機(jī)App賬戶(hù)綁定,實(shí)現(xiàn)更加智能化、友好的人機(jī)交互。隨后,長(zhǎng)虹、聯(lián)想、海爾及榮耀等多個(gè)廠(chǎng)商相繼推出智慧屏產(chǎn)品,成為電視領(lǐng)域新的增長(zhǎng)點(diǎn)和亮點(diǎn)。整體來(lái)看,智慧屏的產(chǎn)品性能和用戶(hù)體驗(yàn)一直在穩(wěn)步提升,尤其是在人工智能、5G及物聯(lián)網(wǎng)等技術(shù)和產(chǎn)業(yè)發(fā)展的趨勢(shì)下,智慧屏必將是智能產(chǎn)品研發(fā)、生態(tài)構(gòu)造及產(chǎn)業(yè)布局的新的突破點(diǎn)和升級(jí)范例。

      1 智慧屏發(fā)展史

      電視的發(fā)展經(jīng)歷了傳統(tǒng)電視、互聯(lián)網(wǎng)電視及智能電視等不同的發(fā)展階段,其發(fā)展特點(diǎn)如表1所示。

      表1 電視的不同發(fā)展階段及其特點(diǎn)

      隨著人工智能、物聯(lián)網(wǎng)以及云計(jì)算等技術(shù)的不斷進(jìn)步,智能電視創(chuàng)新演進(jìn)出了新的產(chǎn)品形態(tài)——智慧屏,推動(dòng)智能家居環(huán)境多種終端的智能人機(jī)交互技術(shù)發(fā)展。通過(guò)更加自然、多模態(tài)的交互控制,消費(fèi)者可以得到更豐富、多形態(tài)及定制化的用戶(hù)體驗(yàn)。

      智慧屏“智慧能力”的提升主要體現(xiàn)在影音質(zhì)感、人機(jī)交互、家居控制以及業(yè)務(wù)場(chǎng)景等方面,其中,消費(fèi)者感知最直接、最明顯的就是人機(jī)交互。除了可以使用傳統(tǒng)的實(shí)體遙控外,智慧屏搭載的智能語(yǔ)音模塊和攝像頭等設(shè)備,為家庭用戶(hù)提供了多模態(tài)的交互能力,如近遠(yuǎn)場(chǎng)語(yǔ)音交互、手勢(shì)交互、多屏協(xié)同以及姿態(tài)識(shí)別等AI交互能力,為用戶(hù)帶來(lái)更加便捷的交互方式,也使得家庭視頻、工作會(huì)議以及AI健身等以智慧屏為載體落地到智慧家庭生活中[2]。

      2 智慧屏AI交互性能測(cè)評(píng)

      本章將著重介紹基于智慧屏的人機(jī)交互技術(shù)測(cè)評(píng)研究,主要包括語(yǔ)音交互和手勢(shì)交互兩大部分。其中,語(yǔ)音交互圍繞語(yǔ)音采集與識(shí)別、語(yǔ)義理解、語(yǔ)音合成與播放以及語(yǔ)音技能等進(jìn)行研究;手勢(shì)交互圍繞手勢(shì)采集、識(shí)別以及基本操控等進(jìn)行研究。

      2.1 語(yǔ)音交互性能

      2.1.1 語(yǔ)音采集與識(shí)別

      智慧屏的人工智能語(yǔ)音服務(wù)可通過(guò)傳聲器或麥克風(fēng)陣列等拾音設(shè)備對(duì)語(yǔ)音、連續(xù)語(yǔ)音進(jìn)行單聲道或多聲道的采集,一般支持8 kHz或16 kHz的采樣率,16 bit及以上的采樣精度,并以PCM、OPUS或SPEEX標(biāo)準(zhǔn)進(jìn)行編碼。對(duì)于連續(xù)性音頻,可采用30 s或60 s為單位進(jìn)行切片分割[3]。智慧屏可對(duì)采集的音頻進(jìn)行語(yǔ)言端點(diǎn)檢測(cè),以便區(qū)分用戶(hù)說(shuō)話(huà)的自然停頓和主觀停止。根據(jù)目標(biāo)用戶(hù)群體的語(yǔ)言習(xí)慣和使用場(chǎng)景,可設(shè)置不同的端點(diǎn)檢測(cè)時(shí)長(zhǎng),從而實(shí)現(xiàn)語(yǔ)音識(shí)別響應(yīng)速度和交互體驗(yàn)友好的平衡。

      智慧屏應(yīng)支持家庭場(chǎng)景下關(guān)鍵詞語(yǔ)音識(shí)別,如影視、音樂(lè)、健康及教育等領(lǐng)域;應(yīng)支持?jǐn)?shù)字、電話(huà)號(hào)碼、中英文混合識(shí)別及多方言(普通話(huà)、閩南語(yǔ)、粵語(yǔ)、四川話(huà)等)識(shí)別;在不同的噪聲環(huán)境中識(shí)別率應(yīng)至少達(dá)到80%,不同噪聲環(huán)境聲壓級(jí)下的識(shí)別率要求如表2所示。

      表2 不同噪聲環(huán)境聲壓級(jí)識(shí)別率

      此外,智慧屏還應(yīng)支持聲紋識(shí)別即說(shuō)話(huà)人識(shí)別,應(yīng)可根據(jù)聲紋識(shí)別的結(jié)果,實(shí)現(xiàn)對(duì)不同身份用戶(hù)的差異化服務(wù),如系統(tǒng)訪(fǎng)問(wèn)權(quán)限和內(nèi)容服務(wù)的權(quán)限等;聲紋識(shí)別錯(cuò)誤拒絕率不應(yīng)大于10%,錯(cuò)誤接受率不應(yīng)大于5%。

      2.1.2 語(yǔ)義理解

      智慧屏語(yǔ)音交互應(yīng)支持對(duì)簡(jiǎn)稱(chēng)、別名、代碼及數(shù)字的理解;支持用戶(hù)表達(dá)錯(cuò)字、缺字及模糊說(shuō)法的容錯(cuò)理解;支持多輪、全雙工對(duì)話(huà)的人機(jī)交互方式;語(yǔ)義理解正確率應(yīng)大于90%。

      語(yǔ)音交互應(yīng)支持查詢(xún)類(lèi)技能,通過(guò)語(yǔ)音播報(bào)加信息展示的形式向用戶(hù)反饋;應(yīng)支持媒資檢索類(lèi)技能,通過(guò)語(yǔ)音播報(bào)加搜索結(jié)果展示的形式向用戶(hù)反饋;應(yīng)支持技能處理遇到異常場(chǎng)景時(shí)通過(guò)語(yǔ)音或者文本展示的形式向用戶(hù)反饋。

      2.1.3 語(yǔ)音合成與播放

      智慧屏語(yǔ)音交互應(yīng)支持離線(xiàn)語(yǔ)音合成,包括中文普通話(huà)和英語(yǔ)語(yǔ)種,宜支持多種方言、多音色合成以及個(gè)性化合成,包括女聲、男聲及卡通等音色,中英文數(shù)字等各種混合音,用戶(hù)自定義讀音和分詞。平均意見(jiàn)得分(Mean Opinion Score,MOS)應(yīng)大于或等于4.0(滿(mǎn)分5.0)。MOS評(píng)估標(biāo)準(zhǔn)如表3所示[4]。

      表3 合成語(yǔ)音MOS評(píng)估標(biāo)準(zhǔn)表

      2.1.4 語(yǔ)音搜索

      智慧屏語(yǔ)音搜索需覆蓋并同步廠(chǎng)商所合作的媒體內(nèi)容提供商和用戶(hù)安裝的第三方應(yīng)用的媒體資源。媒體資源包括但不限于影音、教育、健身、游戲及其他應(yīng)用內(nèi)的資源,影視媒體搜索標(biāo)簽應(yīng)包括名稱(chēng)、主演、上映時(shí)間及類(lèi)型,宜包括季集、導(dǎo)演、簡(jiǎn)介、評(píng)分及熱度等信息;音樂(lè)媒資搜索標(biāo)簽應(yīng)包括名稱(chēng)、歌手、音樂(lè)來(lái)源及類(lèi)型,宜包括地區(qū)、簡(jiǎn)介、評(píng)分及熱度等信息;游戲媒資應(yīng)包括名稱(chēng)和類(lèi)型,宜包括簡(jiǎn)介、評(píng)分及熱度等信息;應(yīng)用媒資應(yīng)包括名稱(chēng)和類(lèi)型,宜包括簡(jiǎn)介、評(píng)分及熱度等信息。語(yǔ)音搜索應(yīng)支持單維度搜索、多維度搜索、對(duì)象關(guān)系搜索、多輪搜索及模糊搜索等。

      (1)單維度搜索。只限定某一個(gè)槽值進(jìn)行搜索,示例如表4所示。

      表4 單維度搜索示例

      (2)多維度搜索。對(duì)多個(gè)槽值進(jìn)行組合搜索,示例如表5所示。

      表5 多維度搜索示例

      (3)對(duì)象關(guān)系搜索。通過(guò)親屬、朋友等關(guān)系進(jìn)行信息搜索,示例如表6所示。

      表6 對(duì)象關(guān)系搜索示例

      (4)多輪搜索。在已經(jīng)包含一個(gè)或多個(gè)槽值的情況下,進(jìn)行槽值新增或替換,示例如表7所示。

      表7 多輪搜索示例

      (5)模糊搜索。搜索無(wú)結(jié)果或者無(wú)具體槽值信息時(shí),結(jié)合語(yǔ)音發(fā)出者的年齡和性別信息進(jìn)行搜索,示例如表8所示。

      表8 模糊搜索示例

      2.1.5 語(yǔ)音與IPTV的交互

      IPTV內(nèi)已經(jīng)有各種成熟的直播、點(diǎn)播、回看及應(yīng)用等內(nèi)容服務(wù),語(yǔ)音能力在進(jìn)行落地時(shí),需要充分考慮與已有內(nèi)容服務(wù)的對(duì)接,滿(mǎn)足用戶(hù)基本的IPTV功能使用需求。

      對(duì)于用戶(hù)基本的頻道選擇,智慧屏語(yǔ)音可提供實(shí)體鍵的語(yǔ)音交互、喚醒語(yǔ)音交互兩種功能之一,用戶(hù)按下遙控器上的語(yǔ)音按鍵或講喚醒指令將智慧屏喚醒,說(shuō)出頻道名稱(chēng)或者頻道編號(hào),智慧屏將進(jìn)入選擇頻道播放畫(huà)面。例如,用戶(hù)對(duì)智慧屏說(shuō)“中央六臺(tái)電影頻道”,智慧屏將直接切換到中央第六頻道進(jìn)行播放。

      此外,用戶(hù)還可以通過(guò)點(diǎn)播實(shí)現(xiàn)操控智慧屏播放相關(guān)視頻的功能。例如,用戶(hù)通過(guò)說(shuō)出音視頻內(nèi)容的名稱(chēng)、主演、類(lèi)型、國(guó)家地區(qū)及年份等信息或這些信息的組合,可以搜索到滿(mǎn)足條件的音視頻內(nèi)容,并可通過(guò)遙控或語(yǔ)音選中目標(biāo),實(shí)現(xiàn)播放。

      2.2 手勢(shì)交互性能

      2.2.1 手勢(shì)采集

      智慧屏應(yīng)支持使用攝像頭模組或具有視頻圖像采集功能的設(shè)備進(jìn)行手勢(shì)信號(hào)采集,以獲取用戶(hù)發(fā)出的手勢(shì)信號(hào),包括支持各種角度的手勢(shì)采集和真實(shí)室內(nèi)光照條件(自然光和燈光等)下的手勢(shì)檢測(cè)[5]。

      2.2.2 手勢(shì)識(shí)別

      智慧屏應(yīng)支持靜態(tài)手勢(shì)(如握拳、OK、數(shù)字等靜態(tài)手勢(shì))識(shí)別,并支持在真實(shí)室內(nèi)光照條件(自然光和燈光等)下的靜態(tài)手勢(shì)識(shí)別,允許存在一定的角度旋轉(zhuǎn);應(yīng)支持動(dòng)態(tài)手勢(shì)識(shí)別,比如手掌張開(kāi)左右揮動(dòng)、手掌從張開(kāi)到并攏等,并支持在真實(shí)室內(nèi)光照條件(自然光和燈光等)下的動(dòng)態(tài)手勢(shì)識(shí)別。靜態(tài)和動(dòng)態(tài)手勢(shì)識(shí)別要求如表9和表10所示。

      表9 靜態(tài)手勢(shì)識(shí)別要求

      表10 動(dòng)態(tài)手勢(shì)識(shí)別要求

      2.2.3 基本操控

      智慧屏手勢(shì)交互應(yīng)可實(shí)現(xiàn)上下翻頁(yè)、返回上級(jí)頁(yè)面等操作;支持通過(guò)手勢(shì)交互實(shí)現(xiàn)確認(rèn)和取消等操作;支持實(shí)現(xiàn)音量加、減、靜音及取消靜音等操作;支持實(shí)現(xiàn)音視頻的播放操控,如播放、暫停、繼續(xù)播放、重放、快進(jìn)及快退等;支持實(shí)現(xiàn)對(duì)設(shè)備的基礎(chǔ)控制操作如打開(kāi)設(shè)置頁(yè)面和關(guān)機(jī)等。

      3 結(jié) 語(yǔ)

      我國(guó)智慧家庭產(chǎn)業(yè)已經(jīng)具備一定的基礎(chǔ),隨著智慧家庭市場(chǎng)容量的日趨擴(kuò)大,國(guó)內(nèi)廠(chǎng)商之間的競(jìng)爭(zhēng)也將越來(lái)越激烈,對(duì)智慧家庭產(chǎn)品的組網(wǎng)通信、個(gè)性化服務(wù)、主動(dòng)交互以及隱私保護(hù)要求都會(huì)變得更高。因此,行業(yè)需不斷突破智慧家庭應(yīng)用服務(wù)相關(guān)技術(shù),提升智慧家庭產(chǎn)業(yè)鏈關(guān)鍵環(huán)節(jié)產(chǎn)品、系統(tǒng)及服務(wù)質(zhì)量,不斷滿(mǎn)足消費(fèi)者的用戶(hù)體驗(yàn)需求,為家用智慧大屏市場(chǎng)拓展發(fā)展空間。

      猜你喜歡
      手勢(shì)語(yǔ)音人工智能
      挑戰(zhàn)!神秘手勢(shì)
      魔力語(yǔ)音
      基于MATLAB的語(yǔ)音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      2019:人工智能
      商界(2019年12期)2019-01-03 06:59:05
      V字手勢(shì)的由來(lái)
      對(duì)方正在輸入……
      人工智能與就業(yè)
      勝利的手勢(shì)
      數(shù)讀人工智能
      小康(2017年16期)2017-06-07 09:00:59
      涞水县| 德州市| 陈巴尔虎旗| 平泉县| 弥渡县| 伊吾县| 体育| 海阳市| 福安市| 闸北区| 高雄市| 电白县| 广宗县| 武鸣县| 兖州市| 宁陕县| 精河县| 绥化市| 阳山县| 增城市| 托克逊县| 靖江市| 信丰县| 长宁县| 台北市| 抚州市| 通江县| 女性| 五大连池市| 丹巴县| 六枝特区| 博湖县| 罗甸县| 巴中市| 砀山县| 九江县| 平安县| 绥中县| 沂源县| 会东县| 张家界市|