近日,搜狗推出一種人機(jī)交互新技術(shù)——唇語識別,這也是業(yè)內(nèi)首個(gè)公開演示的唇語識別系統(tǒng)。通過機(jī)器視覺識別,不用聽聲音,僅靠識別說話人唇部動(dòng)作,就能解讀說話者所說的內(nèi)容。
唇語識別是一項(xiàng)基于機(jī)器視覺與自然語言處理于一體的技術(shù),因此在研發(fā)難度上比語音識別大得多。搜狗首創(chuàng)了復(fù)雜端到端深度神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行中文唇語序列建模,通過數(shù)千小時(shí)的真實(shí)唇語數(shù)據(jù)訓(xùn)練而成。在非特定人開放口語測試集上,搜狗唇語識別系統(tǒng)已經(jīng)達(dá)到60%以上的準(zhǔn)確率,超過Google發(fā)布的英文唇語系統(tǒng)50%以上的準(zhǔn)確率。在垂直場景如車載、智能家居等場景下,搜狗唇語識別系統(tǒng)甚至已經(jīng)達(dá)到90%的準(zhǔn)確率。
當(dāng)國內(nèi)大部分企業(yè)都扎堆聚集在智能語音、圖像識別等領(lǐng)域時(shí),搜狗唇語識別技術(shù)的推出將引領(lǐng)整個(gè)行業(yè)進(jìn)入一個(gè)全新的發(fā)展方向。作為人機(jī)交互的形式之一,未來唇語識別技術(shù)可以輔助語音交互及圖像識別,在日常生活、安防、公益等各個(gè)領(lǐng)域?qū)崿F(xiàn)廣泛應(yīng)用。(陳曲)endprint