5月中旬,搜狗CEO王小川在“搜狐科技5G&AI峰會”期間的主題演講上正式發(fā)布了最新一代搜狗AI合成主播—全球首個手語AI合成主播“小聰”?!靶÷敗被谒压返腁I分身技術(shù),如果得到普遍的應(yīng)用,將能夠幫助聽障人士更好融入社會,更好享受數(shù)字化生活。
“搜狗AI開放平臺”援引世界衛(wèi)生組織發(fā)布的數(shù)據(jù)表示,全球聽力障礙人群高達(dá)4 66億,在我國則有2700萬人;因無法常態(tài)化、高質(zhì)量地接受資訊信息,很多聽障人士難以融入社會,最終成為被遺忘和邊緣化群體。
目前,在以電腦、手機為載體的各類新聞資訊、文化娛樂節(jié)目中引入手語的少之又少,引入真人來進(jìn)行手語解說從人力、財力、效率和精力多個角度來看都很難實現(xiàn)。通過技術(shù)手段實現(xiàn)聽障人士真正可懂的手語播報能力,對于幫助聽障者克服溝通障礙、更好融入社會非常有價值?!靶÷敗卑l(fā)布后,未來更多電視節(jié)目、網(wǎng)絡(luò)綜藝等即可低成本、普遍化地方便聽障人士收看。
據(jù)介紹,“小聰”以打造聽障人士真正可懂的通用手語播報為目標(biāo),立足于搜狗領(lǐng)先的數(shù)字人技術(shù)體系——搜狗分身,集成了超寫實3D數(shù)字人建模、機器翻譯、多模態(tài)數(shù)字人生成、遷移學(xué)習(xí)、宴時面部動作生成及驅(qū)動等多項領(lǐng)先AI技術(shù),實現(xiàn)了超寫實3D數(shù)字人自然可懂的手語主播能力,使機器可以基于輸入口語文本生成逼真度高、手語表達(dá)準(zhǔn)確的3D數(shù)字人視頻內(nèi)容,從而具備“超寫實的逼真數(shù)字人效果”“高可懂度的手語表達(dá)能力”“高接受度的手語展現(xiàn)效果”三大特點。
在手語表達(dá)方面,“小聰”基于《國家通用手語詞典》,能夠?qū)崿F(xiàn)健聽人語言與聽障者手語語言的機器翻譯能力,基于輸入的健聽人語言能夠低延遲生成高準(zhǔn)確率的手語語言表征,通過搜狗分身的多模態(tài)生成技術(shù),實時預(yù)測生成對應(yīng)的超寫實3D數(shù)字人驅(qū)動參數(shù),進(jìn)而快速生成數(shù)字人手語播報視頻,在測評中可懂度可以達(dá)到85%以上,能有效幫助聽障者克服理解障礙,達(dá)成信息有效傳遞。