對于數(shù)百萬失聰者來說,唇讀可以提供一個(gè)與外界交流的窗口。但這種做法很難,結(jié)果也往往不準(zhǔn)確?,F(xiàn)在,研究人員編寫了一種新的人工智能(AI)程序,其性能優(yōu)于專業(yè)的唇讀者,且錯(cuò)誤率僅為之前最佳算法的一半。
“這是一項(xiàng)了不起的工作?!蔽磪⑴c該研究的英國倫敦瑪麗皇后大學(xué)計(jì)算機(jī)科學(xué)家Helen Bear說。
編寫可以閱讀唇語的計(jì)算機(jī)代碼令人抓狂。因此,在新研究中,科學(xué)家向機(jī)器學(xué)習(xí)“求助”,讓計(jì)算機(jī)從數(shù)據(jù)中學(xué)習(xí)。他們?yōu)樵撓到y(tǒng)提供了數(shù)千小時(shí)的視頻和抄寫本,并讓計(jì)算機(jī)自己解決這個(gè)問題。
該項(xiàng)目始于14萬小時(shí)的YouTube視頻,視頻展示了人們在各種情況下進(jìn)行的交談。然后,研究人員設(shè)計(jì)了一個(gè)程序,通過每個(gè)音素或單詞聲音的嘴部動(dòng)作創(chuàng)建幾秒鐘的剪輯,并帶有標(biāo)注。該程序過濾掉了非英語語音、非講話者面孔、低質(zhì)量視頻和未直接拍攝的視頻。然后,他們裁剪了講話者嘴巴周圍的視頻。這樣產(chǎn)生了近4000個(gè)小時(shí)的錄像,包括超過12.7萬個(gè)英文單詞。
此外,該過程部分依賴于神經(jīng)網(wǎng)絡(luò)。AI算法包含許多連接在一起的簡單計(jì)算元素,這些元素以類似人腦的方式學(xué)習(xí)和處理信息。當(dāng)研究人員為該系統(tǒng)提供未標(biāo)記的視頻時(shí),這些網(wǎng)絡(luò)會裁剪嘴巴動(dòng)作片段。系統(tǒng)中的下一個(gè)程序也使用了神經(jīng)網(wǎng)絡(luò),為每個(gè)視頻幀提供了可能的音素列表及其概率。最后一組算法將可能的音素序列進(jìn)行整理,并生成了英語單詞序列。
經(jīng)過訓(xùn)練,研究人員用它之前沒有看過的37分鐘的視頻測試了該系統(tǒng)。他們在發(fā)布于arXiv網(wǎng)站的論文中報(bào)告說,單詞錯(cuò)誤率僅為41%。
這個(gè)成績可能聽起來并不怎么樣,但之前最好的算法——專注于單個(gè)字母而不是音素——的錯(cuò)誤率為77%。在同一項(xiàng)研究中,專業(yè)唇讀者的錯(cuò)誤率為93%(盡管在現(xiàn)實(shí)生活中他們能參考語境和肢體語言,這有助于讀唇)。這項(xiàng)工作由總部位于倫敦的人工智能公司DeepMind完成,但該公司拒絕就這一記錄發(fā)表評論。