百度發(fā)表了其研究的深度語(yǔ)音系統(tǒng)的最新進(jìn)展,表示該系統(tǒng)可以在幾秒鐘之內(nèi)完全克隆任何人的聲音。
深度語(yǔ)音系統(tǒng)是基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的文本轉(zhuǎn)語(yǔ)音系統(tǒng)。在發(fā)出“人聲”之前,該系統(tǒng)需要時(shí)間學(xué)習(xí)錄音素材中的數(shù)據(jù)。第二版的深度語(yǔ)音系統(tǒng)的學(xué)習(xí)時(shí)間需要90分鐘,第三版則把這個(gè)時(shí)間縮短到了30分鐘,而現(xiàn)在,最新版的深度語(yǔ)音系統(tǒng)“克隆”人聲僅需要幾秒鐘。不僅如此,該系統(tǒng)能夠?qū)崿F(xiàn)聲音性別轉(zhuǎn)換,比如將女性的聲音轉(zhuǎn)換為男性的聲音;還能實(shí)現(xiàn)口音轉(zhuǎn)化,如將普通話轉(zhuǎn)化為地方口音。
或許在將來(lái),各種角色扮演游戲中每個(gè)人的角色都能夠發(fā)出和自己一樣的聲音了,讓你有更好的游戲體驗(yàn);或許父母可以讓AI用自己的聲音給孩子讀睡前故事。但也有人會(huì)擔(dān)憂,AI模仿人聲過(guò)于逼真了,我們未來(lái)會(huì)受到更多假新聞的轟炸,比如有人用AI模仿某個(gè)公眾人物的聲音,傳遞假消息。
而且,這樣一來(lái),各種語(yǔ)音鎖還安全嗎?