馮韻浩
在即時(shí)通信軟件中遇到好友凡是涉及代付、借錢、刷單等的消息,通常會(huì)第一時(shí)間想到對(duì)方是不是給盜號(hào)了,沒辦法,職業(yè)習(xí)慣所致。而本人驗(yàn)證的方式,都是讓對(duì)方先發(fā)條語音來證明是他本人,然后再來談要辦的事兒。
可是,隨著技術(shù)的的發(fā)展,語音也變得不可靠起來了,現(xiàn)在的技術(shù)已經(jīng)可以很好地模擬人聲,讓憑借語音識(shí)別身份真?zhèn)畏绞揭沧兊貌豢煽科饋?,這里就來談一下語音模仿,再來看看已經(jīng)進(jìn)入大眾使用的人聲模擬讀書應(yīng)用效果到底如何。
一則新聞敲響警鐘,語音來了也要分真假
前段時(shí)間,廣東的孫女士稱自己的微信被盜了,騙子利用她的微信向其好友借錢。孫女士的好友也很警覺,提出要語音核實(shí)其身份,沒想到騙子還真發(fā)過去一條語音,內(nèi)容就四個(gè)字:“是我是我。”對(duì)方一聽,確實(shí)是孫女士的聲音,于是就轉(zhuǎn)了錢,進(jìn)了騙子的圈套。無獨(dú)有偶,河南許昌的魏先生,近日也被騙子用同樣的手法,騙走了500塊錢。
為啥已經(jīng)通過語音確認(rèn)了是好友的聲音,還是被騙了呢?其原因是目前雖然已經(jīng)有人聲克隆模擬的技術(shù),不過還沒達(dá)到大眾都能使用的地步,估計(jì)騙子可能用了語音復(fù)制技術(shù),從被盜用戶的語音歷史中提取有效信息加以利用?;蛘呤孪忍砑恿嗽摫槐I用戶,然后誘惑該用戶使用語音進(jìn)行聊天,接著使用某加強(qiáng)版微信直接轉(zhuǎn)發(fā)語音。
而這些只是基礎(chǔ)的語音詐騙,如果人聲可以模擬,那就嚴(yán)重的多了,但是目前人聲模擬技術(shù)已經(jīng)出現(xiàn)了。雖然不知道有沒有諜戰(zhàn)大片那種將變聲器貼在頸部就能達(dá)到完美變聲的科技,但是使用電腦來模擬人聲的技術(shù)被開發(fā)出來了。
要談?wù)劼曇艨寺。覀兿葋砜纯丛缫褜?shí)現(xiàn)的變聲技術(shù),現(xiàn)在變聲技術(shù)已經(jīng)在許多即時(shí)通信軟件中得以應(yīng)用,通過變聲功能,可以把用戶的聲音由男聲變?yōu)榕暽踔磷兂商}莉音,不過這些變聲效果都比較的生澀,比較容易被識(shí)別出是經(jīng)過變聲的。
聲音克隆技術(shù)出現(xiàn)惟妙惟肖以假亂真
而聲音克隆技術(shù)則有了進(jìn)一步的發(fā)展,最終的效果就是可以完全地模擬某個(gè)人的聲音,在不見面的情況下,都無法分辨哪個(gè)是本人發(fā)音,哪個(gè)是機(jī)器模擬出來的聲音。
現(xiàn)在的技術(shù)已經(jīng)可以通過AI算法來生成人的全套語音,人工模擬出來的語音甚至連憤怒、高興等不同語氣情緒都能夠做到惟妙惟肖,足以以假亂真。那模擬人聲是否需要很多素材?非也,所需要的材料也僅僅只需要被生成者的幾段話而已。
開發(fā)這項(xiàng)技術(shù)的是谷歌2016年在加拿大蒙特利爾大學(xué)建立的人工智能實(shí)驗(yàn)室(MILA)?;诼曇艉铣杉夹g(shù),MILA在
2017年4月份成立了Lyrebird公司。Lyrebird是一種名為琴鳥的鳥類,這種鳥具有一種特殊的天賦,它不僅能模仿多種其他鳥類的聲音,它幾乎還能模仿一切聽到的聲音。
在其網(wǎng)站DEMO部分,可以聽到官方合成的足以以假亂真的特朗普以及奧巴馬的聲音,而美國那邊也有記者用機(jī)器合成的句子跟家里人打電話做實(shí)驗(yàn),他的母親完全分不清楚真假。
之所以能產(chǎn)生如此高還原度的合成聲音,背后的技術(shù)正是神經(jīng)網(wǎng)絡(luò)(Neural Network)和機(jī)器學(xué)習(xí)(Machine Learning)。神經(jīng)網(wǎng)絡(luò)模擬電信號(hào)在人腦神經(jīng)元之間的傳遞過程,對(duì)輸入數(shù)據(jù)進(jìn)行處理。它利用分層的神經(jīng)元,從大量樣本數(shù)據(jù)中總結(jié)出共同特征。第一個(gè)用神經(jīng)網(wǎng)絡(luò)來生成人類自然語音的,就是DeepMind的WaveNet。沒錯(cuò),就是那個(gè)做AlphaGo公司。
WaveNet可以把PS痕跡明顯的機(jī)器語音,轉(zhuǎn)換成更加流暢自然的語音,與人類聲音之間的差異大幅降低,目前在特殊視頻界做的風(fēng)生水起。而Lyrebird則更進(jìn)一層,他可以基于音色、音調(diào)、音節(jié)和停頓等多種特征,來定義某個(gè)人的聲音,然后生成更加擬真的聲音。
而琴鳥公司的AI使用了一種全新的語音合成系統(tǒng),能在“傾聽”過程中“掌握”每個(gè)人說話時(shí)字母、音位和單詞的發(fā)音特點(diǎn),通過推理并模仿這個(gè)人聲音中的情感和語調(diào),“說”出全新的語句。
新系統(tǒng)使用模仿人腦思維的算法創(chuàng)建出一種人工神經(jīng)網(wǎng)絡(luò),能利用深度學(xué)習(xí)技術(shù)將所聽到的轉(zhuǎn)換成語音,并僅靠任何人1分鐘講話內(nèi)容,就能完全模仿這個(gè)人說話。
從以上內(nèi)容可以知道,目前只需要拿到技術(shù)人員足夠多的語音素材,就能通過機(jī)器學(xué)習(xí)的方式,進(jìn)而達(dá)到模擬指定人物的講話效果,模擬出來的聲音還惟妙惟肖的。到這個(gè)技術(shù)普及的時(shí)候,黑客們就可以利用該技術(shù)模仿指定人物的聲音來任意的合成他想要說的話。這樣一來。利用語音驗(yàn)證來看看是不是本人的方式將變得越來越不可靠,好在目前這個(gè)技術(shù)尚處于實(shí)驗(yàn)室階段,沒有被普及。
能克隆語音的APP
目前,國內(nèi)也有幾個(gè)類似的語音模仿應(yīng)用,利用它用戶可以用自己喜歡的聲音來進(jìn)行聽書,比如可以用女神那誘人的聲音來幫你念讀小說,用喜歡的人聲來念讀喜歡的小說,動(dòng)聽的聲音讓聽書也成了一種享受。
其中一款手機(jī)應(yīng)用叫《訊飛閱讀》,沒錯(cuò),就是那個(gè)擅長語音識(shí)別的科大訊飛旗下的一款手機(jī)端閱讀APP。
還有具有類似功能的APP是《迅雷閱讀》,主打的功能是聽書,用戶可以用聆聽的方式來欣賞小說,閉上眼睛,聽著自己喜歡的小說,養(yǎng)養(yǎng)精神是個(gè)不錯(cuò)的事兒。
《訊飛閱讀》是一個(gè)小說閱讀工具,用戶可以用它來閱讀小說。跟其它小說閱讀器不同,《訊飛閱讀》可以使用許多主播的聲音來進(jìn)行念誦,有許多風(fēng)格不同的主播,也有各種的方言主播(也就是說,可以用多種方言來聽書),用主播的聲音來聽書,調(diào)好語速,就能大大地減少那種機(jī)器發(fā)音的生澀感,達(dá)到模擬人讀書的效果。
而在這里要說的就是《訊飛閱讀》的“聲音復(fù)刻”功能,利用該功能,可以把自己或者你喜歡的人的聲音進(jìn)行復(fù)刻,然后就可以用該聲音來進(jìn)行念誦了。那么,復(fù)刻出來的聲音像不像呢?使用時(shí)《訊飛閱讀》會(huì)錄音進(jìn)行上傳,按照APP的提示錄制10段語音念誦信息后,就會(huì)進(jìn)入人聲復(fù)刻階段,《訊飛閱讀》會(huì)在服務(wù)器端進(jìn)行語音的識(shí)別分析模擬,等分析模擬完畢后,就可以用該聲音來進(jìn)行小說的念誦了。
模擬出來本人的聲音,有70 %~80 %的相似度,發(fā)給幾個(gè)朋友聽也說比較的像。但是仔細(xì)聽還是有點(diǎn)機(jī)器發(fā)音的那種停頓感,還是可以分辨出來的,而且用自己的聲音來聽書,感覺也有些怪。
警惕聲音復(fù)刻自己聲音也要保護(hù)好
總之,利用這個(gè)功能或者說技術(shù),可以在文本文件中輸入任意的文字內(nèi)容,然后在《訊飛閱讀》中導(dǎo)入該文件,就可以用復(fù)刻的聲音以語音形式來進(jìn)行念誦該文件里的文字了,這也提醒了用戶,不要把自己復(fù)刻的聲音隨便傳播。
好消息就是,當(dāng)前類似這種“聲音復(fù)刻”的功能,需要事先收集用戶說念誦出來的指定的幾段文字后才能進(jìn)行聲音的復(fù)刻。而不是隨便地收集任意幾句話就能進(jìn)行聲音的復(fù)刻操作,這在一定程序上保障了用戶的語音安全。
隨著技術(shù)的發(fā)展,特別是AI人工智能的加入,人聲的模擬變得越來越簡單,只要收集足夠多的個(gè)人聲音素材,然后對(duì)個(gè)人說話方式、聲調(diào)語調(diào)進(jìn)行深入分析,再利用計(jì)算機(jī)語音合成,就可以模擬出個(gè)人真人的發(fā)音,隨著技術(shù)的發(fā)展,模擬出來的人聲將越來越難分辨真假。所以不要憑借短短的一段語音來確認(rèn)對(duì)方,可以通過視頻一下或者打個(gè)電話確認(rèn)一番,小心為上總是好的。
人們常說的眼見為實(shí)中包括的圖片、視頻,其中圖片早已可以用PS改的以假亂真,而視頻也可以通過深度學(xué)習(xí)技術(shù)來嫁接人頭,眼見也未必屬實(shí)了!這就再次提醒大家,在互聯(lián)網(wǎng)時(shí)代要更加注意保護(hù)自己的隱私信息。