聽(tīng)風(fēng)者

2016-10-18 17:39鄭晶敏

第一財(cái)經(jīng) 2016年38期

鄭晶敏

在好萊塢電影《她》中，人工智能系統(tǒng)OS1不僅擁有迷人的聲線，還具備理解人類(lèi)情感的能力。這個(gè)時(shí)而溫柔時(shí)而幽默的人工智能系統(tǒng)，讓男主人公西奧多甚至無(wú)法分清“她”與人類(lèi)的區(qū)別。

盡管現(xiàn)在的人工智能還達(dá)不到電影里以假亂真的程度，但至少讓人工智能理解聲音已經(jīng)成為可能。

來(lái)自麻省理工學(xué)院（MIT）計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的安德魯·歐文斯（Andrew Owens）正在研究一款視頻訓(xùn)練系統(tǒng)（Visually Indicated Sounds，簡(jiǎn)稱VIS）。它通過(guò)學(xué)習(xí)，不僅理解人類(lèi)世界中的聲音，以達(dá)到和物理世界互動(dòng)的效果，甚至，還可以自行模擬出聲音。

在一次實(shí)驗(yàn)中，歐文斯播放了兩個(gè)內(nèi)容相同的視頻。其中一個(gè)視頻的聲音由人工智能系統(tǒng)合成。受試者需要在觀看后分辨出擁有真實(shí)聲音的視頻。結(jié)果顯示，受試者選擇偽造聲音的次數(shù)是真實(shí)聲音的兩倍，尤其是聲音與樹(shù)葉、泥土等室外物體有關(guān)的時(shí)候。

歐文斯的實(shí)驗(yàn)分明是在模仿著名的圖靈測(cè)試。

1950年，英國(guó)計(jì)算機(jī)科學(xué)家艾倫·圖靈曾提出了一個(gè)關(guān)于判斷計(jì)算機(jī)能否思考的實(shí)驗(yàn)。他對(duì)人工智能的定義是：如果一臺(tái)機(jī)器能夠與人類(lèi)對(duì)話而不能被辨別出其機(jī)器身份，那么這臺(tái)機(jī)器具有智能。這個(gè)假設(shè)證明了人工智能的可行性，艾倫·圖靈也因此被稱為“人工智能之父”。只不過(guò)當(dāng)時(shí)的對(duì)話還是使用計(jì)算機(jī)語(yǔ)言，而現(xiàn)在，人工智能已經(jīng)可以用人類(lèi)語(yǔ)言甚至自然聲音直接和人對(duì)話或者傳遞信息了。

人工智能可以通過(guò)多種感官和人類(lèi)世界互動(dòng)，比較容易習(xí)得的是文本和圖像。而關(guān)于如何讓人工智能學(xué)習(xí)聲音的研究，最早是在20年前開(kāi)始的。

神經(jīng)網(wǎng)絡(luò)（Neural Network）—一種模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的計(jì)算模型，曾被用于解決機(jī)器視覺(jué)和語(yǔ)音識(shí)別等問(wèn)題，它們都是很難用基于傳統(tǒng)規(guī)則的編程解決的問(wèn)題。隨著時(shí)間推移，人工智能需要應(yīng)對(duì)更加龐雜的學(xué)習(xí)任務(wù)，人類(lèi)對(duì)它的要求也發(fā)生了變化。這催生了“深度學(xué)習(xí)”算法。比較常見(jiàn)的人工智能在聲音方面的應(yīng)用或許是一些音樂(lè)軟件的聽(tīng)音識(shí)曲功能，它們通過(guò)某一個(gè)音樂(lè)片段找到對(duì)應(yīng)的單曲，這是人工智能對(duì)聲音學(xué)習(xí)能力的初級(jí)表現(xiàn)。

同樣基于“深度學(xué)習(xí)”算法的VIS智能系統(tǒng)則更進(jìn)了一步。在實(shí)驗(yàn)中，歐文斯他們將4.6萬(wàn)種初始聲音制作成1000條有內(nèi)容的視頻。這些聲音由同一根木棍與不同物體以多種方式碰撞產(chǎn)生，從而保證所有的聲音都是用同一個(gè)方式發(fā)出的。研究人員將這些視頻輸入視頻訓(xùn)練系統(tǒng)，“深度學(xué)習(xí)”算法就會(huì)解構(gòu)視頻中的聲音，并分析和記錄不同撞擊下各種音色、音強(qiáng)和頻率的物理特征，比如木棍拂動(dòng)樹(shù)葉的聲音或是木棍敲擊地面的聲音，并存入數(shù)據(jù)庫(kù)中。

隨后，當(dāng)系統(tǒng)再接收到一個(gè)無(wú)聲視頻時(shí)，“深度學(xué)習(xí)”算法就能在觀看視頻后，從這個(gè)數(shù)據(jù)庫(kù)中檢索出和視頻畫(huà)面匹配的各種音色、音強(qiáng)的聲音片段，并制作成一段連續(xù)的音頻。

“如今，人工智能除了要擁有智商，還必須具備情商?！蔽④浾Z(yǔ)音助手小冰項(xiàng)目總負(fù)責(zé)人李笛對(duì)《第一財(cái)經(jīng)周刊》說(shuō)。歐文斯的項(xiàng)目獲得了微軟研究院的資助。其中的關(guān)鍵是要讓系統(tǒng)看懂視頻，也就是說(shuō)，VIS的深度學(xué)習(xí)技術(shù)融合了聲音和視覺(jué)，它知道每一幀畫(huà)面有哪些物體發(fā)生了什么樣的事情，并懂得通過(guò)它們的物理特征匹配相應(yīng)的聲音。包括語(yǔ)音和視頻在內(nèi)的流媒體則是人工智能學(xué)習(xí)中最困難的部分。在以往的學(xué)習(xí)過(guò)程中，人工智能只能單獨(dú)進(jìn)入接受信息或發(fā)送信息的狀態(tài)，但學(xué)習(xí)流媒體時(shí)，接收和發(fā)送兩者需要并存?！熬拖裨诤土硪粋€(gè)人打電話，人工智能真正發(fā)揮了溝通功能?！崩畹颜f(shuō)。

學(xué)會(huì)溝通是人工智能與人類(lèi)建立聯(lián)系的第一步，也是其一切商業(yè)應(yīng)用的基礎(chǔ)。人類(lèi)可以用人工智能幫自己叫外賣(mài)或者播視頻，這在技術(shù)上并不難實(shí)現(xiàn)。但只有當(dāng)它能獲得人的信任，如電影《她》中的OS1一樣，成為與人類(lèi)世界平行的第三極的存在，商業(yè)需求才是穩(wěn)定的。因此“情商”成了人工智能學(xué)習(xí)的另一個(gè)內(nèi)容。

人工智能學(xué)習(xí)聲音的過(guò)程與嬰兒類(lèi)似，都是在頻繁接觸某一物體后找出規(guī)律，然后形成幾種潛在的學(xué)習(xí)方案，最后保留效率最高的一種。不同于嬰兒有意識(shí)地完成學(xué)習(xí)過(guò)程，人工智能完全憑借經(jīng)驗(yàn)學(xué)習(xí)。比如贏了圍棋大師李世石的Alpha Go，其實(shí)并不知道自己在下圍棋。

但這并不妨礙人工智能完成學(xué)習(xí)聲音的任務(wù)。事實(shí)上，在某些領(lǐng)域，人工智能對(duì)聲音的理解程度已經(jīng)超過(guò)了人類(lèi)?！吧疃葘W(xué)習(xí)算法可以通過(guò)聲音判斷物體的形狀和材質(zhì)?！睔W文斯說(shuō)，“比如聽(tīng)到手指與紅酒杯碰撞的聲音，推測(cè)出酒杯里裝了多少紅酒。”智能系統(tǒng)還能準(zhǔn)確把握聲音的音色和波長(zhǎng)，從而精確模擬出不同材質(zhì)物體撞擊時(shí)的細(xì)微差別。在分辨發(fā)聲材料的軟硬程度上，人工智能系統(tǒng)的準(zhǔn)確率達(dá)到67%。不過(guò)，包括VIS在內(nèi)的智能系統(tǒng)在聲音識(shí)別方面仍有局限。目前的智能系統(tǒng)學(xué)習(xí)聲音的方法仍基于視覺(jué)，這就會(huì)對(duì)其學(xué)習(xí)能力帶來(lái)限制。比如，當(dāng)視頻中有物體不規(guī)律地?cái)[動(dòng)卻未發(fā)出聲音時(shí)，系統(tǒng)常常會(huì)做出錯(cuò)誤的判斷。而像風(fēng)聲這類(lèi)幾乎沒(méi)有相應(yīng)視覺(jué)呈現(xiàn)的聲音，智能系統(tǒng)更是無(wú)法察覺(jué)。

“能夠預(yù)測(cè)聲音是人工智能與物理世界互動(dòng)的重要一步?！睔W文斯說(shuō)，他們未來(lái)的研究重點(diǎn)就是讓人工智能系統(tǒng)能模擬出與視覺(jué)聯(lián)系更少的聲音。

如此，這一技術(shù)在商業(yè)上的想象空間就更大了。比如電影中各種非常規(guī)環(huán)境下的聲音，都可以交給機(jī)器來(lái)生成—電影制作者不再需要借助各種道具來(lái)完成音效，一個(gè)人工智能系統(tǒng)就足夠了。另外，如果人工智能系統(tǒng)能夠理解風(fēng)聲，那么在駕駛時(shí)，導(dǎo)航系統(tǒng)還能根據(jù)風(fēng)聲對(duì)周?chē)h(huán)境做一些假設(shè)，以達(dá)到更加安全的駕駛目的?，F(xiàn)在的智能系統(tǒng)基于視頻學(xué)習(xí)，也是出于學(xué)習(xí)成本的考慮，比如VIS學(xué)習(xí)的那1000段視頻中就包含了4.6萬(wàn)種聲音的數(shù)據(jù)。

李笛認(rèn)為，人工智能會(huì)學(xué)習(xí)是一回事，更重要的是能否在極少量數(shù)據(jù)輸入的情況下學(xué)習(xí)?！鞍凑宅F(xiàn)在的技術(shù)，拿過(guò)億的數(shù)據(jù)去訓(xùn)練機(jī)器已經(jīng)不是難事，難的是我教它兩下教它三下它就會(huì)了?！边@也是技術(shù)公司在不斷嘗試解決的問(wèn)題。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

聽(tīng)風(fēng)者