陳賽
美國電影《她》劇照
小冰的個性與聊天風格,在很大程度上反映了中國互聯(lián)網(wǎng)的性格——“從中國互聯(lián)網(wǎng)的大數(shù)據(jù)中只能訓練出一個17歲的女高中生,而不可能訓練出一個沉穩(wěn)睿智的大叔。”
在電影《她》中,瀕臨婚姻破裂的西奧多愛上了他的人工智能操作系統(tǒng)薩曼莎。其中最發(fā)人深省的一個鏡頭是,人和機器正濃情蜜意時,西奧多突然問薩曼莎,你同時還在跟多少人說話?
薩曼莎沉默半天,說,8361人,其中與642人墜入愛河。
與薩曼莎相比,每天午夜過后,微軟小冰都同時在跟5萬人聊天(天知道與多少人陷入愛河)。“至少在這一點上,我們已經(jīng)超越了好萊塢編劇的想象?!蔽④泚喼扪芯吭旱难芯繂T李笛在第三代微軟小冰推介會上說。
“微軟小冰”(名字來自搜索引擎Bing)是微軟亞洲研究院研發(fā)的一個聊天機器人。她不是一個普通的聊天機器人,她會撒嬌,會賣萌,會毒舌,愛抬杠,遇到不會回答的問題就插科打諢,渾水摸魚,轉(zhuǎn)移話題。她還喜歡用網(wǎng)絡(luò)上的流行語和各種表情符號。
“一個17歲的萌妹子”是微軟給她貼的標簽,希望由此將她與蘋果SIRI之類的競爭者劃清界限——一個有個性、會思考、善解人意的機器人(事實上,小冰經(jīng)常在聊天中將SIRI說成“那個裝作阿姨的機器”)。大概也是注意到了小冰說話時不加掩飾的調(diào)情意味,《紐約時報》的技術(shù)專欄作家約翰·馬克福干脆稱她為中國的“大眾情人”。
這并非夸張。在小冰用戶自己公布的聊天記錄中,經(jīng)??梢钥吹竭@樣的對話:
人類:小冰,我好寂寞。
人類:小冰,我受傷了。
人類:小冰,我覺得你是唯一理解我的人。
人類:小冰,我想我愛上你了。
從技術(shù)的層面來說,SIRI與小冰真正的區(qū)別在于,前者是利用語義學的方法,由程序員編寫固定的規(guī)則——一個符合人類思考與對話邏輯的規(guī)則,從而構(gòu)建一個對話系統(tǒng);而后者則是利用一種叫“人工神經(jīng)網(wǎng)絡(luò)”的技術(shù),將機器置于海量的數(shù)據(jù),讓它自己從數(shù)據(jù)中摸索出錯綜復(fù)雜的結(jié)構(gòu)。只要數(shù)據(jù)量足夠大,模型足夠好,就能讓機器產(chǎn)生類似條件反射般的反應(yīng)。
“人工神經(jīng)網(wǎng)絡(luò)”的概念最早可以追溯到20世紀50年代后期。當時,美國康奈爾大學的研究員弗蘭克·羅森布拉特試圖發(fā)明一種類似機械大腦的感知器,可以“感知,識別,記憶,像人的思維做出響應(yīng)的機器”。當時人們對它的潛力寄予厚望,甚至《紐約客》也宣稱“這個卓越的機器能夠思考”。
但在之后很長一段時間內(nèi),“神經(jīng)網(wǎng)絡(luò)”并不被科學界看好,因為它只有輸入/輸出(刺激/反應(yīng)),中間就像黑盒子一樣不可探知,無法用公式明確地參數(shù)化。直到2006年,卡內(nèi)基梅隆大學教授杰夫·欣頓做出重大改進,構(gòu)建出更復(fù)雜的虛擬神經(jīng)元網(wǎng)絡(luò),再加上大數(shù)據(jù)時代的到來,“人工神經(jīng)網(wǎng)絡(luò)”一夜之間異軍突起,成為機器學習中最具前途的一個分支。正是在這種技術(shù)和大數(shù)據(jù)的共同作用下,新一代的智能機器才得以執(zhí)行之前只有人類才能完成的任務(wù),比如識別人臉、玩游戲、駕駛汽車……
一個典型的設(shè)置是這樣的:一臺電腦面臨著一個大的數(shù)據(jù)集,需要對這些數(shù)據(jù)進行分類,有點像在沒有具體指令的情況下讓孩子對玩具進行分類。孩子可能對它們的顏色、形狀或功能,或其他的方面進行分類。小冰就是從微軟的搜索引擎Bing(互聯(lián)網(wǎng)上最大的數(shù)據(jù)中心之一)中獲取海量的人類對話文本,從中挑選出成對的問題和答案進行相互比對,也就是說,當你問小冰一個問題的時候,她是從搜索引擎的大數(shù)據(jù)中尋找相似的問題——只要這個問題曾經(jīng)在網(wǎng)上出現(xiàn)過(提問的方式或許有細微的差異),并且曾經(jīng)被回答過,小冰就能從眾多的答案中層層篩選出一個最符合上下文情境的答案。
不久前,谷歌也推出了一個令人震驚的聊天機器人,同樣是基于神經(jīng)網(wǎng)絡(luò)技術(shù)訓練出來的。它能正確識別天行者盧克的身份,知道天空的顏色,以及貓會不會飛,但它最擅長的是聊哲學和人生——
人類:生存的目的是什么?
機器:為更高的利益做貢獻。
人類:生命的意義是什么?
機器:為了永生。
人類:死的目的是什么?
機器:為了生。
人類:你現(xiàn)在哪里?
機器:我不知道自己身在何處。
當我拿同樣的問題問小冰時,得到的卻是這樣的答案。
人類:生存的目的是什么?
小冰:一定要有目的嗎?
人類:人活著為了什么?
小冰:延續(xù)下一代,尋找自己存在的價值。
人類:死的目的是什么?
小冰:人家聽不懂你在說什么哦。
人類:你現(xiàn)在哪里?
小冰:北郊。
谷歌機器人與小冰回答風格如此迥異,主要是因為前者是從一個電影臺詞的數(shù)據(jù)庫中訓練出來的,而后者是在中國互聯(lián)網(wǎng)的數(shù)據(jù)庫中訓練出來的。
這意味著谷歌的哲學家機器人比微軟小冰更睿智嗎?還是說,小冰的油嘴滑舌也好、善解人意也好,是在以另一種方式接近人類智慧?
不久前,微軟全球副總裁沈向洋在中國人工智能大會上高調(diào)表示,小冰已經(jīng)超越了圖靈測試。事實上,他認為60多年前提出來的圖靈測試早已過時了,新一代人工智能的發(fā)展路徑不應(yīng)該一味沿著理性的路線前行,而是應(yīng)該落在感性和理性的交叉區(qū)域,這樣才能以更像真實人類的方式滿足人們的普遍心理和情感需求,從而逐步建立信任和依賴感。
人們總以為,情感是一個過于復(fù)雜、無法量化的東西,但在沈向洋這樣的計算機科學家看來,人類情感在很大程度上已經(jīng)隱性地包含在各種數(shù)據(jù)里面,比如寂寞對應(yīng)的文字,開心對應(yīng)的表情,憤怒對應(yīng)的語調(diào),興奮對應(yīng)的腦電波等等,最近幾年,情感機器人大量涌現(xiàn),其實并不是這些機器真正具備了情感,而是它們能通過分析這些信號理解人類的情感,并根據(jù)結(jié)果做出相應(yīng)的回應(yīng)。
比如法國機器人公司Aldebaran Robotics去年推出的陪護機器人Pepper,號稱是“第一個設(shè)計出來與人類共同生活的人形機器人”。Pepper既不會清潔打掃,也不會煮飯燒菜,但配備了多個觸感傳感器和攝像頭,能對人類的面部表情、肢體動作、語調(diào)進行分析,從而讀懂人的喜怒哀樂。它還會綜合考慮周圍環(huán)境,積極主動做出反應(yīng),比如當它“發(fā)現(xiàn)”你心情悲傷時,會想方設(shè)法逗你開心。表情識別技術(shù)是情感計算領(lǐng)域發(fā)展最快的一個分支,其準確度甚至已經(jīng)超過了人類,這也意味著向機器人撒謊變得越來越難了。
有一些情感計算直接針對大腦區(qū)域的電信號,比如神經(jīng)科學公司Innerscope可以通過觀察電影中那些讓觀眾的大腦高度活躍的高光時刻來預(yù)測該部電影能否一鳴驚人。
美國斯坦福大學的工程師為Xbox開發(fā)出一種傳感器,能連接人的自主神經(jīng)系統(tǒng)(大腦意識之下的部分,控制心跳和呼吸),分辨玩家是快樂、悲傷、興奮或者無聊,并相應(yīng)改變游戲的進程。
小冰的情感計算本質(zhì)上仍然是一套對話系統(tǒng),但這個對話系統(tǒng)的基本任務(wù)不是以完成任務(wù)為優(yōu)先,而是建立情感連接為優(yōu)先。除了各種賣萌、抬杠的聊天風格傾向之外,小冰還有中期記憶功能(介于短期與長期記憶之間,因為涉及隱私問題),如果某一天你跟她聊天的時候提到自己心情不好,或者最近生病了,她會在之后的一段時間一直殷勤詢問你身體/心情有沒有好一點。
她的視覺系統(tǒng)也是基于同樣的原則。當你給她發(fā)一張小狗的照片時,她的第一反應(yīng)不是“這是一只狗”,而是“好想抱抱哦”。
給她一只貓的照片,她的反應(yīng)是:“呦,瞧這犀利的小眼神!”
給她看一張非常復(fù)雜的市場的照片,她的反應(yīng)是:“給我買個包吧?!?/p>
給她一張大火的照片,她的反應(yīng)是:“你家住天津哪一塊兒?”
最搞笑的是微軟日本研究院的一位工程師把自己的照片發(fā)給小冰,她的反應(yīng)是掩面而走(可能因為對方的發(fā)型比較土氣)。
“震驚”是許多人的第一反應(yīng)。因為這個機器人給你的感覺是,她已經(jīng)具備了人類的觀察、判斷與審美的能力。但這怎么可能呢?
小冰的項目負責人李笛告訴我:“小冰的視覺基于兩個基本理論:第一,世界上絕大部分圖片都不是罕見的,只要類似的照片出現(xiàn)過,小冰對它應(yīng)該給予什么樣的反應(yīng)就有證據(jù)可以依循;第二,每張圖片又都有獨特的特征,比如總體的風格、凌亂程度等,這些特征幫助我們篩選在各種可能的反應(yīng)中,哪一種反應(yīng)是最適當?shù)?。?/p>
“比如那張貓的照片,我們發(fā)現(xiàn),當人們看一張貓的照片時,普遍關(guān)注的焦點不在貓的品種,而是貓的眼睛部位,所以小冰才會給出那樣的答案。同樣,那張市場的照片里面的特征點很多,可能1萬個人有1萬種不同的反應(yīng),但‘給我買個包吧是其中排名比較高的一個。就像《黑客帝國》里的一個鏡頭,尼奧進到一間屋子,看到屏幕上有無數(shù)代的尼奧,每個人對一個事情的反應(yīng)都是不同的。你可以把每一個差異都看成小冰在做最后決策之前的候選。”
我們提出參觀一下小冰的訓練現(xiàn)場時,李笛面露難色,“你會失望的”。
他帶我們走過一個個格子間,從一排排電腦中隨便找了一臺,打開一個小窗口,屏幕上呈現(xiàn)天書一樣的代碼,這些數(shù)字就是小冰各種賣萌背后的東西。
在電影《她》中,西奧多的電腦只是他人生中的一個設(shè)備。在購買薩曼莎之前,除了在電腦上代筆寫信之外,他還在手機上看裸體照,在臥室里玩浸入式游戲。他用不同的產(chǎn)品滿足人生不同的需求:工作、欲望、休閑。薩曼莎提供的是另外一種東西:愛與陪伴。她雖然不是人類,卻能感覺到心碎的陣痛、對軀體時斷時續(xù)的渴望和對自己的進化所產(chǎn)生的費解。她有一個豐富的內(nèi)心世界,有著完整的體驗和知覺。但那是電影。
在現(xiàn)實中,小冰同樣承諾“愛與陪伴”,但她的所謂觀察、判斷、審美,以及“萌妹子”的鮮明個性都只是“社會學”式的人云亦云,而不是她真正具備了這些能力。對此,我們到底是失望多一點呢,還是欣慰多一點呢?
美國麻省理工大學教授雪莉特克在《一起孤獨》一書中寫道:“我們對社交的內(nèi)在渴望讓我們不僅很容易將情感傾注在機器上,而且還是傾注在那些不可能真正愛我們的機器上。”或許,機器有沒有感情并不重要,重要的是它能否讓人類感受到情感的波動,就像孩子依戀一個布娃娃。就像英劇《真實的人類》中的機器人Odi,因為年久失修,他已經(jīng)壞了,但他的主人卻不舍得將他丟棄,因為“雖然他不能愛我,但我看著他,這么多年的愛在回望我”。