“這是什么情況?”艾米麗·瓊斯不敢相信自己竟然落后了。
艾米麗·瓊斯是一名多次奪冠的頂級GT游戲賽車手,她拍打著她的電子競技專用方向盤,眼睛盯著面前的屏幕:“我盡力了,但還是追不上它,它是怎么做到的?”
在游戲《GT賽車》中,瓊斯以每小時120英里的速度駕駛著她的賽車。為了追上世界上最快的“玩家”,她幾度把車速飆到了每小時140英里、150英里。
這位“玩家”實際上是名為“GT Sophy”的人工智能。它是由索尼人工智能研究實驗室在2020年發(fā)布的,利用人工智能技術(shù)在GT游戲中學(xué)習(xí)如何操控賽車。在2021年舉行的一系列閉門活動中,索尼安排了該人工智能與頂尖GT賽車手同臺競技。
2021年7月,瓊斯作為電競戰(zhàn)隊Trans Tasman Racing的一員,參與了索尼組織的活動,但當(dāng)時的她并不知道會發(fā)生什么。
“沒人給我提供任何信息。只是跟我說不需要做任何練習(xí),也不要在意圈速?!彼貞浀馈!拔业膽B(tài)度也很單純,保密就保密吧,這肯定不是什么壞事。”
最后,GT Sophy以1.5秒的優(yōu)勢擊敗了瓊斯的最佳成績——人類賽車手刷新GT記錄基本都是以毫秒為單位的,1.5秒意味著巨大的差距。
但索尼很快了解到,僅憑速度并不足以讓GT Sophy成為贏家。它在單人賽道上超越了人類車手,以不可思議的成績打破了三個不同賽道的記錄。
然而當(dāng)索尼將其與多個人類車手放在一起比賽時,它卻輸?shù)袅恕嗳烁傎惒粌H需要速度,還需要一定的智慧。GT Sophy有時因過于激進和魯莽而招來罰分,有時則過于怯懦,在不需要的時候讓步。
索尼重新訓(xùn)練了人工智能,并在2021年10月進行了第二輪比賽。這一次,GT Sophy輕松地贏下了人類玩家。它做出了什么改變?
首先是索尼打造了一個更大的神經(jīng)網(wǎng)絡(luò),程序的性能更加強大,但本質(zhì)上的不同之處在于GT Sophy學(xué)會了“賽道禮儀”。
索尼人工智能美國負(fù)責(zé)人彼得·沃曼表示,這種禮儀被人類車手廣泛遵守,其實質(zhì)是平衡攻擊性和讓步的能力,在時刻變化的賽場中動態(tài)選擇最合適的行為。
這也是使GT Sophy超越賽車游戲人工智能的原因。他說,車手在賽道上的互動和禮節(jié)是一個特殊例子,其中展示的動態(tài)的、情境感知的行為,正是機器人在和人互動時應(yīng)該具備的。
認(rèn)識到何時冒險、何時安全行事,對于人工智能來說十分有用,無論是在制造車間、家庭機器人,還是無人駕駛汽車上。
沃曼說:“我認(rèn)為我們還沒有學(xué)會關(guān)于如何處理必須遵循的人類規(guī)范的一般原則。但這是一個好的開始,希望它能讓我們深入了解這個問題?!?/p>
GT Sophy只是許多擊敗過人類的人工智能系統(tǒng)中的其中一個,從國際象棋到星際爭霸和DOTA2,人工智能都擊敗了世界上最好的人類選手。不過《GT賽車》這個游戲給索尼提供了一種新的挑戰(zhàn)。
與其他的、特別是那些回合制的游戲不同,GT要求頂尖玩家在逼近物理極限(超高車速)的情況下實時控制車輛。在競賽中,所有其他玩家都在做相同的事情。
虛擬賽車以每小時100英里的速度疾馳而過,車身與彎道邊緣的距離只有幾英寸。在這樣的速度下,微小的誤差都會導(dǎo)致碰撞。
據(jù)悉,《GT賽車》游戲以詳盡地捕捉、并復(fù)刻真實世界的物理學(xué)而聞名,它模擬了賽車的空氣動力學(xué)和輪胎在賽道上的摩擦。這一游戲有時甚至被用來訓(xùn)練和招募真實世界的賽車手。
瑞士蘇黎世大學(xué)機器人和感知小組的負(fù)責(zé)人達維德·斯卡拉穆扎說:“它在真實程度方面做得很好?!彼]有參與GT Sophy項目,但他的團隊曾使用GT游戲來訓(xùn)練人工智能駕駛員,目前尚未進行過針對人類的測試。
GT Sophy參與游戲的方法與人類玩家不同。它不讀取屏幕上的像素,而是獲取有關(guān)自身在賽道上的位置和周圍汽車的位置的數(shù)據(jù)。它還會收到關(guān)于影響其車輛的虛擬物理力量的信息。
作為回應(yīng),GT Sophy控制汽車轉(zhuǎn)彎或剎車。這種GT Sophy與游戲之間的交互每一秒進行10次,沃曼及其同事聲稱,這與人類玩家的反應(yīng)時間相似。
索尼使用了強化學(xué)習(xí),通過試錯的方法從零訓(xùn)練GT Sophy。起初,人工智能只能努力讓汽車保持在路上行駛。
但經(jīng)過在10臺PS4上的訓(xùn)練后(每臺運行20個程序?qū)嵗?,GT Sophy在大約8小時內(nèi)提升到了GT的內(nèi)置人工智能水平,相當(dāng)于業(yè)余玩家。在24小時內(nèi),它就接近了包含17700名人類玩家最佳成績排行榜的最頂端。
GT Sophy花了9天時間不斷縮短圈速。最后,它比任何人類玩家都要快。
可以說,索尼的人工智能學(xué)會了如何在游戲允許的極限下駕駛,完成了人類玩家力所不能及的動作。令瓊斯最為印象深刻的是GT Sophy的轉(zhuǎn)彎方式,將剎車提前、以實現(xiàn)用更緊的走線加速出彎。
她說:“GT Sophy以一種奇怪的方式對待走線,做了一些我甚至從未想過的事情?!崩鏕T Sophy經(jīng)常把一個輪胎開到賽道邊緣的草地上,然后滑進彎道。一般人不會那樣做,因為太容易犯錯了。這就像是你在控制一起碰撞事故。給我一百次機會,我也許只能成功一次?!?/p>
GT Sophy很快就掌握了這個游戲的物理學(xué),不過更大的問題是裁判。在職業(yè)賽場上,GT比賽由人類裁判監(jiān)督,他們有權(quán)對危險駕駛扣分。
累積懲罰是GT Sophy在2021年7月的第一輪比賽中失利的一個關(guān)鍵原因,盡管它比任何一個人類車手都要快。在幾個月后的第二輪比賽中,它學(xué)會了如何規(guī)避懲罰失分,結(jié)果就大不相同了。
沃曼在GT Sophy上投入了數(shù)年的精力。他桌子后面的墻上掛著一幅兩輛車爭搶位置的畫?!斑@是GT Sophy正在超越Y(jié)amanaka,”他說。
他指的是頂尖GT日本車手Tomoaki Yamanaka,他是2021年與GT Sophy比賽的四名日本職業(yè)模擬賽車手之一。
他不記得這幅畫是哪局比賽。如果是2021年10月的比賽,Yamanaka很可能會樂在其中,因為他面對的是一個強大但公平的對手。如果這是2022年7月份的活動,他很可能會咒罵電腦莫名其妙。
Yamanaka的隊友Takuma Miyazono通過翻譯軟件向我們簡單描述了2022年7月份的比賽。他說:“有幾次我們被(GT Sophy)撞出賽道,因為它的過彎方式太過激進。這讓我們很生氣,因為人類玩家會在轉(zhuǎn)彎時減速,以避免開出賽道?!?/p>
沃曼說,訓(xùn)練人工智能公平競技且不失去競爭優(yōu)勢是十分困難的。人類裁判會做出取決于環(huán)境的主觀判罰,這讓人們很難將它們轉(zhuǎn)化為人工智能可以學(xué)到的東西,比如哪些行為可以做,哪些不可以。
索尼的研究人員嘗試給人工智能提供許多不同的線索,供其調(diào)用和調(diào)整,希望能找到一種有效的組合。如果它偏離賽道或撞到圍欄上,造成了車輛碰撞或可能被裁判判罰,那么它就會受到懲罰。
他們對每種懲罰的力度進行了實驗、觀察和調(diào)試,并且檢查了GT Sophy的駕駛方式會如何發(fā)生變化。
索尼還增加了GT Sophy在訓(xùn)練中面臨的競爭。在此之前,它主要針對自身的老版本進行訓(xùn)練。
在2021年10月份的重賽之前,索尼每隔一兩周就會邀請頂級GT車手幫助測試人工智能,再綜合結(jié)果不斷調(diào)整。
“這給了我們所需的反饋,以便在攻擊性和讓步之間找到合適的平衡,”沃曼說。
這起到了效果。3個月后,當(dāng)Miyazono與GT Sophy比賽時,后者的激進表現(xiàn)消失了,但它并不是簡單地退縮?!爱?dāng)兩輛車并排進入一個彎道時,GT Sophy會給人類車手留下足夠通過的空間,”他表示,“這讓你感覺是在和另一個真人比賽?!?/p>
他補充說:“面對這種反應(yīng),車手會得到一種不同的激情和樂趣。這真的給我留下了深刻的印象?!?/p>
斯卡拉穆扎對索尼的工作印象深刻。他說:“我們用人類的能力來衡量機器人技術(shù)的進步?!钡?,他的同事埃莉亞·考夫曼指出,仍然是人類研究人員主導(dǎo)了GT Sophy學(xué)習(xí)行為的訓(xùn)練。
“良好的賽道禮儀是由人類教給人工智能的,”他說,“如果這能以自動化的方式實現(xiàn),那將真的很有趣?!边@樣的機器不僅會有良好的賽場風(fēng)范,更主要的是可以理解什么是賽場風(fēng)范,并且能夠改變它的行為來適應(yīng)新的設(shè)置。
斯卡拉穆扎的團隊現(xiàn)在正在將其GT賽車研究,應(yīng)用到現(xiàn)實世界的無人機比賽中,使用原始視頻輸入而不是模擬數(shù)據(jù)來訓(xùn)練人工智能飛行。2022年6月,他們邀請了兩名世界冠軍級別的無人機飛手對抗電腦。
他說:“在看到我們的人工智能比賽后,他們的表情說明了一切。他們被震撼到了。”
他認(rèn)為,對機器人技術(shù)的真正進步必須要拓展到現(xiàn)實世界。“在模擬和現(xiàn)實世界之間,總是會有一種不匹配的情況,”他說,“當(dāng)人們談?wù)撊斯ぶ悄苋〉昧肆钊穗y以置信的進步時,這一點就被遺忘了。在戰(zhàn)略方面,是的。但就部署到現(xiàn)實世界而言,我們還差得很遠?!?/p>
目前,索尼仍堅持將技術(shù)僅用在游戲中。它計劃將GT Sophy用于未來版本的GT游戲中?!拔覀兿M@能成為產(chǎn)品的一部分,”索尼人工智能美國的執(zhí)行總監(jiān)彼得·斯通說?!八髂崾且患見蕵饭?,我們希望這能讓游戲更加有趣?!?/p>
瓊斯認(rèn)為,一旦人們有機會觀摩GT Sophy的駕駛過程,那么整個模擬賽車社區(qū)都可以從中學(xué)到很多東西?!霸谠S多賽道上,我們會發(fā)現(xiàn)很多沿襲了多年的駕駛技巧都是有缺陷的,實際上存在更快的方法?!?/p>
Miyazono已經(jīng)在嘗試復(fù)制人工智能在彎道的走線方式,因為它已經(jīng)展示了這是可以實現(xiàn)的。瓊斯說:“如果基準(zhǔn)水平發(fā)生變化,那么每個人的技術(shù)都會提升?!?/p>