當(dāng)?shù)貢r(shí)間2022年2月9日,索尼表示,其創(chuàng)建的名為Gran Turismo Sophy (GT Sophy)的人工智能代理,能夠在賽車模擬游戲《GT賽車》中擊敗世界冠軍級(jí)別的人類玩家。
相關(guān)論文以《使用深度強(qiáng)化學(xué)習(xí)超越Gran Turismo冠軍車手》為題發(fā)表在最新一期《自然》封面。
如今的人工智能技術(shù)通常借助計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)來(lái)模仿人類大腦的工作方式。對(duì)人工智能進(jìn)行實(shí)際應(yīng)用時(shí),比如與人類互動(dòng),通常都要求其能夠做出實(shí)時(shí)決策。
之前,人工智能在國(guó)際象棋、麻將和圍棋等方面成功擊敗人類,但索尼表示,賽車駕駛更具挑戰(zhàn)性,車手必須控制非線性動(dòng)態(tài)的車輛和執(zhí)行復(fù)雜的戰(zhàn)術(shù)來(lái)超過(guò)或阻攔對(duì)手,這需要做出許多實(shí)時(shí)決定。
該論文描述了索尼研發(fā)的人工智能,如何完成高難度挑戰(zhàn),包括使用其他車輛引起的氣流來(lái)擾亂后續(xù)車輛并執(zhí)行緊急制動(dòng)。同時(shí),該人工智能還利用空氣動(dòng)力學(xué)來(lái)實(shí)時(shí)預(yù)測(cè)其他賽車的軌跡。
GT Sophy訓(xùn)練方法
索尼使用無(wú)模型、非策略的深度強(qiáng)化學(xué)習(xí)和自主開(kāi)發(fā)的混合場(chǎng)景訓(xùn)練,反復(fù)試驗(yàn),來(lái)訓(xùn)練人工智能在賽車駕駛的細(xì)微差別。之前,也有研究人員使用強(qiáng)化學(xué)習(xí)等方式來(lái)建模車輛動(dòng)力學(xué)和訓(xùn)練人工智能學(xué)習(xí)駕駛政策,并在單人駕駛方面取得了較好成績(jī),但還沒(méi)有一個(gè)研究解決最高水平的汽車比賽問(wèn)題。
在強(qiáng)化訓(xùn)練中,GT Sophy根據(jù)不同的輸入,比如車速、車輪方向、軌道曲率等,獲得了正面或負(fù)面的反饋,其還通過(guò)自我復(fù)制適應(yīng)了多種不同場(chǎng)景。
另外,要想在賽場(chǎng)獲得勝利,車手須在“賽車控制、賽車戰(zhàn)術(shù)、賽車禮儀和賽車策略”等方面有著高超的技巧和熟練度。
車手為了完全控制汽車,必須在對(duì)自己汽車狀況和比賽賽道特性有詳細(xì)的了解的基礎(chǔ)上,建立直線加速和防守對(duì)手等所需的戰(zhàn)術(shù)技能和戰(zhàn)略思維,還要有高速精確的執(zhí)行力。與此同時(shí),車手必須遵守一定的體育精神。
為了讓GT Sophy擁有足夠的競(jìng)爭(zhēng)力,索尼還構(gòu)建了一個(gè)獎(jiǎng)勵(lì)函數(shù)。當(dāng)它在賽道上持續(xù)前進(jìn)時(shí),會(huì)得到進(jìn)度獎(jiǎng)勵(lì);如果它出界或失去動(dòng)力,則會(huì)被處罰。這些獎(jiǎng)懲機(jī)制讓GTSophy能夠收到積極反饋,以保持在賽道上高速、穩(wěn)定駕駛。
三種比賽場(chǎng)地
在具體測(cè)試中,GT Sophy與人類頂尖車手在《GT賽車》中的三種賽道進(jìn)行了比賽,分別為Dragon Trail Seaside、Lago Maggiore GP、Circuitde la Sarthe。
據(jù)了解,《GT賽車》由索尼與國(guó)際汽車聯(lián)合會(huì)合作設(shè)計(jì)。該游戲配置有最新的車輛動(dòng)力學(xué)模擬,模擬了空氣阻力、輪胎摩擦、懸架運(yùn)動(dòng)引起的方向變化等,并結(jié)合了現(xiàn)實(shí)生活中賽車的技術(shù)支持,能夠較為真實(shí)地再現(xiàn)現(xiàn)實(shí)中汽車的各種細(xì)節(jié)。
《GT賽車》在全球擁有超過(guò)40萬(wàn)人的電子競(jìng)技社區(qū),有著一個(gè)公平的賽車環(huán)境。其也為機(jī)器學(xué)習(xí)進(jìn)行實(shí)驗(yàn)提供了一個(gè)高度現(xiàn)實(shí)模擬的場(chǎng)所。
據(jù)了解,GT Sophy的大規(guī)模訓(xùn)練于2021年1月開(kāi)始。在與各種研究團(tuán)隊(duì)成員和《GT賽車》車手對(duì)抗后,2021年7月,GTSophy與四位包括《GT賽車》賽事“三冠王”宮園拓真在內(nèi)的世界頂級(jí)車手進(jìn)行了第一次比試,該場(chǎng)由人類獲勝。
這之后,索尼改進(jìn)訓(xùn)練機(jī)制、增加網(wǎng)絡(luò)規(guī)模,并對(duì)一些特征和獎(jiǎng)勵(lì)進(jìn)行了小的修改,提高了對(duì)手的數(shù)量,在2021年10月的第二個(gè)比賽日,GT Sophy輕松戰(zhàn)勝了人類。
不過(guò),索尼也表示,盡管GT Sophy在比賽中表現(xiàn)出了較為全面的駕駛技能,并最終獲勝,但它仍有許多地方需要改進(jìn),特別是在戰(zhàn)略決策方面。例如,GT Sophy可能會(huì)在相同賽道上留下較多空間,而給到對(duì)手反超的機(jī)會(huì)。
比賽場(chǎng)景
GT Sophy能夠在模擬賽車這種實(shí)時(shí)、連續(xù)控制和高度真實(shí)、復(fù)雜的物理環(huán)境中獲得巨大成功,這一結(jié)果可以被看作人工智能持續(xù)發(fā)展的又一例證,也表明在汽車賽道等類型上訓(xùn)練比人類更加優(yōu)秀的人工智能是可能的。
而像GT Sophy這樣的人工智能有潛力使人們?cè)谫愜囉螒蛑械玫礁佑淇斓捏w驗(yàn),同時(shí),也能為專業(yè)車手提供現(xiàn)實(shí)的、高水平的競(jìng)爭(zhēng)和發(fā)現(xiàn)新的賽車技術(shù)。
最后,值得一提的是,索尼團(tuán)隊(duì)還認(rèn)為,本次研究成果還可應(yīng)用于空中無(wú)人機(jī)、自動(dòng)駕駛汽車等系統(tǒng)中。 (綜合整理報(bào)道)(編輯/小美)
海外星云 2022年5期