索尼研發(fā)人工智能在模擬賽車游戲中擊敗頂級(jí)人類玩家，研究成果登上最新《自然》封面

2022-03-27 00:29:09

海外星云 2022年5期

當(dāng)?shù)貢r(shí)間2022年2月9日，索尼表示，其創(chuàng)建的名為Gran Turismo Sophy （GT Sophy）的人工智能代理，能夠在賽車模擬游戲《GT賽車》中擊敗世界冠軍級(jí)別的人類玩家。

相關(guān)論文以《使用深度強(qiáng)化學(xué)習(xí)超越Gran Turismo冠軍車手》為題發(fā)表在最新一期《自然》封面。

如今的人工智能技術(shù)通常借助計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)來(lái)模仿人類大腦的工作方式。對(duì)人工智能進(jìn)行實(shí)際應(yīng)用時(shí)，比如與人類互動(dòng)，通常都要求其能夠做出實(shí)時(shí)決策。

之前，人工智能在國(guó)際象棋、麻將和圍棋等方面成功擊敗人類，但索尼表示，賽車駕駛更具挑戰(zhàn)性，車手必須控制非線性動(dòng)態(tài)的車輛和執(zhí)行復(fù)雜的戰(zhàn)術(shù)來(lái)超過(guò)或阻攔對(duì)手，這需要做出許多實(shí)時(shí)決定。

該論文描述了索尼研發(fā)的人工智能，如何完成高難度挑戰(zhàn)，包括使用其他車輛引起的氣流來(lái)擾亂后續(xù)車輛并執(zhí)行緊急制動(dòng)。同時(shí)，該人工智能還利用空氣動(dòng)力學(xué)來(lái)實(shí)時(shí)預(yù)測(cè)其他賽車的軌跡。

GT Sophy訓(xùn)練方法

索尼使用無(wú)模型、非策略的深度強(qiáng)化學(xué)習(xí)和自主開(kāi)發(fā)的混合場(chǎng)景訓(xùn)練，反復(fù)試驗(yàn)，來(lái)訓(xùn)練人工智能在賽車駕駛的細(xì)微差別。之前，也有研究人員使用強(qiáng)化學(xué)習(xí)等方式來(lái)建模車輛動(dòng)力學(xué)和訓(xùn)練人工智能學(xué)習(xí)駕駛政策，并在單人駕駛方面取得了較好成績(jī)，但還沒(méi)有一個(gè)研究解決最高水平的汽車比賽問(wèn)題。

在強(qiáng)化訓(xùn)練中，GT Sophy根據(jù)不同的輸入，比如車速、車輪方向、軌道曲率等，獲得了正面或負(fù)面的反饋，其還通過(guò)自我復(fù)制適應(yīng)了多種不同場(chǎng)景。

另外，要想在賽場(chǎng)獲得勝利，車手須在“賽車控制、賽車戰(zhàn)術(shù)、賽車禮儀和賽車策略”等方面有著高超的技巧和熟練度。

車手為了完全控制汽車，必須在對(duì)自己汽車狀況和比賽賽道特性有詳細(xì)的了解的基礎(chǔ)上，建立直線加速和防守對(duì)手等所需的戰(zhàn)術(shù)技能和戰(zhàn)略思維，還要有高速精確的執(zhí)行力。與此同時(shí)，車手必須遵守一定的體育精神。

為了讓GT Sophy擁有足夠的競(jìng)爭(zhēng)力，索尼還構(gòu)建了一個(gè)獎(jiǎng)勵(lì)函數(shù)。當(dāng)它在賽道上持續(xù)前進(jìn)時(shí)，會(huì)得到進(jìn)度獎(jiǎng)勵(lì);如果它出界或失去動(dòng)力，則會(huì)被處罰。這些獎(jiǎng)懲機(jī)制讓GTSophy能夠收到積極反饋，以保持在賽道上高速、穩(wěn)定駕駛。

三種比賽場(chǎng)地

在具體測(cè)試中，GT Sophy與人類頂尖車手在《GT賽車》中的三種賽道進(jìn)行了比賽，分別為Dragon Trail Seaside、Lago Maggiore GP、Circuitde la Sarthe。

據(jù)了解，《GT賽車》由索尼與國(guó)際汽車聯(lián)合會(huì)合作設(shè)計(jì)。該游戲配置有最新的車輛動(dòng)力學(xué)模擬，模擬了空氣阻力、輪胎摩擦、懸架運(yùn)動(dòng)引起的方向變化等，并結(jié)合了現(xiàn)實(shí)生活中賽車的技術(shù)支持，能夠較為真實(shí)地再現(xiàn)現(xiàn)實(shí)中汽車的各種細(xì)節(jié)。

《GT賽車》在全球擁有超過(guò)40萬(wàn)人的電子競(jìng)技社區(qū)，有著一個(gè)公平的賽車環(huán)境。其也為機(jī)器學(xué)習(xí)進(jìn)行實(shí)驗(yàn)提供了一個(gè)高度現(xiàn)實(shí)模擬的場(chǎng)所。

據(jù)了解，GT Sophy的大規(guī)模訓(xùn)練于2021年1月開(kāi)始。在與各種研究團(tuán)隊(duì)成員和《GT賽車》車手對(duì)抗后，2021年7月，GTSophy與四位包括《GT賽車》賽事“三冠王”宮園拓真在內(nèi)的世界頂級(jí)車手進(jìn)行了第一次比試，該場(chǎng)由人類獲勝。

這之后，索尼改進(jìn)訓(xùn)練機(jī)制、增加網(wǎng)絡(luò)規(guī)模，并對(duì)一些特征和獎(jiǎng)勵(lì)進(jìn)行了小的修改，提高了對(duì)手的數(shù)量，在2021年10月的第二個(gè)比賽日，GT Sophy輕松戰(zhàn)勝了人類。

不過(guò)，索尼也表示，盡管GT Sophy在比賽中表現(xiàn)出了較為全面的駕駛技能，并最終獲勝，但它仍有許多地方需要改進(jìn)，特別是在戰(zhàn)略決策方面。例如，GT Sophy可能會(huì)在相同賽道上留下較多空間，而給到對(duì)手反超的機(jī)會(huì)。

比賽場(chǎng)景

GT Sophy能夠在模擬賽車這種實(shí)時(shí)、連續(xù)控制和高度真實(shí)、復(fù)雜的物理環(huán)境中獲得巨大成功，這一結(jié)果可以被看作人工智能持續(xù)發(fā)展的又一例證，也表明在汽車賽道等類型上訓(xùn)練比人類更加優(yōu)秀的人工智能是可能的。

而像GT Sophy這樣的人工智能有潛力使人們?cè)谫愜囉螒蛑械玫礁佑淇斓捏w驗(yàn)，同時(shí)，也能為專業(yè)車手提供現(xiàn)實(shí)的、高水平的競(jìng)爭(zhēng)和發(fā)現(xiàn)新的賽車技術(shù)。

最后，值得一提的是，索尼團(tuán)隊(duì)還認(rèn)為，本次研究成果還可應(yīng)用于空中無(wú)人機(jī)、自動(dòng)駕駛汽車等系統(tǒng)中。（綜合整理報(bào)道）（編輯/小美）

索尼研發(fā)人工智能在模擬賽車游戲中擊敗頂級(jí)人類玩家，研究成果登上最新《自然》封面

索尼研發(fā)人工智能在模擬賽車游戲中擊敗頂級(jí)人類玩家，研究成果登上最新《自然》封面