陶九陽 吳琳 胡曉峰
1.國(guó)防大學(xué)信息作戰(zhàn)與指揮訓(xùn)練教研部北京100091 2.解放軍理工大學(xué)指揮信息系統(tǒng)學(xué)院江蘇南京210007
圍棋被譽(yù)為人類最后的智慧高地,一直是檢驗(yàn)人工智能發(fā)展水平的重要標(biāo)志之一.圍棋復(fù)雜的盤面局勢(shì)評(píng)估和巨大的狀態(tài)搜索空間,成為學(xué)者們面臨的巨大障礙.僅僅依賴常規(guī)的知識(shí)推理和啟發(fā)式搜索[1]策略,會(huì)有極高的計(jì)算復(fù)雜度.2016年AlphaGo[2]圍棋人工智能的突破,反映出最近興起的深度學(xué)習(xí)等人工智能技術(shù)解決圍棋這類完美信息博弈問題的優(yōu)異性能.以深度學(xué)習(xí)為代表的人工智能技術(shù)的快速發(fā)展,使得人工智能逐漸具備了分層抽象及知識(shí)表達(dá)的自動(dòng)化,極大降低了搜索的復(fù)雜度,為人工智能解決圍棋問題提供了關(guān)鍵技術(shù)基礎(chǔ).
AlphaGo是谷歌公司旗下DeepMind公司研發(fā)的圍棋人工智能程序.其分布式版本構(gòu)建于1920個(gè)CPU和280個(gè)GPU之上,它綜合運(yùn)用了深度學(xué)習(xí)和蒙特卡洛樹搜索算法,2015年以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾[2],2016年又以4:1戰(zhàn)勝世界圍棋冠軍李世石.從技術(shù)上看,AlphaGo與1997年轟動(dòng)一時(shí)的國(guó)際象棋“深藍(lán)”具有本質(zhì)的不同.“深藍(lán)”依賴計(jì)算能力對(duì)所有狀態(tài)空間進(jìn)行窮盡式暴力搜索,是用確定性算法求解復(fù)雜問題,體現(xiàn)的是一種“機(jī)器思維”.而AlphaGo依靠深度學(xué)習(xí)的方法,建模了人類的“直覺”棋感和大局觀,通過增強(qiáng)學(xué)習(xí)的方法,擁有了自主學(xué)習(xí)、自我進(jìn)化的能力.它運(yùn)用蒙特卡洛樹搜索隨機(jī)算法將深度神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,最終具備了在“直覺”基礎(chǔ)上的“深思熟慮”,而這正是一種典型的“人類思維”處理復(fù)雜問題的方式.這為解決復(fù)雜決策智能的問題提供了一種工程技術(shù)框架[3].
以AlphaGo為代表和標(biāo)志的技術(shù)突破,預(yù)示著一種具有直覺、認(rèn)知和自我進(jìn)化能力的新的人工智能時(shí)代的到來,也預(yù)示著智能化戰(zhàn)爭(zhēng)時(shí)代可能即將到來.這不僅給工業(yè)界帶來巨大的震動(dòng),也為人工智能的軍事應(yīng)用打開了進(jìn)入快車道的大門.對(duì)AlphaGo技術(shù)原理進(jìn)行深入剖析,研究其智能化方法框架,預(yù)見人工智能技術(shù)的軍事應(yīng)用,可以為解決復(fù)雜戰(zhàn)爭(zhēng)問題,儲(chǔ)備必要的理論與技術(shù)基礎(chǔ)并指明方向.
1997年戰(zhàn)勝國(guó)際象棋大師卡斯帕羅夫的“深藍(lán)”,主要技術(shù)原理是運(yùn)用局勢(shì)評(píng)估函數(shù)和α?β剪枝搜索算法對(duì)象棋的狀態(tài)空間進(jìn)行窮舉搜索[4].“深藍(lán)”根據(jù)棋盤上的狀態(tài)來評(píng)估當(dāng)前的局勢(shì),其盤面狀態(tài)s(t)由每個(gè)棋子的重要程度、所處位置、可以影響的范圍、王的安全系數(shù)、先手/后手等變量組成,對(duì)當(dāng)前盤面狀態(tài)s(t)進(jìn)行評(píng)估的函數(shù)的定義為局勢(shì)評(píng)估函數(shù)v:s(t)→R,局勢(shì)評(píng)估函數(shù)值表示對(duì)當(dāng)前狀態(tài)形勢(shì)好壞的一個(gè)判斷.利用局勢(shì)評(píng)估函數(shù)和當(dāng)前所處的狀態(tài),“深藍(lán)”可以建立一棵博弈樹,如圖1所示,博弈樹[5]的節(jié)點(diǎn)表示博弈一方所處的狀態(tài)1部分參考書中將博弈樹的結(jié)點(diǎn)定義為結(jié)(node),表示的是采取行動(dòng)的時(shí)點(diǎn).,博弈樹的邊表示可采取的策略,節(jié)點(diǎn)的特征值取值為博弈一方的局勢(shì)評(píng)估函數(shù)值.博弈樹自根節(jié)點(diǎn)向葉節(jié)點(diǎn)移動(dòng)推進(jìn)的過程,描述了博弈雙方交替選擇策略(行動(dòng))并獲得相應(yīng)收益的過程.“深藍(lán)”運(yùn)用α?β剪枝算法,通過對(duì)博弈樹上策略(行動(dòng))的搜索來尋找最優(yōu)策略.
α剪枝和β剪枝互為對(duì)偶問題,這里以α剪枝為例說明其基本原理:假設(shè)“深藍(lán)”當(dāng)前處于博弈樹的A點(diǎn),那么深藍(lán)希望得到的是A點(diǎn)的最大局勢(shì)值.象棋是一個(gè)零和博弈,一方贏另一方必然輸.圖1中,下一步卡斯帕羅夫?qū)?huì)進(jìn)入B點(diǎn)或者C點(diǎn).深藍(lán)為了獲得保底的收益,由此,需要采用“極小化極大策略”,即在最小的B和C里面找一個(gè)最大的.于是可以得到選擇判斷用的公式(1):
由于在C節(jié)點(diǎn)作極小化極大運(yùn)算有min(max(D,E,F)≤15,而對(duì)B節(jié)點(diǎn)作極小化極大運(yùn)算所得結(jié)果等于21,所以在A節(jié)點(diǎn)處有v(A)=max(min(B,C))=v(B)=21.此時(shí)不需要計(jì)算C的局勢(shì)值也可知道A的局勢(shì)值,相當(dāng)于可以將博弈樹的C枝剪掉.
通過上面的步驟可以看到,“深藍(lán)”所使用的α?β剪枝搜索算法是一種最大化最小搜索算法,是一種非常保守的搜索策略.這種策略的優(yōu)勢(shì)是非常穩(wěn)健,這可能是“深藍(lán)”和卡斯帕羅夫的對(duì)弈中出現(xiàn)平局較多的主要原因.α?β剪枝搜索算法是對(duì)最大化最小基本搜索的一種改進(jìn),它的算法效率高低與節(jié)點(diǎn)的排列順序高度相關(guān).
“深藍(lán)”在國(guó)際象棋中所采用的技術(shù)并不能直接復(fù)制到圍棋領(lǐng)域,原因在于圍棋的狀態(tài)空間比象棋大得多.無論是圍棋還是象棋,人工智能落子的選擇主要依賴于對(duì)狀態(tài)空間的搜索,象棋每一步搜索的寬度大概是30,搜索的深度大概是80,整個(gè)搜索空間大約為1050.而圍棋搜索的寬度大概是250,深度大概150,搜索空間在10170以上.由于搜索空間太大,計(jì)算機(jī)難以處理,只依賴評(píng)估函數(shù)和α?β剪枝搜索算法無法在有限的時(shí)間窮盡所有狀態(tài),因此,難以使用.
觀察可知,人類棋手并不像“深藍(lán)”那樣對(duì)全部策略空間進(jìn)行暴力搜索,而是先通過宏觀的“勢(shì)”,或者是所謂的“棋感”選出幾個(gè)感覺上比較好的落子方案,再對(duì)每個(gè)方案進(jìn)行“深思熟慮”的多步推演,然后比較得出最好的落子位置.人類棋手憑經(jīng)驗(yàn)和“直覺”確定候選方案,是在降低搜索的“寬度”,一些明顯不好的落子方案不再進(jìn)行深入的搜索.人類棋手的“深思熟慮”也不是推演到棋局的最后一步,往往是推演幾步最多十幾步后就對(duì)盤面進(jìn)行綜合評(píng)估判斷局勢(shì)好壞.這種綜合評(píng)估,降低了搜索的“深度”.對(duì)于人類棋手而言,無論是落子“直覺”還是盤面綜合評(píng)估,主要依賴棋手的經(jīng)驗(yàn)來選點(diǎn),推演只是輔助手段.AlphaGo充分借鑒了人類棋手的下棋模式,用策略網(wǎng)絡(luò)(Policy network)來模擬人類的“棋感”,用價(jià)值網(wǎng)絡(luò)(Value network)來模擬人類對(duì)盤面的綜合評(píng)估,同時(shí),運(yùn)用蒙特卡洛樹搜索將策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)融合起來,來模擬人類棋手“深思熟慮”的搜索過程.
圖1 α?β剪枝算法示意圖
AlphaGo由策略網(wǎng)絡(luò)(Policy network)和價(jià)值網(wǎng)絡(luò)(Value network)組成[2],如圖2所示.策略網(wǎng)絡(luò)又分為有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)(SL policy network)、快速走子策略(Rollout policy)和增強(qiáng)學(xué)習(xí)策略網(wǎng)絡(luò)(RL policy network).
圖2 AlphaGo神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)ρσ是一個(gè)13層的卷積神經(jīng)網(wǎng)絡(luò)[6?8],其主要功能是:輸入當(dāng)前的盤面特征參數(shù),輸出下一步的落子行動(dòng)的概率分布p(a|s),判斷預(yù)測(cè)下一步落子位置,如圖2策略網(wǎng)絡(luò)所示.ρσ首先將圍棋盤面狀態(tài)s抽象為19×19的網(wǎng)格圖像,再人工抽取出48個(gè)盤面特征作為圖像的通道.ρσ的輸入就是19×19×48的圖像.ρσ訓(xùn)練樣本采用3千萬個(gè)人類圍棋棋手產(chǎn)生的盤面數(shù)據(jù)(s,a),用隨機(jī)梯度下降算法[9]進(jìn)行訓(xùn)練調(diào)優(yōu).其中,ρσ的每個(gè)卷積層有192個(gè)卷積核,共包含約40萬個(gè)神經(jīng)元.網(wǎng)絡(luò)最后加了一個(gè)softmax層,能夠?qū)?biāo)簽映射為每個(gè)位置走子概率的概率分布p(a|s),∑ap(a|s)=1,其中s為當(dāng)前盤面,a表示下一步的行動(dòng),p(a|s)表示在當(dāng)前盤面s下,下一步采用行動(dòng)a(或者叫在a處落子)的概率值.ρσ在使用中選擇概率值最大的a作為下一步采取的策略(行動(dòng)).如果單純用ρσ,可以實(shí)現(xiàn)在測(cè)試集上以57%的準(zhǔn)確率預(yù)測(cè)圍棋大師下一步的落子位置.AlphaGo平均走子速度為3ms.
快速走子ρπ是一個(gè)線性模型,其主要功能與ρσ完全相同.模型的輸入是人工抽取的當(dāng)前盤面的十幾萬個(gè)特征模式(Feature of patterns),輸出是下一步的落子行動(dòng)的概率分布p(a|s).快速走子可以看成是一個(gè)兩層的神經(jīng)網(wǎng)絡(luò),輸入層是十幾萬的特征模式,輸出層是通過softmax函數(shù)將輸入映射為一個(gè)概率分布:softmax:parterns→p(a|s).如果單純用快速走子,能夠在測(cè)試集上以24.2%的準(zhǔn)確率預(yù)測(cè)圍棋大師下一步的著法.平均走子速度為2μs.這比ρσ快1000多倍.
增強(qiáng)學(xué)習(xí)策略網(wǎng)絡(luò)ρρ是通過增強(qiáng)學(xué)習(xí)(Reinforcement learning)[10?11]的方法對(duì) ρσ加強(qiáng).ρρ的網(wǎng)絡(luò)結(jié)構(gòu)和功能與有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)ρσ完全相同,性能上強(qiáng)化了學(xué)習(xí).其增強(qiáng)學(xué)習(xí)的主要過程是:首先取 ρσ為第一代版本 ρσ1,讓 ρσ1與 ρσ1自對(duì)弈N局,產(chǎn)生出N個(gè)新的棋譜,再用新的棋譜訓(xùn)練ρσ1產(chǎn)生第二代版本 ρσ2,再讓 ρσ2與 ρσ1自對(duì)弈N局,訓(xùn)練產(chǎn)生第三代版本ρσ3,第i代版本隨機(jī)選取前面的版本進(jìn)行自對(duì)弈,如此迭代訓(xùn)練n次后得到第n代版本ρσn=ρρ,這就產(chǎn)生了增強(qiáng)學(xué)習(xí)的策略網(wǎng)絡(luò)ρρ.AlphaGo增強(qiáng)學(xué)習(xí)自對(duì)弈共進(jìn)行了3000萬局.用訓(xùn)練過的ρρ與Pachi圍棋軟件對(duì)戰(zhàn)能取得85%的勝率,而若用訓(xùn)練過的ρσ與Pachi圍棋軟件弈棋僅僅能取得11%的勝率.Pachi使用了蒙特卡洛樹搜索算法,是一個(gè)開源的圍棋弈棋程序.
價(jià)值網(wǎng)絡(luò)νθ是一個(gè)13層的卷積神經(jīng)網(wǎng)絡(luò),與策略網(wǎng)絡(luò)具有相同的結(jié)構(gòu).主要功能是:輸入當(dāng)前的盤面參數(shù),輸出下一步在棋盤某處落子時(shí)的估值,以此評(píng)價(jià)走子的優(yōu)劣.νθ利用人類棋手的16萬局對(duì)弈所拆分出的3000萬盤局面來訓(xùn)練,用測(cè)試集測(cè)試有0.37的均方誤差,而在訓(xùn)練集上只有0.19的均方誤差,顯然發(fā)生了過擬合.究其原因主要是3000萬盤面之間具有相關(guān)性.為了克服相關(guān)性帶來的過擬合,νθ從增強(qiáng)學(xué)習(xí)策略網(wǎng)絡(luò)ρρ產(chǎn)生的3000萬局對(duì)弈中抽取樣本,每一局中抽取一個(gè)盤面從而組成3000萬不相關(guān)的盤面作為訓(xùn)練樣本.最終在訓(xùn)練集上獲得0.226的均方誤差而在測(cè)試集上獲得0.234的均方誤差.
圖3 AlphaGo蒙特卡洛樹搜索算法
AlphaGo策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的主要作用是降低博弈樹的搜索寬度和搜索深度,通過剪枝來控制搜索空間的規(guī)模.但是要作出合適的決策,不僅需要依賴于搜索空間的降低,還需要采用合適的搜索算法.AlphaGo運(yùn)用蒙特卡洛樹搜索(Monte Carlo tree search,MCTS[12?13])算法來實(shí)現(xiàn)對(duì)博弈樹的搜索.MCTS算法的原理是:先隨機(jī)走子,然后再通過最終的輸贏來更新原先那些走子的價(jià)值.設(shè)定隨機(jī)走子的概率,與先前計(jì)算出的走子價(jià)值成正比.如此進(jìn)行大量的隨機(jī)模擬,讓好的方案自動(dòng)涌現(xiàn)出來.AlphaGo中MCTS算法的工作原理如圖3所示[2]:
圖3(a)中,當(dāng)處于“選擇”階段時(shí),在當(dāng)前的盤面下,下一步要選擇Q+U(P)最大的分支走子.Q表示走子價(jià)值,價(jià)值越大越應(yīng)該往該分支走.仿真開始時(shí),設(shè)置每個(gè)分支上的價(jià)值都相同,初始假設(shè)為0,蒙特卡洛樹搜索算法通過不斷地模擬來更新搜索樹每一個(gè)分支上的Q值,讓Q值大的分支涌現(xiàn)出來,而U(P)表示每條分支上的先驗(yàn)知識(shí),U(P)∝P(s,a)/(1+N(s,a)),其中P(s,a)= ρσ(s,a),是在當(dāng)前盤面下,通過策略網(wǎng)絡(luò)產(chǎn)生的每個(gè)分支上的先驗(yàn)知識(shí),N(s,a)表示蒙特卡洛仿真搜索分支(s,a)的次數(shù),它與U(P)成反比,以此來鼓勵(lì)探索新的分支,避免隨著搜索次數(shù)的增加算法過快停止搜索而產(chǎn)生過大誤差.在圖3(b)的“擴(kuò)展”階段,MCTS樹搜索算法首先用策略網(wǎng)絡(luò)ρσ走L步(實(shí)際L取值為20),走到搜索樹盤面SL的節(jié)點(diǎn).因?yàn)樗阉鳂溆泻芏喾种?所以SL是一個(gè)節(jié)點(diǎn)集合.用估值網(wǎng)絡(luò)νθ為每個(gè)SL進(jìn)行估值得到νθ(sL).此時(shí)整個(gè)模擬并有結(jié)束,為了加快搜索速度,用快速走子模型ρπ以每個(gè)SL節(jié)點(diǎn)為起點(diǎn)走到底,在進(jìn)入圖3(c)所示的“估值”階段,根據(jù)最終的輸贏情況給出評(píng)價(jià)值z(mì)L=r.最后對(duì)整個(gè)搜索進(jìn)行回退更新Q值,進(jìn)入圖3(d)所示的“回退”階段.這一階段,首先是根據(jù)ρπ評(píng)價(jià)值r和估值網(wǎng)絡(luò)νθ評(píng)價(jià)值νθ(sL)來計(jì)算sL的綜合值ν(sL):
式(2)中,λ為常數(shù),實(shí)驗(yàn)檢驗(yàn)發(fā)現(xiàn)取值0.5時(shí)效果最好.ν(sL)是 νθ(sL)與zL的加權(quán)平均.然后,用ν(sL)值更新Q值:
式(3)中,1(s,a,i)為布爾函數(shù)用來將遍歷到的分支選擇出來,如果第i次模擬遍歷到(s,a)分支則函數(shù)值為1,否則函數(shù)值為0.式(3)表示蒙特卡洛模擬了n次后的分支(s,a)的Q值.最終,第t步選擇的策略at由式(4)來計(jì)算:
式(4)表明,at由兩部分組成,一部分來自策略網(wǎng)絡(luò)的值U(st,a),另一部分來自蒙特卡洛樹搜索的Q(st,a).前者建模了人類的“棋感”,后者建模了人類在“棋感”基礎(chǔ)上的“深思熟慮”.因此,可以說AlphaGo通過蒙特卡洛樹搜索綜合了策略網(wǎng)絡(luò)的“棋感”和價(jià)值網(wǎng)絡(luò)的“深思熟慮”,具有典型的人類思維的特征.
一般來說,按照作戰(zhàn)活動(dòng)的不同,可以將戰(zhàn)爭(zhēng)空間劃分為物理域、信息域、認(rèn)知域和社會(huì)域4個(gè)交疊構(gòu)成的具有跨域特性的作戰(zhàn)域[14?15].隨著機(jī)器學(xué)習(xí)和人工智能的快速發(fā)展,以谷歌AlphaGo、微軟智能圖像識(shí)別、IBM沃森等為代表的人工智能技術(shù)必然會(huì)應(yīng)用于戰(zhàn)爭(zhēng)空間的各作戰(zhàn)域.美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(Defense Advanced Research Projects Agency,DARPA)作為美國(guó)先進(jìn)科技的引領(lǐng)者,在人工智能領(lǐng)域正在和計(jì)劃開展大量研究項(xiàng)目.表1列出了人工智能技術(shù)在各個(gè)作戰(zhàn)域中的可能應(yīng)用情況以及DARPA開展項(xiàng)目的情況2本文列出的相關(guān)項(xiàng)目和計(jì)劃主要是從DARPA官方網(wǎng)站公布的近年項(xiàng)目資助預(yù)算書等資料中獲得,網(wǎng)址為:http://www.darpa.mil/.其他軍方研究機(jī)構(gòu)也有大量人工智能領(lǐng)域相關(guān)研究正在進(jìn)行,本文未一一列出..
表1 人工智能技術(shù)在4個(gè)作戰(zhàn)域的應(yīng)用展望
物理域是各種軍事力量進(jìn)行交戰(zhàn)、打擊、防護(hù)和機(jī)動(dòng)的作戰(zhàn)域.人工智能技術(shù)在該域的應(yīng)用,必然導(dǎo)致大量智能化無人作戰(zhàn)平臺(tái)的出現(xiàn),如智能作戰(zhàn)機(jī)器人、無人駕駛汽車、無人船、無人機(jī)等.這些智能化的無人作戰(zhàn)平臺(tái)與當(dāng)前的無人系統(tǒng)將具有本質(zhì)性的區(qū)別,是一類具有思考決策能力的系統(tǒng),而不是簡(jiǎn)單地應(yīng)對(duì)大致有限的既定環(huán)境.這必然導(dǎo)致打擊、機(jī)動(dòng)和防護(hù)能力的全面提升.如DARPA正在研發(fā)的X戰(zhàn)車(GXV-T),依賴先進(jìn)的人工智能技術(shù)具備更快行駛速度,超強(qiáng)偵察外部環(huán)境躲避敵方偵察的能力.
信息域是信息化戰(zhàn)爭(zhēng)對(duì)抗發(fā)生的主戰(zhàn)場(chǎng),是信息產(chǎn)生、處理、共享與對(duì)抗發(fā)生的領(lǐng)域.長(zhǎng)期以來,由于信息的處理共享等環(huán)節(jié)需要大量的人工操作,例如戰(zhàn)場(chǎng)偵察衛(wèi)星傳回的圖像、無人機(jī)偵察圖像、各類人員語音信息等非結(jié)構(gòu)化數(shù)據(jù)需要人工判讀,這直接導(dǎo)致信息的處理速度和利用效率極低,甚至可能使指揮員淹沒在“信息洪流”中.微軟的ImageNet圖像識(shí)別理解、科大訊飛的語音識(shí)別等人工智能技術(shù)的發(fā)展,使智能化處理非結(jié)構(gòu)化戰(zhàn)場(chǎng)數(shù)據(jù)越來越接近實(shí)戰(zhàn)要求,由此正在催生各類傳感器、數(shù)據(jù)處理器以及信息網(wǎng)絡(luò)的全面智能化,使得信息收集的范圍更為廣泛,信息處理的速度更快質(zhì)量更好.另外,信息域中的網(wǎng)電對(duì)抗,借助于人工智能技術(shù)將能夠?qū)崿F(xiàn)自主敏捷反應(yīng),如DARPA資助的“認(rèn)知電子戰(zhàn)”計(jì)劃使用最新的人工智能和機(jī)器學(xué)習(xí)方法,能夠自主識(shí)別對(duì)手的信號(hào)頻譜并作出反應(yīng).
認(rèn)知域和社會(huì)域是感知、認(rèn)知和決策產(chǎn)生的作戰(zhàn)域,智能態(tài)勢(shì)感知理解和自主決策是目前人工智能亟待解決的領(lǐng)域,是通向真正意義的智能化戰(zhàn)爭(zhēng)的關(guān)鍵一環(huán).由于戰(zhàn)場(chǎng)環(huán)境具有高度的復(fù)雜性和不確定性,長(zhǎng)期以來,態(tài)勢(shì)理解及預(yù)測(cè)等認(rèn)知活動(dòng)機(jī)器智能還無法勝任,主要依賴人工完成.現(xiàn)代化戰(zhàn)爭(zhēng)復(fù)雜程度越來越高,陸、海、空、天、電、網(wǎng)各維度態(tài)勢(shì)相互鉸鏈,單純依賴人工對(duì)態(tài)勢(shì)圖判讀來理解和預(yù)測(cè)態(tài)勢(shì)將會(huì)變得越來越困難.另外,由于戰(zhàn)爭(zhēng)內(nèi)在的復(fù)雜性,對(duì)手行為的高度不確定性,長(zhǎng)期以來,輔助決策功能一直飽受詬病.為了解決這一問題,DARPA從2008年開始支持“深綠”計(jì)劃,試圖研究一種能夠嵌入美軍C4ISR系統(tǒng)的先進(jìn)輔助決策模塊.“水晶球”和“閃電戰(zhàn)”是兩大核心模塊.水晶球負(fù)責(zé)生成和更新未來作戰(zhàn)可能的各個(gè)分支,即繪制和更新戰(zhàn)爭(zhēng)的博弈樹,而閃電戰(zhàn)模塊用來對(duì)每個(gè)分支進(jìn)行模擬并給出交戰(zhàn)結(jié)果,即完成對(duì)博弈樹的剪枝和搜索,這與AlphaGo采用的方法極為類似.因此,AlphaGo的成功極有可能帶來這類智能軍事決策的突破,這也是AlphaGo技術(shù)最有借鑒意義之所在.在社會(huì)域上,共享感知和協(xié)同決策是實(shí)現(xiàn)聯(lián)合作戰(zhàn)行動(dòng)的基礎(chǔ),是整合其他各作戰(zhàn)域智能作戰(zhàn)力量形成作戰(zhàn)體系的關(guān)鍵所在.DARPA正在大力發(fā)展的“人機(jī)協(xié)作”(“半人馬模式”)等計(jì)劃,其目標(biāo)就是實(shí)現(xiàn)將人與機(jī)深度融合為共生的有機(jī)整體,讓機(jī)器的精準(zhǔn)和人類的可塑性完美結(jié)合,利用機(jī)器的速度讓人類做出最佳判斷,以協(xié)助人類提升認(rèn)知速度和精度,快速作出決策并指揮無人系統(tǒng)協(xié)同行動(dòng).
人工智能應(yīng)用于戰(zhàn)爭(zhēng)領(lǐng)域,必將帶來一次新的軍事革命.美軍2014年提出的“第三次抵消戰(zhàn)略”,就是以人工智能技術(shù)為核心,綜合生物、信息、空間、網(wǎng)電等技術(shù)領(lǐng)域發(fā)展能夠“改變未來戰(zhàn)局”的顛覆性技術(shù)群,來形成相較于對(duì)手的絕對(duì)軍事優(yōu)勢(shì).分析人工智能對(duì)作戰(zhàn)活動(dòng)的影響可以發(fā)現(xiàn),其最主要的優(yōu)勢(shì):一是增強(qiáng)作戰(zhàn)行動(dòng)的敏捷性,二是提高作戰(zhàn)行動(dòng)的力量.
通常,作戰(zhàn)過程可以由OODA循環(huán)來描述,人工智能在物理域、信息域、認(rèn)知域和社會(huì)域的運(yùn)用,能夠顯著影響交戰(zhàn)各方的OODA循環(huán)來改變戰(zhàn)爭(zhēng)的進(jìn)程.OODA循環(huán)理論認(rèn)為作戰(zhàn)過程是“觀察、判斷、決策、行動(dòng)”的不斷循環(huán)、往復(fù)過程[16].戰(zhàn)爭(zhēng)的作戰(zhàn)雙方是一種對(duì)抗行為,其各自的OODA循環(huán)過程都受對(duì)手的作戰(zhàn)行動(dòng)的影響.戰(zhàn)爭(zhēng)雙方的OODA環(huán)就像兩個(gè)耦合在一起的“齒輪”,如圖4所示.
圖4 紅藍(lán)雙方相互耦合的OODA環(huán)示意圖
戰(zhàn)爭(zhēng)規(guī)律告訴我們,掌握戰(zhàn)爭(zhēng)主動(dòng)權(quán)往往能夠贏得戰(zhàn)爭(zhēng)勝利,被動(dòng)就會(huì)處于不利地位.所以戰(zhàn)爭(zhēng)可以看成是沖突雙方較量誰能更快更好地完成OODA循環(huán)的過程,是爭(zhēng)奪“主動(dòng)輪”位置的過程.在這個(gè)耦合的OODA“齒輪”系統(tǒng)中,“主動(dòng)輪”的位置通常由兩個(gè)因素決定,一個(gè)是“齒輪”的轉(zhuǎn)速,即OODA循環(huán)完成的速度,另一個(gè)是“齒輪”的轉(zhuǎn)動(dòng)力量,即OODA完成的質(zhì)量,如打擊效果等.通過前面分析可以看出,一方面,認(rèn)知人工智能的進(jìn)步和應(yīng)用會(huì)大大提高感知和決策的質(zhì)量和速度(如美軍大力發(fā)展的“深綠”計(jì)劃),使得OODA循環(huán)的每一個(gè)環(huán)節(jié)都會(huì)加速,從而使“齒輪”轉(zhuǎn)速提高而產(chǎn)生敏捷性優(yōu)勢(shì)[17];另一方面,無人作戰(zhàn)力量(如機(jī)器人、無人機(jī)等)自身所具有的速度和力量,會(huì)提高打擊行動(dòng)的精度、力量和強(qiáng)度(如超高速智能無人機(jī)能夠更快更精準(zhǔn)地實(shí)施打擊),無人和有人系統(tǒng)的有機(jī)融合也會(huì)大大提升作戰(zhàn)效能,使得OODA的行動(dòng)(A)環(huán)節(jié)更有力,能夠克服更大的戰(zhàn)爭(zhēng)阻力.一旦一方OODA循環(huán)的速度大大快于對(duì)手,就會(huì)使對(duì)方無法跟上戰(zhàn)爭(zhēng)節(jié)奏而導(dǎo)致系統(tǒng)崩潰.例如在交戰(zhàn)過程中OODA循環(huán)顯著慢的一方可能陷入反復(fù)的“觀察(O)”、“判斷(O)”或機(jī)械的跟隨“行動(dòng)(A)”過程中,而不能完成完整的OODA循環(huán),被對(duì)方牽著走,從而失去戰(zhàn)爭(zhēng)主動(dòng)權(quán).另外,一方打擊力量遠(yuǎn)遠(yuǎn)弱于對(duì)手,即使OODA循環(huán)的速度再快,也難以調(diào)動(dòng)對(duì)手跟隨,只有OODA環(huán)的力量足夠強(qiáng)大才能帶動(dòng)整個(gè)戰(zhàn)爭(zhēng)系統(tǒng)按照自己的節(jié)奏運(yùn)行,掌握戰(zhàn)爭(zhēng)主動(dòng)權(quán).
本文分析了AlphaGo的技術(shù)原理,并展望了人工智能在軍事領(lǐng)域的應(yīng)用.雖然AlphaGo在圍棋人工智能方面取得了突破性進(jìn)展,但圍棋畢竟是一種完美信息博弈,而戰(zhàn)爭(zhēng)是不完美信息博弈,其狀態(tài)空間規(guī)模和復(fù)雜性都遠(yuǎn)遠(yuǎn)超過圍棋.因此,應(yīng)該看到人工智能在復(fù)雜軍事領(lǐng)域中的應(yīng)用尚處于起步階段,前路依然充滿挑戰(zhàn).我們認(rèn)為,戰(zhàn)場(chǎng)態(tài)勢(shì)感知智能化是首先需要解決的一個(gè)挑戰(zhàn),是解決其他復(fù)雜軍事問題的起點(diǎn).因此,借鑒AlphaGo的技術(shù)原理和實(shí)現(xiàn)框架,研究面向戰(zhàn)場(chǎng)態(tài)勢(shì)感知理解和自主決策的戰(zhàn)場(chǎng)態(tài)勢(shì)特征提取方法和深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建方式,獲取、組織和運(yùn)用態(tài)勢(shì)數(shù)據(jù)來訓(xùn)練智能感知深度神經(jīng)網(wǎng)絡(luò),是目前亟需開展的工作.