關于人工智能阿法元綜述

2019-03-20 05:18:04王然

西部論叢 2019年9期

王然

摘要：2017年10月19日，人工智能阿法元（AlphaGo Zero）第一次為人所知曉。它在圍棋學習之路上從零開始，自娛自樂，自己參悟，用極短的時間以100比0的成績打敗了“哥哥”阿法狗（曾戰(zhàn)勝圍棋世界冠軍李世石轟動全世界）。以深度強化學習為核心技術的阿法元，是人工智能領域的最前沿成果，也是發(fā)展趨勢。合理發(fā)展、應用本技術，將對各領域均有極大的推動作用，甚至改變整個工業(yè)界的面貌?；诖?，其對于公安系統(tǒng)中的信息化偵查領域同樣具有跨時代的里程碑意義。

關鍵詞：人工智能阿法元深度強化學習

一、阿法元的概念及發(fā)展背景

（一）概念

阿法元（AlphaGo Zero），是谷歌2017年目前為止最新一代的人工智能。這一代算法被項目負責人Deepmind命名為阿法元， “元” 含有起點，創(chuàng)世之意。，意思是從零開始。一方面說，這個算法是不需要人類數(shù)據(jù)指導，也不需要它哥哥（AlphaGo）指導，就自己演化出來。另一方面也可以理解為它可以開啟新紀元。

阿法元僅擁有4個TPU，大大節(jié)省了材料成本，效益卻成倍增長。以深度強化學習為核心技術，其發(fā)展趨勢充滿無限可能性。

（二）發(fā)展背景

人工神經(jīng)網(wǎng)絡在上世紀四十年代就出來了，卻無法解決“異或問題”，而且訓練起來太麻煩。到了上世紀七十年代，神經(jīng)網(wǎng)絡的算法得到更新，提高了效率，用多層神經(jīng)網(wǎng)絡把異或問題解決了，也把神經(jīng)網(wǎng)絡帶入一個新紀元。上世紀八九十年代，人工神經(jīng)網(wǎng)絡的研究迎來了一場大火，學術圈發(fā)了成千上萬篇關于神經(jīng)網(wǎng)絡的論文，從設計到訓練到優(yōu)化再到各行各業(yè)的應用。直至2016年3月更新算法的阿法狗戰(zhàn)勝了被聶衛(wèi)平估算為的20段的世界棋手冠軍，基于此神經(jīng)網(wǎng)絡的算法優(yōu)化，谷歌新一代的人工智能阿法元以100比0的勝率又碾壓了阿法狗，其只需要在4個TPU上花3天時間，自己左右互搏490萬棋局。而它的上一代阿法狗，需要在48個TPU上，花幾個月的時間，學習三千萬個棋局，才打敗人類。阿法狗項目負責人介紹說阿法元遠比阿法狗強大，因為它不再被人類認知所局限，而能夠發(fā)現(xiàn)新知識和新策略。

（三）核心技術：強化學習

阿法元卻能夠在不用那3000萬數(shù)據(jù)的時候來個完勝阿法狗。從人工智能的技術角度看，這是強化學習的勝利，在不進行監(jiān)督學習的情況下，就可以達到一個高于人類的境地。

強化學習的先進性需通過與監(jiān)督學習的基本思想對比中體現(xiàn)出來。監(jiān)督學習、強化學習和無監(jiān)督學習是機器學習的三大框架。某一個意義說，監(jiān)督學習是給定輸入和輸出，機器來學習輸入和輸出的關系，一個好的監(jiān)督學習算法猶如一個預言家，它能夠根據(jù)自己之前見過的輸入輸出關系來預測未知的輸入。

強化學習的三元素是狀態(tài)，行為和環(huán)境獎勵。強化學習條件下，學習者每一步看到的是它決策的行為結果，然后導致下一步行動，為了最終游戲的勝利。

強化學習強在決策。監(jiān)督學習是預言家，強化學習是決策家。

二、阿法元的特點

（一）運行模式的輕捷高效性

阿法狗升級至阿法元縮減了44個TPU，僅擁有4個TPU，計算速度也提升了幾個月的跨度，這一突破，相當于一個科研團隊縮減了44個智商超群的人，但是其工作效率還大大提升了很多。

（二）學習手段的自主性

阿法元運用強化學習這一核心技術，完全在沒有人類幫助、沒有任何先驗知識的基礎上無師自通，自主學習，是人工智能在這一年代最大的突破。

（三）學習方法的非人類思維性

美國的兩位棋手在《Nature》上點評：“阿法元的開局和收官和專業(yè)棋手的下法并無區(qū)別，人類幾千年的智慧結晶，看起來并非全錯，但是中盤看起來則非常詭異?！睂W習人類選手的下法雖然能在訓練之初獲得較好的棋力，但在訓練后期所能達到的棋力卻只能與原版的阿法狗相近，而不學習人類下法的阿法元最終卻能表現(xiàn)得更好。美國杜克大學人工智能專家陳怡然教授對此的解釋是：阿法元降低了訓練復雜度，擺脫了對人類標注樣本（人類歷史棋局）的依賴，讓深度學習用于復雜決策更加方便可行。

（四）應用領域的廣域性

只要設計好一個項目的規(guī)則，阿法元就能自主進行學習和運作?；谶@一核心特點，可以估計當技術完備成熟的時候，各領域都可以很方便得到應用，可以大大節(jié)省人力物力財力。

三、阿法元在信息化偵查領域的應用

阿法元的運作模式，形象的可以比喻為，看了《信息化偵查教程》的第一個字，就能猜出并學會其所有的內容。人工智能領域中，對話、知識、成長這三大能力決定著未來。將阿法元分別運用至這三個方面，在信息化偵查領域可以構想：

可以以對話的形式解決人工錄入人員、住所、車輛等等繁瑣信息所花費人力物力財力的基礎消耗，可以大大提升信息化模式的效率。

可以智能分析串并案件。傳統(tǒng)辦案都是以人到案、以案到人，總歸需要一個觸發(fā)條件，在人為意識的認知下，才能主動的去尋找串并案件的聯(lián)系。使用阿爾法技術的系統(tǒng)，可以實現(xiàn)在無人操作的狀態(tài)下，自主尋找的關聯(lián)案件，并根據(jù)一定規(guī)則實現(xiàn)自主串并案件，可以實現(xiàn)的話則大大加快了辦案效率。

可以實現(xiàn)智能信息化追蹤。信息化偵查涉及的模塊有：GPS資源，住宿資源，物流資源，資金資源，監(jiān)控資源，通信資源，網(wǎng)絡資源等，傳統(tǒng)信息化偵查方法需人工在各類資源中進行檢索，而阿法元可以自行在各個領域提取相關信息，不需人為主觀選擇某一領域去嘗試，提高了容錯率，大大縮短人為的分析時間。

參考文獻

[1] 中國社會科學報孫夢曦探索融合：全球人工智能發(fā)展前沿

[2] 百度百科 AlphaGo Zero https：//baike.baidu.com/item/AlphaGo%20Zero/22168629？fr=aladdin

[3] 知乎網(wǎng) 許鐵-巡洋艦科技如何看待最新的圍棋人工智能阿法元？

[4] 新浪科技 AlphaGo Zero證明機器無需幫助即可成為超人 http：//www.cnbeta.com/articles/tech/662311.htm

[5] 中國電子報2017.10.24 阿法元更懂圍棋，人工智電視技術系統(tǒng)更懂你

[6] 鳳凰網(wǎng) AI科學家詳解AlphaGo Zero的偉大與局限 http：//news.ifeng.com/a/20171021/52737357_0.shtml