魏強 侯雪 陸平 曹茜芮
由斯坦福大學(xué)、麻省理工學(xué)院與OpenAI聯(lián)合發(fā)布的《人工智能指數(shù)2018年度報告》,相比2017年報告有以下兩方面的改進:一是基于對人工智能領(lǐng)域相關(guān)活動的持續(xù)跟蹤,更新了最新指標(biāo);二是站在全球化視角進行了解析。2017年的指數(shù)報告涉及較多北美區(qū)域的活動,主要是因為當(dāng)時全球只有為數(shù)不多的幾個經(jīng)濟體就人工智能項目建立了合作關(guān)系。然而,當(dāng)前人工智能已經(jīng)在全球多個國家快速發(fā)展,主要體現(xiàn)在:一是人工智能論文呈現(xiàn)多極化趨勢。如2017年Scopus數(shù)據(jù)庫中有83%的人工智能論文來自美國以外的地區(qū),其中,28%來自歐洲地區(qū)。二是人工智能教育呈現(xiàn)泛化趨勢。如全球注冊人工智能(AI)和機器學(xué)習(xí)(ML)課程的人數(shù)在不斷增加,尤其是在中國清華大學(xué),其相關(guān)注冊人數(shù)比2010年注冊人數(shù)增加了16倍之多。三是多個國家或地區(qū)的人工智能相關(guān)專利快速增長。除美國、中國和歐洲外,其他經(jīng)濟體也取得了進展。2014年,韓國和日本分別是第二和第三大人工智能專利申報國,僅次于美國。
一、指標(biāo)說明
(一)核心指標(biāo)
2018年人工智能指數(shù)有兩個核心指標(biāo)——活動量指標(biāo)和技術(shù)性能指標(biāo)。
活動量指標(biāo)主要用于衡量學(xué)者、企業(yè)、企業(yè)家以及公眾在人工智能領(lǐng)域的參與度,具體數(shù)據(jù)包括學(xué)習(xí)人工智能的本科生人數(shù)、申請人工智能工作的女性人數(shù)占比以及創(chuàng)辦人工智能企業(yè)所需風(fēng)投資金的增長率等。
技術(shù)性能指標(biāo)主要用于衡量人工智能細(xì)分領(lǐng)域的技術(shù)性能變化情況。新版的人工智能指數(shù)新增了國家或地區(qū)型指標(biāo),如國家層面的機器人研發(fā)管理機構(gòu)、人工智能會議參會者等指標(biāo)??傮w而言,2017年報告所體現(xiàn)的主要趨勢仍在延續(xù),即人工智能活動正在向世界各地普及,且技術(shù)性能正在全面提升。
(二)其他指標(biāo)
本報告在“衍生指標(biāo)”章節(jié)重點分析了發(fā)展趨勢之間的關(guān)系,探索出一項新的指標(biāo)即人工智能活力指數(shù)。該指數(shù)通過綜合學(xué)術(shù)界和行業(yè)界的趨勢,從而量化人工智能領(lǐng)域的活力情況。本報告還引入一個新的定性指標(biāo),即政府近期計劃,該指標(biāo)可用于體現(xiàn)政府近期對人工智能的投資計劃。
二、核心指標(biāo):活動量
(一)學(xué)術(shù)研究
1、發(fā)表論文
從論文發(fā)表數(shù)量看,以斯高帕斯數(shù)據(jù)庫中論文為例,人工智能論文數(shù)比1996年增加了8倍,計算機科學(xué)論文數(shù)比1996年增加了6倍。
從發(fā)表區(qū)域看,2017年,斯高帕斯數(shù)據(jù)庫中有28%的人工智能論文來自歐洲地區(qū),其次是中國(25%)和美國(17%)。
從發(fā)表主題看,2017年,機器學(xué)習(xí)與概率推理類的論文數(shù)占比為56%,而2010年僅為28%。2014-2017年間,大多數(shù)類別論文的發(fā)表速度高于2010-2014年。尤其值得注意的是,2010-2014年,神經(jīng)網(wǎng)絡(luò)論文的年復(fù)合增長率(CAGR)僅為3%,而2014-2017年的年復(fù)合增長率為37%。
從各地區(qū)相對活動指數(shù)(RAI)看,中國的人工智能論文主要集中在工程技術(shù)和農(nóng)業(yè)科學(xué)領(lǐng)域,而美國和歐洲的人工智能論文則主要集中在人文以及醫(yī)療與衛(wèi)生科學(xué)領(lǐng)域。2017年數(shù)據(jù)顯示,與2000年相比,上述三個地區(qū)對人工智能研究的重視程度均有所提高,且中國正轉(zhuǎn)向農(nóng)業(yè)領(lǐng)域的人工智能研究。
從論文發(fā)表主體看,2017年中國政府機構(gòu)人工智能論文發(fā)表量是企業(yè)發(fā)表量的4倍。自2007年以來,中國政府機構(gòu)發(fā)表的人工智能論文的數(shù)量增加了400%,而企業(yè)論文發(fā)表量僅增加了73%。在美國,企業(yè)發(fā)表的人工智能論文占比相對較大。2017年,美國企業(yè)人工智能論文發(fā)表量占本國所有人工智能論文發(fā)表量的比例比中國高出6.6倍,比歐洲高出4.1倍。此外,美國企業(yè)人工智能論文發(fā)表量增幅最大,其2017年企業(yè)人工智能論文發(fā)表量是2009年的1.7倍。
從論文引用影響力看(見圖1),雖然歐洲每年發(fā)布的人工智能論文數(shù)量最多,但其重新設(shè)定的領(lǐng)域加權(quán)引用影響力仍保持相對平穩(wěn),與世界平均水平相當(dāng)。相比之下,中國重新設(shè)定的領(lǐng)域加權(quán)引用影響力大幅提升。2016年,中國人工智能作者的被引用次數(shù)比2000年高出44%。然而,在總引用次數(shù)方面,美國仍優(yōu)于其他地區(qū)。美國作者的被引用次數(shù)比全球平均水平高出83%。
2、課程注冊
以美國人工智能課程為例,美國幾所領(lǐng)先的計算機科學(xué)大學(xué)的人工智能和機器學(xué)習(xí)課程的注冊人數(shù)正在不斷增長。2017年,入門級人工智能課程的注冊人數(shù)比2012年增加了3.4倍,而入門級機器學(xué)習(xí)課程的注冊人數(shù)則比2012年增加了5倍。2017年,加州大學(xué)伯克利分校的入門級機器學(xué)習(xí)課程的注冊人數(shù)是2012年的6.8倍,這一增長率高于其他所有被調(diào)研的學(xué)校。以國際其他高校課程來說,2017年,中國的清華大學(xué)人工智能和機器學(xué)習(xí)課程的注冊人數(shù)比2010年增加了16倍。多倫多大學(xué)、維也納技術(shù)大學(xué)、不列顛哥倫比亞大學(xué)等人工智能和機器學(xué)習(xí)課程的注冊人數(shù)都逐年增長??偟膩砜?,在所有研究的學(xué)校中,人工智能課程注冊人數(shù)增長率在一定程度上取決于學(xué)校,而地理位置并不會造成太大影響。
3、參與度
參與度指標(biāo)主要包括參加人工智能會議和注冊各種人工智能相關(guān)的機構(gòu)。數(shù)據(jù)顯示,2017年參與大型(人數(shù)超過2000人)人工智能會議的人數(shù)增長迅速,其中,神經(jīng)信息處理系統(tǒng)會議和國際機器學(xué)習(xí)會議的與會人數(shù)增長速度最快,分別是2012年與會人數(shù)的4.8倍和6.8倍。參與小型(人數(shù)不足2000人)人工智能會議的人數(shù)也有顯著增長,特別是國際學(xué)習(xí)表征會議(ICLR),2018年的與會人數(shù)比2012年增加了20倍。注冊女性機器學(xué)習(xí)研討會和AI4ALL4等機構(gòu)的人數(shù)均有所增加,女性機器學(xué)習(xí)研討會的與會人數(shù)比2014年增加了6倍,AI4ALL的畢業(yè)人數(shù)比2015年增加了9倍。這些增長表明,當(dāng)今社會一直在為提高女性和非代表性群體在人工智能領(lǐng)域的參與度而努力。
4、機器人軟件下載
機器人操作系統(tǒng)是一種廣泛使用的機器人開源軟件棧,許多商業(yè)制造商和學(xué)術(shù)研究人員都使用機器人操作系統(tǒng)。圖2顯示了ROS.org網(wǎng)站上機器人操作系統(tǒng)(ROS)二進制包下載量隨時間的變化情況,左軸代表月平均下載量,右軸代表僅來自唯一IP地址的月平均下載量。自2014年以來,總下載量和唯一IP地址下載量分別增長了352%和567%。這就表明,當(dāng)今社會對機器人技術(shù)以及機器人系統(tǒng)的應(yīng)用越來越感興趣。目前,唯一IP地址下載量的增長速度高于總下載量,由此可以推斷,機器人操作系統(tǒng)用戶也有所增加,而不僅僅是使用頻率的增加。從地區(qū)上來看,美國和歐洲的ROS.org頁面瀏覽量最多,中國緊隨其后,且中國是增長率最高的地區(qū)。
(二)行業(yè)狀況
1、創(chuàng)業(yè)/投資
從人工智能初創(chuàng)企業(yè)來看,到2018年1月,美國由風(fēng)險資本支持且正常經(jīng)營的私營初創(chuàng)企業(yè)超過了10000家,比2015年1月增加了2.1倍,呈現(xiàn)指數(shù)級增長態(tài)勢。從風(fēng)險投資資金來看,2017年,美國風(fēng)投資金總額比2013年增加了2.08倍,其中人工智能領(lǐng)域的風(fēng)投資金比2013年增加了4.5倍。
2、就業(yè)
就業(yè)方面則呈現(xiàn)兩大突出問題,一是技能崗位空缺,二是申請人性別差異較大。從崗位來看,機器學(xué)習(xí)技能的需求量最大,深度學(xué)習(xí)技能需求量的增長速度最快。2017年,需要深度學(xué)習(xí)技能的崗位空缺數(shù)量比2015年增加了35倍。從申請人性別差異來看,平均而言,美國人工智能崗位申請人中男性占比71%。由于機器學(xué)習(xí)崗位的申請人數(shù)最多,因此,該類崗位申請人中的性別差異是導(dǎo)致這一平均水平的主要原因。此外,相對于其他類別的人工智能技術(shù),深度學(xué)習(xí)和機器人技術(shù)崗位的申請人也存在較大的性別差異。
3、專利
從各發(fā)明地區(qū)人工智能專利的數(shù)量和增長情況來看,2014年,大約30%的人工智能專利集中在美國,其次是韓國和日本,占比均為16%。在發(fā)明量最多的地區(qū)中,韓國和中國臺灣增長最快,其2014年人工智能專利數(shù)量幾乎是2004年的5倍。
4、人工智能采用
根據(jù)麥肯錫咨詢公司對2135名不同機構(gòu)受訪對象展開的調(diào)查,圖3顯示了至少已在其一個功能或業(yè)務(wù)部門引入人工智能能力的受訪對象占比情況。
分地區(qū)來看,雖然有些地區(qū)某種能力的采用程度遠(yuǎn)高于其他地區(qū),但在人工智能能力方面,各地區(qū)的采用程度大致相等。
分領(lǐng)域來看,各行業(yè)紛紛引入人工智能能力以獲得最大行業(yè)價值。例如,金融服務(wù)業(yè)在風(fēng)險功能中大量引入人工智能,汽車行業(yè)在制造功能中大量引入人工智能,而零售業(yè)則在營銷/銷售功能中大量引入人工智能。這就意味著,特定應(yīng)用(如制造)的人工智能的發(fā)展速度可能與特別強調(diào)專業(yè)化的行業(yè)有關(guān)。
5、財報電話會議中的提及次數(shù)
各行業(yè)的企業(yè)財報電話會議中人工智能和機器學(xué)習(xí)的提及次數(shù)整體呈現(xiàn)增長態(tài)勢,其中,IT企業(yè)提及的次數(shù)最多。2015年,IT行業(yè)提及人工智能和機器學(xué)習(xí)的次數(shù)開始大幅增加,而對其他大多數(shù)行業(yè)而言,2016年才開始出現(xiàn)此類增長。IT、非必需消費品、金融和醫(yī)療行業(yè)在財報電話會議中提及人工智能的次數(shù)最多。
6、機器人機構(gòu)
從各地區(qū)工業(yè)機器人機構(gòu)的年度數(shù)量來看,自2012年以來,中國機器人機構(gòu)年度數(shù)量已增加了500%,其他地區(qū)也有顯著增長,如韓國和歐洲,分別增加了105%和122%。目前,在數(shù)量較少的地區(qū)中,中國臺灣的年度機構(gòu)數(shù)量最大,且在2012-2017年間增長最快,機器人機構(gòu)總數(shù)已超10000家。
(三)開源軟件
開源軟件有兩個最新趨勢,一是大型企業(yè)支持的框架,如谷歌的Tensorflow、臉書的Pytorch、亞馬遜的mxnet等,正在日益普及;二是相對于其他編程語言,TensorFlow最為普及。
(四)公共事務(wù)
1、媒體態(tài)度
從媒體對人工智能的評判態(tài)度來看,中性評判人工智能類文章越來越少,正面評判人工智能類文章越來越多。自2016年初期以來,2016年1月至7月,正面文章占比從12%增至30%,此后,正面文章占比一直在30%左右。
2、政府提及率
自2016年以來,美國、加拿大和英國三國政府對人工智能和機器學(xué)習(xí)相關(guān)詞匯的提及率不斷攀升。在此之前,這三個國家鮮少提及機器學(xué)習(xí)。以美國為例,美國國會對人工智能和機器學(xué)習(xí)的提及率在2018年有了顯著增長,美國數(shù)據(jù)中的每項計數(shù)代表至少提及過一次機器學(xué)習(xí)或人工智能的特定事件或?qū)υ挕?/p>
三、核心指標(biāo):技術(shù)性能
(一)視覺
1、對象檢測
ImageNet挑戰(zhàn)賽是全球計算機對象檢測領(lǐng)域的重要競賽,能夠反映該領(lǐng)域的進展。
從準(zhǔn)確度方面看,根據(jù)2012-2018年ImageNet2012數(shù)據(jù)集的測試和驗證結(jié)果,對象檢測領(lǐng)域的性能不斷提升,測試集和驗證集準(zhǔn)確度都已達到95%以上。
從訓(xùn)練時間看,2017年6月至2018年11月間,訓(xùn)練對象檢測人工神經(jīng)網(wǎng)絡(luò)所需的時間已從1小時縮短至4分鐘左右,訓(xùn)練速度提高了約16倍。其中,算法創(chuàng)新、基礎(chǔ)設(shè)施投資是訓(xùn)練時間縮短的主要原因。
2、實例對象分割
由于對象檢測與圖像分類領(lǐng)域已經(jīng)實現(xiàn)了較高性能,ImageNet挑戰(zhàn)賽已宣告結(jié)束。自2017年來,研究者開始將研究重點轉(zhuǎn)向需要更復(fù)雜推理的視覺任務(wù),如定位像素級精度的對象(實例對象分割)、將場景劃分為具有像素級精度的區(qū)域(語義分割)等。COCO挑戰(zhàn)賽是全球?qū)嵗龑ο蠓指畹闹匾傎?,其宗旨是?gòu)建一種可精確定位各對象并描繪其邊界的算法。自2015年以來,COCO挑戰(zhàn)賽中達到的最高平均精度提高了0.2個百分點。
(二)語言
1、句法分析
句法分析往往是進行某些自然語言處理任務(wù)的第一個步驟。目前幾乎普遍使用深度學(xué)習(xí)技術(shù)進行句法分析。2003至2018年間,句法分析的性能提高了約10%。
2、機器翻譯
目前,機器翻譯的性能有大幅提升。2018年,BLEU模型在英語譯德語方面的得分比2008年提高3.5倍,而在德語譯英語方面的得分比2008年提高2.5倍。
3、回答問題
AI2推理挑戰(zhàn)賽(ARC)。AI2推理挑戰(zhàn)數(shù)據(jù)集包含7787個小學(xué)水平(美國3-9年級)的多項選擇題,這些問題可分為挑戰(zhàn)題集(2590個問題)和簡易題集(5197個問題)。2018年4月至11月期間,AI2推理挑戰(zhàn)賽中的簡易題集性能得分由63%提升至69%,挑戰(zhàn)題集得分由27%提升至42%。
用語言理解評估(GLUE)。通用語言理解評估基準(zhǔn)是一項新基準(zhǔn),旨在通過一系列任務(wù)測試自然語言理解(NLU)系統(tǒng),并促進非特定任務(wù)系統(tǒng)的開發(fā)。該基準(zhǔn)由九項子任務(wù)組成:兩項單句任務(wù)(衡量語言可接受性和情緒),三項相似性與釋義任務(wù),以及四項自然語言推理任務(wù)。語料庫大小從1000到400000不等。評估標(biāo)準(zhǔn)主要有準(zhǔn)確度/F1和Matthews相關(guān)性系數(shù)。盡管評估基準(zhǔn)于2018年5月發(fā)布,但到2018年10月,性能已經(jīng)由最初公布基線(約70%)提高至約80%。
四、其他指標(biāo):衍生指標(biāo)
第一項衍生指標(biāo)是學(xué)術(shù)界-行業(yè)界動態(tài),該指標(biāo)可體現(xiàn)所選學(xué)術(shù)指標(biāo)以及行業(yè)界動態(tài)的增長情況。第二項衍生指標(biāo)是人工智能活力指數(shù),該指標(biāo)是學(xué)術(shù)指標(biāo)和行業(yè)指標(biāo)的綜合體現(xiàn)。
1、學(xué)術(shù)界-行業(yè)界動態(tài)
為探索學(xué)術(shù)界與行業(yè)界人工智能相關(guān)活動之間的關(guān)系,本報告首先從上述章節(jié)中選取了一些有代表性的衡量指標(biāo),其中包括斯高帕斯數(shù)據(jù)庫中人工智能論文的發(fā)表量、美國幾所大學(xué)入門級人工智能和機器學(xué)習(xí)課程的綜合注冊人數(shù)以及對人工智能初創(chuàng)企業(yè)的風(fēng)險投資。這些指標(biāo)體現(xiàn)的表征量無法直接進行對比。為分析各趨勢之間的關(guān)系,本報告規(guī)范了從2010年開始使用的衡量指標(biāo),并顯示了各指標(biāo)的增長情況,而非絕對數(shù)量。
2、人工智能活力指數(shù)
人工智能活力指數(shù)是學(xué)術(shù)界-行業(yè)界三個衡量指標(biāo)(論文發(fā)表量、課程注冊人數(shù)和風(fēng)險投資)的綜合體現(xiàn),本報告利用該指數(shù)衡量人工智能領(lǐng)域的活力。人工智能活力指數(shù)主要受風(fēng)險投資的影響,因為相對于其他兩項指標(biāo),風(fēng)險投資增幅最大。
五、不足之處
為進一步改進人工智能指數(shù)報告,三位人工智能領(lǐng)域?qū)<医ㄗh加入新的要素和信息。
(一)常識推理與自然語言理解
IBM和意大利帕多瓦大學(xué)的弗朗西斯卡·羅西(Francesca Rossi)指出,深刻的自然語言理解以及常識推理能力仍然是挑戰(zhàn)所在,這兩項能力的衡量指標(biāo)有助于推動人工智能系統(tǒng)對話能力以及其他方面的發(fā)展。因此,人工智能指數(shù)報告中可以添加一些指標(biāo)來跟蹤與這些能力相關(guān)的測試和挑戰(zhàn)賽的進展,如威諾格拉德模式挑戰(zhàn)賽、AI2的Aristo項目等。此外,如通過人工智能增強人類智能,而非取代人類智能,那么非常重要的一點應(yīng)是從人機對抗環(huán)境向人機合作環(huán)境轉(zhuǎn)變。因此,報告中可增加非自主系統(tǒng)數(shù)量這一指標(biāo),以顯示人機合作方面的進展。
(二)帶有人工智能組件的機器人
麻省理工學(xué)院的羅德尼·布魯克斯(Rodney Brooks)希望進一步改善機器人出貨量指標(biāo)。機器人出貨量指標(biāo)的有效性取決于信息源,然而許多信息源提供的工業(yè)機器人出貨量中僅含有極少的(甚至根本沒有)人工智能組件,這就使得機器人出貨量指標(biāo)難以衡量人工智能的真實進展。此外,也可著眼于帶有人工智能組件的機器人,如無人機、家庭機器人等。
(三)政府支出與軍事應(yīng)用
悉尼威爾士大學(xué)和柏林工業(yè)大學(xué)的托比·沃爾什(Toby Walsh)指出,近兩年,人工智能領(lǐng)域的最大進展之一可能是政府和行業(yè)投資的增加。他建議:一方面增加衡量投資增長的量化指標(biāo),通過相關(guān)指標(biāo)對各國投資進行有效分析,可以衡量人工智能研發(fā)重點的轉(zhuǎn)移情況。另一方面,人工智能的軍事應(yīng)用備受關(guān)注,可增加可衡量各國軍方對人工智能技術(shù)的開發(fā)和采用情況的指標(biāo)。