許成鋼
第四次產(chǎn)業(yè)革命正在快速興起。人工智能是這次產(chǎn)業(yè)革命的核心內(nèi)容之一。構(gòu)成產(chǎn)業(yè)革命的創(chuàng)新都是革命性創(chuàng)新。這類的創(chuàng)新具有特別高的不確定性。人工智能前沿工作的發(fā)展,包括基礎(chǔ)研究、應(yīng)用研究、初創(chuàng)企業(yè),都屬于這類性質(zhì)。
這類創(chuàng)新的未來醞釀在大量的研究成果和初創(chuàng)企業(yè)成果里。最后通過市場優(yōu)勝劣汰的過程,產(chǎn)生出來技術(shù)上和市場上最好的結(jié)果。在此之前,即便是在相關(guān)領(lǐng)域里成功的專家和企業(yè)家,也很難預(yù)測未來的結(jié)果。因此,了解未來,最重要的在于了解學(xué)術(shù)界在研究什么、初創(chuàng)企業(yè)在做什么,以及數(shù)量。
為了了解中國人工智能的現(xiàn)狀和展望未來,我們構(gòu)建的人工智能指數(shù),集中在三個方面,對比中國和國際前沿國家。這三個方面是,人工智能的初創(chuàng)企業(yè)、學(xué)術(shù)成果、開源軟件的應(yīng)用。從初創(chuàng)企業(yè)這個維度,可以勾勒出人工智能作為一個產(chǎn)業(yè)的現(xiàn)狀和最近的未來。通過初創(chuàng)企業(yè)不同發(fā)展階段的國際對比,我們可以看到中美人工智能企業(yè)之間的差異。以融資機制為例,融資機制本身就是初創(chuàng)企業(yè)的發(fā)展機制。融資機制其實是優(yōu)勝劣汰機制的核心。中國過去是計劃經(jīng)濟,現(xiàn)在仍然還保留著相當(dāng)一部分計劃經(jīng)濟的制度。所以,中國和美國在制度上的差別是,中國有兩大類不同的機制,一大類是優(yōu)勝劣汰的市場機制,另一大類是命令式的機制,即自上而下的命令或者計劃。
因為我們的主要目的是從產(chǎn)業(yè)革命的角度來看人工智能,因此在學(xué)術(shù)領(lǐng)域,我們關(guān)心的是產(chǎn)業(yè)長遠的未來發(fā)展。今天的學(xué)術(shù)工作就是明天的人工智能產(chǎn)業(yè)。在這個維度,我們觀察的是學(xué)術(shù)論文的定量和定性的指標(biāo)。
第三個維度是開源軟件的開發(fā)和應(yīng)用,這是學(xué)術(shù)與產(chǎn)業(yè)高度連接的部分。從應(yīng)用研究的角度講,這是一個非常重要的指標(biāo)。
絕大部分的人工智能方面的開創(chuàng)性研究,都是從學(xué)術(shù)上開始的。學(xué)術(shù)研究和應(yīng)用研究是產(chǎn)生革命性創(chuàng)新的必要條件,沒有它們就沒有后來的一切。所以學(xué)術(shù)研究的成果是最重要的。但僅僅是學(xué)術(shù)研究的成果仍然并不充分。比如專利??瓷先シ浅?yōu)秀的項目是不是最后能夠在商業(yè)化的過程中成功?在商業(yè)上沒有實現(xiàn)之前,沒有人能回答這個問題。所有在學(xué)術(shù)上和專利上非常優(yōu)秀的內(nèi)容,在商業(yè)實現(xiàn)之前仍然都面臨著巨大的挑戰(zhàn)和非常高的不確定性。因此,人工智能這個行業(yè)是不是能成功,整個行業(yè)在一個國家在一個地區(qū)是不是能夠成功,除了取決于當(dāng)?shù)氐膶W(xué)術(shù)和應(yīng)用的研究成就之外,還一定取決于當(dāng)?shù)氐闹贫取Ec創(chuàng)新技術(shù)發(fā)展相關(guān)的最重要的具體制度,就是所謂的硬預(yù)算約束的制度。
面對高度的不確定性,在沒有人知道某一個項目是不是能成功的情況下,必須有大量的創(chuàng)新想法在最早期的時候就能獲得投資。需要強調(diào)的是,是不是能獲得投資和是不是獲得大規(guī)模投資是兩回事。這是第一點,即是不是有大量的新想法能獲得投資。第二點,獲得投資的這些項目,當(dāng)被發(fā)現(xiàn)沒有前途的時候,是不是能夠及時地被中斷。硬預(yù)算約束指的就是是否能被及時地中斷。因為硬預(yù)算約束決定了不在失敗的項目上浪費資源,使得更多創(chuàng)新項目可以得到試一試的機會。
在中國,特別需要認識到,跟計劃經(jīng)濟相關(guān)的軟預(yù)算約束,缺少停止不成功項目的能力。因此在軟預(yù)算約束下,被迫依賴在沒有投資之前的、事先的審查項目,用這個方法來減少投資創(chuàng)新項目。這是計劃經(jīng)濟的一個重要特點。但是,一旦事先減少了投資的項目,就減少了最終成功的機會。
當(dāng)說到融資制度,風(fēng)險投資是行之有效的非常重要的基本制度,它的核心是階段性的硬預(yù)算約束。階段性的投資,最重要的就在于它能夠及時地中斷這些不成功的項目;或者換句話說,它是硬預(yù)算約束,用這個方式來降低失敗的風(fēng)險。風(fēng)險資本制度高度依賴股市和獨立的司法制度。
在人工智能的初創(chuàng)企業(yè)方面,中國的投資不僅數(shù)量巨大,而且從增長速度來看,在過去幾年里,初創(chuàng)企業(yè)的增長速度是世界上最快的。特別是從2014年以后,投資急劇加速。從總投資額來看,位居于全世界第一的是美國,第二就是中國。創(chuàng)新具有高度不確定性,其中非常重要的一個機制是投資的數(shù)額要大,這個數(shù)額指的不僅僅是投資的總量,而是指項目的總量。
第一個特點,從項目看,無論是初創(chuàng)企業(yè)的總數(shù)還是交易總數(shù)(所謂交易總數(shù)指的是有的企業(yè)可能有不止一個項目,它有不同的階段,因此交易總數(shù)和企業(yè)總數(shù)不是一回事,交易數(shù)字會更大)。從這兩個方面來看,中國的總投資額排名世界第二,但是企業(yè)總數(shù)或者交易總數(shù),那么中國不是世界第二,而是世界第三,和居于世界第二的英國距離不是很大。更詳細的信息我們在后面來介紹。
第二個特點,中國人工智能初創(chuàng)企業(yè)的融資高度依賴對外開放的。我們的發(fā)現(xiàn)是中國總投資額全世界第二,那么這些投資從哪里來的?從統(tǒng)計數(shù)字來看,將近40%的交易是來自國內(nèi)的,而其他的超過46%是完全來自國外的,還有超過14%是國內(nèi)外聯(lián)合的。這組數(shù)據(jù)可以很清楚地看到,超過一半以上人工智能初創(chuàng)企業(yè)的融資是來自國外,這是非常重要的一個特點。不僅僅中國的研究跟改革開放高度相關(guān),跟國際間的融合高度相關(guān),即便在融資方面也跟國際的融合與開放是高度相關(guān)的。
中國人工智能初創(chuàng)企業(yè)的投資主體是風(fēng)險資本,而不是中國傳統(tǒng)的金融機構(gòu)。前面我們講硬預(yù)算約束,硬預(yù)算約束主要來自于風(fēng)險資本。在中國,74%的交易來自風(fēng)險資本,將近16%的交易是來自私募,私募股權(quán)的性質(zhì)跟風(fēng)險資本是高度相近的,所以我們把這兩者合并在一起。也就是說,將近90%的人工智能初創(chuàng)企業(yè)的投資來自于風(fēng)險投資。這是極端重要的一個信息。
前面講到2014年以后,中國加速了人工智能初創(chuàng)企業(yè)的投資,而且投入早期項目的資金總量非常之巨,但是有個重要的特點是值得關(guān)注的。雖然投入的資金量非常的大,但是投入的初創(chuàng)企業(yè)的總數(shù)字以及總的交易數(shù)字,沒有相應(yīng)的那么大,導(dǎo)致了一個初創(chuàng)企業(yè)的早期,平均獲得的投資額非常高。不同的人對此可以有不同的解釋,我們的解釋留待最后的分析之中。
初創(chuàng)企業(yè)融資情況的統(tǒng)計數(shù)字,來源于VC Experts和Crunchbase這兩個數(shù)據(jù)庫。這兩個是世界上最大的風(fēng)險投資融資的數(shù)據(jù)庫。兩個合并在一起,基本上概括了全世界的所有的風(fēng)險投資的融資情況。中國跟世界的對比數(shù)據(jù),全部從這里獲得。
我們首先關(guān)心是跟IT相關(guān)的領(lǐng)域,然后在數(shù)據(jù)庫里搜索公司簡介,使用了近20個與人工智能各個方面相關(guān)的關(guān)鍵詞。如果這個企業(yè)涉及到這些方面,我們就把它定義為人工智能的初創(chuàng)企業(yè)。用這個方式,我們找到全世界所有初創(chuàng)企業(yè)的情況。美國的總數(shù)是4600多個,占全世界的比率超過45%;英國有846個,占全世界的8.2%,中國有730個排第三位,占全世界的7.11%。從初創(chuàng)企業(yè)的總數(shù)來看,中國在全世界是相當(dāng)?shù)念I(lǐng)先,但是和美英相比,還有顯然的差距。
融資方面,美國的融資額是1273億美元,占全世界的59%。中國是487億美元,占全世界近23%。從企業(yè)總數(shù)來對比,中國的比例遠沒有這么大,但是從投資總額上看,中國的投資總額已經(jīng)快要接近美國的一半了,排到全世界第二。排到全世界第三位的是英國,跟中國相差很遠。
平均每個初創(chuàng)企業(yè)獲得的投資是多少?美國跟世界上其他的發(fā)達國家比,沒有顯著高很多,只是稍微高一點點。而中國自從2013年之后開始起步,2014年拉開距離,平均每個企業(yè)獲得風(fēng)險投資的數(shù)字遠遠高過世界上其他國家。這其中有兩個可能性,一個可能性就是我們前面講到的軟預(yù)算約束機制。在面對高度風(fēng)險、高度不確定性的項目的時候,尤其是在早期,投資的數(shù)字一定是非常小的,因為越小就越便宜。等到有相當(dāng)?shù)陌盐找院?,擴大你的投資,這樣才能保證你以最小的代價獲得更大的成果。如果在早期投了很多錢進去,有相當(dāng)?shù)囊徊糠挚赡苁抢速M,這個是從機制上的一個解釋,另一方面也有一種可能的解釋,早期階段的初創(chuàng)人工智能企業(yè),它的不確定性沒有那么高。這一點我們的數(shù)據(jù)沒有辦法告訴我們,行業(yè)里面的同事們,可能會比我們更清楚。
在面對高度不確定性的時候,關(guān)鍵問題在于在最早期的時候是不是有足夠多的探索性的項目。在探索性項目的數(shù)字這個方面(種子期的交易量),美國遠遠高于世界上所有其他國家。排名第二的是英國,排名第三的是中國和加拿大。在這個方面,中國只有英國的一半多一點,只有美國的大約七分之一。由于探索面對很高的失敗的風(fēng)險,有效配置資源的方法是,在啟動探索的階段,每一個項目投盡量少的錢。但是在這方面,中國的情況與發(fā)達國家非常不同。與發(fā)達國家相比,中國初創(chuàng)企業(yè)在種子期,對每個項目的投資量都很大。
到創(chuàng)業(yè)的晚期,從風(fēng)險投資的角度,人們對項目的成功已經(jīng)有相當(dāng)?shù)陌盐铡奈覀兊臄?shù)據(jù)來看,晚期的投資交易總額,也就是有多少項目獲得了融資,美國排第一,中國排第二,英國排第三。從趨勢上可以看到,從2016年之后,中國和其他國家之間拉開很大距離。就是說從2016年之后,晚期的投資額明顯比其他發(fā)達國家要多,但是與美國相比還是有顯然的差距,這個差距似乎有一點縮小的趨勢但也不是很確定。但是比起其他發(fā)達國家來,中國顯然是領(lǐng)先的。排第三的是英國。英國和其他發(fā)達國家之間的距離并不大,但是中國和美國之外的所有發(fā)達國家之間的距離拉開很大。
從晚期的平均投資額來看,平均每一個項目的投資,中國遠遠高于世界上的其他國家,美國排第二,英國排第三。中國比排第二的美國高很多,而美國和其他發(fā)達國家之間沒有顯然的距離,發(fā)達國家在平均的時候基本都差不多。這是一個很重要的信息,說明對發(fā)達國家來說有一些規(guī)律性的內(nèi)容,這些規(guī)律性的內(nèi)容決定了它們認為什么時候合算,基本上大家的做法都差不多。但是中國在討論到平均的時候,明顯的非常高。
怎么解釋這個現(xiàn)象呢?有兩種可能的解釋,一種可能的解釋就是前面講的軟預(yù)算約束和硬預(yù)算約束。中國可能仍然存在著一定程度的軟預(yù)算約束問題,因此導(dǎo)致它的平均投資額更高。另一種解釋是,可能中國的市場規(guī)模超級的大,包括在人工智能相關(guān)的應(yīng)用領(lǐng)域里。因此,即便在每個項目都投入很多,成本很高,總體上仍然能盈利。有可能這兩個解釋同時都成立,都是一部分的原因。
2021年5月21日,2021RoboCup機器人世界杯中國賽暨亞太機器人世界杯天津國際邀請賽在天津空港體育中心舉行。圖/中新
從學(xué)術(shù)論文的發(fā)表量和論文被引用的指數(shù)來看,在最近幾年里,中國整體上在世界上排名第二。在大體上,和美國的差距在縮小,但仍然有一些重要的方面,差距還是相當(dāng)明顯。
首先來看一下在期刊和會議論文的發(fā)表情況。在期刊和會議發(fā)表論文的總數(shù)方面,中國在世界上排名第二,其中包括最近20年里積累的總數(shù),以及最近幾年的年度的發(fā)表數(shù)字。很重要的一點是,自從2017年之后,中國年度發(fā)表的總數(shù)和美國的差距是在逐年縮小之中。如果我們把期刊跟會議分開、單獨看期刊的話,中國在期刊發(fā)表的總數(shù)是世界第一。在期刊的被引用總數(shù)也是世界第一。所以,如果我們單純看期刊的話,中國現(xiàn)在已經(jīng)超過了美國,位居世界第一。這也是為什么有相當(dāng)一些報告會認為中國在人工智能方面超過了美國成為世界第一,其實指的是在期刊發(fā)表的論文方面。但是,如果我們把這個引用分成類別,分成高引用的論文和普通引用的論文和低引用的論文,我們就會發(fā)現(xiàn),如果我們看被引用1000次以上的,那么中國在期刊方面仍然是排得很高。
在會議論文方面,中國的排名就不太一樣。如果看加總,中國在會議上發(fā)表的論文總數(shù)大體上是世界第二,被引用的總數(shù)也大體上是世界第二。如果我們看會議論文的引用次數(shù),被引用千次以上的甚至百次以上的,中國都在世界上排名第二,但和世界第一的美國之間的差距沒有清楚地縮小的趨勢。
在開源軟件的無論開發(fā)和使用方面,中國都跟美國有顯然的差距。值得關(guān)注的一點是,與期刊和學(xué)術(shù)論文的情況非常不同,中國和美國在開源軟件方面的差距是在擴大之中,而不是在縮小之中。這背后說明什么問題,還需要更深入的討論。
我們的數(shù)據(jù)來源是Scope數(shù)據(jù)庫,包括學(xué)術(shù)論文,期刊和會議的,全部都來自這個數(shù)據(jù)庫。搜索方法基本上是和斯坦福大學(xué)制作的人工智能指數(shù)的搜索方法是相似的,使得我們和他們有高度的可對比性。
具體來看,積累的學(xué)術(shù)論文的總數(shù),美國排第一,中國排第二,英國排第三。從積累的總數(shù)看,中國和美國之間差距還是相當(dāng)大的。從時間的趨勢變化來看,雖然中國仍然排第二,但是和美國的差距是在逐年縮小之中,尤其是在2016年、2017年之后。
排名第三的是英國,可能實際上排名第三的已經(jīng)是印度了。英國和印度這兩個國家處于不相上下的一個狀態(tài),和排名第二的中國的差距是很顯然的,這是期刊和會議論文的總量。如果只看期刊的話,中國在2012年之后就已經(jīng)超過了美國,是世界上在期刊上發(fā)表人工智能論文最多的國家。
從2012年之后,長期以來排名第二的是美國,但是現(xiàn)在也被印度超過。所以現(xiàn)在已經(jīng)是印度排名第二,美國排名第三。這背后有一個重要的內(nèi)容,就是由于人工智能這個領(lǐng)域本身在加速發(fā)展,使得很多的研究者為了快,更多地把論文發(fā)表在會議上,而不是在期刊上。這是為什么我們在期刊上見到這樣應(yīng)該狀況的部分解釋。一方面是中國的論文增速非???,另一方面美國作為人工智能最發(fā)達的國家,在期刊上發(fā)表論文的數(shù)字不長進了,原因是大量的論文轉(zhuǎn)移到會議上去了。
從會議論文加總的數(shù)字我們可以看到,美國排最前面,中國排第二,英國排第三。中國和美國之間的差距似乎有縮小的趨勢,但不是很清楚。但是中國和其他發(fā)達國家之間的差距是在拉開。中國超過其他的發(fā)達國家,而且超過的越來越多。
只是看論文數(shù)字,可能還不能說明論文的質(zhì)量。質(zhì)量更多地反映在引用次數(shù)上。可以看到自從2014年以來,在引用的方面,中國超過美國,成為期刊論文被引用的總數(shù)在世界上排名第一的國家,而美國是僅次于中國排第二的,其他若干的發(fā)達國家合在一起排第三位。中國和美國跟其他的國家相比,后者是有顯然的差距的。
從大型的人工智能學(xué)術(shù)會議論文的年度被引用情況來看,美國遠高于其他國家排名第一,中國排名第二。中國和美國之間是不是差距在縮小,目前還不是很清楚,其他的發(fā)達國家和中國之間的差距似乎在拉開。
小型的、更專業(yè)的人工智能學(xué)術(shù)會議發(fā)表的論文,加總之后的年度被引用的情況,可以看到中國和發(fā)達國家之間已經(jīng)沒有清楚的優(yōu)勢了。美國排名世界第一,英國排名世界第二,德國曾經(jīng)排世界第一,現(xiàn)在連第三也排不到了,現(xiàn)在排名第三的是法國。為什么會這樣?這背后是什么原因?需要專家們來解釋。
再來看一下最高的被引用論文是怎么分布的。首先我們來看期刊上最高的被引用論文,也就是在人工智能領(lǐng)域里影響最大的論文,美國曾經(jīng)高度領(lǐng)先,到了最近幾年,中國、美國、以色列似乎是不相上下。
再來看會議論文的加總情況,可以看到美國在最有影響力的論文方面遙遙領(lǐng)先,其他幾個國家中國、英國、德國,在最近幾年里不相上下,可以認為并列第二。
對于影響力比較低的論文,我們分成幾個等級:被引用1000次和以上的、幾百次到幾十次的、幾十次到十次的、個位數(shù)的以及零引用的。限于篇幅,我著重介紹低引用率論文的情況。在期刊論文上,低引用率的論文,中國一直是世界最高的,美國是世界第二的。但是如果我們看低引用率的會議論文,跟高引用率論文的情形相似,美國遙遙領(lǐng)先。中國和英國并列第二,但是和美國相差甚遠,和其他發(fā)達國家相差無幾。
最后我們來看一下中國和美國研究者使用人工智能開源軟件平臺的相關(guān)情況。從加總的數(shù)據(jù)來看,從2015年到現(xiàn)在,我們可以看到中國和美國在使用和開發(fā)人工智能開源軟件方面都在增長,但是美國的增長速度更快。2019年,美國使用開源軟件平臺的總量已經(jīng)多達十幾萬,中國的數(shù)字是3萬左右。為什么是這樣?留給專家們?nèi)ビ懻摗⑷シ治觥?/p>
小結(jié)一下這份報告的核心發(fā)現(xiàn)。首先我們看到在人工智能初創(chuàng)企業(yè)方面,中國的總投資僅次于美國,大體上相當(dāng)于美國規(guī)模的五分之二。趨勢上來看,中國跟美國總投資額的差距在縮小。如果我們集中看項目晚期的投資情況,中國和美國的差距縮小的更快。這是第一個總結(jié)的內(nèi)容。
第二個總結(jié)的內(nèi)容就是人工智能作為一個全新的行業(yè)還正在興起,還沒有真正建立起來,具有非常高的不確定性。當(dāng)面對如此高的不確定性的時候,它的種子期和早期的數(shù)量,即包括項目數(shù)量和企業(yè)數(shù)量,是最終優(yōu)勝劣汰出成果的關(guān)鍵。如果我們集中看種子期和早期的話,無論是企業(yè)的總數(shù)還是交易量的總數(shù),中國都在英美之后,而且和英美的差距不是在縮小,反而是在增大。這是值得高度關(guān)注的問題。
在學(xué)術(shù)方面,中國發(fā)表論文的總量僅次于美國。其中,在期刊發(fā)表的總量和引用量總量都是位居世界第一,超過了美國,而且早就超過了美國。而會議發(fā)表的總量排第二,和美國的差距仍然非常大,和英國德國等等的差距并不大。在會議論文中,高引用量特別是最高引用率的論文,中國和美國有顯然的差距,而且這個差距沒有清楚地縮小的趨勢。
在人工智能開源軟件方面,與美國的研究者相比,中國的人工智能的研究者開發(fā)和使用的要少很多。從趨勢上看,這種差距在增加,而不是在縮小。
(編輯:王延春)