賴紅波 趙逸維
摘 要:以Web of Science數(shù)據(jù)庫中大數(shù)據(jù)背景下的人工智能相關(guān)文獻(xiàn)作為數(shù)據(jù)樣本,借助CiteSpace軟件,對這一領(lǐng)域的研究分布、研究熱點(diǎn)、前沿研究等進(jìn)行分析。研究發(fā)現(xiàn),美國在該領(lǐng)域具有絕對的領(lǐng)導(dǎo)力,中國缺少具有關(guān)鍵性的文獻(xiàn),并且形成了分別以中美為核心的兩個合作子網(wǎng)絡(luò);該領(lǐng)域還沒有出現(xiàn)具有關(guān)鍵性意義的研究;深度學(xué)習(xí)是這一領(lǐng)域的研究前沿。目前這一領(lǐng)域還只是大數(shù)據(jù)和人工智能兩門學(xué)科的交叉,還沒有出現(xiàn)能夠使其成為新的邊緣學(xué)科的趨勢。分析結(jié)果有助于了解該領(lǐng)域的發(fā)展和現(xiàn)狀,為后續(xù)的深入研究提供參考。
關(guān)鍵詞:大數(shù)據(jù);人工智能;共被引網(wǎng)絡(luò)
中圖分類號:TP18? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? 文章編號:1673-291X(2020)15-0135-05
引言
人工智能和大數(shù)據(jù)是目前業(yè)界和學(xué)界都最十分熱門的研究領(lǐng)域。韋氏詞典將人工智能定義為:“機(jī)器模仿有智慧的人類行為的能力?!丙溈襄a對大數(shù)據(jù)的定義是,一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合[1];而我們平常更多的指的是對大數(shù)據(jù)進(jìn)行的處理和分析[2]。
大數(shù)據(jù)在很大程度上對眾多領(lǐng)域造成了巨大影響,包括傳統(tǒng)的企業(yè)[3],如制造業(yè)[4]等,也包括新興的如人工智能[5]。大數(shù)據(jù)是人工智能的三大基礎(chǔ)之一,其作為訓(xùn)練人工智能的“原材料”,能在很大程度上影響人工智能的學(xué)習(xí)效率和效果;反過來,人工智能的發(fā)展能大大地提高對數(shù)據(jù)的分析和處理能力。因此,兩者之間有十分密切的聯(lián)系,是互相交融、相輔相成的關(guān)系。
然而,對于大數(shù)據(jù)背景下的人工智能這一交叉領(lǐng)域的研究還很少,起步時間也較晚,從2012年后才開始逐漸形成規(guī)模。在各自的學(xué)科領(lǐng)域內(nèi),大數(shù)據(jù)和人工智能都已經(jīng)有了較多的綜述研究以及知識圖譜研究來概括描述學(xué)科研究的面貌;而兩學(xué)科的交叉領(lǐng)域還幾乎沒有文獻(xiàn)來描述。盡管發(fā)展晚、文獻(xiàn)數(shù)量少,但這兩個熱點(diǎn)學(xué)科的交叉領(lǐng)域仍具有進(jìn)一步深入研究的價值。因此,本文將對大數(shù)據(jù)背景下人工智能研究的相關(guān)文獻(xiàn)進(jìn)行科學(xué)計量與可視化研究,借助科學(xué)知識圖譜工具CiteSpace,通過“合作網(wǎng)絡(luò)”“關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)”“文獻(xiàn)共被引聚類”等功能,梳理該領(lǐng)域中的分布情況,分析該領(lǐng)域的研究熱點(diǎn)和前沿研究,以期從學(xué)術(shù)研究的角度提供更具價值參考信息,助力大數(shù)據(jù)背景下的人工智能更深層次的建設(shè)發(fā)展。
一、數(shù)據(jù)與方法
科學(xué)知識圖譜是一種描繪科學(xué)知識發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的圖形,研究的對象是科學(xué)知識,在其背后則是復(fù)雜的數(shù)學(xué)模型[6]。在目前眾多知識圖譜工具中,陳超美教授開發(fā)的CiteSpace知識可視化軟件由于其鮮明的特征和優(yōu)秀的表現(xiàn)而得到了廣泛應(yīng)用,成為目前最為流行的知識圖譜繪制工具之一[7]。因此本文以CiteSpace.5.4.R4作為研究工具??紤]到CiteSpace并不支持對CNKI數(shù)據(jù)庫導(dǎo)出的文獻(xiàn)數(shù)據(jù)做共被引分析[8],CSSCI則只包含了社會科學(xué)學(xué)科的文獻(xiàn),因此我們使用Web of Science數(shù)據(jù)庫。搜索主題為“big data”以及(邏輯為AND)“artificial intelligence”的文獻(xiàn),時間為數(shù)據(jù)庫內(nèi)所有年份(1986—2019年),并將文獻(xiàn)類型限定為會議論文、論文和綜述;然后在結(jié)果列表界面點(diǎn)擊“創(chuàng)建引文報告”,進(jìn)行檢索結(jié)果的擴(kuò)展,得到這些論文的施引文獻(xiàn),得到兩次檢索除去自引的共計4 520篇文獻(xiàn)。檢索時間為2019年10月1日。這種寬松的檢索取向有助于更加全面地研究諸如兩學(xué)科交叉領(lǐng)域這樣的文獻(xiàn)數(shù)據(jù)較少的研究對象[9]。
按照以上檢索策略,去除掉數(shù)據(jù)字段缺失的文獻(xiàn),共下載得文獻(xiàn)記錄2 700條,時間跨度為1999—2019年。將得到的2 700條文獻(xiàn)記錄導(dǎo)入CiteSpace中功能去重,最終得到2 664條文獻(xiàn)記錄,將其作為本次研究分析的數(shù)據(jù)樣本。
二、研究結(jié)果與分析
(一)研究的分布
利用CiteSpace的合作網(wǎng)絡(luò)分析模塊,對樣本文獻(xiàn)數(shù)據(jù)在國家和機(jī)構(gòu)間的分布做出可視化分析。在Node Types中分別選擇Country和Institution,并將時間段按年分段,每一年提取排名前50位的數(shù)據(jù)來生成最終的網(wǎng)絡(luò)。
國家分布的結(jié)果(如表1所示),選取了兩個指標(biāo)下排名靠前的國家。其中中介中心性用來發(fā)現(xiàn)和衡量這一節(jié)點(diǎn)的重要性;具有高中心性的節(jié)點(diǎn)(一般大于0.1)通常是連接的關(guān)鍵樞紐[10]。從頻次來看,中美兩國的文獻(xiàn)發(fā)表數(shù)量遙遙領(lǐng)先,體現(xiàn)了這兩個國家對這一交叉細(xì)分領(lǐng)域的關(guān)注度和領(lǐng)導(dǎo)力。前十中也基本都是發(fā)達(dá)國家,但除中國外的另一發(fā)展中國家印度也值得關(guān)注。印度具有較強(qiáng)的IT實(shí)力,因此在大數(shù)據(jù)和人工智能的交叉領(lǐng)域也會有不錯的發(fā)展。從中心性來看,與頻次排名國家相比有較大的變化。美國的中心性高達(dá)0.27,約為第二名的近兩倍,說明了其發(fā)文多為關(guān)鍵的樞紐,具有突破性,是這一領(lǐng)域的領(lǐng)跑者,而中國雖然頻次高但中心性較低,只有0.1,重大突破的文獻(xiàn)相比較少。沙特阿拉伯和奧地利的文獻(xiàn)雖然數(shù)量不多,但也具有較高中心性,是這一領(lǐng)域不能忽略的重要國家。
機(jī)構(gòu)的合作(網(wǎng)絡(luò)如圖1所示),節(jié)點(diǎn)大小代表發(fā)表文獻(xiàn)的數(shù)量,具有高中心性的節(jié)點(diǎn)被紫色的圓圈出,連線代表合作關(guān)系??梢院苊黠@地看到網(wǎng)絡(luò)中的節(jié)點(diǎn)形成了分別以中國機(jī)構(gòu)和美國機(jī)構(gòu)為主兩個合作子網(wǎng)絡(luò)。中國這邊以中國科學(xué)院為核心,有幾個較為重要的高校如北大清華武大等,文章數(shù)量明顯更多。美國一方的分布較為平均但連線十分密集,表明了其間更為密切的合作關(guān)系。重要的院校有哥倫比亞大學(xué)、威斯康辛大學(xué)以及加拿大的麥吉爾大學(xué)、滑鐵盧大學(xué)等。在兩個子網(wǎng)絡(luò)之間還有幾所重要的大學(xué),其與兩邊都有較多的合作,比如美國麻省理工、哈佛醫(yī)學(xué)院,英國牛津大學(xué)等倫敦大學(xué)學(xué)院等。兩個主要的合作子網(wǎng)絡(luò)各有特點(diǎn):中國一邊以幾所機(jī)構(gòu)為核心帶動其他的科研機(jī)構(gòu)發(fā)展;歐美一方則是眾多的機(jī)構(gòu)共同發(fā)展,較為平均但數(shù)量眾多。這些特點(diǎn)是由機(jī)構(gòu)所在國家和地區(qū)的科研情況和科研政策決定的,兩種模式下都有著很好的發(fā)展。但無論是何種方式,都表明了合作是推動科研進(jìn)步發(fā)展的最重要因素之一;或許在將來,這兩種模式之間可以互相有借鑒和學(xué)習(xí)。
(二)研究熱點(diǎn)和前沿
文獻(xiàn)關(guān)鍵詞是一篇文章中高度凝練及集中概括的表現(xiàn),通常出現(xiàn)頻次較高的關(guān)鍵詞被認(rèn)為是一定時期的研究熱點(diǎn)[11]。因此,本文使用文獻(xiàn)關(guān)鍵詞做主題詞共現(xiàn)分析,這其中包括作者自己列出的關(guān)鍵詞以及WoS數(shù)據(jù)庫提取的擴(kuò)展關(guān)鍵詞;Node Type選擇Keyword,整理后的部分結(jié)果(如表2所示)。
大數(shù)據(jù)和人工智能理所當(dāng)然地位于頻次的前兩位,因為本文的研究對象即為這兩個學(xué)科的交叉領(lǐng)域。其他排名靠前的關(guān)鍵詞也來自于人工智能以及計算機(jī)數(shù)據(jù)等方面的學(xué)科,如系統(tǒng)、神經(jīng)網(wǎng)絡(luò)等等。發(fā)表的平均年份都在2014年左右,但其中早到了2007年如人工智能。
從中心性來看,關(guān)鍵詞的中心性普遍偏低,大于等于0.1的只有5個,表明這一領(lǐng)域具有高度突破創(chuàng)新的關(guān)鍵樞紐性的熱點(diǎn)方向還未出現(xiàn)。其中,預(yù)測的中心性最高,并且平均發(fā)表時間也大大早于其他關(guān)鍵詞,是這一領(lǐng)域較早成為較為關(guān)鍵樞紐的一個熱點(diǎn)研究。另外,較為熱點(diǎn)的研究關(guān)鍵詞還有系統(tǒng)、大數(shù)據(jù)、人工智能和設(shè)計等。
這些大多來自與大數(shù)據(jù)和人工智能兩門學(xué)科中的重要研究方向。大數(shù)據(jù)涉及各種大量的工作,包括數(shù)據(jù)的采集、存儲、傳輸、分析、展示等等,這就使得大數(shù)據(jù)的系統(tǒng)[12]和設(shè)計成為十分重要的研究;人工智能方面,神經(jīng)網(wǎng)絡(luò)是目前其最熱門的研究。而預(yù)測則代表了人們一直以來期望通過大量的歷史數(shù)據(jù)來預(yù)測未來事件發(fā)生的愿望;在人工智能技術(shù)對大數(shù)據(jù)各個部分優(yōu)化升級的同時,利用大數(shù)據(jù)訓(xùn)練出更優(yōu)秀的人工智能有望在分析這一部分做出更大突破,從而實(shí)現(xiàn)“預(yù)測”。
在CiteSpace中,研究前沿指正在興起的理論研究和新主題的涌現(xiàn),其是由引用共被引文獻(xiàn)的施引文獻(xiàn)集合組成的;共被引網(wǎng)絡(luò)中的聚類的命名是通過施引文獻(xiàn)中提取的術(shù)語確定的,這個命名就可以認(rèn)為是研究前沿的領(lǐng)域。我們借助樣本文獻(xiàn)的共被引網(wǎng)絡(luò)來進(jìn)一步地分析大數(shù)據(jù)背景下的人工智能研究前沿以及其演進(jìn)趨勢。節(jié)點(diǎn)類型選擇Reference,樣式設(shè)置為年輪,其大小反映文獻(xiàn)的被引次數(shù),年輪圈代表文獻(xiàn)的在不同年份的被引。排除掉較小聚類后得出的主要聚類(如圖2所示),以關(guān)鍵詞作為各聚類的標(biāo)簽。所得到的聚類的模塊化指標(biāo)達(dá)到了0.9,表示共被引網(wǎng)絡(luò)得到的聚類很好,結(jié)構(gòu)十分顯著;平均輪廓值高于0.5,可以認(rèn)為聚類結(jié)果是合理的。
深度學(xué)習(xí)作為目前人工智能發(fā)展高潮的代表[13],在大數(shù)據(jù)背景下仍然是最為前沿的研究;在經(jīng)歷了幾十年的研究和實(shí)踐后,研究人員發(fā)現(xiàn)深度學(xué)習(xí)可以挖掘大數(shù)據(jù)的潛在價值[14];一種在大數(shù)據(jù)和人工智能中都經(jīng)常使用的核最小均方算法也是研究的前沿之一。在大數(shù)據(jù)與人工智能交叉的研究中,研究前沿更多地分布在了應(yīng)用領(lǐng)域:用于語言詞匯理解的[15],用于宇宙數(shù)據(jù)研究如發(fā)現(xiàn)脈沖星的[16],以及傳感網(wǎng)絡(luò)和智能電網(wǎng),這可以認(rèn)為這兩者代表了物聯(lián)網(wǎng)這一廣泛運(yùn)用到大數(shù)據(jù)和人工智能研究的應(yīng)用領(lǐng)域。
另外,整理出具有較高中心性的重要文獻(xiàn)(如表3所示)。該領(lǐng)域內(nèi)高中心性的關(guān)鍵文獻(xiàn)還是較少,缺少具有樞紐性的研究發(fā)現(xiàn)。綜述類文章一般會被較多地引用在與該學(xué)科有關(guān)的很多研究領(lǐng)域中,因此排名最前的兩篇均為綜述:一篇大篇幅地介紹了大數(shù)據(jù)的數(shù)據(jù)挖掘相關(guān)工作[17],另一篇則提供了更為全面的關(guān)于大數(shù)據(jù)領(lǐng)域的概述和全景[18]。此外,還有臺灣大學(xué)林智仁[19]就其開發(fā)的LIBSVM工具包的文檔,該工具包是一個實(shí)現(xiàn)SVM的庫,而SVM算法在大數(shù)據(jù)和人工智能中都有重要作用。智能電網(wǎng)則是對大數(shù)據(jù)和人工智能來說都十分重要的應(yīng)用領(lǐng)域,由大數(shù)據(jù)支撐的智能電網(wǎng),是能源與電力行業(yè)的發(fā)展趨勢,借助大數(shù)據(jù)和人工智能的技術(shù)推動智能電網(wǎng)發(fā)展具有重要意義。
結(jié)語
本文以大數(shù)據(jù)背景下人工智能研究的文獻(xiàn)為樣本數(shù)據(jù),借助CiteSpace工具,對其研究的現(xiàn)狀和發(fā)展熱點(diǎn)、前沿進(jìn)行了分析。研究發(fā)現(xiàn):
首先,從文獻(xiàn)的國家分布來看,美國在這一領(lǐng)域具有絕對的領(lǐng)導(dǎo)力,中國雖然居于次席但差距很大。機(jī)構(gòu)的分布出現(xiàn)了分別以中國和歐美為核心的兩種分布特點(diǎn)的合作子網(wǎng)絡(luò),其中中國的網(wǎng)絡(luò)以中科院和清北和核心,這幾個機(jī)構(gòu)具有較高的中心性;歐美的網(wǎng)絡(luò)沒有大的節(jié)點(diǎn),但數(shù)量眾多且較為平均,各機(jī)構(gòu)之間的合作十分密切。
其次,大數(shù)據(jù)背景下的人工智能研究缺乏一個關(guān)鍵性的,具有突破意義的研究熱點(diǎn)以及前沿。目前其多來自于兩學(xué)科本身的熱點(diǎn)研究,包括算法、神經(jīng)網(wǎng)絡(luò)、模型、設(shè)計等等。深度學(xué)習(xí)不僅是目前人工智能學(xué)科的代表,在大數(shù)據(jù)背景下也是最為前沿的方向,其他的前沿主要有大數(shù)據(jù)和人工智能交叉領(lǐng)域下的應(yīng)用,諸如語義語法、宇宙相關(guān)研究、物聯(lián)網(wǎng)等等。
在大數(shù)據(jù)背景下,人工智能研究目前還是主要依附于這兩個學(xué)科本身,這一領(lǐng)域還沒有形成自己的規(guī)模和體系,仍停留在兩學(xué)科交叉的階段,而我們更希望看到能在這一領(lǐng)域產(chǎn)生具有自身特性的關(guān)鍵性、創(chuàng)新性的發(fā)展,甚至是演變?yōu)橐婚T邊緣學(xué)科。如果能在這一交叉領(lǐng)域中取得發(fā)展和突破,無論是對于人工智能還是大數(shù)據(jù)本身的研究都會有很大的促進(jìn)作用,并能夠進(jìn)一步地助力科技、社會的發(fā)展。本文選取樣本文獻(xiàn)的檢索策略可能無法準(zhǔn)確地包含研究目標(biāo)領(lǐng)域的所有文獻(xiàn),這可能也是眾多使用該研究方法的文獻(xiàn)所遇到的共同問題,期待在今后能有更為科學(xué)的對策。
參考文獻(xiàn):
[1]? 彭宇,龐景月,劉大同,彭喜元.大數(shù)據(jù):內(nèi)涵、技術(shù)體系與展望[J].電子測量與儀器學(xué)報,2015,(4):469-482.
[2]? Mayer-Sch?觟nberger V,Cukier K.Big data:A revolution that will transform how we live,work,and think[M].Houghton Mifflin Harcourt,2013.
[3]? 余義勇,段云龍.大數(shù)據(jù)時代下企業(yè)管理模式創(chuàng)新研究[J].技術(shù)與創(chuàng)新管理,2016,(3):302-307.
[4]? 錢玥妤,陳進(jìn).制造業(yè)企業(yè)與互聯(lián)網(wǎng)融合創(chuàng)新發(fā)展研究——以博世和谷歌公司為例[J].技術(shù)與創(chuàng)新管理,2018,(4):438-444.
[5]? 程顯毅,胡海濤,曲平,程實(shí).大數(shù)據(jù)時代的人工智能范式[J].江蘇大學(xué)學(xué)報:自然科學(xué)版,2017,(4):455-460.
[6]? 陳悅,劉則淵,陳勁,侯劍華.科學(xué)知識圖譜的發(fā)展歷程[J].科學(xué)學(xué)研究,2008,(3):449-460.
[7]? 陳悅,陳超美,劉則淵,胡志剛,王賢文.CiteSpace知識圖譜的方法論功能[J].科學(xué)學(xué)研究,2015,(2):242-253.
[8]? 芮幼琴,康萍.國內(nèi)科研經(jīng)費(fèi)管理研究知識圖譜分析[J].技術(shù)與創(chuàng)新管理,2014,(5):433-437.
[9]? Chen C,Hu Z,Liu S,et al..Emerging trends in regenerative medicine:a scientometric analysis in CiteSpace[J].Expert opinion on biological therapy,2012,(5):593-608.
[10]? 李杰,陳超美.citespace科技文本挖掘及可視化[M].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué)出版社,2016.
[11]? 屈家安,劉菲.國際創(chuàng)新創(chuàng)業(yè)研究熱點(diǎn)與趨勢可視化分析——基于2007—2016年四大國際頂尖創(chuàng)新創(chuàng)業(yè)期刊的CiteSpace圖譜量化研究[J].科技進(jìn)步與對策,2018,(12):154-160.
[12]? 邵慧麗,張帆,郝哲,梁玉琪,侯菲菲.基于知識圖譜國際視野下大數(shù)據(jù)研究可視化分析[J].圖書館雜志,2016,(5):13-19.
[13]? 萬赟.從圖靈測試到深度學(xué)習(xí):人工智能60年[J].科技導(dǎo)報,2016,(7):26-33.
[14]? 馬世龍,烏尼日其其格,李小平.大數(shù)據(jù)與深度學(xué)習(xí)綜述[J].智能系統(tǒng)學(xué)報,2016,(6):728-742.
[15]? Poria S.,Cambria E.,Gelbukh A.,et al..Sentiment data flow analysis by means of dynamic linguistic patterns[J].IEEE Computational Intelligence Magazine,2015,(4):26-36.
[16]? Zhu W.W.,Berndsen A.,Madsen E.C.,et al..Searching for pulsars using image pattern recognition[J].The Astrophysical Journal,2014,(2):117.
[17]? Wu X.,Zhu X.,Wu G.Q.,et al..Data mining with big data[J].IEEE transactions on knowledge and data engineering,2013,(1):97-107.
[18]? Chen M.,Mao S.,Liu Y.Big data:A survey[J].Mobile networks and applications,2014,(2):171-209.
[19]? Chang C.C.,Lin C.J.LIBSVM:A library for support vector machines[J].ACM transactions on intelligent systems and technology(TIST),2011,(3):27.
Retrospect and Visual Analysis of Global Artificial Intelligence Research under the Background of Big Data
LAI Hong-bo,ZHAO Yi-wei
(School of Management,University of Shanghai for Science and Technology,Shanghai 200093,China)
Abstract:Taking the literature in the Web of Science database related to artificial intelligence in the context of big data as the data sample,and using the CiteSpace software to analyzes the literatures research distribution,research hotspots,and frontier research.The study found that the United States has absolute leadership in this field,China lacks critical literature,and has formed two cooperative sub-networks whose centers are Chinese and American.There have not yet produced any critical researches.Deep learning is the research frontier in this field.At present,this field is only an intersection of big data and artificial intelligence.There is no trend to make it a new edge discipline.The results of the analysis will help to understand the development and status quo of the field and provide reference for further in-depth research.
Key words:big data;artificial intelligence;co-citation analysis