張??? 莊曉 李玉華 張海艷 高雪
摘 要:以Web of Science收錄的文獻(xiàn)題錄作為數(shù)據(jù)樣本,基于文獻(xiàn)計(jì)量學(xué)方法并利用CiteSpace工具對(duì)1990-2019年計(jì)算機(jī)視覺(jué)領(lǐng)域的文獻(xiàn)進(jìn)行可視化分析,從時(shí)空層面揭示計(jì)算機(jī)視覺(jué)領(lǐng)域在不同國(guó)家(地區(qū))、機(jī)構(gòu)的發(fā)展程度;從共引文獻(xiàn)層面把握計(jì)算機(jī)視覺(jué)發(fā)展脈絡(luò);從關(guān)鍵詞和突變?cè)~角度探測(cè)計(jì)算機(jī)視覺(jué)的熱點(diǎn)前沿。研究結(jié)果顯示,從全球范圍看,美國(guó)對(duì)計(jì)算機(jī)視覺(jué)的研究起步較早且一直處于領(lǐng)先地位,中國(guó)近年來(lái)發(fā)展迅速且在總體發(fā)文量、高校研究力量層面進(jìn)步明顯,英國(guó)、法國(guó)、日本、加拿大、瑞士等國(guó)近年來(lái)發(fā)展態(tài)勢(shì)也較突出;馬爾視覺(jué)計(jì)算理論、Canny邊緣檢測(cè)算法、張氏標(biāo)定法、YOLO算法等許多經(jīng)典算法對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展具有里程碑式的意義;模型、分類、圖像分割、追蹤、識(shí)別等方向是計(jì)算機(jī)視覺(jué)領(lǐng)域的熱點(diǎn)話題;深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)、壓縮感知、機(jī)器學(xué)習(xí)是計(jì)算機(jī)視覺(jué)領(lǐng)域近10年的前沿研究方向。
關(guān)鍵詞:計(jì)算機(jī)視覺(jué);文獻(xiàn)計(jì)量;知識(shí)圖譜;研究熱點(diǎn);研究前沿;可視化分析
DOI:10. 11907/rjdk. 201706??????????????????????????????????????????????????????????????????????????????????????????????????????? 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A?????????????? ??????????????? 文章編號(hào):1672-7800(2020)011-0272-07
CiteSpace-based Computer Vision Research on Hotspots and Frontier Analysis
ZHANG Fu-jun1,ZHUANG Xiao2,LI Yu-hua2,ZHANG Hai-yan2,GAO Xue2
(1. Library, Shandong University of Science and Technology;2. School of Computer Science and Engineering,
Shandong University of Science and Technology,Qingdao 266590,China)
Abstract: In this paper, the bibliography included in Web of Science is taken as the data sample, this paper analyzes the literature in the field of computer vision from 1990 to 2019 based on Bibliometrics and CiteSpace tools, reveals the development degree of computer vision in different countries (regions) and institutions from the space-time level, grasps the development context of computer vision from the level of CO citation literature, and from the key words and mutation words Angle detection is the hot front of computer vision. The results show that, from a global perspective, the research on computer vision in the United States started earlier and has been in a leading position; China has developed rapidly in recent years, and has made significant progress in the overall number of papers published and the research strength of universities. In recent years, the development trend of Britain, France, Japan, Canada, Switzerland and other countries is also prominent; the theory of Marvin visual computing, Canny edge detection algorithm, and Many classical algorithms, such as Zhang's calibration method and Yolo algorithm, are of milestone significance to the development of computer vision; models, classification, image segmentation, tracking and recognition are hot topics in the field of computer vision; deep learning, convolution neural network, compressed sensing and machine learning are the frontier research directions in the field of computer vision in recent 10 years.
Key Words:computer vision; literature measurement; knowledge graph; research hotspots; research frontier; visual analysis
0 引言
在當(dāng)今全球人工智能熱潮下,人工智能的快速發(fā)展帶動(dòng)了新一輪產(chǎn)業(yè)革命,計(jì)算機(jī)視覺(jué)作為人工智能的核心分支也得到迅速發(fā)展。計(jì)算機(jī)視覺(jué)技術(shù)起源于20世紀(jì)50年代,到21世紀(jì),計(jì)算機(jī)視覺(jué)技術(shù)在交通、安防、醫(yī)療、機(jī)器人上有各種形態(tài)的應(yīng)用[1]。計(jì)算機(jī)視覺(jué)技術(shù)是通過(guò)數(shù)據(jù)語(yǔ)言中的各種符號(hào)以及計(jì)算機(jī)信息化模式和信息網(wǎng)絡(luò)平臺(tái),進(jìn)行信息化過(guò)程高效傳輸所產(chǎn)生的一種新型追蹤系統(tǒng),更形象地說(shuō),通過(guò)計(jì)算機(jī)實(shí)現(xiàn)視覺(jué)信息的有效捕獲,從而讓信息具有更直觀的表現(xiàn)力[2]。計(jì)算機(jī)技術(shù)飛速發(fā)展的同時(shí)產(chǎn)生了大量、無(wú)序的數(shù)據(jù),本文采用文獻(xiàn)計(jì)量學(xué)方法和可視化分析軟件對(duì)海量數(shù)據(jù)進(jìn)行分析。文獻(xiàn)計(jì)量學(xué)是借助文獻(xiàn)的各種特征數(shù)量,采用數(shù)學(xué)和統(tǒng)計(jì)學(xué)方法評(píng)價(jià)、預(yù)測(cè)科學(xué)技術(shù)現(xiàn)狀與發(fā)展趨勢(shì)的一門學(xué)科,常被用來(lái)分析某一學(xué)科領(lǐng)域知識(shí)的研究現(xiàn)狀、熱點(diǎn)方向與演化趨勢(shì)等[3]。目前廣泛應(yīng)用的可視化分析軟件有CiteSpace、Pajek、Timeriver等。本文采用陳超美教授開(kāi)發(fā)的CiteSpace軟件并基于文獻(xiàn)計(jì)量學(xué)方法,對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域進(jìn)行國(guó)家機(jī)構(gòu)分析、文獻(xiàn)共被引分析、熱點(diǎn)前沿分析等,形象直觀地展示出該領(lǐng)域內(nèi)不同區(qū)域的發(fā)展情況、代表作品,并挖掘計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)與領(lǐng)域前沿。
1 數(shù)據(jù)獲取
為確保研究數(shù)據(jù)的客觀性和全面性,本文數(shù)據(jù)選自Web of Science的核心合集,檢索式為:TS=“computer vision” OR TS=“robot vision” OR TS=“machine vision” OR TS=“mode recognition” OR TS=“image identification” OR TS=“image processing” OR TS= “face identification” OR TS=“monocular vision” OR TS= “compressed sensing”,檢索時(shí)間跨度為1990-2019年。引文索引選定SCI-EXPANDED,共篩選得到63 486條檢索結(jié)果。按照CiteSpace的格式要求,以“download*.txt”命名,將所有文件保存在同一文件夾中,使其作為繪制圖譜的基礎(chǔ)數(shù)據(jù)。
2 文獻(xiàn)時(shí)間分布
任何學(xué)科的發(fā)展情況都在該學(xué)科的發(fā)文量上有跡可循,文獻(xiàn)發(fā)表數(shù)量的歷時(shí)變化有助于反映和透視某一學(xué)科研究的總體態(tài)勢(shì)和演化發(fā)展[4],可以使研究者直觀便捷地洞察該領(lǐng)域的文獻(xiàn)發(fā)展情況,從而更準(zhǔn)確地把握該領(lǐng)域發(fā)展脈絡(luò)。
如圖1所示,對(duì)已有數(shù)據(jù)按年發(fā)文量進(jìn)行統(tǒng)計(jì),可以在時(shí)間層次上把握該領(lǐng)域研究情況,繪制得到1990-2019年計(jì)算機(jī)視覺(jué)領(lǐng)域文獻(xiàn)的年發(fā)文量和年增長(zhǎng)率圖。由圖1可知,可將其分為3個(gè)階段:
(1)前期探索階段:1990-1994年。1990年文獻(xiàn)數(shù)量少于200篇,1991年文獻(xiàn)數(shù)量超過(guò)700篇,由于1990年發(fā)文量基數(shù)較小,因此1991年增長(zhǎng)率增幅較大。1990-1994年5年間發(fā)文量增長(zhǎng)較快,數(shù)量從低于200篇增長(zhǎng)到接近1 000篇。20世紀(jì)90年代,研究者們對(duì)計(jì)算機(jī)視覺(jué)不斷求知探索,將多視幾何方法和統(tǒng)計(jì)學(xué)習(xí)方法廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域,為計(jì)算機(jī)視覺(jué)領(lǐng)域帶來(lái)了新的變革,發(fā)文量得到顯著增加。
(2)平穩(wěn)發(fā)展階段:1995-2006年。在該階段中,1995年發(fā)文量突破1 000篇,除1997年、1999年、2000年和2001年是負(fù)增長(zhǎng)率外,其余年份均為正增長(zhǎng)率,這一階段年發(fā)文量基本在1 000篇左右,因此負(fù)增長(zhǎng)率可以忽略不計(jì)??傮w而言,這一階段計(jì)算機(jī)視覺(jué)文獻(xiàn)的年增長(zhǎng)率平緩但整體發(fā)文量呈上升趨勢(shì)。20世紀(jì)90年代末期,傳感器革命的爆發(fā)極大促進(jìn)了機(jī)器學(xué)習(xí)和大數(shù)據(jù)的蓬勃發(fā)展,計(jì)算機(jī)視覺(jué)也從中受益,越來(lái)越多的學(xué)者開(kāi)始關(guān)注計(jì)算機(jī)視覺(jué)領(lǐng)域,出現(xiàn)了許多經(jīng)典學(xué)術(shù)成果。
(3)高速增長(zhǎng)階段:2007-2019年。2007年發(fā)文量大于1 500篇,此后年發(fā)文量逐年快速增長(zhǎng),2019年發(fā)文量達(dá)到了6 622篇。在這一階段,計(jì)算機(jī)視覺(jué)領(lǐng)域文獻(xiàn)呈現(xiàn)井噴式增長(zhǎng),高增長(zhǎng)率體現(xiàn)了學(xué)者們對(duì)這一研究領(lǐng)域的熱切關(guān)注,研究成果呈百花齊放的良好態(tài)勢(shì),計(jì)算機(jī)視覺(jué)領(lǐng)域得到蓬勃發(fā)展。根據(jù)文獻(xiàn)年際統(tǒng)計(jì)圖可以預(yù)測(cè)未來(lái)計(jì)算機(jī)視覺(jué)領(lǐng)域?qū)⑹艿礁鄬W(xué)者的關(guān)注,同時(shí)會(huì)廣泛應(yīng)用于各行各業(yè)。
3 文獻(xiàn)空間分布——核心國(guó)家(地區(qū))與機(jī)構(gòu)分析
將數(shù)據(jù)導(dǎo)入CiteSpace軟件,對(duì)相關(guān)選項(xiàng)進(jìn)行設(shè)置。采用Pathfinder Networks算法簡(jiǎn)化文獻(xiàn)空間分布網(wǎng)絡(luò),突出網(wǎng)絡(luò)重要的結(jié)構(gòu)特征[5]。選取不同的節(jié)點(diǎn)類型(Node Types),繪制合作網(wǎng)絡(luò)知識(shí)圖譜對(duì)國(guó)家、機(jī)構(gòu)等進(jìn)行分析。將下載并經(jīng)過(guò)數(shù)據(jù)預(yù)處理的數(shù)據(jù)導(dǎo)入CiteSpace,時(shí)間區(qū)間設(shè)置為1990-2019年,時(shí)間切片設(shè)置為5年,將網(wǎng)絡(luò)節(jié)點(diǎn)分別設(shè)置為國(guó)家(country)和機(jī)構(gòu)(institution),運(yùn)行CiteSpace得到圖2和圖3。
在圖2中,每個(gè)節(jié)點(diǎn)代表國(guó)家(地區(qū)),節(jié)點(diǎn)越大表示發(fā)文量越多,節(jié)點(diǎn)的最外圈若是紫色,則說(shuō)明其是具有較高中介中心性的重要節(jié)點(diǎn),中心度不小于0.1。節(jié)點(diǎn)之間的連線表示國(guó)家(地區(qū))間的合作關(guān)系,連線的粗細(xì)程度代表合作關(guān)系的強(qiáng)度。連線越粗表示國(guó)家(地區(qū))間合作關(guān)系越密切。
全部論文涉及151個(gè)國(guó)家(地區(qū)),其中美國(guó)以14 980篇的論文數(shù)量遙遙領(lǐng)先于其它國(guó)家(地區(qū)),目前美國(guó)已將計(jì)算機(jī)視覺(jué)技術(shù)廣泛應(yīng)用于傳感器、機(jī)器人、3D視覺(jué)、人工智能等領(lǐng)域。相比于歐美國(guó)家,中國(guó)對(duì)計(jì)算機(jī)視覺(jué)的研究起步較晚,但以12 793篇的發(fā)文量后來(lái)居上,僅次于美國(guó),位居第2位,近年來(lái)一直重視計(jì)算機(jī)視覺(jué)相關(guān)技術(shù)研發(fā)。目前,國(guó)內(nèi)計(jì)算機(jī)視覺(jué)研究主要集中在檢測(cè)、識(shí)別、測(cè)量等工業(yè)控制領(lǐng)域。論文發(fā)表量在1 000篇以上的其它國(guó)家(地區(qū))有德國(guó)、法國(guó)、英國(guó)、日本、加拿大、西班牙、意大利、韓國(guó)、印度、澳大利亞、伊朗、巴西、荷蘭、瑞士。由圖2和表1可以看出,美國(guó)、中國(guó)、法國(guó)、英格蘭、加拿大、荷蘭、瑞士等節(jié)點(diǎn)最外圈的顏色是紫色且中心性均大于0.1,這表明以上國(guó)家都是非常重要的節(jié)點(diǎn),與其它國(guó)家(地區(qū))的連通性非常高[5]。在地域分布網(wǎng)絡(luò)中,中心性最高的是瑞士,說(shuō)明瑞士與其它國(guó)家合作關(guān)系最為密切,與其合作的國(guó)家有法國(guó)和澳大利亞等。中國(guó)和加拿大的中心性分別排第2、第3位,體現(xiàn)出中國(guó)、加拿大近年來(lái)在計(jì)算機(jī)視覺(jué)領(lǐng)域與其它國(guó)家(地區(qū))的合作越來(lái)越密切,并貢獻(xiàn)了許多優(yōu)秀學(xué)術(shù)成果。從突顯值看,美國(guó)的突顯值以330.07居第1位,說(shuō)明其近年來(lái)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得較大突破,日本和荷蘭的突顯值分別居第2和第3位,說(shuō)明日本和荷蘭在研究成果方面也有一定突破。
從機(jī)構(gòu)層面研究發(fā)文量,有助于把握機(jī)構(gòu)在學(xué)科發(fā)展中的位置和實(shí)力。如圖3所示,所有文章共涉及574個(gè)機(jī)構(gòu)。根據(jù)普賴斯定律,發(fā)文量在 N 篇以上的機(jī)構(gòu)可認(rèn)為是核心研究機(jī)構(gòu)。核心研究機(jī)構(gòu)的發(fā)文量至少為:N=0.749ηmax,其中,ηmax為最高產(chǎn)研究機(jī)構(gòu)的發(fā)文量[6]。根據(jù)表2得知,ηmax=1 380,因此核心研究機(jī)構(gòu)的發(fā)文量應(yīng)為28篇以上。
結(jié)合圖3和表2可以看出,在發(fā)文量前20的機(jī)構(gòu)中,各有9所研究機(jī)構(gòu)分別來(lái)自中國(guó)和美國(guó),而新加坡和日本各有一所研究機(jī)構(gòu)。美國(guó)是計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)文量最多的國(guó)家,核心發(fā)文機(jī)構(gòu)主要分布在高等院校,比如斯坦福大學(xué)、麻省理工學(xué)院、加州大學(xué)伯克利分校、加州理工學(xué)院、多倫多大學(xué)、伊利諾伊大學(xué)、哈佛大學(xué)等。此外,美國(guó)宇航局也在核心發(fā)文機(jī)構(gòu)行列。斯坦福大學(xué)位居美國(guó)核心發(fā)文機(jī)構(gòu)首位,其中斯坦福大學(xué)人工智能機(jī)器人實(shí)驗(yàn)室是計(jì)算機(jī)視覺(jué)的領(lǐng)軍機(jī)構(gòu),主要研究BET算法、非線性降噪、線性圖像配準(zhǔn)、自動(dòng)分割、結(jié)構(gòu)性腦部變化分析、運(yùn)動(dòng)校正等。
發(fā)文量最多的機(jī)構(gòu)是中國(guó)科學(xué)院,有1 380篇。中國(guó)的核心發(fā)文機(jī)構(gòu)有中國(guó)科學(xué)院、上海交通大學(xué)、浙江大學(xué)、清華大學(xué)、中國(guó)科學(xué)院大學(xué)、哈爾濱工業(yè)大學(xué)、華中科技大學(xué)等。其中,中國(guó)科學(xué)院SIGVC組是中國(guó)科學(xué)院計(jì)算機(jī)視覺(jué)研究的核心部門,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)圖形學(xué)、圖像視頻處理等。雖然新加坡在國(guó)家層面發(fā)文總量并不突出,但其國(guó)內(nèi)的南洋理工學(xué)院發(fā)文量排在第10位,說(shuō)明該機(jī)構(gòu)在計(jì)算機(jī)視覺(jué)領(lǐng)域方面有一定建樹(shù)。
4 知識(shí)基礎(chǔ)分析
1994年,Persson[7]在The Intellectual Base and Research Fronts of JASIS 1986—1990中闡述了在文獻(xiàn)計(jì)量學(xué)中,知識(shí)基礎(chǔ)由被引文獻(xiàn)組成,研究前沿則由引用文獻(xiàn)構(gòu)成。探尋所研究領(lǐng)域的知識(shí)基礎(chǔ)以便獲悉該領(lǐng)域研究前沿的本質(zhì)。利用CiteSpace軟件繪制文獻(xiàn)共被引圖譜,從而可以更好地研究知識(shí)基礎(chǔ)與前沿的演進(jìn)關(guān)系。
前期發(fā)展的基礎(chǔ)性文獻(xiàn)以及具有高共被引、高中心性的關(guān)鍵性文獻(xiàn)構(gòu)成了計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)展的知識(shí)基礎(chǔ)。
4.1 早期奠基性文獻(xiàn)
由時(shí)間線視圖(由于時(shí)間線圖篇幅過(guò)大,已上傳于OSID碼)和本文有限數(shù)據(jù)可以得出,計(jì)算機(jī)視覺(jué)領(lǐng)域最長(zhǎng)的時(shí)間線出現(xiàn)在1982年,說(shuō)明計(jì)算機(jī)視覺(jué)領(lǐng)域的研究從20世紀(jì)80年代便已開(kāi)始,時(shí)至今日依然熱度不減。
計(jì)算機(jī)視覺(jué)領(lǐng)域第1篇奠基性文獻(xiàn)是1982年的Vision: A Computational Investigation into the Human Representation and Processing of Visual Information,作者是Marr,他在文中首次提出人的視覺(jué)計(jì)算理論,被稱為“計(jì)算機(jī)視覺(jué)之父”。Marr認(rèn)為視覺(jué)系統(tǒng)就是三維重建問(wèn)題,并提出了計(jì)算理論和方法。馬爾視覺(jué)計(jì)算理論的誕生,標(biāo)志著計(jì)算機(jī)視覺(jué)成為了一門獨(dú)立的學(xué)科[8]。
1986年,CANNY發(fā)表論文A Computational Approach to Edge Detection,就此拉開(kāi)了Canny邊緣檢測(cè)算法的序幕。Canny邊緣檢測(cè)是從不同目標(biāo)中提取結(jié)構(gòu)信息并可以大幅減少待處理數(shù)據(jù)量的技術(shù),已廣泛應(yīng)用于各種計(jì)算機(jī)視覺(jué)系統(tǒng)[9]。
Matthew等[10]于1991年發(fā)表論文Face recognition using eigenfaces。作者提出特征臉(主成分分析)方法,通過(guò)較少的二維特征表示面部,從而將臉部識(shí)別視為二維識(shí)別問(wèn)題,該框架提供了以無(wú)人監(jiān)督的方式學(xué)習(xí)識(shí)別新面孔的能力。
2000年,Zhang[11]發(fā)表論文A flexible new technique for camera calibration。文中提出一種單平面棋盤格的相機(jī)標(biāo)定方法,這種方法既克服了傳統(tǒng)標(biāo)定法需要高精度標(biāo)定物的缺點(diǎn),又使得精度高于自標(biāo)定法,被稱為“張氏標(biāo)定法”,后來(lái)被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。
由以上文獻(xiàn)可以看出,在計(jì)算機(jī)視覺(jué)領(lǐng)域前期發(fā)展過(guò)程中,許多學(xué)者做了大量創(chuàng)新性、前瞻性探索,出現(xiàn)了許多經(jīng)典文獻(xiàn),為后來(lái)計(jì)算機(jī)視覺(jué)領(lǐng)域的蓬勃發(fā)展夯實(shí)基礎(chǔ)。
4.2 全面發(fā)展與分化
隨著時(shí)間的推移,學(xué)科的知識(shí)基礎(chǔ)和熱點(diǎn)前沿也會(huì)演進(jìn)拓展,并逐漸形成該學(xué)科的核心論文集合,該集合可視為該學(xué)科的高被引高中心性文獻(xiàn)簇[12]。圖4中每個(gè)節(jié)點(diǎn)代表一篇文獻(xiàn),節(jié)點(diǎn)越大表示文獻(xiàn)被引用頻次越高,位于兩個(gè)網(wǎng)絡(luò)上的連接節(jié)點(diǎn)通常具有高中心性。
由表3可以看出,按中心性排序,排在第1位的文章是Donoho等[13]于2006年發(fā)表在IEEE Transactions on Information Theory的論文Sparse Solution of Underdetermined Systems of Linear Equations by Stagewise Orthogonal Matching Pursuit,文章中心性是0.31,被引頻次是26 359。本文設(shè)計(jì)了一種壓縮數(shù)據(jù)采集協(xié)議,在特定應(yīng)用中,該協(xié)議可以大幅減少測(cè)量時(shí)間、降低采樣率或減少模數(shù)轉(zhuǎn)換器資源使用。
第2篇中心性較高的文章是Candes等[14]于2006年發(fā)表在IEEE Transactions on Information Theory上的論文Robust Uncertainty Principles: Exact Signal Reconstruction from Highly Incomplete Frequency Information,文章中心性是0.25,被引頻次是15 945。作者在不完整的頻率樣本中重建對(duì)象的模型問(wèn)題,提出一種新型非線性采樣定理,通過(guò)解決凸優(yōu)化問(wèn)題恢復(fù)對(duì)象精確,該方法能夠擴(kuò)展到更高維度。
第3篇中心性較高的文章是Krizhevsky等[15]在2017年發(fā)表于Communications of The ACM上的論文ImageNet Classification with Deep Convolutional Neural Networks,中心性是0.23,被引頻次是23 808。文中訓(xùn)練了一個(gè)大型深度卷積神經(jīng)網(wǎng)絡(luò),且引入了可分離的卷積結(jié)構(gòu)。AlexNet模型在ILSVRC-2012競(jìng)賽中贏得了冠軍。這篇文章是深度卷積神經(jīng)網(wǎng)絡(luò)的開(kāi)篇,對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域的后續(xù)發(fā)展產(chǎn)生了非常大的影響。
第4篇中心性較高的文章是Redmon等[16]于2016年在CVPR會(huì)議上發(fā)表的You Only Look Once:Unified,Real-Time Object Detection,中心性是0.20,被引頻次是9 652次。作者提出了一種全新的目標(biāo)檢測(cè)方法——YOLO算法。作者將目標(biāo)檢測(cè)看作目標(biāo)區(qū)域預(yù)測(cè)和類別預(yù)測(cè)的回歸問(wèn)題,采用單個(gè)神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)邊界和類別概率,實(shí)現(xiàn)了端到端目標(biāo)檢測(cè)。
第5篇中心性較高的文章是Russakovsky等[17]于2015年發(fā)表于International Journal of Computer Vision的ImageNet Large Scale Visual Recognition Challenge,中心性是0.16,被引頻次是16 783。文中介紹了ImageNet比賽中的分類和識(shí)別研究,分析結(jié)果是否符合客觀規(guī)律。作者也開(kāi)展過(guò)人類對(duì)ImageNet圖片進(jìn)行學(xué)習(xí)并分類的實(shí)驗(yàn),結(jié)論是人類的分類正確率比機(jī)器高。
其它中心性較高的文章還有Szegedy等[18]在2015年發(fā)表在CVPR上的論文:Going Deeper with Convolutions。作者通過(guò)改進(jìn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使得在不提高資源需求的前提下增大網(wǎng)絡(luò)深度,從而提高效果;Lowe[19]于2004年發(fā)表的Distinctive Image Features from Scale-Invariant Keypoints,本文提出了一種從圖像中提取特殊不變特征的方法,可用于雜亂環(huán)境中的物體識(shí)別。
根據(jù)以上文獻(xiàn)可以看出,隨著時(shí)間推移,計(jì)算機(jī)視覺(jué)領(lǐng)域研究熱度愈發(fā)高漲。在計(jì)算機(jī)視覺(jué)后期發(fā)展中,學(xué)者們不再局限于狹隘的理論研究,而是轉(zhuǎn)向了涉及更多領(lǐng)域和主題的實(shí)際應(yīng)用研究,涌現(xiàn)出了一大批優(yōu)秀的計(jì)算機(jī)視覺(jué)領(lǐng)域?qū)W者,產(chǎn)生了許多代表性文獻(xiàn)。
5 計(jì)算機(jī)視覺(jué)領(lǐng)域研究熱點(diǎn)與前沿分析
隨著學(xué)科的不斷演繹發(fā)展,會(huì)產(chǎn)生學(xué)科內(nèi)的研究熱點(diǎn)和研究前沿。關(guān)鍵詞是對(duì)一篇文章核心與精髓的高度概括及凝練,頻次高的關(guān)鍵詞通常被用來(lái)確定一個(gè)研究領(lǐng)域的熱點(diǎn)問(wèn)題[20],而前沿探究則可以利用CiteSpace軟件中提供的突變?cè)~探測(cè)(Burst Detection)算法,通過(guò)考察詞頻的時(shí)間分布,在大量的主題詞中探測(cè)出頻次變化較高的詞, 根據(jù)突現(xiàn)詞探究計(jì)算機(jī)視覺(jué)領(lǐng)域研究前沿趨勢(shì)。
5.1 計(jì)算機(jī)視覺(jué)研究熱點(diǎn)分析
關(guān)鍵詞是對(duì)文章主旨內(nèi)容的精煉,但按詞頻大小作為某領(lǐng)域內(nèi)熱點(diǎn)只能體現(xiàn)單一關(guān)鍵詞受關(guān)注的程度,無(wú)法體現(xiàn)關(guān)鍵詞之間的關(guān)系。共詞分析是對(duì)同一篇文獻(xiàn)中出現(xiàn)的主題詞對(duì)進(jìn)行統(tǒng)計(jì)、聚類、關(guān)聯(lián)分析,從而分析它們所代表領(lǐng)域內(nèi)的研究熱點(diǎn)及變化[21]。
利用CiteSpace軟件繪制關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖,將節(jié)點(diǎn)設(shè)為關(guān)鍵詞(Keyword),勾選路徑、簡(jiǎn)化算法(Pathfinder)并繪制圖譜,運(yùn)行CiteSpace軟件得到關(guān)鍵詞共現(xiàn)圖(見(jiàn)圖5)。對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)和排序,得到計(jì)算機(jī)視覺(jué)領(lǐng)域的關(guān)鍵詞統(tǒng)計(jì)如表4所示。
在表4中,由于image processing、computer vision、compressed sensing、machine vision在檢索式中,故不作探究。排名第3的關(guān)鍵詞是算法(algorithm),體現(xiàn)出許多學(xué)者在研究計(jì)算機(jī)視覺(jué)的過(guò)程中重視理論方法創(chuàng)新,提出主動(dòng)視覺(jué)理論框架、基于感知特征群的物體識(shí)別理論框架等新概念、新方法[22],推動(dòng)計(jì)算機(jī)視覺(jué)發(fā)展;其次是系統(tǒng)(system)和模型(model),說(shuō)明系統(tǒng)和模型是研究計(jì)算機(jī)視覺(jué)的表達(dá)載體;排在第6的是分類(classification),隨后是分割(segmentation),分割是對(duì)圖像問(wèn)題進(jìn)行分析,同類還有重建(reconstruction)、追蹤(tracking)、識(shí)別(recognition),這些關(guān)鍵詞是對(duì)計(jì)算機(jī)視覺(jué)問(wèn)題進(jìn)行分析,體現(xiàn)出計(jì)算機(jī)視覺(jué)的核心即是對(duì)問(wèn)題作出分析。圖像(image)、特征(feature)、表達(dá)(representation)、性能(performance)、顏色(color)、優(yōu)化(optimization)這些關(guān)鍵詞始終貫穿于計(jì)算機(jī)視覺(jué)相關(guān)研究,表明研究者們更關(guān)注圖像局部特征,而非只是顏色、紋理等底層特征。排在第14的神經(jīng)網(wǎng)絡(luò)(neural network)和第21的深度學(xué)習(xí)(deep learning)近年來(lái)備受關(guān)注,這表明在計(jì)算機(jī)視覺(jué)后續(xù)發(fā)展中,越來(lái)越多的學(xué)者將研究重點(diǎn)放在機(jī)器學(xué)習(xí)中,說(shuō)明深度學(xué)習(xí)是計(jì)算機(jī)視覺(jué)的熱點(diǎn)研究方向之一。隨著人工智能技術(shù)的進(jìn)步,深度學(xué)習(xí)技術(shù)(DL)和卷積神經(jīng)網(wǎng)絡(luò)技術(shù)(CNN)被引入計(jì)算機(jī)視覺(jué)應(yīng)用中,促使計(jì)算機(jī)視覺(jué)領(lǐng)域逐漸走進(jìn)大眾視野,涉及工業(yè)生產(chǎn)、軍事、智能交通、虛擬現(xiàn)實(shí)等多個(gè)社會(huì)應(yīng)用領(lǐng)域,大力推動(dòng)了計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展。
5.2 計(jì)算機(jī)視覺(jué)前沿分析
本文利用CiteSpace軟件中的突變?cè)~探測(cè)算法,探測(cè)出其中頻次變化率大的詞語(yǔ),根據(jù)詞頻的變動(dòng)趨勢(shì),確定計(jì)算機(jī)視覺(jué)領(lǐng)域的前沿領(lǐng)域和發(fā)展趨勢(shì)[23]。
運(yùn)行CiteSpace,得到如圖6所示的計(jì)算機(jī)視覺(jué)領(lǐng)域突變?cè)~探測(cè)圖。如圖6所示,1990-2019年期間一共出現(xiàn)了25個(gè)突現(xiàn)詞,這些突現(xiàn)詞構(gòu)成了計(jì)算機(jī)視覺(jué)領(lǐng)域的研究前沿。根據(jù)突現(xiàn)詞出現(xiàn)的時(shí)間,可以將突現(xiàn)詞劃分為3個(gè)階段,以更好地呈現(xiàn)計(jì)算機(jī)視覺(jué)的前沿演進(jìn)路徑。
1990-2000年期間,計(jì)算機(jī)視覺(jué)領(lǐng)域突變?cè)~的突變度較強(qiáng)且持續(xù)時(shí)間較長(zhǎng)。這一階段的突變?cè)~以方法、邏輯及確定目標(biāo)圖像邊界為主。突變?cè)~主要有:圖像處理(image processing)、邊緣檢測(cè)(edge detection)、模式識(shí)別(pattern recognition)、運(yùn)動(dòng)(motion)、配準(zhǔn)(registration)、濾波器(filter)、檢測(cè)(inspection)、可視化(visualization)、目標(biāo)(object)。在這一階段,統(tǒng)計(jì)學(xué)習(xí)理論出現(xiàn)了一次大的變革,SVM等統(tǒng)計(jì)學(xué)習(xí)方法也開(kāi)始廣泛應(yīng)用于計(jì)算機(jī)視覺(jué),計(jì)算機(jī)視覺(jué)開(kāi)始進(jìn)入高速發(fā)展期,涌現(xiàn)了一大批新算法、新概念、新技術(shù),學(xué)者們不斷提高圖像檢測(cè)精度,計(jì)算機(jī)視覺(jué)技術(shù)被廣泛應(yīng)用于工業(yè)控制領(lǐng)域,計(jì)算機(jī)技術(shù)的發(fā)展也推動(dòng)了計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展。
2001-2010年期間,計(jì)算機(jī)視覺(jué)領(lǐng)域前沿方向注重算法優(yōu)化和定量分析。這一階段的突變?cè)~主要有:標(biāo)定(calibration)、稀疏度(sparsity)、信號(hào)(signal)、模式(pattern)、定量(quantification)。在這一階段,計(jì)算機(jī)視覺(jué)依然發(fā)展迅速,領(lǐng)域內(nèi)研究前沿主要聚焦在相機(jī)標(biāo)定、稀疏度算法等方向,互聯(lián)網(wǎng)的崛起和數(shù)碼相機(jī)的廣泛應(yīng)用為算法訓(xùn)練提供了海量實(shí)驗(yàn)載體。
2011-2019年期間,計(jì)算機(jī)視覺(jué)領(lǐng)域的研究不再局限于完成特定的工作任務(wù),而是轉(zhuǎn)向以深度學(xué)習(xí)為導(dǎo)向的算法、模型及結(jié)構(gòu)的創(chuàng)新性探索。這一階段的突變?cè)~強(qiáng)度極強(qiáng)且持續(xù)性長(zhǎng),主要有:深度學(xué)習(xí)(deep learning)、卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network)、壓縮感知(compressed sensing)、機(jī)器學(xué)習(xí)(machine learning)、預(yù)測(cè)(prediction)、目標(biāo)檢測(cè)(object detection)、稀疏表示(sparse representation)、行為(behavior)、框架(framework)、傳感器(sensor)、信號(hào)恢復(fù)(signal recovery)。在該階段,研究者對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域作進(jìn)一步探索,隨著圖形處理芯片GPU制造業(yè)的迅速發(fā)展,機(jī)器學(xué)習(xí)也進(jìn)入了深度學(xué)習(xí)時(shí)代,借助于深度學(xué)習(xí)的力量,邊緣檢測(cè)、圖像識(shí)別和圖像分割等計(jì)算機(jī)視覺(jué)領(lǐng)域得到快速發(fā)展。研究者們深入研究卷積神經(jīng)網(wǎng)絡(luò)等算法,極大提高了計(jì)算機(jī)視覺(jué)的邏輯性、智能性,計(jì)算機(jī)視覺(jué)技術(shù)呈現(xiàn)良好發(fā)展態(tài)勢(shì)??梢灶A(yù)見(jiàn),融合多層卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法在計(jì)算機(jī)視覺(jué)中的實(shí)際場(chǎng)景落地研究將是未來(lái)計(jì)算機(jī)視覺(jué)領(lǐng)域的前沿研究趨勢(shì)。
6 結(jié)語(yǔ)
本文以文獻(xiàn)計(jì)量學(xué)的思想和方法為指導(dǎo),以Web of Science核心合集的文獻(xiàn)數(shù)據(jù)為主要數(shù)據(jù)來(lái)源,借助CiteSpace軟件對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域近30年來(lái)的發(fā)展規(guī)律和狀況進(jìn)行了可視化分析和探究,得出以下結(jié)論:
(1)通過(guò)計(jì)算機(jī)視覺(jué)領(lǐng)域的國(guó)家(地區(qū))和機(jī)構(gòu)圖譜,發(fā)現(xiàn)早期計(jì)算機(jī)視覺(jué)領(lǐng)域的核心發(fā)展區(qū)域集中在美國(guó),并且美國(guó)在該領(lǐng)域的研究發(fā)展一直領(lǐng)先于其他國(guó)家,出現(xiàn)了許多優(yōu)秀學(xué)者和沿用至今的經(jīng)典算法。中國(guó)一直注重與其他國(guó)家(地區(qū))的交流合作,但存在核心技術(shù)缺乏、自主化程度較低等不足,但近年來(lái)我國(guó)計(jì)算機(jī)視覺(jué)發(fā)展勢(shì)態(tài)良好,計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)步較快,具有巨大發(fā)展?jié)摿Α?/p>
(2)利用CiteSpace軟件中的詞頻分析方法,對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域的關(guān)鍵詞作領(lǐng)域熱點(diǎn)研究,其中分類、分割、重建、識(shí)別以及追蹤等關(guān)鍵詞是計(jì)算機(jī)視覺(jué)領(lǐng)域的熱點(diǎn)詞語(yǔ),這些關(guān)鍵詞都是對(duì)視覺(jué)圖像問(wèn)題的分析,說(shuō)明對(duì)圖像問(wèn)題的分析處理是計(jì)算機(jī)視覺(jué)領(lǐng)域的核心熱點(diǎn)。
(3)通過(guò)CiteSpace軟件中的突變探測(cè)技術(shù),分析得到近年來(lái)計(jì)算機(jī)視覺(jué)領(lǐng)域的研究前沿主要是融合卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用。
本文為了盡可能全面、準(zhǔn)確地獲取不同時(shí)間區(qū)間的文獻(xiàn)情況,并確保有價(jià)值的關(guān)鍵詞不被淹沒(méi),因此將時(shí)間片段劃分為1年,但是時(shí)間區(qū)間跨度大、時(shí)間劃分粒度細(xì)和詞匯量過(guò)多,容易導(dǎo)致結(jié)果中的分詞誤差。此外,由于作者姓名相似引起的姓名縮寫相同,會(huì)導(dǎo)致結(jié)果產(chǎn)生偏差,因此加強(qiáng)對(duì)結(jié)果的檢驗(yàn)和修正是后續(xù)研究的重點(diǎn)。
參考文獻(xiàn):
[1] 倪晨旭. 計(jì)算機(jī)視覺(jué)研究綜述[J]. 電子世界, 2018,40(1):91-93.
[2] 劉波. 計(jì)算機(jī)視覺(jué)研究綜述[J]. 數(shù)字通信世界, 2019,15(12):97.
[3] 李曉萌. 基于知識(shí)圖譜的我國(guó)計(jì)量科學(xué)研究領(lǐng)域研究現(xiàn)狀與熱點(diǎn)挖掘[J]. 計(jì)量與測(cè)試技術(shù), 2019,46(11):95-98.
[4] 林通,金韜,李婕. 科學(xué)知識(shí)圖譜下公安教學(xué)改革研究的可視化分析[J]. 中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019,25(4):101-108.
[5] 張???,葉權(quán)慧,于路云. 基于知識(shí)圖譜的海洋科學(xué)領(lǐng)域技術(shù)機(jī)會(huì)分析[J]. 科技管理研究, 2017,37(24):165-170.
[6] 熊回香,葉佳鑫,丁玲,等. 基于改進(jìn)的h指數(shù)的學(xué)者評(píng)價(jià)研究[J]. 情報(bào)學(xué)報(bào), 2019,38(10):1022-1029.
[7] PERSSON O.The intellectual base and research fronts ofJASIS 1986-1990[J]. Journal of the Association for Information Science & Technology, 1994,45(1):31-38.
[8] 戴杰. 基于深度學(xué)習(xí)的立體匹配研究[D]. 北京:北京郵電大學(xué), 2016.
[9] 曹晨潔,王夏黎,趙嘉興,等. 基于CANNY算法的道路交通標(biāo)線識(shí)別方法[J]. 信息技術(shù)與網(wǎng)絡(luò)安全, 2019,38(10):78-82.
[10] MATTHEW A T, PENTLAND A P. Face recognition using eigenfaces: computer vision and pattern recognition[C].? IEEE Computer Society Conference onComputer Vision and Pattern Recognition, 1991:586-591.
[11] ZHANG Z. A flexible new technique for camera calibration[J].? IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(11):1330-1334.
[12] 趙蓉英,王菊. 圖書(shū)館學(xué)知識(shí)圖譜分析[J]. 中國(guó)圖書(shū)館學(xué)報(bào), 2011,37(2):40-50.
[13] DONOHO D L,TSAIG Y,DRORI I,et al. Sparse solution of underdeterminded systems of Linear equations by stagewise erthogonal metching pursuit[J]. IEEE Transactions on Information Theory,2016,58:1094-1121.
[14] CANDES E J, ROMBERG J, TAO T. Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency information[J]. IEEE Transactions on Information Theory, 2006,52(2):489-509.
[15] KRIZHEVSKY A,SUTSKEVER I,HINTON G.ImageNet classification with deep convolutional neural networks:NIPS[C]. Proceedings of the 25th International Conference on Neural Information Processing Systems, 2012:1097-1105.
[16] REDOM J,DIVVALA S,GIRSHICK R,et al. You only look once:unified,real-time object detection[C]. CVRR,2016:1-10.
[17] RUSSAKOVSKY O,DENG J, SU H,et al.ImageNet Large Scale Visual Recognition Challenge[J]. International Journal of Computer Vision, 2015,115(3):211-252.
[18] SZEGEDY C,LIU W,JIA Y,et al.Going deeper with convolutions[DB/OL]. https://arxiv.org/abs/1409.4842, 2014.
[19] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision,2004,60:91-110.
[20] 張凌. 基于CiteSpace的競(jìng)爭(zhēng)情報(bào)研究的可視化分析[J]. 圖書(shū)情報(bào)工作網(wǎng)刊,2011,5(10):1-8.
[21] 徐彤陽(yáng),張國(guó)標(biāo). 視頻檢索研究可視化分析[J]. 計(jì)算機(jī)工程與應(yīng)用, 2017,53(22):190-197.
[22] 徐俊成. 基于機(jī)器視覺(jué)的精密注塑零件的識(shí)別與檢測(cè)[D]. 北京:北京化工大學(xué), 2011.
[23] 欒春娟,侯海燕,王賢文. 國(guó)際科技政策研究熱點(diǎn)與前沿的可視化分析[J]. 科學(xué)學(xué)研究, 2009,27(2):240-243.
(責(zé)任編輯:孫 娟)