蔣樹強(qiáng) 閔巍慶 王樹徽
(中國科學(xué)院智能信息處理重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院計(jì)算技術(shù)研究所) 北京 100190)
(sqjiang@ict.ac.cn)
?
面向智能交互的圖像識別技術(shù)綜述與展望
蔣樹強(qiáng)閔巍慶王樹徽
(中國科學(xué)院智能信息處理重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院計(jì)算技術(shù)研究所)北京100190)
(sqjiang@ict.ac.cn)
Survey and Prospect of Intelligent Interaction-Oriented Image Recognition Techniques
Jiang Shuqiang, Min Weiqing, and Wang Shuhui
(KeyLaboratoryofIntelligentInformationProcessing(InstituteofComputingTechnology,ChineseAcademyofSciences),ChineseAcademyofSciences,Beijing100190)
AbstractVision plays an important role in both the human interaction and human-nature interaction. Furthermore, equipping the terminals with the intelligent visual recognition and interaction is one of the core challenges in artificial intelligence and computer technology, and also one of lofty goals. With the rapid development of visual recognition techniques, in recent years the emerging new techniques and problems have been produced. Correspondingly, the applications with the intelligent interaction also present a few new characteristics, which are changing our original understanding of the visual recognition and interaction. We give a survey on image recognition techniques, covering recent advances in regarding to visual recognition, visual description, visual question and answering (VQA). Specifically, we first focus on the deep learning approaches for image recognition and scene classification. Next, the latest techniques in visual description and VQA are analyzed and discussed. Then we introduce visual recognition and interaction applications in mobile devices and robots. Finally, we discuss future research directions in this field.
Key wordsimage recognition; intelligent visual recognition; intelligent interaction; visual description; visual question and answering (VQA); deep learning
摘要視覺在人與人交互以及人與自然界的交互過程中起到非常重要的作用,讓終端設(shè)備具有智能的視覺識別和交互能力是人工智能和計(jì)算機(jī)技術(shù)的核心挑戰(zhàn)和遠(yuǎn)大目標(biāo)之一.可以看到,近年來視覺識別技術(shù)發(fā)展飛速,新的創(chuàng)新技術(shù)不斷涌現(xiàn),新的研究問題不斷被提出,面向智能交互的應(yīng)用呈現(xiàn)出一些新的動態(tài),正在不斷刷新人們對此領(lǐng)域的原有認(rèn)識.從視覺識別、視覺描述和視覺問答3個角度對圖像識別技術(shù)進(jìn)行綜述,對基于深度學(xué)習(xí)的圖像識別以及場景分類技術(shù)進(jìn)行了具體介紹,對視覺描述和問答技術(shù)的最新技術(shù)進(jìn)行了分析和討論,同時(shí)對面向移動終端和機(jī)器人的視覺識別和交互應(yīng)用進(jìn)行了介紹,最后對該領(lǐng)域的未來研究趨勢進(jìn)行了分析.
關(guān)鍵詞圖像識別;智能的視覺識別;智能交互;視覺描述;視覺問答;深度學(xué)習(xí)
人類得以在自然界中長期生存,一個重要的原因就是擁有迅速認(rèn)識并理解其所處環(huán)境的能力,而這其中的關(guān)鍵環(huán)節(jié)是利用人類視覺系統(tǒng)完成對目標(biāo)的定位與識別,同時(shí)實(shí)現(xiàn)視覺場景的理解與描述.如果計(jì)算機(jī)能夠?qū)崿F(xiàn)自動的圖像識別,必將進(jìn)一步豐富與方便人類生活,這促使圖像識別技術(shù)成為當(dāng)前人工智能領(lǐng)域內(nèi)重要的研究方向之一.圖像識別是指利用計(jì)算機(jī)視覺、模式識別、機(jī)器學(xué)習(xí)等技術(shù)方法,自動識別圖像中存在的一個或多個語義概念,廣義的圖像識別還包括對識別的概念進(jìn)行圖像區(qū)域定位等.圖像識別技術(shù)可以滿足用戶在不同場景下的視覺應(yīng)用需求,主要包括面向互聯(lián)網(wǎng)的圖像檢索與挖掘、面向移動設(shè)備和機(jī)器人等智能終端的人機(jī)對話與信息服務(wù)等.
最早的圖像識別技術(shù)可以追溯到20世紀(jì)60年代[1],自20世紀(jì)90年代以來,隨著計(jì)算機(jī)的處理能力越來越強(qiáng),圖像識別技術(shù)得到了很大的進(jìn)步與發(fā)展.從最早的數(shù)字識別、手寫文字識別逐漸發(fā)展到人臉識別、物體識別、場景識別、屬性識別、精細(xì)目標(biāo)識別等,所采用的技術(shù)也從最早的模板匹配、線性分類到現(xiàn)在所廣泛使用的深層神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)分類的方法.特別是進(jìn)入21世紀(jì)10年代以來,隨著計(jì)算能力的大幅度提升、新的計(jì)算方法的不斷提出、可利用的數(shù)據(jù)資源的大規(guī)模增長、新型應(yīng)用模式不斷涌現(xiàn),圖像識別及其應(yīng)用技術(shù)無論在研究的廣度和深度上、在識別效果的性能上、在技術(shù)及應(yīng)用的擴(kuò)展上,都呈現(xiàn)出新的趨勢.其中有4個特點(diǎn)比較突出:1)圖像的特征表示已經(jīng)從傳統(tǒng)的手工設(shè)定演變?yōu)槿缃竦淖詣訉W(xué)習(xí)方法,這主要得益于深度神經(jīng)網(wǎng)絡(luò)技術(shù)的廣泛應(yīng)用;2)圖像識別的概念已由早期個別概念(如特定概念、十幾個概念的識別)轉(zhuǎn)變?yōu)槌砂偕锨У母拍?,這主要是由于大規(guī)模圖像數(shù)據(jù)集的發(fā)展所推動的,如ImageNet[2],Places[3],SUN397[4]等;3)圖像識別技術(shù)正在和自然語言理解技術(shù)進(jìn)行融合,形成了圖像描述技術(shù),有別于圖像識別只是對圖像進(jìn)行個別概念的標(biāo)注,圖像描述可以自動對一副圖像進(jìn)行一句話或一小段話的描述,從而可以更全面地描述圖像內(nèi)容;4)在應(yīng)用模式上,傳統(tǒng)的圖像識別技術(shù)或者是為了服務(wù)于監(jiān)控、檢索等特定的應(yīng)用場景,或只是為了突破計(jì)算機(jī)視覺的挑戰(zhàn)性問題,在技術(shù)研究時(shí)并未過多考慮全面圖像識別技術(shù)的應(yīng)用場景.隨著技術(shù)發(fā)展,一些面向智能交互與服務(wù)的應(yīng)用模式也逐漸引起了研究者的關(guān)注,這也進(jìn)一步促進(jìn)了圖像識別技術(shù)的發(fā)展.
本文將對圖像識別與應(yīng)用技術(shù)的最新進(jìn)展進(jìn)行介紹.在方法上,將首先對基于深度學(xué)習(xí)的圖像識別技術(shù)進(jìn)展進(jìn)行討論,主要從物體識別和場景識別2個角度探討相關(guān)技術(shù)的特點(diǎn).ImageNet是最新的常用數(shù)據(jù)集,主要是物體概念的圖像,也包括少量場景概念的圖像,該數(shù)據(jù)集是當(dāng)前不同深度學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)來源,也是算法性能的主要測試場地;而隨著SUN397,Places等大規(guī)模場景數(shù)據(jù)集的出現(xiàn)和普及,場景分類技術(shù)成為當(dāng)前圖像識別的重要研究問題,在分類方法和模型訓(xùn)練上都有新的推進(jìn),本文也將進(jìn)行介紹.此外,我們對近一兩年來研究頗多的圖像描述與問答技術(shù)也進(jìn)行介紹,這是最新研究方向.在面向視覺交互的圖像識別應(yīng)用上,將主要對面向移動終端與面向機(jī)器人的視覺識別技術(shù)進(jìn)行討論,同時(shí)對基于圖像理解的智能交互的不同應(yīng)用模式進(jìn)行分析.在本文的最后,將對未來的研究趨勢進(jìn)行展望和討論.
1基于深度學(xué)習(xí)的圖像識別技術(shù)
自從Krizhevsky等人[5]在ImageNet上訓(xùn)練一個8層的深度模型并在ImageNet競賽上取得非常好的效果后,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)在圖像分類與識別領(lǐng)域受到了廣泛關(guān)注,取得了巨大成功.之后,在很多圖像識別的應(yīng)用場景中,卷積神經(jīng)網(wǎng)絡(luò)也都取得了很大的性能改進(jìn).卷積神經(jīng)網(wǎng)絡(luò)能夠逐層學(xué)習(xí)圖像的特征,其中低層是具有普遍性的(general)特征,如圖像的邊緣、角點(diǎn)、紋理等;高層特征是低層特征的組合,是針對特定任務(wù)的有針對性的(specific)特征[6-7].逐層特征學(xué)習(xí)模擬了人腦分層處理信息機(jī)制,能夠直接從原始像素得到圖像特征.將卷積神經(jīng)網(wǎng)絡(luò)用于圖像識別與分類,可以歸納為3種途徑:
1) 直接在待分類的數(shù)據(jù)集上訓(xùn)練一個深層的網(wǎng)絡(luò).隨著CNN深度和寬度的增加,CNN的分類性能有著明顯的提升.Simonyan等人[8]提出了一個19層的CNN模型(VGG-19),該模型在原來Krizhevsky[5]提出的模型的基礎(chǔ)上通過增加卷積層來增加該模型的深度,由于在所有的層上采用比較小的卷積濾波核(3×3),因而可在實(shí)踐中實(shí)現(xiàn).相比之下,Szegedy等人[9]基于Hebbian原理和多尺度處理的啟發(fā)提出了一個22層的深度學(xué)習(xí)模型GoogLeNet[9],它是由多個Inception Model堆疊而成.該模塊中,利用不同帶寬的卷積核對前一層的輸出做卷積,最后合并形成后一層的輸入.不同尺寸大小的卷積核能夠捕獲多尺度的視覺特征,這些特征的融合能夠使整個網(wǎng)絡(luò)更好地適應(yīng)圖像物體的表觀多尺度特性.另外針對不同的分類任務(wù),如場景分類和物體分類等,不同數(shù)據(jù)集上訓(xùn)練的模型也有不同的特性,例如Zhou等人在Places[3]上訓(xùn)練的深度模型,對于場景的分類有非常好的效果.
2) 在訓(xùn)練好的網(wǎng)絡(luò)上直接提取特征.訓(xùn)練好的CNN模型可以直接用來當(dāng)特征提取器,提取的特征可以用做其它的后續(xù)操作.Donahue等人[10]利用Krizhevsky提出的模型將CNN的全連接層的特征與SVM分類器結(jié)合,在多個數(shù)據(jù)集上取得了很好的分類效果,這表明CNN的高層全連接層的特征可以作為通用的視覺特征.相比之下,Liu等人[11]采用跨卷積層池化技術(shù)將卷積層的特征作為通用特征在MIT-67等數(shù)據(jù)庫上取得了更好的分類效果.Gong等人[12]在多個尺度下基于圖像塊提取CNN特征,然后通過主成分分析(principal component analysis, PCA)降維以及局部聚合的描述子向量(vector of locally aggregated descriptors, VLAD)[13]編碼等形成圖像的特征.相比于直接從整幅圖片上提取CNN特征,該方法提取的特征具有幾何不變性.Li等人[14]更進(jìn)一步在提取圖像的多個塊級特征的基礎(chǔ)上,通過關(guān)聯(lián)規(guī)則來發(fā)現(xiàn)隱藏在這些特征之間的模式,從而實(shí)現(xiàn)圖像的分類和識別.
3) 在目標(biāo)數(shù)據(jù)集上對現(xiàn)有深度模型進(jìn)行“精細(xì)化”調(diào)整(fine-tuning).在特定數(shù)據(jù)集上訓(xùn)練好的模型有很強(qiáng)的泛化性能,但是fine-tuning能夠進(jìn)一步提升分類性能[15].fine-tuning是在目標(biāo)數(shù)據(jù)集上重新調(diào)整網(wǎng)絡(luò)參數(shù),從而使深度模型能夠捕獲針對目標(biāo)任務(wù)更具有區(qū)分性的特征[16-17].
表1給出了基于CNN的分類方法在不同的數(shù)據(jù)集上最好的分類準(zhǔn)確率.從Krizhevsky等人的8層的CNN-S[5]網(wǎng)絡(luò)到Simonyan等人的22層網(wǎng)絡(luò)GoogLeNet[9],隨著網(wǎng)絡(luò)層次的增加,CNN的性能有很大提升.表2給出了2014年ImageNet大規(guī)模視覺識別挑戰(zhàn)(ILSVRC 2014)[2,18]的排名前7的結(jié)果,這些團(tuán)隊(duì)均是采用深度學(xué)習(xí)模型得到測試結(jié)果.如表2所示,GoogLeNet由于采用最多的22層網(wǎng)絡(luò)而達(dá)到最好的測試性能;VGG采用19層網(wǎng)絡(luò)緊隨其后;相比于增加深度學(xué)習(xí)模型的層數(shù),SPPNet[18]網(wǎng)絡(luò)通過將空間金字塔模型引入到深度學(xué)習(xí)模型中,消除了輸入圖像尺寸的限制,在網(wǎng)絡(luò)層數(shù)最多只有7層的條件下組合多個深度學(xué)習(xí)模型,達(dá)到了第3名的測試結(jié)果.從表2我們可以看出,這些深度學(xué)習(xí)模型的架構(gòu)基本沒有什么變化,可以通過1)增加網(wǎng)絡(luò)層數(shù)學(xué)習(xí)更為抽象的表示;2)消除深度學(xué)習(xí)中的某些限制或者瓶頸,比如輸入圖像尺寸的限制等途徑繼續(xù)通過深度學(xué)習(xí)模型提高識別性能.
Table 1 Object Classification Accuracy on Different Datasets
Table 2 Results of ILSVRC 2014 Classification[18]
2場景分類技術(shù)
場景分類技術(shù)一般分為2步:1)提取圖像的中層特征描述;2)基于中層特征描述訓(xùn)練分類器,并進(jìn)行場景分類.近10年來,場景分類技術(shù)的發(fā)展主要體現(xiàn)在中層特征描述能力的不斷增強(qiáng).典型的中層描述特征為詞袋(bag-of-word)[20],該方法利用聚類得到視覺特征碼書,根據(jù)碼書進(jìn)行編碼,得到詞袋特征,進(jìn)而用SVM進(jìn)行分類.Li等人[21]提出了一種基于物體描述的中層特征,預(yù)先學(xué)習(xí)物體檢測器,檢測器的響應(yīng)即為其物體描述特征.Rasiwasia等人[22]利用場景類別概率分布作為中層描述,對每一場景類別學(xué)習(xí)狄利克雷混合模型,以預(yù)測未知圖像屬于該場景類別的概率,所有場景類別概率的分布即為該圖像的中層特征描述.具體來說,對于每一個在語義空間中的每個場景類別通過如下狄利克雷混合分布表示:
(1)
Table 3 Scene Classification Accuracy on Different Datasets
3圖像描述技術(shù)
通過目標(biāo)檢測和分類技術(shù),可以將圖片中用戶感興趣的部分從復(fù)雜的背景中分離出來并對其進(jìn)行分類.在此基礎(chǔ)上,通過目標(biāo)描述技術(shù),我們可以使用更加豐富的信息來產(chǎn)生更進(jìn)一步的結(jié)果:自動產(chǎn)生自然語言來對視覺目標(biāo)進(jìn)行描述.
隨著計(jì)算機(jī)視覺和自然語言理解領(lǐng)域相關(guān)技術(shù)的突破,圖片描述[26-33]技術(shù)是在2014—2015年獲得了突飛猛進(jìn)的發(fā)展.在2015年微軟COCO圖片標(biāo)注競賽中,來自微軟[26-27]、谷歌[28]、蒙特利爾大學(xué)、多倫多大學(xué)[29]和加州大學(xué)伯克利分校[30-31]等研究機(jī)構(gòu)的最新工作在人工測評和圖靈測試方面都取得了令人驚嘆的成績.谷歌(基于CNN視覺特征和RNN(recurrent neural network)語言模型)和微軟(基于區(qū)域的單詞檢測和最大熵語言模型)目前在技術(shù)和性能方面處于領(lǐng)先地位.
目前,在目標(biāo)描述這一方面的解決方案主要都是根據(jù)通過編碼-解碼(encoder-decoder)的想法而來,最有代表性的方法有2種:
1) 類似于Fang等人[26]使用的流程化方法:根據(jù)圖片得到單詞,再將單詞組合為句子,最后對句子進(jìn)行打分.Fang等人[26]首先利用多示例學(xué)習(xí)(MIL)方法,根據(jù)圖片的各個部分產(chǎn)生相對應(yīng)的名詞、動詞和形容詞;接下來,使用最大熵語言模型(MELM)產(chǎn)生包含提取詞的句子;最后,使用最小錯誤率訓(xùn)練(MERT)對所產(chǎn)生的所有句子進(jìn)行打分并排序.
2) 類似于Vinyals等人[28]和Karpathy等人[30]使用的端到端(end-to-end)方法:受機(jī)器翻譯技術(shù)的啟發(fā),將圖片整體轉(zhuǎn)化為特征,再將特征轉(zhuǎn)化為一個完整的句子.Karpathy等人[30]利用CNN模型將圖片整體轉(zhuǎn)化為一個特征,再利用RNN模型根據(jù)已產(chǎn)生的單詞預(yù)測句子中的下一個單詞,最終生成一個完整的描述.
對于整體流程中各個步驟的研究也有許多進(jìn)展,比如對于流程化方法:Kiros等人[34]提出的 SC-NLM(structure-content neural language model),它與其他模型的不同之處在于它根據(jù)已生成的單詞預(yù)測的并不是下一個單詞而是接下來的句子結(jié)構(gòu).對于端到端方法,Mao等人[35]提出的m-RNN(multimodal recurrent neural network)模型,它通過一個multimodal的部分將CNN和LM聯(lián)系起來.Donahue等人[31]提出的LRCNs(long-term recurrent convolutional networks)模型可以在可變長度的輸入和可變長度的輸出之間直接建立映射關(guān)系.這與Chen等人[36]在圖片和描述映射關(guān)系方面提出的方法有類似之處,該方法并未將圖片和描述映射到同一空間,而是在圖片和描述之間直接建立雙向映射關(guān)系.最近,Jia等人[37]則是采用gLSTM(guiding long-short term memory)模型,如圖1所示,在LSTM模型[28]的基礎(chǔ)上引入外部的語義信息生成圖像標(biāo)題.具體來說,gLSTM塊的內(nèi)存細(xì)胞和門定義為
(2)
(3)
(4)
(5)
(6)
Fig. 1 Image caption generation using LSTM and the proposed gLSTM[37].圖1 用LSTM和gLSTM生成圖像標(biāo)題[37]
表4給出了不同方法在生成圖像標(biāo)題性能的結(jié)果,評價(jià)指標(biāo)采用了BLEU量度[38].從表4中我們看到最新的方法Hard-Attention和gLSTM達(dá)到最好的性能.
Table 4 Comparison of Different Methods on MS COCO
4視覺問答技術(shù)
基于圖像內(nèi)容識別與分類的另一個新的應(yīng)用場景是視覺問答,這也是近期受研究者關(guān)注的一個新方向.該技術(shù)將自然語言理解與視覺內(nèi)容描述相結(jié)合,可以根據(jù)當(dāng)前圖像內(nèi)容與用戶問題產(chǎn)生出相應(yīng)的回答.針對當(dāng)前的視覺問答主要有推理和端到端的深度學(xué)習(xí)2種方法.
推理方法比較有代表性的是Malinowski等人[39]提出的使用基于不確定輸入的多世界(multi-world)方法實(shí)現(xiàn)對于真實(shí)世界的場景問答:該方法使用帶有深度信息的數(shù)據(jù)集NVU-Depth V2dataset,對于場景使用語義分割算法[40]構(gòu)建世界并且收集關(guān)于物體的識別信息,例如物體類別、3D位置和顏色;然后利用對于一個場景的多種world解釋,這里的world解釋是由語義分割產(chǎn)生;最后通過概率模型來得到最大后驗(yàn)概率的答案.
端到端的深度學(xué)習(xí)方法主要輸入為自由形式的問題文本.答案的輸出主要分為:1)Malinowski等人[41]和Gao等人[42]基于RNN框架,可以產(chǎn)生自由形式答案;2)Geman等人[43]和Ma等人[44]提出的基于分類方式產(chǎn)生答案框架.Gao等人[42]采用long-short term memory (LSTM)抽取輸入問題的表示,同時(shí)利用CNN抽取視覺圖像表示,再利用一個LSTM存儲答案中的語言環(huán)境信息,最后利用一個融合組件將3種成分進(jìn)行融合產(chǎn)生答案.Ma等人[44]對輸入問題使用CNN生成輸入問題表示,同時(shí)利用CNN生成圖像的視覺表示并使用映射矩陣將其映射到與問題表示相同的向量長度,最后將2個表示向量進(jìn)行混合后再次使用卷積與softmax進(jìn)行分類輸出對應(yīng)的答案,如圖2所示:
Fig. 2 The proposed CNN model for image QA[44] . 圖2 提出的圖像問答的CNN模型[44]
目前針對視覺問答的工作還不多,但是已經(jīng)可以看到深度學(xué)習(xí)在這個領(lǐng)域中已經(jīng)有了比較好的表現(xiàn).這主要得益于目前深度學(xué)習(xí)在視覺表示和自然語言理解等領(lǐng)域都有了長足的發(fā)展.
5面向移動終端的視覺識別技術(shù)
近些年來移動設(shè)備(如手機(jī)、平板)越來越普及,這些設(shè)備大多裝配有攝像頭和圖形芯片,此外還有GPS和無線聯(lián)網(wǎng)等功能.這些都促使移動端的視覺識別應(yīng)用越來越多,常見的包括地標(biāo)建筑物識別[45-46]、商品識別[47-48]、食品識別[49-50]、藝術(shù)品識別[51]等,上線的APP如Goggles[52]等.
由于面向移動端,一些方法關(guān)注移動設(shè)備資源的合理利用,如提高傳輸速度、減小內(nèi)存開銷等.Tsai等人[47]提取低碼率的CHoG特征[53],并利用了位置直方圖編碼對特征描述子的位置進(jìn)行壓縮,最后用幾何驗(yàn)證的方法對檢索結(jié)果進(jìn)行重排序.He等人[48]將圖像的局部特征編碼到位數(shù)較少的哈希碼,而非對視覺單詞(VW)進(jìn)行量化,從而將圖像表示成詞袋型哈希碼,然后采用邊界特征對檢索結(jié)果進(jìn)行重排序.
移動設(shè)備帶有豐富的傳感器,可以為圖像提供拍照時(shí)的上下文信息,如GPS獲取的地理位置信息、拍攝時(shí)間、相機(jī)參數(shù)等,所以有些工作利用這些信息對圖像中的目標(biāo)進(jìn)行識別.Runge等人[54]將圖像的地理標(biāo)簽、時(shí)間、圖像主顏色、天氣等各種信息與圖像的視覺特征組合成一個特征向量,然后利用分類器預(yù)測圖像的概念標(biāo)簽.Chen等人[45]基于SIFT描述子訓(xùn)練得到的詞匯樹,計(jì)算數(shù)據(jù)庫中的圖像與查詢圖像的相似度,排除地理相距非常遠(yuǎn)的地標(biāo)建筑,然后在特征空間使用近似近鄰(ANN)的方法對查詢圖像進(jìn)行識別.Dhiraj和Luo[55]對視覺和地理檢測器分別訓(xùn)練并使用相同的權(quán)重在預(yù)測階段進(jìn)行融合.進(jìn)一步地,Li等人[56]對不同概念分別學(xué)習(xí)了不同檢測器的權(quán)重.Xu等人[49]研究了利用地理信息輔助視覺識別菜品類別的問題.為了對分類模型進(jìn)行地理約束,該文提出地理局部化模型,將地理上下文信息用于分類模型的訓(xùn)練過程,使得模型從根本上對地理信息更有針對性,最后再根據(jù)查詢圖像的地理坐標(biāo)對這些分類模型進(jìn)行自適應(yīng)組合,從而實(shí)現(xiàn)菜品類別的預(yù)測.該方法用到的圖像特征就是訓(xùn)練好的深度特征.
近年來,由于深度學(xué)習(xí)很強(qiáng)的特征學(xué)習(xí)能力已應(yīng)用到各種移動視覺識別任務(wù)中.例如,Teradeep[57]公司已經(jīng)針對移動和嵌入式設(shè)備開發(fā)了一套基于深度學(xué)習(xí)的算法實(shí)現(xiàn)移動端的場景理解、物體檢測和識別等.百度等搜索公司[58]也將深度學(xué)習(xí)技術(shù)比如DNN[5]等應(yīng)用到基于移動端的人臉識別、鞋識別和檢索等視覺任務(wù)中.
6面向機(jī)器人的視覺識別技術(shù)
視覺識別技術(shù)在機(jī)器人的領(lǐng)域也扮演著舉足輕重的角色.作為機(jī)器人感知外界環(huán)境信息的一個重要輸入渠道,其對于機(jī)器人理解周圍場景和輔助完成特定任務(wù)具有至關(guān)重要的作用.目前視覺識別技術(shù)在機(jī)器人領(lǐng)域的應(yīng)用主要有環(huán)境理解[59-62]、自學(xué)習(xí)物體識別[63-64]和智能交互[63]、導(dǎo)航與避障[65]等.
面向機(jī)器人的視覺識別技術(shù)不同于其他單純的視覺識別方法,其具有一定的交互能力(語言、動作等)和多感知能力(深度信息感器、定位裝置等),對于機(jī)器人的視覺能力可以具有一定的輔助作用.從機(jī)器人視覺感知方式上可以分為2種:基于2D圖像的識別和基于3D視覺信息的識別.
1) 2D圖像識別中主要是對獲取到的圖像進(jìn)行物體檢測和整體場景識別.基于2D圖像的識別可以直接對圖像進(jìn)行特征提取或者對圖像進(jìn)行區(qū)域特征提取然后使用模型進(jìn)行標(biāo)簽預(yù)測.Rouanet等人[63]的方法在交互過程中利用用戶指定區(qū)域,從而縮小圖像區(qū)域,然后對該區(qū)域提取特征并進(jìn)行物體識別,這里為了進(jìn)行增量式學(xué)習(xí),采用了產(chǎn)生式模型進(jìn)行物體識別.Wang等人[61]給出了一種實(shí)例級物體識別方法,利用圖像檢索方式匹配輸入圖像與數(shù)據(jù)庫中的圖像,再經(jīng)過空間一致性驗(yàn)證和投票機(jī)制實(shí)現(xiàn)物體的識別,這種方法識別精度比較高,但是缺點(diǎn)是對于識別的物體不具有很好的泛化能力.
2) 3D圖像識別主要是借助可以獲取深度信息的傳感器例如Kinect或者激光測距實(shí)現(xiàn)對于環(huán)境內(nèi)的物體深度感知.額外的深度信息可以幫助機(jī)器人感知物體位置及大小.Lv等人[62]利用Kinect采集的深度信息和人體骨骼信息進(jìn)行手持物體分割,同時(shí)提取多種模態(tài)特征訓(xùn)練分類模型,從而實(shí)現(xiàn)對人手上物體的理解.Filliat等人[59]主要針對室內(nèi)的物體進(jìn)行識別.采用PCL庫[66]將獲取到的3D數(shù)據(jù)映射到點(diǎn)云空間中,通過檢測去除地板和墻壁等噪音同時(shí)進(jìn)行物體分割,然后使用多種特征結(jié)合作為前饋神經(jīng)網(wǎng)絡(luò)輸入學(xué)習(xí)到綜合特征表示.
視覺識別技術(shù)是機(jī)器人感知外界信息的重要渠道,因此未來在交互過程中利用視覺識別技術(shù)以增強(qiáng)機(jī)器人理解能力和提升與用戶交互體驗(yàn)也具有很重要的研究價(jià)值,是一個具有挑戰(zhàn)性的方向.例如利用圖像識別技術(shù)同時(shí)識別人臉和物體,可以幫助關(guān)聯(lián)理解用戶意圖和興趣愛好.目前受到大家廣泛研究關(guān)注的圖像描述和問答技術(shù)也會很快和機(jī)器人的視覺交互應(yīng)用相結(jié)合,產(chǎn)生新的研究內(nèi)容和應(yīng)用場景,從而進(jìn)一步促進(jìn)視覺識別技術(shù)的發(fā)展和進(jìn)步.
7總結(jié)和展望
由于相關(guān)理論和技術(shù)的長足發(fā)展,在過去20年中,視覺識別和智能交互技術(shù)發(fā)生了日新月異的變化.從小數(shù)據(jù)到大數(shù)據(jù),從手工設(shè)計(jì)特征到以深度學(xué)習(xí)為代表的視覺特征學(xué)習(xí),從簡單內(nèi)容到自然場景,從簡單模型到復(fù)雜模型,從單一輸出到復(fù)雜輸出,從視覺識別到視覺理解、進(jìn)一步到視覺描述和問答,視覺識別和智能交互技術(shù)已經(jīng)逐漸從實(shí)驗(yàn)室走向現(xiàn)實(shí)的應(yīng)用場景,相關(guān)方法尤其在深度學(xué)習(xí)方法、視覺和自然語言處理等技術(shù)深度結(jié)合的方面發(fā)展速度快,技術(shù)更新多.視覺交互的主要形式從普通設(shè)備逐漸遷移到智能終端和機(jī)器人,視覺信息處理能力越來越強(qiáng),人機(jī)交互的體驗(yàn)也越來越真實(shí).
通過以上分析和討論,視覺識別和智能交互技術(shù)呈現(xiàn)4個發(fā)展趨勢:1)深度學(xué)習(xí)方法由于其突出的泛化能力和視覺特征捕捉能力,將被應(yīng)用在更深層次、多角度的視覺識別和理解的各項(xiàng)技術(shù)當(dāng)中;2)視覺識別和理解將與語言和認(rèn)知技術(shù)進(jìn)行更深入全面的結(jié)合,使得更加高級的視覺理解和描述性語義輸出取代簡單的物體、場景識別而成為下一個10年的研究熱點(diǎn);3)視覺識別和理解將會在具體的應(yīng)用中進(jìn)行更深層次的融合和適配,如特定內(nèi)容的圖像和視頻識別等;4)隨著視覺描述和視覺問答的興起,智能終端和機(jī)器人的視覺能力將在人機(jī)智能交互中起到越來越重要的作用,并將逐漸從較為局限的人機(jī)對話模式,進(jìn)化為基于多通道智能信息處理的自然交互.
與此同時(shí),在視覺識別和智能交互技術(shù)發(fā)展的過程中也面臨著許多挑戰(zhàn).主要包括3個方面:1)通過深度學(xué)習(xí)技術(shù)提高性能的一種主流方法是通過增加網(wǎng)絡(luò)層數(shù)來增加識別的準(zhǔn)確度.但是更深的網(wǎng)絡(luò)需要更多訓(xùn)練的參數(shù),這就意味著需要更多的訓(xùn)練樣本和訓(xùn)練時(shí)間.因此,怎樣設(shè)計(jì)網(wǎng)絡(luò)模型如網(wǎng)絡(luò)深度、卷積核的個數(shù)、卷積核的大小等以及如何快速地訓(xùn)練得到高性能模型將是深度學(xué)習(xí)技術(shù)面臨的一個重要挑戰(zhàn).2)盡管現(xiàn)有的視覺識別和理解技術(shù)取得了巨大的進(jìn)展,但是現(xiàn)有的視覺識別技術(shù)仍然只能理解簡單的場景,設(shè)計(jì)理解復(fù)雜場景的視覺技術(shù)也是未來視覺技術(shù)發(fā)展的一個難點(diǎn)問題.3)現(xiàn)有的視覺識別技術(shù)依然以視覺信息為主,但是隨著各種傳感器的迅速發(fā)展,我們可以得到各種各樣的上下文信息,如果將視覺信息和這些上下文信息高效有機(jī)結(jié)合將對提高視覺識別的性能有很大的改進(jìn),尤其是在面向基于機(jī)器人的視覺識別應(yīng)用中.如果未來能夠比較好地解決這些技術(shù)問題,視覺識別和智能交互技術(shù)有望在未來越來越多的領(lǐng)域中造福人類社會,更加深入地為人類的生產(chǎn)、生活、消費(fèi)和娛樂等方面提供智能化、個性化和全面化的服務(wù).
參考文獻(xiàn)
[1]Andreopoulos A, Tsotsos J K. 50 years of object recognition: Directions forward[J]. Computer Vision and Image Understanding, 2013, 117(8): 827-891
[2]Russakovsky O, Deng Jia, Su Hao, et al. ImageNet: Large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252
[3]Zhou Bolei, Lapedriza A, Xiao Jianxiong, et al. Learning deep features for scene recognition using Places database[C]Proc of the 28th Annual Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 487-495
[4]Xiao Jianxiong, Hays J, Ehinger K, et al. Sun database: Large-scale scene recognition from abbey to zoo[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3485-3492
[5]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]Proc of the 26th Annual Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 1097-1105
[6]Yosinski J, Clune J, Bengio Y, et al. How transferable features in deep neural networks[C]Proc of the 28th Annual Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 3320-3328
[7]Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]Proc of the 16th European Conf on Computer Vision. Berlin: Springer, 2014: 297-312
[8]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. CoRR abs1409.1556, 2014
[9]Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1-9
[10]Donahue J, Jia Yangqing, Vinyals O, et al. DeCAF: A deep convolutional activation feature for generic visual recognition[C]Proc of the 31st Int Conf on Machine Learning. New York: ACM, 2014: 647-655
[11]Liu Lingqiao, Shen Chunhua, Hengel A. The treasure beneath convolutional layers: Cross-convolutional-layer pooling for image classification[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 4749-4757
[12]Gong Yunchao, Wang Liwei, Guo Ruiqi, et al. Multi-scale orderless pooling of deep convolutional activation feature[C]Proc of the 16th European Conf on Computer Vision. Berlin: Springer, 2014: 392-407
[13]Jegou H, Douze M, Schmid C, et al. Aggregating local descriptors into a compact image representation[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 3304-3311
[14]Li Yao, Liu Lingqiao, Shen Chunhua. Mid-level deep pattern mining[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 971-980
[15]Chatfield K, Simonyan K, Vedaldi A, et al. Return of the devil in the details: Delving deep into convolutional nets[C]Proc of the British Machine Vision Conf. Nottingham,UK: British Machine Vision Association, 2014
[16]Agrawal P, Girshick R, Malik J. Analyzing the performance of multilayer neural networks for object recognition[C]Proc of the 16th European Conf on Computer Vision. Berlin: Springer, 2014: 329-344
[17]Azizpour H, Razavian A S, Sullivan J, et al. From Generic to specific deep representation for visual recognition[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 36-45
[18]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916
[19]Wei Yunchao, Xia Wei, Huang Junshi, et al. CNN: Single-label to multi-label[J]. CoRR abs1406.5726, 2014
[20]Dixit M, Chen Si, Gao Dashan et al. Scene classification with semantic Fisher Vectors[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3485-3492
[21]Lazebnik S, Schmid C, Ponce J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2006: 2169-2178
[22]Li Lijia, Su Hao, Xing E, et al. Object bank: A high-level image representation for scene classification and semantic feature sparsification[C]Proc of the 24th Annual Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2010: 1378-1386
[23]Rasiwasia N, Vasconcelos N. Holistic context models for visual recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2012, 34(5): 902-917
[24]Song Xinhang, Jiang Shuqiang, Herranz L. Joint multi-feature spatial context for scene recognition in the semantic manifold[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1312-1320
[25]MIT. Places[EBOL].[2015-07-10]. http:places.csail.mit.edudemo.html
[26]Fang Hao, Gupta S, Iandola F, et al. From captions to visual concepts and back[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1473-1482
[27]Devlin J, Cheng Hao, Fang Hao, et al. Language models for image captioning: The quirks and what works[C]Proc of the 2015 Conf of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2015: 100-105
[28]Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3156-3164
[29]Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[J]. CoRR abs1502.03044, 2015
[30]Karpathy A, Li F. Deep visual-semantic alignments for generating image descriptions[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3128-3137
[31]Donahue J, Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 2625-2634
[32]Vedantam R, Zitnick C L, Parikh D. CIDEr: Consensus-based image description evaluation[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 4566-4575
[33]Chen Xinlei, Zitnick C L. Mind's eye: A recurrent visual representation for image caption generation[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 2422-2431
[34]Kiros R, Salakhutdinov R, Zemel R. Unifying visual-semantic embeddings with multimodal neural language models[J]. CoRR abs1411.2539, 2014
[35]Mao Junhua, Xu Wei, Yang Yi, et al. Explain images with multimodal recurrent neural networks[J]. CoRR abs1410.1090, 2014
[36]Chen Xinlei, Zitnick C L. Mind's eye: A recurrent visual representation for image caption generation[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 2422-2431
[37]Jia Xu, Gavves E, Fernando B, et al. Guiding long-short term memory for image caption generation[J]. CoRR, abs1509.04942, 2015
[38]Mao Junhua, Xu Wei, Yang Yi, et al. Deep captioning with multimodal recurrent neural networks (m-RNN)[J].CoRR, abs1412.6632, 2014
[39]Malinowski M, Fritz M. A multi-world approach to question answering about real-world scenes based on uncertain input[J]. CoRR, abs1410.0210, 2014
[40]Gupta S, Arbelaez P, Malik J. Perceptual organization and recognition of indoor scenes from RGB-D images[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 564-571
[41]Malinowski M, Rohrbach M, Fritz M. Ask your neurons: A neural-based approach to answering questions about images[J]. CoRR, abs1505.01121, 2015
[42]Gao Haoyuan, Mao Junhua, Zhou Jie, et al. Are you talking to a machine? Dataset and methods for multilingual image question answering[J]. CoRR, abs1505.05612, 2015
[43]Geman D, Geman S, Hallonquist N, et al. Visual turing test for computer vision systems[J]. Proceedings of the National Academy of Sciences of the United States of America, 2015, 112(12): 3618-3623
[44]Ma Lin, Lu Zhengdong, Li Hang. Learning to answer questions from image using convolutional neural network[J]. CoRR, abs1506.00333, 2015
[45]Chen D, Baatz G, Koser K, et al. City-scale landmark identification on mobile devices[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 737-744
[46]Lim J H, Li Yiqun, You Yilun, et al. Scene recognition with camera phones for tourist information access[C]Proc of the IEEE Int Conf on Multimedia & Expo. Piscataway, NJ: IEEE, 2007: 100-103
[47]Tsai S S, Chen D, Chandrasekhar V, et al. Mobile product recognition[C]Proc of the Int Conf on Multimedia. New York: ACM, 2010: 1587-1590
[48]He Junfeng, Feng Jinyuan, Liu Xianglong, et al. Mobile product search with Bag of Hash Bits and boundary reranking[C]Proc the IEEE Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 16-21
[49]Xu Ruihan, Herranz L, Jiang Shuqiang, et al. Geolocalized modeling for dish recognition[J]. IEEE Trans on Multimedia, 2015,17(8): 1187-1199
[50]Kawano Y, Yanai K. Foodcam: A real-time food recognition system on a smartphone[J]. Multimedia Tools and Applications, 2015, 74(14): 5263-5287
[51]Kurz D, Himane S B. Inertial sensor-aligned visual feature descriptors[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 161-166
[52]Google. Google Goggles[EBOL]. [2015-07-05]. http:www.google.commobilegoggles
[53]Chandrasekhar V, Takacs G, Chen D, et al. CHoG: Compressed histogram of gradients[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 2504-2511
[54]Runge N, Wenig D, Malaka R. Keep an eye on your photos: Automatic image tagging on mobile devices[C]Proc of the Int Conf on Human-Computer Interaction with Mobile Devices & Services. New York: ACM, 2014: 513-518
[55]Dhiraj J, Luo Jiebo. Inferring generic activities and events from image content and bags of geo-tags[C]Proc of the Int Conf on Content-Based Image and Video Retrieval. New York: ACM, 2008: 37-46
[56]Li Xirong, Snoek C G M, Worring M, et al. Fusing concept detection and geo context for visual search[C]Proc of the Int Conf on Multimedia Retrieval. New York: ACM, 2012: 1-8
[57]TeraDeep Inc.Teradeep[EBOL].[2015-07-05]. http:www.teradeep.com
[58]LLRXcom.Chips[EBOL].[2015-06-06]. http:www.llrx.comfeaturesnew-chips-are-using-deep-learning-to-enhance-mobile-camera-and-auto-image-processing-capabilities.htm
[59]Filliat D, Battesti E, Bazeille S, et al. Rgbd object recognition and visual texture classification for indoor semantic mapping[C]Proc of the IEEE Int Conf on Technologies for Practical Robot Applications (TePRA). Piscataway, NJ: IEEE, 2012: 127-132
[60]Lai K, Bo Liefeng, Ren Xiaofeng, et al. RGB-D Object Recognition: Features, Algorithms, and a Large Scale Benchmark in Consumer Depth Cameras for Computer Vision[M]. Berlin: Springer, 2013: 167-192
[61]Wang Shuang, Jiang Shuqiang. INSTRE: A new benchmark for instance-level object retrieval and recognition[J]. ACM Trans on Multimedia Computing, Communications, and Applications, 2015,11(3): 37:1-37:20
[62]Lv Xiong, Jiang Shuqiang, Herranz L, et al. RGB-D hand-held object recognition based on heterogeneous feature fusion[J]. Journal of Computer Science and Technology, 2015, 30(2): 340-352
[63]Rouanet P, Oudeyer P, Danieau Y, et al. The impact of human-robot interfaces on the learning of visual objects[J]. IEEE Trans on Robotics, 2013, 29(2): 525-541
[64]Matuszek C, Bo Liefeng, Zettlemoyer L, et al. Learning from unscripted deictic gesture and language for human-robot interactions[C]Proc of the 28th Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2014: 2556-2563
[65]Moubarak P M, Ben-Tzvi P. Adaptive manipulation of a hybrid mechanism mobile robot[C]Proc of the IEEE Int Symp on Robotic and Sensors Environments. Piscataway, NJ: IEEE, 2011: 113-118
[66]Rusu R B, Cousins S. 3D is here: Point cloud library (PCL)[C]Proc of the IEEE Int Conf on Robotics and Automation (ICRA). Piscataway, NJ: IEEE, 2011: 9-13
Jiang Shuqiang, born in 1977. PhD. Professor in the Institute of Computing Technology, Chinese Academy of Sciences. Member of China Computer Federation. His current research interests include multimedia analysis and multi-modal intelligent technology.
Min Weiqing, born in 1985. PhD. Postdoctor in the Institute of Computing Technology, Chinese Academy of Sciences. Member of China Computer Federation. His current research interests include multimedia analysis and context based visual recognition (minweiqing@ict.ac.cn).
Wang Shuhui, born in 1983. PhD. Associate professor in the Institute of Computing Technology, Chinese Academy of Sciences. Member of China Computer Federation. His current research interests include social media mining, multimedia analysis and machine learning (wangshuhui@ ict.ac.cn).
中圖法分類號TP391
基金項(xiàng)目:國家自然科學(xué)基金重點(diǎn)項(xiàng)目(61532018);國家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目(61322212);國家自然科學(xué)基金青年科學(xué)基金項(xiàng)目(61303160);國家“九七三”重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃基金項(xiàng)目(2012CB316400)
收稿日期:2015-07-26;修回日期:2015-10-20
This work was supported by the National Key Natural Science Foundation of China (61532018), the National Natural Science Foundation for Excellent Young Scholars of China (61322212), the National Natural Science Foundation of China Young Scientists Fund (61303160), and the National Basic Research Program of China (973 Program) (2012CB316400).