張曉亮 梁星馳
?
計算機(jī)視覺研究綜述
張曉亮 梁星馳
中國人民解放軍32140部隊,河北 石家莊 050000
研究綜述了計算機(jī)視覺中分類與回歸、目標(biāo)跟蹤、圖像分割、圖像超分辨率、風(fēng)格轉(zhuǎn)移、著色、行為識別、姿勢預(yù)估和關(guān)鍵點(diǎn)監(jiān)測等重要算法的原理和架構(gòu)。
計算機(jī)視覺;神經(jīng)網(wǎng)絡(luò)
從ILSVRC 2017發(fā)布的分類與回歸問題的結(jié)果(圖1)可以看出,在分類與回歸問題上的錯誤率又有了較大幅度下降。分析原因主要是網(wǎng)絡(luò)的加深和對網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化。以往對網(wǎng)絡(luò)優(yōu)化,多從空間維度上進(jìn)行。例如Inside-Outside考慮了空間中的上下文信息,還有將Attention機(jī)制引入空間維度。ResNet[1]很好地解決了隨著網(wǎng)絡(luò)深度的增加帶來的梯度消失問題,將網(wǎng)絡(luò)深度發(fā)展到152層。Inception[2]結(jié)構(gòu)中嵌入了多尺度信息,聚合多種不同感受野上的特征來獲得性能增益,目前已經(jīng)發(fā)展到inceptionV4并由于ResNet融合。DenseNet[3]比ResNet更進(jìn)一步,對前面每層都加了Shortcut,使得Feature map可以重復(fù)利用。每一層Feature被用到時,都可以被看作做了新的Normalization,即便去掉BN層,深層DenseNet也可以保證較好的收斂率[4]。
圖1
今年的分類冠軍是國內(nèi)自動駕駛公司Momenta研發(fā)團(tuán)隊(WMW)提出的SEnet架構(gòu)。與從空間角度提升網(wǎng)絡(luò)性能有所不同,SEnet的核心思想是從特征通道的角度出發(fā),為特征通道引入權(quán)重,通過學(xué)習(xí)權(quán)重參數(shù)來提升重要特征通道的地位。
SEnet架構(gòu)如圖2所示。在Squeeze步,將每個特征通道變成一個實(shí)數(shù)。這個實(shí)數(shù)某種程度上具有全局感受野,使得靠近輸入的層也可以獲得全局信息,這一點(diǎn)在很多任務(wù)中都是非常有用的。Excitation步是一個類似于循環(huán)神經(jīng)網(wǎng)絡(luò)中門的機(jī)制,通過參數(shù)w來為每個特征通道生成權(quán)重。最后是Reweight操作,我們將Excitation輸出的權(quán)重看作特征選擇后的每個特征通道的重要性,然后通過乘法逐通道加權(quán)到先前的特征上,完成在通道維度上的對原始特征的重標(biāo)定。目前只見到相關(guān)介紹,還未見到成稿的論文發(fā)表。
圖2
圖3
隨著自動駕駛、智能監(jiān)控、人臉識別等大量有價值的應(yīng)用逐步落地,快速、精準(zhǔn)的目標(biāo)檢測系統(tǒng)市場也日益蓬勃,模型不斷創(chuàng)新。Faster R-CNN、R-FCN、YOLO、SSD等是目前應(yīng)用較廣的模型。Faster R-CNN[5]的架構(gòu)如圖3所示,主要創(chuàng)新是用RPN網(wǎng)絡(luò)代傳統(tǒng)的“選擇搜索”算法,使速度大幅提升,如圖3所示,在最后卷即得到特征圖上使用一個3×3的窗口滑動,并將其映射到一個更低的維度上,(如256維),在k個固定比例的anchor box生成多個可能的區(qū)域并輸出分?jǐn)?shù)和坐標(biāo)。
分類需要特征具有平移不變性,而檢測具有一定的平移敏感性。Faster R-CNN在ROI pooling前都是卷積,是具備平移不變性的,在ResNet的91層后插入ROI pooling,后面的網(wǎng)絡(luò)結(jié)構(gòu)就不再具備平移不變性了,而R-FCN[6]架構(gòu)如圖4所示,在ResNet的第101層插入ROI pooling,并去掉后面的average pooling層和全連接層,構(gòu)成了一個完整的全卷積網(wǎng)絡(luò),提升了響應(yīng)速度。其創(chuàng)新點(diǎn)在于ROI pooling中引入位置敏感分?jǐn)?shù)圖,直接進(jìn)行分類和定位,省去了Faster R-CNN中每個Proposal圖像單獨(dú)計算的計算量。Faster R-CNN和R-FCN以及以前的其他變化的模型都是基于Region Proposal的,雖幾經(jīng)優(yōu)化,在精度上達(dá)到最高,但無法做到實(shí)時,而SSD和YOLO兄弟都是基于回歸思想的檢驗(yàn)算法,精度不及Faster R-CNN,但是速度快(45?FPS/155?FPS)。YOLO V1[7]利用全連接層數(shù)據(jù)直接回歸邊框坐標(biāo)和分類概率,YOLO V2[8]不再讓類別的預(yù)測與每個cell(空間位置)綁定一起,而是讓全部放到anchor box中,提高了召回率(從81%到88%),準(zhǔn)確率略有下降(從69.5%到69.2%),文獻(xiàn)[8]中還提出使用WordTree,把多個數(shù)據(jù)集整合在一起,分類數(shù)據(jù)集和通過實(shí)驗(yàn)過這個算法,識別速度特別快,能做到實(shí)時,檢測數(shù)據(jù)集聯(lián)合訓(xùn)練的機(jī)制,可檢測9000 多種物體,缺陷就是準(zhǔn)確率還有待提高,特別是小目標(biāo)的識別效果不好。
圖4
圖5
ILSVRC2017的目標(biāo)檢測冠軍是BDAT團(tuán)隊,該團(tuán)隊包括來自南京信息工程大學(xué)和倫敦帝國理工學(xué)院的人員,目前尚未見到相關(guān)論文發(fā)表。
圖6
在OpenCV 3.2集成了六種目標(biāo)跟蹤API,可以很方便地調(diào)用。其中BOOSTING、MIL、KCF、TLD和MEDIANFLOW都是基于傳統(tǒng)算法的,GOTURN是基于深度學(xué)習(xí)的。通過實(shí)驗(yàn),CV里集成的算法普遍存在對快速移動物體跟蹤失效的問題。雖然目前深度學(xué)習(xí)算法與傳統(tǒng)算法的距離沒有拉開,相信后續(xù)還會有突破,這里只介紹基于深度學(xué)習(xí)的算法。GOTURN[9]是發(fā)表在ECCV 2016的一篇文章,也是第一個檢測速度速度達(dá)到100?FPS的方法。
算法框架如圖5所示,將上一幀的目標(biāo)和當(dāng)前幀的搜索區(qū)域同時經(jīng)過CNN的卷積層,然后將卷積層的輸出通過全連接層,用于回歸當(dāng)前幀目標(biāo)的位置,文獻(xiàn)作者發(fā)現(xiàn)前后幀的變化因子符合拉普拉斯分布,因此在訓(xùn)練中加入了這個先驗(yàn)知識,對數(shù)據(jù)進(jìn)行了推廣,整個訓(xùn)練過程是Offline的。在使用時只需要進(jìn)行前饋運(yùn)算,因此速度特別快。
SiameseFC[10]算法也是一個能做到實(shí)時的深度學(xué)習(xí)算法。如圖6所示,算法本身是比較搜索區(qū)域與目標(biāo)模板的相似度,最后得到搜索區(qū)域的score map。其實(shí)從原理上來說,這種方法和相關(guān)性濾波的方法很相似。
圖7
圖像分割技術(shù)是自動駕駛的基礎(chǔ),具有商用價值。在這一領(lǐng)域貢獻(xiàn)較大的是Facebook的人工智能研究中心(FAIR),該團(tuán)隊2015年開始研究DeepMask,生成粗糙的mask作為分割的初始形式。2016年,推出SharpMask[11],它改進(jìn)了DeepMask提供的“蒙板”,糾正了細(xì)節(jié)的損失,改善了語義分割,除此之外MultiPathNet能標(biāo)識每個掩碼描繪的對象。
特別值得一提的是,今年何愷明又研究出一種新的架構(gòu)Mask R-CNN[12],即一種基于像素級別的分割算法。
為便于理解,對Mask R-CNN原文圖示進(jìn)行了簡單的修改,如圖7所示,其主要思路是在Faster-RCNN的基礎(chǔ)上進(jìn)行拓展,將ROI Pooling層替換成ROI Align,使用雙線性內(nèi)插法,解決了像素對齊問題,并添加了mask層用于輸出二進(jìn)制掩碼來說明給定像素是否為對象的一部分。通過我們的實(shí)驗(yàn)master R-CNN確實(shí)產(chǎn)生了非常精妙的分割效果,但對于某些樣本的邊緣分割,還存在像素分配錯誤的情況,尤其是對照低照度下成像的樣本更明顯。
大多數(shù)現(xiàn)有的SR算法將不同縮放因子的超分辨率問題作為獨(dú)立的問題,需要各自進(jìn)行訓(xùn)練,來處理各種scale。VDSR[13]可以在單個網(wǎng)絡(luò)中同時處理多個scale的超分辨率,但需要雙三次插值圖像作為輸入,消耗更多計算時間和存儲空間。SRResNet[14]成功地解決了計算時間和內(nèi)存的問題,并且有很好的性能,但它只是采用ResNet原始架構(gòu)。ResNet目的是解決高級視覺問題。如果不對其修改直接應(yīng)用于超分辨率這類低級視覺問題,那么就達(dá)不到最佳效果。微軟的CNTK里提供了VDSR、DRNN、SRGA和SRResNet四種API,通過我們的實(shí)驗(yàn)確實(shí)能達(dá)到文獻(xiàn)中描述的效果。
EDSR[15]是NTIRE 2017超分辨率挑戰(zhàn)賽上獲得冠軍的方案。其架構(gòu)如圖8所示,去掉了ResNet中BN層,減少了計算和存儲消耗。相同的計算資源下,EDSR就可以堆疊更多層或者使每層提取更多的特征。EDSR在訓(xùn)練時先訓(xùn)練低倍數(shù)上的采樣模型,接著用得到的參數(shù)初始化高倍數(shù)上的采樣模型,減少了高倍數(shù)上采樣模型的訓(xùn)練時間,訓(xùn)練結(jié)果也更好。這個模型我們也試驗(yàn)過。與微軟API里的SRGAN和SRResNet模型相比確實(shí)有差別,但肉眼很難區(qū)別得特別清楚,也可能是我們選擇自己生活照為樣本的原因。
Prisma在手機(jī)里的應(yīng)用讓更多人了解圖像風(fēng)格轉(zhuǎn)換。文獻(xiàn)[16]第一個將神經(jīng)網(wǎng)絡(luò)用在風(fēng)格轉(zhuǎn)換上,基于神經(jīng)網(wǎng)絡(luò)的風(fēng)格轉(zhuǎn)換算法得到更多的發(fā)展。在文獻(xiàn)[17]中將風(fēng)格轉(zhuǎn)換應(yīng)用到了視頻上,畫面風(fēng)格轉(zhuǎn)換,還是很完美的。文獻(xiàn)[18]實(shí)現(xiàn)了基于像素級別的風(fēng)格轉(zhuǎn)換。
舊照片著色是很有趣的,文獻(xiàn)[19]利用CNN作為前饋通道,訓(xùn)練了100萬張彩色圖像。在“彩色化圖靈測試”評估中騙過32%的人類,高于以前的方法,正如文中所講任何著色問題都具有數(shù)據(jù)集偏差問題。不是所有照片都能呈現(xiàn)完美效果。文獻(xiàn)[20]利用低級和語義表示,訓(xùn)練模型預(yù)測每像素顏色直方圖。該中間輸出可用于自動生成顏色圖像,或在圖像形成之前進(jìn)一步處理。文獻(xiàn)[21]提出了一種新穎的技術(shù)來自動著色灰度圖像結(jié)合了全局先驗(yàn)和局部圖像特征,與基于CNN的大多數(shù)現(xiàn)有方法不同,該架構(gòu)可以處理任何分辨率的圖像。
文獻(xiàn)[21]的框架如圖9所示,由四個主要部分組成:一個低級特征網(wǎng)絡(luò),一個中級特征網(wǎng)絡(luò),一個全局特征網(wǎng)絡(luò)和一個著色網(wǎng)絡(luò)。這些組件都是緊密耦合的,并以端到端的方式進(jìn)行訓(xùn)練。模型的輸出是與亮度融合形成輸出圖像的色度。
圖8
圖9
文獻(xiàn)[22]利用人類行為的時空結(jié)構(gòu),即特定的移動和持續(xù)時間,使用CNN變體正確識別動作。為了克服CNN長期行為建模的缺陷,作者提出了一種具有長時間卷積(LTC-CNN)的神經(jīng)網(wǎng)絡(luò)來提高動作識別的準(zhǔn)確性。文獻(xiàn)[23]用于視頻動作識別的時空殘差網(wǎng)絡(luò)將雙流CNN的變體應(yīng)用于動作識別任務(wù),該任務(wù)結(jié)合了來自傳統(tǒng)CNN方法和ResNet的技術(shù)。文獻(xiàn)[24]是CVPR 2017的論文,也是MSCOCO關(guān)鍵點(diǎn)檢測冠軍。使用Bottom-Up的方法,先去看一張圖有哪些人體部位(Key Point),接著再想辦法把這些部位正確的按照每個人的位置連起來算Pose。如圖10所示,輸入一幅圖像,經(jīng)過卷積網(wǎng)絡(luò)(VGG19)提出特征,得到一組特征圖,然后分成兩個岔路分別使用CNN網(wǎng)絡(luò)提取Part Confidence Maps和Part Affinity Fields,得到這兩個信息后,使用圖論中的Bipartite Matching將同一個人的關(guān)節(jié)點(diǎn)連接起來,得到最終的結(jié)果。
圖10
卷積網(wǎng)絡(luò)結(jié)構(gòu)是基于深度學(xué)習(xí)的計算機(jī)視覺基礎(chǔ),從圖11中可以看出2012年AlexNet網(wǎng)絡(luò)取得歷史性突破以來得到很大發(fā)展。
圖11
我們都知道深層CNN存在梯度消失問題。ResNet通過“skip connection”。結(jié)構(gòu)一定程度上促進(jìn)了數(shù)據(jù)在層間的流通,但接近輸出的網(wǎng)絡(luò)層并沒有充分獲得網(wǎng)絡(luò)前面的特征圖。DenseNet[3]在前向傳播基礎(chǔ)上,網(wǎng)絡(luò)每一層都能接受它前面所有層的特征圖,并且數(shù)據(jù)聚合采用的是拼接,而非ResNet中的相加。網(wǎng)絡(luò)模型如圖12所示。
圖12
這種連接方式有一個很大的優(yōu)點(diǎn):前向傳播時深層網(wǎng)絡(luò)能獲得淺層的信息,而反向傳播時,淺層網(wǎng)絡(luò)能獲得深層的梯度信息。這樣最大限度促進(jìn)了數(shù)據(jù)在網(wǎng)絡(luò)間的流動。另外,這種結(jié)構(gòu)存在著大量的特征復(fù)用,因此只需要很少的參數(shù),就可以達(dá)到state-of-the-art的效果,主要是體現(xiàn)在特征圖的通道數(shù)上,相比VGG、ResNet的幾百個通道,DenseNet可能只需要12、24個左右。
[1]He km,Zhang XY,Ren SQ,Sun J.Deep Residual Learning for Image Recognition[C]. 2016 CVPR,2016:770-778.
[2]SZEGEDY C,Liu W,Jia YQ,SERMANET P,REED S,ANGUELOV D,ERHAN D,VANHOUCKE V,RABINOVICH A.Going Deeper with Convolutions[C]. 2015 CVPR,2015:1-9.
[3]Huang G,Liu Z,VAN DER MAATEN L,Kilian Q,WEINBERGER KQ. Densely Connected Convolutional Networks[C]. 2017 CVPR,2017:2261-2269
[4]Li H,li W,Yang O,Wang X. Multi-Bias Non-linear Activation in Deep Neural Networks[C]. arXiv: 1604.00676.
[5]Ren XQ,He km,GIRSHICK,ROSS. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal networks[C]. IEEE TRANSATIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,2017,39:1137-1149.
[6]Li Y,He K,Sun J,Dai J.R-FCN:Object Detection via Region-based Fully Convolutional Networks[C]. ADV NEURAL INFORM PR,2016:379-387.
[7]REDMON J,DIVVALA S,GIRSHICK R,F(xiàn)ARHADI A.You Only Look Once:Unified,Real-Time Object Detection[C]. 2016 CVPR,2016:779-788.
[8]REDMON J,F(xiàn)ARHADI A.YOLO9000:Better,F(xiàn)aster, Stronger[C]. 2017 CVPR,2017:6517-6525.
[9]HELD D,THRUN S,SAVARESE S. Learning to Track at 100 FPS with Deep Regression Networks[C]. COMPUTER VISION-ECCV 2016,2016,9905:749-765.
[10]Bertinetto L,Valmadre J,Henriques JF. Fully-Convolutional Siamese Networks for Object Tracking[C]. COMPUTER VISION-ECCV 2016,2016,9914:850-865.
[11]PINHEIRO PO,LIN TY,COLLOBERT R,DOLLAR P. Learning to Refine Object Segments[C]. COMPUTER VISION-ECCV 2016,2016,9905:75-91.
[12]HE km,GKIOXARI G,DOLLAR P.Mask R-CNN[C]. 2017 ICCV,2017:2980-2988.
[13]KIM J,LEE JK,LEE km.Accurate Image Super-Resolution Using Very Deep Convolutional Networks[C]. 2016 CVPR,2016:1646-1654.
[14]LEDIG C,THEIS L,HUSZAR F,CABALLERO J, CUNNINGHAM A,ACOSTA A,AITKEN A,TEJANI A,TOTZ J,Wang ZH,Shi WZ. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network[C]. 2017 CVPR,2017:105-114.
[15]LIM B,SON S,KIM H,NAH S,LEE K. Enhanced Deep Residual Networks for Single Image Super-Resolution[C]. 2017 CVPR,2017:1132-1140.
[16]GATYS L,ECKER A,BETHGE M.A Neural Algorithm of Artistic Style[M]. CoRR abs,2015.
[17]RUDER M,DOSOVITSKIY A,BROX T.Artistic style transfer for videos[C]. GCPR 2016,2016,9796: 26-36.
[18]Liao J,Yao Y,Yuan L,Hua G,Kang SB. Visual Attribute Transfer through Deep Image Analogy[C]. ACM TRANSACTIONS ON GRAPHICS,2017,36.
[19]Zhang R,LSOLA P,ALEXEI A,EFROS A A. Colorful Image Colorization[C]. ECCV 2016,2016,9907: 649-666.
[20]LARSSON G,MAIRE M,SHAKHNAROVICH G.Learn Representations for Automatic Colorization[C]. ECCV 2016,2016,9908:577-593.
[21]LIZUKA S,SIMO-SERRA E,ISHIKAWA H. Let there be Color!:Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification[C]. ACM Transactions on Graphics,2016,35(4).
[22]VAROL G,LAPTEV I,SCHMID C. Long-term Temporal Convolutions for Action Recognition[C]. IEEE TRANSACTION ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE:2018,40(6):1510-1517.
[23]FEICHTENHOFER C,PINZ A,RICHARD P,WILDES RP. Spatiotemporal Multiplier Networks for Video Action Recognition[C]. 2017 CVPR,2017:7445-7454.
[24]Cao Z,SIMON T,Wei S,SHEIKH Y. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields[C]. 2017 CVPR,2017:1302-1310.
A Survey of Computer Vision Research
Zhang Xiaoliang Liang Xingchi
32140 Troop of People’s Liberation Army of China, Hebei Shijiazhuang 050000
The paper reviews the principles and architecture of important algorithms such as classification and regression, target tracking, image segmentation, image super-resolution, style shifting, coloring, behavior recognition, pose estimation and key point monitoring in computer vision.
computer vision; neural network
TP391.4
A