基于長短時記憶單元和卷積神經網絡混合神經網絡模型的視頻著色方法

2019-10-31 09:21:33張政何山賀靖淇

計算機應用 2019年9期

張政何山賀靖淇

摘要：視頻可以看作是連續(xù)的視頻幀圖像組成的序列，視頻彩色化的實質是對圖像進行彩色化處理，但由于視頻的長期序列性，若直接將現有的圖像著色方法應用到視頻彩色化上極易產生抖動或閃爍現象。針對這個問題，提出一種結合長短時記憶（LSTM）和卷積神經網絡（CNN）的混合神經網絡模型用于視頻的著色。該方法用CNN提取視頻幀的語義特征，同時使用LSTM單元學習灰度視頻的時序信息，保證視頻的時空一致性，然后融合局部語義特征和時序特征，生成最終的彩色視頻幀序列。通過對實驗結果的定量分析和用戶研究表明，該方法在視頻彩色化上實現了較好的效果。

關鍵詞：視頻彩色化;長短時記憶;卷積神經網絡;時空一致性

中圖分類號：TP391.4

文獻標志碼：A

Video colorization method based on hybrid neural network model of long short term memory and convolutional neural network

ZHANG Zheng*， HE Shan， HE Jingqi

School of Computer Science， Southwest Petroleum University， Chengdu Sichuan 610500， China

Abstract：

A video can be seen as a sequence formed by continuous video frames of images， and the colorization process of video actually is the colorization of images. If the existing image colorization method is directly applied to video colorization， it tends to cause flutter or twinkle because of long-term sequentiality of videos. For this problem， a method based on Long Short Term Memory （LSTM） cells and Convolutional Neural Network （CNN） was proposed to colorize the grayscale video. In the method， the semantic features of video frames were extracted with CNN and the time sequence information of video was learned by LSTM cells to keep the time-space consistency of video， then local semantic features and time sequence features were fused to generate the final colorized video frames. The quantitative assessment and user study of the experimental results show that this method achieves good performance in video colorization.

Key words：

video colorization; Long Short Term Memory （LSTM）; Convolutional Neural Network （CNN）; time-space consistency

0 引言

圖像的彩色化是根據灰度圖像將矢量RGB（Red Green Blue）分配給圖像的每個像素，該技術在歷史相片處理、視頻處理、藝術品修復等方面有著廣泛的應用前景。目前，著色算法主要分為三種類型：基于用戶涂鴉的方法、基于參考圖的方法和基于深度學習的方法。

由于傳統方法需要用戶的干預，增加了實現的復雜度。隨著卷積神經網絡（Convolutional Neural Network， CNN）在物體識別和檢測任務上取得的巨大成功，它對圖像深層語義特征的表達能力引起了研究人員的廣泛關注，為彩色化提供了巨大的幫助。因為圖像的語義特征可以提供與顏色相關的附加信息，所以近幾年提出的著色算法[1]都使用卷積神經網絡來提取灰色圖像的語義特征，并參考圖像的語義特征進行著色。如Despande等[2]提出一種針對大規(guī)模圖像的自動著色算法;Iizuka等[3]提出利用卷積神經網絡獲取圖像的全局特征和局部特征，對于戶外景觀照片取得了許多令人滿意的結果;Cheng等[4]提出一種通過卷積神經網絡提取圖像深層特征進行自動著色的算法，并結合雙邊濾波來改善著色結果;Larsson等[5]提出利用深度網絡提取圖像的底層細節(jié)特征和高層語義特征，實現圖像自動著色，生成的彩色圖像能夠讓大多數人感到真實;Zhang等[6]利用VGG（Visual Geometry Group）卷積神經網絡模型，對灰度圖像提取特征，并通過預測每個像素的顏色分布直方圖來為灰度圖像著色。

然而，在Iizuka等[3]的著色算法中，該方法采用兩路神經網絡模型來得到圖片的顏色信息和對象類別，并結合兩個損失函數來進行訓練。由于網絡模型中包含大量訓練參數，所以訓練時間相當長;另外盡管作者已經使用了共享權值的技巧來降低復雜度，雙路卷積網絡仍然面臨權值平衡問題;并且目標函數只是簡單的線性結合，如果將該方法直接擴展到視頻的著色，容易產生抖動和閃爍現象。本文針對這些問題，提出了結合長短時記憶（Long Short Term Memory， LSTM）單元[7]和卷積神經網絡（Convolutional Neural Network， CNN）的混合神經網絡模型用于視頻的彩色化，并結合視頻的時序信息來指導著色，使得模型的訓練時間減少并且模型準確度相對提高。

1 網絡模型

本文方法采用的視頻著色網絡模型如圖1所示。首先，使用經典卷積神經網絡模型VGG-19[8]作為編碼器來提取視頻幀的局部語義特征和全局特征。然后，將在編碼器中提取到的特征圖進行規(guī)模調整，再輸入循環(huán)神經網絡中。本文采用LSTM結構作為循環(huán)神經網絡的記憶單元來學習視頻序列的時序信息，同時進一步細化提取到的特征。最后，將LSTM的結果輸入到視頻的著色網絡中進行基于反卷積的解碼過程[9]，通過解碼操作合成為所需要的彩色視頻序列{Ct|t=1，2，…，n}。整個網絡的訓練過程將VGG-19網絡提取特征圖的過程看作一個黑箱操作，學習時序特征的LSTM結構的輸入數據是VGG-19輸出的高維抽象特征數據。通過訓練這些特征數據，就能得到本文的著色模型。

1.1 基于卷積的視頻幀語義特征編碼器

基于卷積神經網絡實現對視頻幀語義特征的提取，也叫作編碼操作，本文采用的是基于預訓練的VGG-19模型來實現對視頻序列的編碼。

在本文中的視頻著色模型中，首先通過VGG-19對輸入的視頻序列進行編碼，提取視頻幀圖像的局部語義特征。該模型將灰度視頻序列作為輸入，由一系列卷積操作對灰度視頻幀進行編碼，并輸出對應的特征表示f=（f1， f2，…， ft），對灰度視頻幀的操作可以抽象為如下的編碼過程：

fi=encoder（[xi，Ci]）; i∈{1，2，…，t}（1）

然后將經過編碼操作得到的特征表示f=（f1， f2，…， ft）送入LSTM結構中，用于學習視頻序列的時序特征。

1.2 基于LSTM的時序特征融合器

本文方法采用將LSTM結構作為記憶單元的雙向循環(huán)神經網絡來提取視頻的時序特征，學習時序特征的主要目的是提取連續(xù)視頻幀之間的時序信息，并且保證特征表示的時序一致性。同時將時序特征和由基于VGG-19的編碼器得到的局部語義特征進行融合[10]，進一步細化時序特征。

圖2展示了本文基于VGG-19預訓練模型的語義特征提取過程，VGG-19使用了級聯結構，網絡模型的卷積層之間將多個3×3的卷積核和1×1的卷積核相結合，網絡級聯使得上層提取的所有彩色圖像特征融合在一起，傳遞到下一層進一步提取高維特征。VGG-19對本文使用的數據集具有很好的泛化能力，能夠提取到視頻幀圖像的深度特征。這里灰度視頻的第一幀是作為單獨的圖像進行著色的，其后的視頻幀則需要共享前面視頻幀著色過程中的時序信息和著色網絡中的參數，來實現保持視頻的時空一致性。

LSTM是門限循環(huán)神經網絡（Recurrent Neural Network， RNN）中最著名的一種[11]，門限RNN允許在不同時刻改變連接間的權重系數，且允許網絡忘記當前已經累積的信息。LSTM結構的關鍵在于引入了一個判斷信息是否有用的處理單元，這個處理單元稱為“cell”，單個cell的結構如圖3所示。

LSTM實現添加或者刪除信息是通過一種叫作門的結構來實現的，通過增加門限使得自循環(huán)的權重是變化的，這樣一來在模型參數固定的情況下，不同時刻的積分尺度可以動態(tài)改變，從而避免了梯度消失或者梯度膨脹的問題。本文采用的視頻著色模型的工作原理可以簡化為如圖4所示，使用雙向循環(huán)神經網絡學習視頻的時序信息，其中的記憶單元采用了LSTM神經單元，其結構在圖3中進行了詳細的描述，采用LSTM結構的原因是LSTM神經元中的門限結構可以更好地學習連續(xù)視頻的長期一致性。

LSTM的遺忘門決定了上一時刻的“cell”單元狀態(tài)Pt-1有多少保留到當前時刻Pt。本文方法中，遺忘門會讀取上一視頻幀的隱含層特征ht-1和xt，然后由Sigmoid層處理輸出一個在0到1之間的數，其中0表示全部舍棄，1表示全部保留。在視頻著色過程中，對于從VGG-19中獲取的視頻幀局部特征和語義特征，如果相鄰視頻幀中出現了相同的特征，那么這個特征將被保留，并且在著色后該特征在相鄰視頻幀中會得到相同的色度值;否則該特征將在遺忘門被舍棄。遺忘門的表達式如下：

ft=Sigmoid（Wf·[ht-1，xt]+bf）（2）

其中：ht-1是上一視頻幀cell的輸出，xt是當前cell的輸入，Wf和bf是網絡訓練得到的遺忘門的權重和偏置。

LSTM的輸入門決定讓多少新的信息加入到cell狀態(tài)中來。實現這個操作需要兩個步驟：首先，Sigmoid層決定哪些信息需要更新，也就是需要提取的新的特征;其次，tanh層生成一個向量，也就是備選的用來更新的內容。然后通過結合這兩部分信息，更新cell的狀態(tài)。本文視頻著色方法過程中，相鄰視頻幀之間新的特征便是通過輸入門輸入，并在cell狀態(tài)中被記錄更新。輸入門的操作如下：

it=Sigmoid（Wi·[ht-1，xt]+bi）（3）

t=tanh（WC·[ht-1，xt]+bC）（4）

其中：it表示輸入的需要更新的信息，t是用來更新的備選內容，Ct是更新之后的cell狀態(tài)，Wi，WC，bi，bC分別是輸入門中的權重和偏置。當前狀態(tài)Ct是由上一次單元狀態(tài)Ct-1與ft相乘，舍棄需要舍棄的特征信息，再加上新的候選值itt，如下式：

Ct=ftCt-1+itt（5）

這樣就把LSTM關于當前的記憶t和長期的記憶Ct-1組合到了一起，形成了新的cell狀態(tài)。由于遺忘門的控制，它可以保存很久之前的信息，同時由于輸入門的控制，它又可以避免當前無關緊要的內容進入記憶。

最后，LSTM的輸出門確定要輸出哪些信息。首先運行一個Sigmoid層來確定細胞狀態(tài)的哪個部分將輸出;其次，把細胞狀態(tài)通過tanh進行處理，得到一個在-1～1之間的值，并將它和輸入門的輸出相乘。最終僅會輸出LSTM在輸出門中確定輸出的那部分特征信息，輸出門的過程如下：

ot=Sigmoid（Wo·[ht-1，xt]+bo）（6）

ht=ottanh（Ct）（7）

特征提取時，在前向傳播階段，網絡對于輸入的視頻幀序列從時間節(jié)點1到時間節(jié)點t，正向計算一遍，并保存每個時間節(jié)點向前隱藏層的輸出。正向計算完成后，再由時間節(jié)點t到時間節(jié)點1反向計算一遍，同時保存每個時間節(jié)點的向后隱藏層的輸出。當正向傳播階段和反向傳播階段都完成計算之后，融合各時間節(jié)點向前和向后隱藏層的輸出作為最后的輸出。反向傳播過程中，模型通過基于時間的反向傳播（Back Propagation Through Time， BPTT）算法更新所有輸出層的信息。另外，所有傳播過程中隱藏層參數的更新都是通過LSTM門限結構進行控制，用hLi和hRi分別表示前向傳播階段向前和向后的隱藏層，基于LSTM的特征融合過程如下：

hLi=hLi+1+g（WLf·fi+WLh·hLi+1+bL）（8）

hRi=hRi-1+g（WRf·fi+WRh·hRi-1+bR）（9）

式中：hLi和hRi分別是前向和后向的隱藏層狀態(tài)，g（·）是用于跟記憶單元傳輸信息的函數，這里指LSTM（），h（·）表示激活函數，本文使用的是tanh（）。為了提取視頻的時序特征并保持時空一致性，采用了結合LSTM結構的雙向循環(huán)神經網絡，用e=（e1，e2，…，et）來表示融合之后的特征，并作為融合后的結果輸出。

ei=h（W[hLi;hRi]+b），i∈{1，2，…，t}（10）

通過將融合之后的視頻幀序列e=（e1，e2，…，et）輸入基于反卷積的解碼器中進行著色操作，得到最后的彩色視頻幀序列。

1.3 基于反卷積的視頻著色解碼器

在視頻時序特征融合階段，已經得到了融合之后的優(yōu)化特征序列e=（e1，e2，…，et），而我們的最終目標是要通過基于反卷積的解碼器[12]來生成彩色視頻序列C=（C1，C2，…，Ct）。前面已經提到，視頻的處理需要考慮保持連續(xù)視頻序列之間的時空一致性以及連續(xù)性，在解碼器階段，其輸入是優(yōu)化之后的融合特征表示e=（e1，e2，…，et），這便很好地保證了視頻的時空一致性，將該特征序列送入解碼器中基于下式進行解碼即可得到彩色化的視頻幀序列。

Ci=decoder（ei）; i∈{1，2，…，t}（11）

本文參考Shelhamer等[12]的思想，采用的方法是將反卷積層作為解碼器，反卷積和卷積互為逆過程，也叫卷積轉置，利用反卷積可以實現特征序列的可視化。本文選用反卷積操作是因為反卷積跟卷積操作類似，反卷積常被用于對CNN的輸出進行上采樣回到原始圖像分辨率，這樣能夠更好地保留圖像的原始結構，另外反卷積操作在圖像分類、圖像分割、圖像生成、邊緣檢測等領域有廣泛應用。

在解碼器過程中，通過一系列反卷積操作來實現將融合的后時序特征e=（e1，e2，…，et）進行解碼。在基于反卷積的解碼器中，本文使用6個反卷積層作為解碼器，設置卷積核大小為3×3，并在第4個池化層后插入了一個1×1的卷積層以獲得額外的輸出，這將被添加到第二個反卷積層的輸出。最終視頻幀序列經過解碼后轉換成彩色的視頻幀序列輸出。

本文方法選擇交叉熵損失函數作為網絡的訓練目標函數，采用交叉熵的原因是交叉熵作為損失函數時在使用Sigmoid函數在梯度下降時其學習速率可以被輸出的誤差所控制，而且收斂速度更快，能夠有效地避免均方誤差損失函數學習速率降低的問題，也更不容易陷入局部最優(yōu)解。

Lt=-lg p（∑Ni=0exp（C））（12）

其中：C表示的是網絡模型數據的實際輸出值;p表示概率，它與訓練集上的負對數相同。

本文采用的是基于預訓練的VGG-19模型用于提取局部語義特征，訓練數據采用的是DAVIS數據集[13]中的視頻序列作為訓練集，數據集中包含50段10s左右的視頻序列，色彩豐富，類別多樣，常用于視頻的處理;訓練過程中設置學習速率為0.0001，批處理數據量大小設置為10，同樣本文選取ReLU作為激活函數，優(yōu)化方法采用隨機梯度下降法，目標函數采用交叉熵損失函數，LSTM節(jié)點設置為64個。

2 實驗結果與對比分析

2.1 視頻幀圖像著色結果

實驗表明，用本文模型對單幀圖像的著色時間達到了秒級，對驗證集里的單幀視頻幀圖像的著色時間約為3s，而Iizuka等[3]以及Raj等[8]的方法，單幀圖像的處理時間均在5s以上，說明本文方法在效率上已經有較大提升。圖5展示了從數據集中隨機選取的3段視頻的第5、15、25、35、45幀視頻圖像及其彩色化過后的視頻圖像，圖中第1、3、5行是灰度視頻幀，第2、4、6行是彩色化后的視頻幀。

關于視頻幀的對比度保留，從圖5可以看到，奶牛和草原的背景色彩存在明顯的對比度，著色后的視頻幀也能夠很好地區(qū)分;同樣，灰熊和石頭的顏色對比度也被很好地保持;第6行行人和背景以及長椅的色彩對比度也被較好地保持?？梢钥闯?，本文方法得到的視頻圖像很好地保持了視頻序列的對比度。所以本文基于VGG-19的編碼器能夠很好地提取圖片幀的深層特征，并用于指導視頻幀著色。綜上，本文結合LSTM和CNN的混合神經網絡模型能夠很好地實現對視頻序列的彩色化，驗證了方法的有效性。

2.2 視頻幀圖像著色對比

除了展示本文方法對視頻幀的彩色化效果，還跟Iizuka等[3]、Cheng等[4]以及Larsson等[5]的經典著色算法對視頻幀圖像進行著色的結果進行對比。選取了5段視頻中的第20幀圖像進行著色，對比實驗結果如圖6所示，圖中從左至右依次為灰度視頻幀、Iizuka等[3]、Cheng等[4]、Larsson等[5]、本文結果以及原始彩色視頻幀圖像。可以看到本文方法得到的單幀視頻幀圖像的彩色化結果對包含不同場景的多個實體都有很好的圖像著色效果，生成的彩色視頻幀看起來更真實、更自然。

2.3 視頻序列時空一致性保持

除了對單獨的視頻幀進行著色展示以外，還對彩色化后的視頻序列的視頻時空一致性進行了評估。視頻的時空一致性含義主要考慮視頻序列在相鄰視頻幀的相同局部特征在彩色化后的色度值是否相同。如果在整個視頻序列中，相同局部特征的色度值越相似，表明時空一致性保持越好，保持時空一致性能有效避免視頻出現閃爍或卡頓等現象。

追蹤了一段視頻的4幅視頻幀圖像，同Gupta等[14]的方法進行對比，并將著色圖像的局部放大以觀察其效果，圖7展示了本文方法和Gupta等[14]的方法對視頻圖像的著色效果，圖中第1行為灰度視頻幀，第2、4行分別為本文方法和Gupta等[14]方法的結果，第3、5行分別是放大后結果。矩形方框內是放大的局部，可以更好地看到本文方法得到的汽車顏色更準確，并且顏色飽和度優(yōu)于Gupta等[14]的結果。

使用歸一化色差（Normalized Color Difference， NCD）[15]來評估視頻序列的連續(xù)性和時空一致性， NCD的值越小，說明連續(xù)視頻幀之間的歸一化色差越小，即彩色視頻序列的顏色值越平滑，從而更好地保持視頻序列的連續(xù)性和時空一致性。NCD的定義如下：

NCD=∑Hh=1∑Ww=1∑Qq=1[Zq（h，w）-Z′q（h，w）]2∑Hh=1∑Ww=1∑Qq=1[Zq（h，w）]2（13）

其中：Q代表顏色通道，H和W代表圖像大小，Z和Z′分別代表相鄰的視頻幀圖像，q1、q2、q3分別代表L、a、b三個顏色通道。

選取了兩段視頻中的連續(xù)五幀圖像并分別計算它們之間的NCD值然后求出其平均值，將本文方法的結果和Iizuka等[3]、Zhang 等[6]以及Gupta等[14]的方法得到的結果進行對比，結果記錄于表1中。

從實驗結果可以看到，相對于Iizuka等[3] 和Zhang等[6]以及Gupta等[14]的結果，本文方法得到的NCD值較小，表明連續(xù)視頻幀圖像之間的歸一化色差越小，也說明了本文方法較好地保持了視頻的連續(xù)性和時空一致性。

2.4 實驗結果評估

為了驗證本文方法的有效性，本文選取了定量評估指標峰值信噪比PSNR、均方根誤差RMSE以及結構相似性SSIM對視頻幀圖像的彩色化效果進行評估，定量評估的目標主要是對本文方法得到的彩色視頻序列和原始彩色視頻序列進行比較，主要考慮本文方法是否引入更多噪聲以及兩幅圖像的誤差大小。隨機選取了一段視頻中的第10、20、30、40幀圖像進行評估，表2是評估結果。

從表2中可以看出，本文方法對視頻幀的著色后定量評價指標PSNR和RMSE以及SSIM在一定程度上都優(yōu)于現有方法，驗證了本文方法的可行性。

2.5 用戶研究

為更進一步測試本文方法的結果，本文進行了一組用戶研究來評估視頻彩色化效果，這里用戶研究主要是視頻的彩色化質量測試。邀請了50名年齡在20～30歲的用戶參與用戶研究，主要考慮視頻幀圖像的顏色飽和度、自然度，以及視頻序列的時空一致性和人眼視覺感官的效果。用戶研究評分指標如表3所示。

讓用戶觀看5組視頻序列的彩色化效果然后統計出結果如表4所示，結果表明本文方法得到的彩色視頻序列無論是在顏色自然度還是飽和度上都優(yōu)于Gupta等[14]提出的方法。

從用戶研究結果可以看出，本文方法得到的彩色視頻幀和視頻序列的效果優(yōu)于現有方法，在色彩自然度和飽和度方面都展現了更好的效果，充分驗證了本文方法的有效性。

3 方法推廣—動畫片段彩色化

為了對比實驗效果，將本文方法應用到動畫類片段的彩色化上，并取得了較好的效果。圖8是對動畫題材片段《熊出沒》（版權歸屬：華強方特（深圳）動漫有限公司）的彩色化效果，截取了某一段視頻的8幅視頻幀，并用本文方法對其進行彩色化，可以看到整體彩色化效果較好地保留了顏色信息，并且實體和背景之間的區(qū)分度被很好地展現出來。

4 結語

本文將圖像著色方法擴展到視頻的彩色化上來，并針對現有方法存在的問題，提出了一種結合CNN和LSTM混合神經網絡模型的方法對視頻序列進行彩色化處理，在保持視頻序列幀著色飽和度和著色自然度的前提下，同時采用LSTM結構用作雙向循環(huán)神經網絡的記憶單元，以保證視頻序列的長期一致性。實驗結果表明，本文方法無論是在單幀視頻幀著色還是在視頻序列的著色上都優(yōu)于現有方法，達到了先進的性能。

參考文獻

[1]CHENG Z， YANG Q， SHENG B . Colorization using neural network ensemble [J]. IEEE Transactions on Image Processing， 2017， 26（11）： 5491-5505.

[2]DESHPANDE A， ROCK J， FORSYTH D. Learning large-scale automatic image colorization [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington， DC： IEEE Computer Society， 2015： 567-575.

[3]IIZUKA S， SIMO-SERRA E， ISHIKAWA H. Let there be color?。?joint end-to-end learning of global and local image priors for automatic image colorization with simultaneous classification [J]. ACM Transactions on Graphics， 2016， 35（4）： Article No. 110.

[4]CHENG Z， YANG Q， SHENG B. Deep colorization [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington， DC： IEEE Computer Society， 2015： 415-423.

[5]LARSSON G， MAIRE M， SHAKHNAROVICH G. Learning representations for automatic colorization [C]// Proceedings of the 2016 European Conference on Computer Vision， LNCS 9908. Berlin： Springer， 2016： 577-593.

[6]ZHANG R， ISOLA P， EFROS A A. Colorful image colorization [C]// Proceedings of the 2016 European Conference on Computer Vision， LNCS 9907. Berlin： Springer， 2016： 649-666.

[7]HOCHREITER S， SCHMIDHUBER J. LSTM can solve hard long time lag problems [C]// Proceedings of the 9th International Conference on Neural Information Processing Systems. Cambridge， MA： MIT Press， 1996： 473-479.

[8]SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [C]// Proceedings of the 2014 International Conference of Learning Representation. Las Vegas， 2014： 1–14.

SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2019-01-03]. https：//arxiv.org/pdf/1409.1556.pdf.

[9]KARPATHY A， TODERICI G， SHETTY S， et al. Large-scale video classification with convolutional neural networks [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2014： 1725-1732.

[10]ULLAH A， AHMAD J， MUHAMMAD K， et al. Action recognition in video sequences using deep bi-directional LSTM with CNN features [J]. IEEE Access， 2018， 6： 1155-1166.

[11]SUTSKEVER I， VINYALS O， LE Q V. Sequence to sequence learning with neural networks [EB/OL]. [2019-01-20]. https：//arxiv.org/pdf/1409.3215.pdf.

HOCHREITER S， SCHMIDHUBER J. LSTM can solve hard long time lag problems [C]// Proceedings of the 9th International Conference on Neural Information Processing Systems. Cambridge， MA： MIT Press， 1996： 473-479.

[12]SHELHAMER E， LONG J， DARRELL T. Fully convolutional networks for semantic segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39（4）： 640-651.

[13]PERAZZI F， PONT-TUSET J， McWILLIAMS B， et al. A benchmark dataset and evaluation methodology for video object segmentation [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2016： 724-732.

[14]GUPTA R K， CHIA Y S， RAJAN D， et al. A learning-based approach for automatic image and video colorization [J]. Computer Graphics International， 2017， 23（3）： 369-378.

GUPTA R K， CHIA A Y-S， RAJAN D， et al. A learning-based approach for automatic image and video colorization [EB/OL]. [2019-01-20]. https：//arxiv.org/pdf/1704.04610.pdf.

[15]RUSSO F. Performance evaluation of noise reduction filters for color images through Normalized Color Difference （NCD） decomposition [J]. ISRN Machine Vision， 2014， 2014： Article No. 579658.

ZHANG Zheng， born in 1994， M. S. candidate. His research interests include deep learning， image processing.

HE Shan， born in 1972， M. S.， associate professor. His research interests include data mining， machine learning.

HE Jingqi， born in 1993， M. S. candidate. His research interests include embedded system.