基于深度強化學習的圖像修復算法設計

2019-07-29 01:12:33崔小洛欒曉飛

物聯(lián)網(wǎng)技術 2019年6期

崔小洛欒曉飛

摘要：日前，圖像修復技術已經(jīng)越來越成熟，出現(xiàn)了各種機器學習算法來填充圖片中缺失信息區(qū)域的紋理和結(jié)構(gòu)。文中將圖像修復過程轉(zhuǎn)化為一個離散的強化學習問題，并設計了一種基于深度強化學習的可以漸進填充缺失區(qū)域圖像的算法，通過圖像修復算法設計出一套修復策略，使得整個修復過程更貼近人類的工作效果。

關鍵詞：圖像修復;機器學習;深度強化學習;大數(shù)據(jù);自相似;關聯(lián)性

中圖分類號：TP39 文獻標識碼：A 文章編號：2095-1302（2019）06-00-03

0 引言

大數(shù)據(jù)時代，人們對圖像信息的需求越來越多，同時也越來越注重圖像信息的質(zhì)量。通常由于圖像數(shù)據(jù)采集設備或傳輸設備的不足，圖像數(shù)據(jù)往往伴隨著大量噪聲。由于圖像儲存設備技術存在瑕疵，導致圖像可能出現(xiàn)數(shù)據(jù)丟失等問題。去除圖像中存在的噪聲，還原圖像中缺失的部分被稱為圖像修復。目前，圖像修復技術被廣泛用于遙感、天文、軍事以及民用領域[1]，作用不可忽視。隨著圖像數(shù)據(jù)的海量增長，如何使用快速穩(wěn)定的算法進行圖像修復已成為業(yè)界研究的重點。

通常我們把圖像修復目標定義為在已有圖像上覆蓋一部分區(qū)域Ω，在該部分區(qū)域中的每一個像素點輸入像素值，由此凸顯了恢復和修改圖像或視頻工作的重要性。但這也是使用圖像修復來理解不同圖像模型有效性的結(jié)果。從圖像模型結(jié)構(gòu)入手，現(xiàn)有的圖像修復技術可以分為如下3大類[2]：

（1）當圖像中有大量重復片段時就可以使用自相似理論。假設給定一個像素的空間鄰域亮度值的概率分布獨立于圖像其余部分，則該紋理被建模，之后利用近鄰劃窗，當檢測到符合之前紋理特征的Ω時，便進行機械化填充，填充的像素點值會受填充起止數(shù)值的影響。

（2）在填充區(qū)域Ω時，考慮圖像色區(qū)空間的相似性，在保證填充區(qū)域與圖像全局空間分布基本一致的前提下進行圖像修復，通過使用紋理合成技術以提高色塊填充的精確程度。

（3）第三種則是基于微分方程（PDE）來觀察圖像紋理的擴散規(guī)律，建模與空間信息相關的變分模型指導圖像修復工作。這類算法在處理分段圖像和較小Ω時，效果顯著。

但此類算法都基于人工尋找相應的特征來挑選填充色素。近年來，隨著深度學習技術的興起，通過監(jiān)督訓練神經(jīng)網(wǎng)絡來減小算法生成圖像與原圖像之間的差異，以替代人工特征選擇，效果明顯[3-4]。圖像的重復信息、空間信息、紋理特征都可以在黑箱中被更好地囊括，甚至可以通過發(fā)掘深度學習算法得到更好的深層特征來指導圖像修復工作。生成對抗網(wǎng)絡[5]等先進的深度學習算法都在圖像修復的問題上取得了極好的成果。然而這類算法的生成圖像規(guī)律通過訓練求得，無法學習到一個完整的圖像修復過程，只是單純的端到端學習。

本文基于覆蓋區(qū)域Ω與圖像其他完整部分紋理之間存在的關聯(lián)性圖像修復理論基礎，考慮構(gòu)建一種基于深度強化學習的漸進過程的圖像修補方法，通過迭代運算方法，讓圖像修補過程成為一個策略學習過程，智能體可以在每一步修補過程中進行新的修補路徑規(guī)劃。

1 相關算法

1.1 強化學習

強化學習是機器學習中的一個重要分支，強化學習智能體的訓練基于其自身在環(huán)境中的探索，而非人為提供的訓練樣本[6]。環(huán)境返回的回報信息使得智能體可以不斷優(yōu)化策略，強化學習算法的目標就是最大化折扣回報，即：

式中0≤γ≤1為折扣因子。當智能體處于狀態(tài)St時，根據(jù)策略π來選擇一個動作at，Q學習算法是強化學習算法的一種，智能體根據(jù)環(huán)境中的狀態(tài)St+1，返還一個回報值rt?？梢詫學習算法表達為：

式中α為算法的學習率。此算法在強化學習的過程中，被證明可以收斂得到最優(yōu)的值函數(shù)。

1.2 深度強化學習DQN更新公式：

2015年Deep mind將Double-Q算法引入深度強化學習的策略迭代過程：

2016年Deep mind提出了DDPG。不同于之前的Double-DQN，DDPG將動作選擇從值函數(shù)網(wǎng)絡的學習任務中脫離出來，利用ac框架，將動作選擇算法由貪心算法轉(zhuǎn)換為輸入為值函數(shù)的期望和，輸出為動作值，損失函數(shù)為最大化動作回報的神經(jīng)網(wǎng)絡。actor網(wǎng)絡更新梯度為：

Critic網(wǎng)絡更新梯度為：

在更新兩網(wǎng)絡參數(shù)時，使用以τ為參數(shù)的迭代式：

Double-DQN概率引入前第n步的值函數(shù)來求取最大值，減小了由最大值函數(shù)引起的算法系統(tǒng)誤差。DDPG的網(wǎng)絡更新則是對多個之前的網(wǎng)絡進行加權(quán)，以保證計算網(wǎng)絡更新梯度中所用的值函數(shù)為之前所有值函數(shù)的數(shù)學期望，削弱負向的更新向量對網(wǎng)絡更新的影響。

1.3 圖像差異

為了衡量兩個圖像之間的差異，文中使用kl散度作為衡量兩個圖像之間相似度的方法。定義kl距離為：

2 算法思路

算法思路：將圖像修復工作轉(zhuǎn)化為一個強化學習任務，且賦予其相應的數(shù)據(jù)處理能力。

學習目標：智能體處理圖像，改變圖像像素點的顏色，使得最終生成的圖像與目標圖像之間的差異逐漸變小。

當且僅當上述不等式取等且均等于0時，則認為完成了學習任務。由此，我們可以定義強化學習回報公式：

當且僅當兩者相等時有最大的回報。由于智能體將一直在環(huán)境中進行修改圖像的探索，所以二者之間總有差值，最后會在最優(yōu)解上下波動，得到最優(yōu)策略。動作值見表1所列。

為簡化強化學習任務，我們選擇按照圖像坐標遞增的原則，選定用于填充的像素點。選擇VGG16提取圖像特征，經(jīng)典的VGG16即16層卷積神經(jīng)網(wǎng)絡模型及設計流程如圖1所示。

圖像提取出的VGG特征將作為強化學習算法的狀態(tài)輸入，以進一步簡化圖像，使智能體更好地分辨狀態(tài)的變化。

經(jīng)智能體策略生成的新像素點值會改變圖像狀態(tài)，將前后狀態(tài)、回報和相應的像素點變化動作存入經(jīng)驗緩存區(qū)，歷經(jīng)大量探索后讓智能體進行訓練，完善AC網(wǎng)絡參數(shù)，形成相應策略后再進行新一輪探索，即離線訓練。整個過程計算量較大，建議進行異步探索，以減少算法對硬件的壓力和訓練時間。

3 結(jié) 語

本文提出了一種全新的基于強化學習的圖像修復算法思路，通過定義相應的強化學習環(huán)境，使智能體按照一定順序遍歷缺失圖片區(qū)域時可自行補齊相應的像素點，修補圖片。與以往算法不同的是，將圖像修復過程離散化的修補策略使得算法可以實時跟蹤圖像相應的狀態(tài)變化，并根據(jù)這些變化實時更新圖像補齊策略，解決了傳統(tǒng)修復算法存在的一步更新，無法實時跟蹤圖像修復的問題。通過增強圖像修復算法的智能性，將整個圖像的修復過程精確到像素級。

參考文獻

[1] BERTALMIO，MARCELO，SAPIRO，et al.Image inpainting[J].Siggraph，2005，4（9）：417-424.

[2] BUGEAU A， BERTALM?O M， CASELLES V， et al.A comprehensive framework for image inpainting[J].IEEE transactions on image processing，2010，19（10）：2634-2645.

[3] ZHU X， QIAN Y， ZHAO X， et al.A deep learning approach to patch-based image inpainting forensics[J].Signal processing image communication，2018，67（9）：90-99.

[4] HSU C， CHEN F， WANG G.High-Resolution Image Inpainting through Multiple Deep Networks[C]// International Conference on Vision， Image and Signal Processing.IEEE，2017：76-81.

[5] WANG W，HUANG Q， YOU S，et al.Shape Inpainting Using 3D Generative Adversarial Network and Recurrent Convolutional Networks[C] //IEEE International Conference on Computer Vision.IEEE，2017：2317-2325.

[6] SUTTON R S，BARTO A G.Reinforcement learning：an introduction[J].Machine learning，1992，8（3-4）：225-227.

[7]支周，屈肅.一種基于遷移極速學習機的人體行為識別模型[J].物聯(lián)網(wǎng)技術，2015，5（9）：18-20.

[8]鄧志龍，張琦瑋，曹皓，等.一種基于深度強化學習的調(diào)度優(yōu)化方法[J].西北工業(yè)大學學報，2017，35（6）：147-153.

[9]宋海聲，劉岸果，呂耕耕.基于深度學習的空間變換情景感知模型研究[J].物聯(lián)網(wǎng)技術，2017，7（3）：22-24.

[10]姚君延.基于深度增強學習的路徑規(guī)劃算法研究[D].成都：電子科技大學，2018.