陳順成 梁志軍 申啟訪(fǎng)
摘 ?要:圖像素描化在激光雕刻領(lǐng)域中發(fā)揮著極其重要的作用,傳統(tǒng)的圖像素描處理方法是不同的圖像采用同一種算法進(jìn)行處理,存在適用率不高和部分參數(shù)不通用問(wèn)題。文章提出一種基于機(jī)器學(xué)習(xí)的素描圖像處理技術(shù),通過(guò)搭建素描圖像處理神經(jīng)網(wǎng)絡(luò)系統(tǒng),使用構(gòu)建的素描圖片數(shù)據(jù)庫(kù)對(duì)模型進(jìn)行多次迭代訓(xùn)練,最后達(dá)到預(yù)期素描處理效果,提高了圖片素描化處理的普適性。
關(guān)鍵詞:圖像素描化;圖像處理;機(jī)器學(xué)習(xí);神經(jīng)網(wǎng)絡(luò)
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2019)22-0152-02
Abstract: Image sketching plays an extremely important role in the field of laser engraving. The traditional image sketch processing method is that different images are processed by the same algorithm, which has the problems of low application rate and incompatibility ofsome parameters. In this paper, an image sketch processing technology based on machine learning is proposed. By building a sketch image processing neural network system, the sketch image database is used to give the model the iterativetraining for many times, and finally the expected sketch processing effect is achieved. The universality of image sketch processing is improved.
Keywords: image sketching; image processing; machine learning; neural network
1 概述
近年來(lái),隨著相關(guān)激光技術(shù)理論研究的深化以及激光器件的不斷發(fā)展,使其應(yīng)用領(lǐng)域也不斷得到拓寬[1],工藝品制作領(lǐng)域就是其中之一,如應(yīng)用激光內(nèi)雕技術(shù)生產(chǎn)的水晶產(chǎn)品,使用激光打標(biāo)機(jī)來(lái)進(jìn)行名片的個(gè)性化制作[2]。激光加工技術(shù)與數(shù)控技術(shù)相結(jié)合,從而能加工更復(fù)雜的形狀,使很多用常規(guī)方法不能解決的加工難題得以解決[3]。圖像激光雕刻應(yīng)用越來(lái)越廣泛,對(duì)圖像素描化的要求越來(lái)越高。
經(jīng)過(guò)幾十年的發(fā)展,機(jī)器學(xué)習(xí)衍生出很多理論模型,應(yīng)用于自然語(yǔ)言處理、圖像識(shí)別處理以及語(yǔ)音識(shí)別分析等各類(lèi)問(wèn)題。機(jī)器視覺(jué)作為人工智能的一個(gè)主要構(gòu)成部分,前人在圖片處理方面做了很多機(jī)器學(xué)習(xí)相關(guān)的研究。
本文采用機(jī)器學(xué)習(xí)進(jìn)行素描圖像處理,通過(guò)建立模型訓(xùn)練數(shù)據(jù)庫(kù)、搭建模型、訓(xùn)練模型和模型測(cè)試與分析,驗(yàn)證了通過(guò)機(jī)器學(xué)習(xí)來(lái)處理素描圖片方法的可行性。
2 方法
因圖片具有多樣性,所以不能使用單一線(xiàn)性模型來(lái)訓(xùn)練,而CNN(卷積神經(jīng)網(wǎng)絡(luò))由于使用的卷積核具有參數(shù)共享以及稀疏連接等優(yōu)點(diǎn),能較高效的對(duì)圖片進(jìn)行有效處理,并且在各卷積隱藏層能捕捉圖片的一些細(xì)節(jié)。
2.1 數(shù)據(jù)準(zhǔn)備
本文使用Labeled Faces in the Wild(LFW)dataset[4],LFW圖片數(shù)據(jù)庫(kù)包含了13233張含有背景的尺寸為3×250×250的人像照,而這些包含多種姿勢(shì)表情、圖片光線(xiàn)質(zhì)量以及各種復(fù)雜背景的圖片是由Erik Learned-Miller等人在網(wǎng)上尋找并通過(guò)神經(jīng)網(wǎng)絡(luò)系統(tǒng)處理出來(lái)的。
2.2 模型搭建
訓(xùn)練數(shù)據(jù)庫(kù)中圖片是單通道的尺寸大小為1×250×250的灰度圖片,根據(jù)需要模型輸出的圖片尺寸也為1×250×250。參照Deepak Pathak在其論文中DNN搭建思路(如圖1),也將圖片處理神經(jīng)網(wǎng)絡(luò)模型分成“編碼器”網(wǎng)絡(luò)與“解碼器”網(wǎng)絡(luò)。
在“解碼器”網(wǎng)絡(luò)中,通過(guò)借鑒DCGAN模型的搭建思路,使用反卷積的方法將“編碼器”網(wǎng)絡(luò)輸出的4000×1×1隱藏層經(jīng)過(guò)六個(gè)類(lèi)似的卷積層還原成1×250×250原圖尺寸進(jìn)行輸出。
3 實(shí)驗(yàn)
在訓(xùn)練過(guò)程中,由于圖片數(shù)據(jù)庫(kù)較大,模型參數(shù)較多,運(yùn)算量大,所以我們使用配備GTX1080Ti顯卡的主機(jī)來(lái)訓(xùn)練模型。
3.1 模型訓(xùn)練
本模型訓(xùn)練流程:前期是圖片數(shù)據(jù)庫(kù)的建立和加載,為了使導(dǎo)入圖片與目標(biāo)圖片相對(duì)應(yīng),我們要編寫(xiě)相應(yīng)數(shù)據(jù)加載函數(shù),使其在每次迭代時(shí)返回對(duì)應(yīng)的一組圖片;模型加載以及相應(yīng)參數(shù)的設(shè)定;接著將批量的圖片導(dǎo)進(jìn)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行多次迭代訓(xùn)練,算法過(guò)程如表1。
3.2 模型數(shù)據(jù)測(cè)試與分析
在測(cè)試時(shí),我們選取了6個(gè)不同階段的模型參數(shù)來(lái)進(jìn)行測(cè)試,分別是epoch=1、50、150、300、600、1000時(shí)對(duì)應(yīng)的模型。圖2第一行分別是原圖和人工處理的目標(biāo)素描圖。
當(dāng)epoch=1時(shí),模型輸出的素描圖片只有一個(gè)模糊的輪廓;epoch=50時(shí),圖像細(xì)節(jié)增多,相片黑框邊界較清晰;epoch=300時(shí),處理圖可顯示出大概的人像。當(dāng)epoch=1000時(shí),圖片素描效果已經(jīng)十分接近人工處理的目標(biāo)素描圖。因此在一定范圍內(nèi),隨著迭代次數(shù)越來(lái)越大,素描圖片效果越明顯。
4 結(jié)束語(yǔ)
本文采用機(jī)器學(xué)習(xí)進(jìn)行素描圖像處理,通過(guò)建立模型訓(xùn)練數(shù)據(jù)庫(kù)、搭建模型、訓(xùn)練模型和模型測(cè)試與分析,最后解決自動(dòng)化圖片處理時(shí)調(diào)參問(wèn)題以及圖片處理時(shí)局部?jī)?yōu)化問(wèn)題,達(dá)到預(yù)期素描處理效果,提高了圖片素描化處理的普適性。
參考文獻(xiàn):
[1]鄭錦生,陳松青.激光雕刻技術(shù)的發(fā)展[J].機(jī)床與液壓,2005,(8):228-231.
[2]曹雪璐,鄭志軍,楊林豐.激光打標(biāo)的幾種PS圖像處理方法[J].實(shí)驗(yàn)室研究與探索,2015,34(5):228-231.
[3]趙靜.木質(zhì)材料激光雕刻加工技術(shù)的研究[D].北京:北京林業(yè)大學(xué),2007.
[4]E. Learned-Miller, G. B. Huang, A. RoyChowdhury, H. Li, and G. Hua, “Labeled faces in the wild: A survey,” in Advances in Face Detection and Facial Image Analysis, pp. 189-248, Springer Science + Business Media, 2016.
[5]Deepak Pathak,Phillip Krhenbühl,Jeff Donahue,Trevor Darrell,Alexei A. Efros. Context Encoders: Feature Learning by Inpainting. arXiv:1604.07379v2 [cs.CV].2016.