• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      西裝識(shí)別的深度學(xué)習(xí)方法

      2019-04-25 06:40:18劉正東劉以涵王首人
      紡織學(xué)報(bào) 2019年4期
      關(guān)鍵詞:西裝卷積樣本

      劉正東, 劉以涵, 王首人

      (1. 北京服裝學(xué)院 服裝藝術(shù)與工程學(xué)院, 北京 100029; 2. 北京工業(yè)大學(xué) 信息學(xué)部, 北京 100124;3. 湖南大學(xué) 信息科學(xué)與工程學(xué)院, 湖南 長(zhǎng)沙 410082)

      服裝電子商務(wù)的發(fā)展為消費(fèi)者帶來很大的方便,同時(shí)積累了大量的服裝款式圖片,可作為服裝圖像識(shí)別算法的樣本,進(jìn)一步成為以圖搜圖系統(tǒng)的基礎(chǔ)。另外,人工智能中的人臉識(shí)別、步態(tài)識(shí)別、指紋識(shí)別已趨于成熟,進(jìn)一步需要對(duì)視覺內(nèi)容進(jìn)行深層次的感知,比如對(duì)圖像中人物著裝進(jìn)行識(shí)別和評(píng)判、服裝搭配智能推薦服務(wù)等。

      由于服裝形態(tài)和特征的復(fù)雜性,傳統(tǒng)識(shí)別與分類算法的精度和場(chǎng)景適應(yīng)性仍有待提高,圖像分割和特征提取等工作需要人為的規(guī)定和大量的實(shí)驗(yàn)才能確定[1]。大部分算法研究主要通過使用圖像輪廓提取、邊緣檢測(cè)或者多尺度角點(diǎn)檢測(cè)來提取圖像特征[2],再利用各種分類器(貝葉斯、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)等)進(jìn)行模式識(shí)別[3-4]。由于服裝的柔性,其顯現(xiàn)出的多種形態(tài)給特征提取帶來了很大困難,傳統(tǒng)的特征抽取方法和分類識(shí)別模型面臨著巨大的挑戰(zhàn)。

      深度卷積神經(jīng)網(wǎng)絡(luò)的興起為復(fù)雜目標(biāo)的識(shí)別提供了新思路。自AlexNet[5-6]在ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)2012(ILSVRC)上取得成功以來,后續(xù)研究人員已經(jīng)提出了更深的網(wǎng)絡(luò)[7-8],并在ImageNet及其他基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)高性能的實(shí)驗(yàn)結(jié)果[9-10],但這類實(shí)驗(yàn)一般是根據(jù)已有的經(jīng)過標(biāo)準(zhǔn)化的圖像樣本集合(基準(zhǔn)數(shù)據(jù)集),而非真實(shí)場(chǎng)景圖像。

      為此,本文提出一種基于電商平臺(tái)實(shí)際圖片樣本庫,利用深度卷積神經(jīng)網(wǎng)絡(luò),快速檢測(cè)圖像中西裝的目標(biāo),并能確定1個(gè)或者多個(gè)目標(biāo)的位置,有效處理不同照明條件、目標(biāo)大小、背景變化等因素的影響,為服裝領(lǐng)域的機(jī)器視覺提供算法基礎(chǔ)。

      1 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)

      深度學(xué)習(xí)方法允許研究人員設(shè)計(jì)從原始輸入到分類輸出這樣端到端的訓(xùn)練與測(cè)試系統(tǒng),而不像傳統(tǒng)的模式識(shí)別方法中特征抽取與分類識(shí)別階段分開處理的手工方法。卷積神經(jīng)網(wǎng)絡(luò)(CNNs)作為圖像識(shí)別任務(wù)中的特征提取器具有突出的特點(diǎn),目前該思想已經(jīng)廣泛擴(kuò)展到了機(jī)器人視覺、語音識(shí)別等多個(gè)人工智能領(lǐng)域[9-10]。

      1.1 深度學(xué)習(xí)

      深度學(xué)習(xí)與傳統(tǒng)模式識(shí)別方法相比具有自動(dòng)特征學(xué)習(xí)和深層架構(gòu)的優(yōu)勢(shì)。

      自動(dòng)特征學(xué)習(xí)是深度學(xué)習(xí)的主要特征,算法從大數(shù)據(jù)樣本中自動(dòng)學(xué)習(xí)得到合適的圖像特征,而不像傳統(tǒng)方法一樣使用手工提取。手工提取主要依靠算法研究人員的先驗(yàn)知識(shí),提取到的特征集合維度和深度具有很大的限制。深度學(xué)習(xí)基于大量的樣本數(shù)據(jù)利用機(jī)器學(xué)習(xí)的方法自動(dòng)學(xué)習(xí)特征表示,可以包含成千上萬的參數(shù),而且在神經(jīng)網(wǎng)絡(luò)的框架下,特征表示和分類器是聯(lián)合優(yōu)化的,可最大程度地發(fā)揮二者聯(lián)合協(xié)作的性能。

      深度學(xué)習(xí)另外一個(gè)特征是深層的結(jié)構(gòu),意味著作為基本構(gòu)成的神經(jīng)網(wǎng)絡(luò)具有很多層,多則可達(dá)到上百層。而傳統(tǒng)的分類方法,比如支持向量機(jī)、Boosting等機(jī)器學(xué)習(xí)模型都是淺層結(jié)構(gòu),一般為幾層。淺層模型提供的是局部表達(dá),隨著分類問題復(fù)雜度的增加,需要將分類空間劃分成越來越多的局部區(qū)域,因而需要越來越多的參數(shù)和訓(xùn)練樣本,以至于很難達(dá)到較高的識(shí)別效率。而深度模型能夠從像素級(jí)原始數(shù)據(jù)到抽象的語義概念逐層提取信息,具有強(qiáng)大的學(xué)習(xí)能力和高效的特征表達(dá)能力,這使得它在提取圖像的全局特征和上下文信息方面具有突出的優(yōu)勢(shì),為解決服裝識(shí)別等計(jì)算機(jī)視覺問題提供了思路。

      1.2 目標(biāo)檢測(cè)的深度學(xué)習(xí)

      目前,卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中目標(biāo)檢測(cè)的主要方法。隨著硬件技術(shù)的不斷提高,更高性能的深度網(wǎng)絡(luò)也被提出,其中,一些先進(jìn)的目標(biāo)識(shí)別和分類算法得到了很好的實(shí)驗(yàn)效果。根據(jù)以往文獻(xiàn)及應(yīng)用分析,實(shí)驗(yàn)主要集中在3個(gè)學(xué)習(xí)框架:快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster R-CNN)[11],基于區(qū)域的全連接卷積網(wǎng)絡(luò)(R-FCN)[12]和單次多盒檢測(cè)(SSD)[13],其他的框架通常與這三者類似。谷歌發(fā)布的Tensorflow目標(biāo)檢測(cè)API中,針對(duì)特定模型也提供了以上幾種開發(fā)模型。

      1)快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)。faster R-CNN的核心設(shè)計(jì)與原始的R-CNN一致:先假設(shè)對(duì)象區(qū)域,然后對(duì)其進(jìn)行分類。不同點(diǎn)是用一個(gè)快速的區(qū)域建議網(wǎng)絡(luò)(RPN)代替了之前慢速的選擇搜索算法(selective search algorithm)。檢測(cè)過程分2個(gè)階段進(jìn)行:在第1階段,區(qū)域建議網(wǎng)絡(luò)將圖像作為輸入,并通過特征提取器進(jìn)行處理。中間層用于目標(biāo)預(yù)測(cè),每個(gè)候選目標(biāo)區(qū)都有一個(gè)分?jǐn)?shù)。為訓(xùn)練RPN,系統(tǒng)根據(jù)候選區(qū)域與標(biāo)簽區(qū)域的相交程度考慮候選區(qū)域是否包含對(duì)象;在第2階段中,通過池化層、全連接層以及最后的softmax分類層和目標(biāo)邊框回歸器(bounding box regressor)識(shí)別目標(biāo)區(qū)域。

      2)基于區(qū)域的全連接卷積網(wǎng)絡(luò)。R-FCN框架提出使用位置敏感映射來解決平移不變性問題。這種方法類似于Faster R-CNN,但不是從區(qū)域建議的同一層抽取特征,而是從預(yù)測(cè)之前的最后一個(gè)特征層抽取特征(包含對(duì)象或成為其一部分的可能性較高的區(qū)域)。通過該技術(shù)的應(yīng)用,減少了區(qū)域計(jì)算中使用的存儲(chǔ)器的數(shù)量。文獻(xiàn)[12]中表明使用ResNet-101作為特征提取器可產(chǎn)生比R-CNN更快的競(jìng)爭(zhēng)性能。

      3)單次多盒檢測(cè)。以上2個(gè)模型均是分 2個(gè)步驟執(zhí)行,首先使用一個(gè)區(qū)域建議網(wǎng)絡(luò)來生成感興趣區(qū)域(region of interest),然后再利用卷積網(wǎng)絡(luò)對(duì)這些區(qū)域進(jìn)行分類。SSD可在單個(gè)步驟中完成上述2個(gè)步驟,并且在處理圖像的同時(shí)預(yù)測(cè)目標(biāo)包圍盒和目標(biāo)分類。SSD模型通過前饋卷積網(wǎng)絡(luò)來處理目標(biāo)識(shí)別問題,前饋卷積網(wǎng)絡(luò)產(chǎn)生固定大小的包圍盒集合并且在每個(gè)盒子中存在對(duì)象類別的評(píng)分。

      雖然每個(gè)網(wǎng)絡(luò)模式都具有自己的特色,但他們都有相同的目標(biāo),即提高準(zhǔn)確性,同時(shí)降低計(jì)算復(fù)雜度。3個(gè)框架在公開的圖像樣本庫PASCAL VOC、MS COCO和ILSVRC數(shù)據(jù)集上都有測(cè)評(píng)[7,9],并且與其他方法進(jìn)行了對(duì)比,但這些樣本集是經(jīng)過規(guī)格化處理的,是否能在實(shí)際圖片中得到很好的應(yīng)用需要進(jìn)一步驗(yàn)證。真實(shí)場(chǎng)景包括拍攝的照片或者網(wǎng)絡(luò)下載的圖片,其特點(diǎn)是場(chǎng)景復(fù)雜,而且大小不同。這些與標(biāo)準(zhǔn)化的樣本圖片是不同的。由于目前并沒有統(tǒng)一的服裝圖像樣本庫,需要?jiǎng)?chuàng)建一個(gè)新的樣本庫。據(jù)此收集了來自天貓網(wǎng)(www.tmall.com)的包含西裝目標(biāo)的500個(gè)樣本圖像。

      表1示出利用3種算法對(duì)采集的真實(shí)樣本集的訓(xùn)練結(jié)果,其中訓(xùn)練時(shí)間是采用20萬步的迭代所花費(fèi)的時(shí)間??梢钥闯觯琒SD方法在速度上是3種算法中最快的,在檢測(cè)精度上可以和faster R-CNN相媲美,并有很高的召回率。

      表1 3種方法的西裝識(shí)別對(duì)比Tab.1 Comparison of suit recognition by three methods

      SSD架構(gòu)是如圖1所示的一個(gè)開放系統(tǒng),將規(guī)格化的300像素×300像素分辨率的輸入圖像利用多層卷積進(jìn)行特征提取,經(jīng)多層網(wǎng)絡(luò)(特征提取和分類器)處理后,識(shí)別圖像中目標(biāo)類別并定位。其核心是在特征圖上采用卷積核來預(yù)測(cè)一系列候選區(qū)域框的類別分?jǐn)?shù)和位置。

      圖1 SSD架構(gòu)Fig.1 SSD framework

      SSD使用了經(jīng)典的VGG(visual geometry group)深度卷積網(wǎng)絡(luò)。每組卷積都使用4×3的卷積核(以conv4-3表示)和fc7的全連接層。在訓(xùn)練高級(jí)別的網(wǎng)絡(luò)時(shí),可以先訓(xùn)練低級(jí)別的網(wǎng)絡(luò),用前者獲得的權(quán)重初始化高級(jí)別的網(wǎng)絡(luò),可加速網(wǎng)絡(luò)的收斂。

      由圖1可知,SSD各層中大量使用卷積獲得的目標(biāo)特征。圖中標(biāo)識(shí)出每個(gè)階段生成的特征圖結(jié)果,如38×38×512表示38像素×38像素的特征圖,層數(shù)為512個(gè)。

      對(duì)于上層的輸入fi-1(x),利用卷積核gi(x)獲得該層的特征圖hi(x)。

      式中:fi-1(x)為前一層的圖像;gi(x)為卷積函數(shù);hi(x)為卷積處理之后的特征圖像。

      為進(jìn)一步降低特征的維度,深度學(xué)習(xí)采用池化層。SDD采用2×2的平均池化處理,相當(dāng)于又一次的特征提取,數(shù)據(jù)量進(jìn)一步減小,而且能夠?qū)斎氲奈⑿∽兓a(chǎn)生更大的容忍性,包括圖像成像的平移、旋轉(zhuǎn)和縮放等。

      在卷積層和池化層獲得特征圖之后,進(jìn)行目標(biāo)的分類檢測(cè)。為提高檢測(cè)準(zhǔn)確率,采用特征金字塔結(jié)構(gòu)進(jìn)行檢測(cè),在不同尺度的特征圖上進(jìn)行預(yù)測(cè)。這種架構(gòu)設(shè)計(jì),實(shí)現(xiàn)了端到端的訓(xùn)練,即使圖像的分辨率比較低,也能保證檢測(cè)的精度。檢測(cè)時(shí)利用了4×3、6×2、7×2、8×2、9×2這些大小不同的卷積核,是為了能夠檢測(cè)到不同尺度的物體、達(dá)到多尺度的目的,如圖2所示。

      圖2 金字塔型特征抽取Fig.2 Pyramid feature extraction

      在訓(xùn)練之前,需要用包圍盒和類標(biāo)簽手動(dòng)標(biāo)注每個(gè)圖像中包含西裝的區(qū)域。卷積網(wǎng)絡(luò)目標(biāo)識(shí)別輸出是不同大小的包圍盒邊界框,與其相應(yīng)的預(yù)測(cè)結(jié)果區(qū)域通過交并比進(jìn)行評(píng)估。

      交并比(IoU)定義為目標(biāo)識(shí)別產(chǎn)生的候選包圍盒C與真實(shí)目標(biāo)包圍盒G的交疊率,即它們的交集與并集的比值,如圖3所示。最理想情況是完全重疊,即比值為1。loU的值定義為

      圖3 交并比Fig.3 Inter section over union

      圖4 失敗例子Fig.4 Failure cases. (a)Target failure; (b)Target loss; (c)Target overlap

      在訓(xùn)練時(shí),真實(shí)標(biāo)注與預(yù)測(cè)包圍盒按照如下方式進(jìn)行配對(duì):首先,尋找與每個(gè)真實(shí)標(biāo)注框有最大的x的預(yù)測(cè)包圍盒,這樣就能保證每個(gè)真實(shí)標(biāo)注包圍盒與唯一的一個(gè)預(yù)測(cè)包圍盒對(duì)應(yīng)起來。之后將剩余還沒有配對(duì)的預(yù)測(cè)包圍盒與任意一個(gè)真實(shí)標(biāo)注包圍盒嘗試配對(duì),只要二者之間的x大于閾值0.5,就認(rèn)為匹配。匹配成功的預(yù)測(cè)包圍盒就是正樣本(Pos),如果匹配不成功,就是負(fù)樣本(Neg)。

      SSD的損失函數(shù)為

      L(x,c,l,g)=(Lconf(x,c)+aLloc(x,l,g))/N

      式中:x為IoU值;l為候選包圍盒的位置信息;g為真實(shí)目標(biāo)包圍盒的位置信息;c為候選包圍盒的置信度,是一個(gè)權(quán)重參數(shù),默認(rèn)為1;a為用于調(diào)整預(yù)測(cè)誤差和位置誤差之間的比例,默認(rèn)為1;N為與真實(shí)目標(biāo)包圍盒相匹配的候選包圍盒數(shù)量,若N為0,則總體損失等于0;Lloc(x,l,g)為候選包圍盒與真實(shí)目標(biāo)包圍盒的Smooth L1損失函數(shù);Lconf(x,c)為置信損失函數(shù),這里采用交叉熵?fù)p失函數(shù)。

      Smooth L1損失函數(shù)定義為

      在訓(xùn)練過程中,通過隨機(jī)梯度下降以及反向傳播機(jī)制不斷減小損失函數(shù)值,從而使候選包圍盒的位置逼近真實(shí)目標(biāo)包圍盒位置,同時(shí)提高類別置信度,通過多次優(yōu)化,不斷增強(qiáng)網(wǎng)絡(luò)模型檢測(cè)目標(biāo)的效果,最終得到一個(gè)最優(yōu)的目標(biāo)檢測(cè)模型。

      1.3 失敗分析

      盡管SSD深度學(xué)習(xí)算法在原始樣本的評(píng)估上表現(xiàn)出色,達(dá)到了87.64%的精確度,但在某些情況下也會(huì)出現(xiàn)評(píng)估困難,這是需要進(jìn)一步研究的方向。需要說明的是,由于樣本數(shù)量只有500個(gè),對(duì)于充分訓(xùn)練是不足的,易引起過擬合。然而不同類別的服裝形態(tài)具有明顯的差異,彌補(bǔ)了樣本數(shù)量不足的弊病。但在一些形變差異較大的情況下往往識(shí)別錯(cuò)誤,導(dǎo)致誤報(bào)或精度降低。

      圖4示出分析和整理后出現(xiàn)最多的3種識(shí)別失敗的案例。圖4(a)是將一些特殊區(qū)域誤判為目標(biāo)區(qū)域,這一般是因?yàn)闃颖緮?shù)量太少,訓(xùn)練不夠充分造成的;圖4(b)是沒有識(shí)別出來西裝目標(biāo),因?yàn)榇髨D像在標(biāo)準(zhǔn)化過程中被縮小,相應(yīng)地,西裝領(lǐng)部分變成了小目標(biāo),在卷積過程中小尺度的卷積未能很好地抽取其特征,SSD對(duì)小目標(biāo)的識(shí)別率一直較低;圖4(c)是識(shí)別區(qū)域的包含錯(cuò)誤,在SSD算法中,全包含的區(qū)域以最外層的包圍盒作為結(jié)果輸出,但對(duì)于交叉區(qū)域的識(shí)別具有很大的重復(fù)識(shí)別問題。

      2 西裝圖像的目標(biāo)識(shí)別

      2.1 樣本的標(biāo)注

      圖5示出西裝常用的幾種穿著形式。

      圖5 西裝常用穿著形式Fig.5 Usual dress forms to suit. (a)With a tie;(b)With a bow tie; (c)No tie; (d)Not fasten

      西服的領(lǐng)型一般分為平駁頭、戧駁頭或者青果領(lǐng),一般是套在淺色的襯衫外面,有的配有領(lǐng)帶,有的沒有,還有的配有領(lǐng)結(jié)。從圖像視覺效果來看,作為整體,西服的特征具有一定的明顯性,無論什么領(lǐng)型都是具有大致統(tǒng)一的結(jié)構(gòu)形式,而且與襯衫的色彩反差比較大,但是相比而言,無論是平駁頭、戧駁頭或者青果領(lǐng),在圖片上的細(xì)分特征并不顯眼。

      樣本數(shù)據(jù)集主要包含2個(gè)方面:一是電子商務(wù)平臺(tái)上大量的服裝產(chǎn)品圖;二是利用手機(jī)和攝像頭拍攝的生活中的圖片。因?yàn)楫a(chǎn)品效果圖是擺拍,使用了專業(yè)的影棚和專業(yè)設(shè)備,特征是很明顯的,而且更能體現(xiàn)現(xiàn)實(shí)生活的場(chǎng)景,所以樣本包括了這2種不同類型的數(shù)據(jù),這些樣本的采集有助于將訓(xùn)練模型用于現(xiàn)實(shí)場(chǎng)景的目標(biāo)識(shí)別工作。

      西裝目標(biāo)的標(biāo)注采用人工標(biāo)注,鑒于特征的明顯部分在于領(lǐng)子的外形和襯衫的搭配,所以標(biāo)注的范圍為如圖6所示的白色包圍框進(jìn)行標(biāo)簽處理。V型的西裝領(lǐng)所覆蓋的區(qū)域是讓機(jī)器進(jìn)行學(xué)習(xí)的標(biāo)注區(qū)。

      圖6 目標(biāo)標(biāo)注Fig.6 Labeling target box. (a)Box of tie; (b)Box of bow tie

      2.2 SSD的改進(jìn)

      在失敗案例中,圖4(a)代表的類型可通過增加樣本數(shù)量逐步解決,圖4(b)、(c)代表的失敗類型可設(shè)定被包含區(qū)域與外層區(qū)域的占比來決定是否舍棄被包含區(qū)域,而選擇外層區(qū)域。因?yàn)樵趯?shí)際場(chǎng)景中,一個(gè)人的空間是較為獨(dú)立的,多個(gè)服裝彼此交叉的情況較少,即使在多人合影的圖片中,人與人之間的距離較近,服裝目標(biāo)也會(huì)彼此交叉,但識(shí)別前面最大的目標(biāo)的結(jié)果也是合理的。

      SSD雖然采用了金字塔特征層次的思路,但對(duì)小目標(biāo)的識(shí)別召回效果依然一般,如圖4(b)所示。一般認(rèn)為,小目標(biāo)識(shí)別率較低是由于SSD使用類似conv4-3小卷積核的低級(jí)特征檢測(cè)小目標(biāo),而低級(jí)特征卷積層數(shù)少,存在特征提取不充分的問題。這樣帶來一個(gè)問題,因?yàn)椴杉蛘呦螺d的圖片一般都是大尺寸圖片,訓(xùn)練過程開始前會(huì)標(biāo)準(zhǔn)化為300像素×300 像素尺寸,相應(yīng)的特征區(qū)域就變得很小,即被識(shí)別目標(biāo)變成了小目標(biāo),這樣,對(duì)訓(xùn)練結(jié)果會(huì)有很大影響。

      另外,SSD會(huì)將一些場(chǎng)景中的非目標(biāo)區(qū)域誤識(shí)別為目標(biāo)。經(jīng)過分析預(yù)判的原因可能是因?yàn)橛?xùn)練的樣本缺乏這些場(chǎng)景的定義。尤其是當(dāng)把模型應(yīng)用于攝像頭等實(shí)時(shí)采集的應(yīng)用環(huán)境時(shí),新的背景成了模型未訓(xùn)練的目標(biāo),會(huì)造成誤判。針對(duì)該問題,處理的方式是:當(dāng)將模型應(yīng)用于一個(gè)具有新背景的應(yīng)用場(chǎng)景時(shí),首先預(yù)采集使用環(huán)境下的多角度圖片,對(duì)模型進(jìn)行增強(qiáng)訓(xùn)練,讓模型熟悉新的環(huán)境。把這些需要讓模型排除的背景樣本稱之為負(fù)樣本。

      針對(duì)以上2個(gè)問題,提出基于尺寸分割和負(fù)樣本的SSD增強(qiáng)方法(DN-SSD)。主要目的是能夠?qū)SD算法應(yīng)用于任何實(shí)際場(chǎng)景,并能提高小目標(biāo)的分辨能力。

      基于尺寸分割的目的是防止小目標(biāo)的消失,不是簡(jiǎn)單地將輸入圖片規(guī)格化為固定大小(如300像素×300像素)的尺寸,而是將大于300像素的圖像按照300像素為單位進(jìn)行分割,算法借鑒多視窗分割方法[14],但不是以圖像的4個(gè)角為單位,而是分割的區(qū)域含有交叉,通過實(shí)驗(yàn)確定交叉的比例為圖像的10%,分割數(shù)量s按照下式進(jìn)行計(jì)算。

      s=sc×sr

      式中:c為圖像的列數(shù);r為圖像的行數(shù);sc為橫向分割的個(gè)數(shù);sr為縱向分割的個(gè)數(shù);s為分割后的小圖像個(gè)數(shù)。

      基于此,一幅大于300像素的圖像會(huì)被分割為具有交叉區(qū)域的多個(gè)圖像,每個(gè)圖像分別地獨(dú)立進(jìn)行SSD檢測(cè),避免了圖像縮小過程中目標(biāo)區(qū)域的消失?;诔叽绶指詈拓?fù)樣本的SSD增強(qiáng)方法識(shí)別過程如圖7所示。

      圖7 SSD增強(qiáng)方法識(shí)別過程Fig.7 Recognition process of DN-SSD

      其中,負(fù)樣本的引入是為了排除實(shí)際應(yīng)用中環(huán)境圖像的影響,告訴系統(tǒng)什么樣的內(nèi)容不應(yīng)該誤識(shí)別為目標(biāo)。負(fù)樣本圖像不包含任何實(shí)際目標(biāo),只是作為訓(xùn)練,以防過樣本過少產(chǎn)生過擬合失敗。

      圖9 識(shí)別的結(jié)果Fig.9 Detection results. (a)Single target detection 1; (b)Single target detection 2; (c)Multi target detection; (d)Small target detection

      3 實(shí)驗(yàn)結(jié)果與分析

      在500張樣本集的基礎(chǔ)上,采用編程語言Python 3.6,在谷歌深度學(xué)習(xí)框架Tensorflow 1.5中,基于HP ZBook筆記本電腦的Win10系統(tǒng)(Intel i7-4810 CPU,2.8 GHz,16 GB RAM)完成實(shí)驗(yàn)。在已收集的西裝圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),所有圖像均被標(biāo)注西裝所在的區(qū)域位置和大小。

      DN-SSD模型是在SSD框架的基礎(chǔ)上增加了尺寸分割,以保證西裝目標(biāo)不至于過小,并利用負(fù)樣本來處理真實(shí)圖像中西裝的檢測(cè)和識(shí)別。實(shí)驗(yàn)時(shí)數(shù)據(jù)集被分成80%的訓(xùn)練集,10%的驗(yàn)證集和10%的測(cè)試集。實(shí)驗(yàn)在訓(xùn)練集上進(jìn)行訓(xùn)練,在驗(yàn)證集上進(jìn)行評(píng)估,對(duì)測(cè)試集進(jìn)行最終評(píng)估。由于數(shù)據(jù)集中的圖像數(shù)量較少,為避免過擬合,針對(duì)應(yīng)用場(chǎng)景又增加了50張負(fù)樣本。

      圖8示出訓(xùn)練過程迭代到20萬步時(shí)的損失函數(shù)值變化曲線。這證明了卷積網(wǎng)絡(luò)有效地學(xué)習(xí)了數(shù)據(jù),同時(shí)在大約10萬次迭代中實(shí)現(xiàn)了較低的錯(cuò)誤率。

      圖8 訓(xùn)練過程中損失函數(shù)值曲線Fig.8 Curve of loss function value in training process

      因?yàn)閷?shí)驗(yàn)是識(shí)別西裝這一種類別,使用召回率和精確率來評(píng)估是合理的,在提出的新的DN-SSD算法中,其識(shí)別召回率為77.54%,精確率為92.76%,識(shí)別時(shí)間為388 ms,總體性能要要優(yōu)于經(jīng)典SSD算法。召回率提高了7.36%,精確率提高了 5.84%,總體的識(shí)別時(shí)間變化不是很大,提高了61 ms,對(duì)于實(shí)時(shí)的運(yùn)算可以忽略不計(jì)。究其原因是在小目標(biāo)檢測(cè)上提高了識(shí)別能力。實(shí)例識(shí)別結(jié)果如圖9 所示,最后一張圖是經(jīng)典SSD無法識(shí)別的小目標(biāo)。

      相比于經(jīng)典的SSD算法,本文采用的DN-SSD算法呈現(xiàn)出2點(diǎn)特點(diǎn):一是可以檢測(cè)出更多的物體,如圖9(c);二是對(duì)于同樣識(shí)別出的物體,其置信度更高,大部分的識(shí)別置信度都在90%以上。此外,深度學(xué)習(xí)系統(tǒng)的實(shí)施需要大量數(shù)據(jù),并會(huì)影響最終的性能。為避免過擬合,本文輸入負(fù)樣本也提高了算法的召回率。

      4 結(jié) 論

      為解決機(jī)器智能對(duì)人類著裝的視覺判斷,本文提出一種基于深度學(xué)習(xí)的西裝識(shí)別檢測(cè)算法DN-SSD。基于經(jīng)典的SSD算法,使用基于尺寸分割和負(fù)樣本增強(qiáng)技術(shù)可獲得更好的性能和效率,為電商平臺(tái)或者實(shí)時(shí)監(jiān)控系統(tǒng)對(duì)機(jī)器自動(dòng)的著裝分類識(shí)別提供一個(gè)實(shí)用而快速的解決方案。該方法與其他分類方法的主要區(qū)別在于,其應(yīng)用場(chǎng)景并非是針對(duì)已有的、規(guī)格化的樣本庫,而是針對(duì)真實(shí)的網(wǎng)絡(luò)圖片或者各種攝像設(shè)備捕獲的圖像,通過使用GPU的實(shí)時(shí)硬件和軟件系統(tǒng)進(jìn)行處理。實(shí)驗(yàn)結(jié)果和比較也證明了基于深度學(xué)習(xí)的檢測(cè)器能夠以92%以上的成功率識(shí)別圖像中的西裝。未來進(jìn)一步研究將集中在改善當(dāng)前的結(jié)果上,并將算法擴(kuò)展到其他服裝款式的識(shí)別工作中。

      猜你喜歡
      西裝卷積樣本
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      西裝年代簿
      智族GQ(2020年9期)2020-10-26 06:57:16
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      推動(dòng)醫(yī)改的“直銷樣本”
      新形態(tài)西裝
      智族GQ(2018年3期)2018-05-14 12:33:23
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      西裝型男的3種形
      Coco薇(2016年10期)2016-11-29 02:53:53
      村企共贏的樣本
      乐业县| 福泉市| 三河市| 武强县| 泌阳县| 甘洛县| 华容县| 中江县| 清新县| 宁阳县| 穆棱市| 平阴县| 莫力| 乐安县| 尼勒克县| 常宁市| 定远县| 洱源县| 南京市| 东兴市| 双城市| 铜陵市| 仪陇县| 商洛市| 赞皇县| 大理市| 台北市| 闻喜县| 郎溪县| 九江市| 大洼县| 达州市| 塔河县| 南郑县| 阿鲁科尔沁旗| 泽库县| 鄂托克前旗| 阿荣旗| 资溪县| 宜兰县| 绥德县|