鄭 燕,張 霞
(武漢大學(xué) 印刷與包裝系,武漢 430072)
膚色檢測技術(shù)在人臉檢測與識別[1-6]、視頻監(jiān)控系統(tǒng)[7-10]、裸圖像檢測[11-17]、基于內(nèi)容的圖像檢索[18,19]、手勢識別[20-26]、膚色病學(xué)診斷[27]、駕駛員疲勞檢測[28]、人機(jī)交互[29,30]等領(lǐng)域有著廣泛的應(yīng)用,近年來得到了廣泛的關(guān)注和研究.
膚色檢測技術(shù)采用的方法有很多,從不同的角度出發(fā)可以分為不同的類別.根據(jù)有無涉及成像過程,可以分為基于統(tǒng)計(jì)的方法和基于物理的方法[31];根據(jù)膚色圖像數(shù)據(jù)處理的尺度,可以分為基于像素的檢測和基于區(qū)域的檢測.基于像素的膚色檢測方法針對單個(gè)像素進(jìn)行膚色和非膚色的分類.基于區(qū)域的膚色檢測方法本質(zhì)和基于像素的檢測方法相似,但考慮了顏色的空間分布.本文針對基于像素的膚色檢測方法進(jìn)行綜述,對比分析現(xiàn)有的研究成果,探討技術(shù)發(fā)展的熱點(diǎn)和趨勢.
基于像素的膚色檢測技術(shù)通過建立膚色模型來區(qū)分膚色像素和非膚色像素,膚色模型既可以表示為一組規(guī)則或閾值,也可以從機(jī)器學(xué)習(xí)算法中訓(xùn)練出來[32].主要的檢測方法可分為基于統(tǒng)計(jì)的方法、基于閾值的方法和基于機(jī)器學(xué)習(xí)的方法.本文第2-4 部分分別對這3 類檢測方法進(jìn)行分析討論,并在第5 部分總結(jié)了膚色檢測方法研究的特點(diǎn),探討了膚色檢測領(lǐng)域現(xiàn)存的問題及技術(shù)發(fā)展的趨勢,最后對全文進(jìn)行了總結(jié).
基于統(tǒng)計(jì)的方法將膚色檢測視為一個(gè)概率問題,通過在特定的顏色空間中訓(xùn)練數(shù)據(jù)集來計(jì)算膚色像素的概率.這類方法包括非參數(shù)方法和參數(shù)方法,具體分類如圖1 所示.
圖1 基于統(tǒng)計(jì)的膚色檢測方法
非參數(shù)方法又稱為直方圖模型法.非參數(shù)方法通過估計(jì)顏色分布和量化模型之間的點(diǎn)對點(diǎn)映射關(guān)系,將膚色概率值分配給顏色模型的每個(gè)離散點(diǎn),通過概率函數(shù)判斷像素是否為膚色像素.此類方法也稱為膚色概率圖(SPM)的構(gòu)造,即為離散化顏色空間中的每個(gè)點(diǎn)分配概率值.代表方法主要有3 種:查找表(LUT)法、貝葉斯分類器和自組織映射(SOM)法.
查找表法是膚色建模常用方法,該方法通過訓(xùn)練特定組膚色像素,獲得特定顏色空間中的膚色像素分布,查找表法把RGB 顏色空間視為最優(yōu)顏色空間,RGB 直方圖由256×256×256 個(gè)單元構(gòu)成,每個(gè)單元代表一個(gè)RiGiBi值的膚色概率.其中每個(gè)可能為膚色像素點(diǎn)RiGiBi的最終概率值采用函數(shù)式(1)計(jì)算得到.膚色概率是膚色訓(xùn)練樣本在這種顏色上所出現(xiàn)的相對頻數(shù),如式(1)所示.
查找表法學(xué)習(xí)過程簡單,但是填充直方圖需要大量的膚色數(shù)據(jù)集.例如,Jones MJ 等[33]采用查找表法從網(wǎng)絡(luò)圖像中學(xué)習(xí)膚色像素和非膚色像素構(gòu)建數(shù)據(jù)集,用于人體檢測和成人圖像識別,發(fā)現(xiàn)數(shù)據(jù)集的大小直接影響膚色檢測率.Nanni L 等[34]改進(jìn)正面人臉檢測Viola-Jones 算法,第一步利用查找表去除不包含膚色像素的人臉區(qū)域,實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法在彩色數(shù)據(jù)集檢測率優(yōu)于Viola-Jones 算法.此外可以通過融合不同顏色空間構(gòu)造多查找表法,例如,Ibraheem NA 等[35]將RGB、HSV 和YCbCr 等3 種顏色空間結(jié)合起來,可以減少光照變化帶來的影響,圖2 是Ibraheem 結(jié)果處理圖,可以看出用于手勢識別具有較好的魯棒性.
圖2 手勢識別效果圖[35]
與查找表法不同,貝葉斯分類器考慮不同顏色空間中膚色和非膚色像素之間的重疊問題.在式(1)中,P(RiGiBi)是已經(jīng)假設(shè)觀察到的像素屬于膚色的條件概率,但在Jones MJ 等[33]的研究中,97.2%的顏色同時(shí)出現(xiàn)在膚色和非膚色上.貝葉斯規(guī)則根據(jù)膚色像素直方圖和非膚色像素直方圖來建立關(guān)系檢測膚色像素,如式(2)所示.
使用膚色和非膚色直方圖中的像素分別計(jì)算P(|RiGiBi|skin)和P(|RiGiBi|nonskin).在設(shè)計(jì)貝葉斯分類器時(shí),使用ML(最大似然)方法令P(skin)=P(nonskin),當(dāng)兩者比值>θ(θ是閾值)時(shí)為膚色像素,如式(3)所示.
其中,K值是可調(diào)參數(shù),用來消除算法對先驗(yàn)概率的依賴性.θ的最佳值通過計(jì)算ROC 曲線獲得.Brand J 等[36]評估了基于像素級的人體膚色檢測方法的性能,其中貝葉斯的檢測率高達(dá)95%,優(yōu)于查找表檢測方法,證明了貝葉斯分類器在估計(jì)膚色概率方面的精確性.
查找表法與貝葉斯分類器可以構(gòu)造一定精度的膚色檢測器,但不能實(shí)現(xiàn)自適應(yīng)實(shí)時(shí)環(huán)境條件下的膚色檢測.自組織映射法是針對此局限性而提出的方法.SOM 源于Kohonen 在80 年代早期的設(shè)計(jì),采用無監(jiān)督學(xué)習(xí)訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò),由輸入層和輸出層構(gòu)成.算法的主要目的是將任意維數(shù)的輸入信號模式轉(zhuǎn)變?yōu)橐痪S或二維的離散映射,并且以拓?fù)溆行虻姆绞阶赃m應(yīng)實(shí)現(xiàn)這個(gè)變換.SOM 滿足非參數(shù)法的基本思想,是特殊的無監(jiān)督機(jī)器學(xué)習(xí)算法,所以歸為基于統(tǒng)計(jì)的膚色檢測方法.
SOM 的自適應(yīng)性在于獲勝神經(jīng)元的特定鄰域中的神經(jīng)元根據(jù)參數(shù)化學(xué)習(xí)函數(shù)將其碼本矢量調(diào)整為更接近輸入矢量.Brown DA 等[37]提出的基于SOM 的膚色分類器中,對500 多個(gè)彩色圖像在4 個(gè)顏色空間中(HSV、笛卡爾XY、TSL、歸一化RG)訓(xùn)練了兩個(gè)不同的SOM,通過訓(xùn)練膚色SOM 和非膚色SOM,發(fā)現(xiàn)SOM 分類器的性能幾乎與顏色空間的選擇無關(guān),解決了膚色檢測最優(yōu)顏色空間的選擇問題,并實(shí)現(xiàn)了94%的高精度檢測率.隨后Yin H 等[38]提出自組織混合網(wǎng)絡(luò)(SOMN)對此進(jìn)行了修改,用以提高SOM 的穩(wěn)定性和適用性.
SOM 不需要區(qū)分訓(xùn)練集和測試集,同時(shí)具有把高維輸入映射到低維的能力,有自適應(yīng)性和拓?fù)浔P翁匦缘膬?yōu)點(diǎn).但是網(wǎng)絡(luò)訓(xùn)練時(shí)神經(jīng)元存在不完全抑制情況,并且當(dāng)輸入模型較少時(shí),分類結(jié)果依賴于模式輸入的先后次序.
參數(shù)方法通過擬合圖像數(shù)據(jù)建立參數(shù)模型來描述膚色的分布.參數(shù)方法與非參數(shù)方法相比,可以采用較少的訓(xùn)練集來建立膚色模型,同時(shí)可以彌補(bǔ)非參數(shù)方法的高存儲(chǔ)要求.參數(shù)方法主要包括單高斯模型(SGM)、高斯混合模型(GMM)和橢圓模型(EM)等.
在SGM 中,平均向量周圍存在平滑的高斯分布,通過使用橢圓高斯在特定顏色空間將顏色向量C的多元正態(tài)分布建模為:
使用顏色空間為C j的N個(gè)膚色像素訓(xùn)練數(shù)據(jù)集,基于ML(最大似然)方法計(jì)算分布參數(shù),即均值向量(μ)和 對角協(xié)方差矩陣(Λ):
P(C;μ,Λ)可以直接衡量像素C屬于膚色的可能性.也可以通過高斯分布參數(shù)計(jì)算輸入像素C與均值μ的馬氏距離(MD):λc(C j)=(C j-μ)TΛ-1(C j-μ),距離大小表示輸入像素與膚色模型的接近程度.
SGM 方法比較簡單,具有計(jì)算成本低、存儲(chǔ)要求低的優(yōu)點(diǎn),但是在不同顏色空間中的性能不同.例如,Zhu SP 等[39]在YCbCr 顏色空間中采用SGM 進(jìn)行膚色檢測和唇部分割,實(shí)驗(yàn)結(jié)果表明,該方法滿足實(shí)時(shí)性、魯棒性和有效性的要求.Subban R 等[40]比較了不同顏色空間中SGM 的膚色檢測性能,結(jié)果顯示SGM 在YPbPr 顏色空間性能優(yōu)于CIE-XYZ,YCC 和YDbDr顏色空間.Montenegro J 等[41]基于自建數(shù)據(jù)庫,使用MCC(馬修斯相關(guān)系數(shù))作為評估指標(biāo)在RGB、HSV、YCbCr、CIEL*a*b*和CIEL*u*v*顏色空間中評估SGM 膚色檢測性能,得出CIEL*a*b*是性能最佳的顏色空間.
GMM 是多個(gè)高斯密度函數(shù)的標(biāo)準(zhǔn)化加權(quán)和[42].它補(bǔ)償了單高斯模型在處理一般膚色分割問題中誤檢率較高,以及其峰值分布的不對稱性而無法逼近實(shí)際分布的問題.GMM 定義如下:
其中,wj是每個(gè)核的權(quán)重,N是單個(gè)高斯分量的總數(shù).GMM 的學(xué)習(xí)過程與SGM 的學(xué)習(xí)過程不同,通常用期望最大化的迭代方法來估計(jì)擬合參數(shù).評估過程類似于SGM,可以利用概率本身或貝葉斯規(guī)則進(jìn)行分割.GMM 模型具有評估過程簡單和內(nèi)存成本低的特點(diǎn),引起了研究者的廣泛關(guān)注.Zhu QS 等[43]在GMM 的基礎(chǔ)上,提出了一種新的基于GMM 視頻膚色分割算法,實(shí)驗(yàn)表明該算法能有效、快速地分割出運(yùn)動(dòng)目標(biāo),具有較強(qiáng)的魯棒性.Hossain F 等[44]提出了一種通過估計(jì)圖像的變化照明和使用GMM 來進(jìn)行面部膚色提取的方法,實(shí)驗(yàn)結(jié)果表明與傳統(tǒng)的基于GMM 的膚色分割方法相比較,該方法適用于手術(shù)過程等實(shí)際應(yīng)用.不過,GMM 的計(jì)算過程比SGM 長且算法存在局限性.Caetano TS 等[45]對高斯分布性能的比較研究表明,混合模型僅在相關(guān)的操作區(qū)域(正檢率和誤檢率較高)中改善性能,此外增加內(nèi)核的數(shù)量并不能有效提高模型效率.圖3 是8 種高斯模型的ROC 曲線圖,可以看出所有高斯模型在操作點(diǎn)上表現(xiàn)出非常相似的性能.因此,混合高斯模型不一定是膚色建模的最佳選擇.
EM 方法是在特定顏色空間中,如RGB、YCbCr、CIEL*a*b*、CIEL*u*v*、CIE-XYZ 等,通過分析膚色簇的類橢圓形狀來估計(jì)膚色分布模型的方法,Lee JY 等[46]將橢圓模型定義為P(C;μ,Λ):
其中,N是樣本的總數(shù),Ω是色度矢量的平均值.給定輸入色度矢量C,可以使用閾值處理來計(jì)算像素的膚色概率[47].
圖3 8 種高斯模型的ROC 曲線圖[45]
Xu D 等[48]采用橢圓模型結(jié)合深度信息,在光照和復(fù)雜背景的變化環(huán)境下實(shí)現(xiàn)多人臉的定位.Tan WJ等[49]針對膚色檢測設(shè)備成像問題,在YCbCr 空間進(jìn)行橢圓擬合,并將其用于手勢分割,實(shí)驗(yàn)結(jié)果表明,該方法具有良好的精度,對特定的成像設(shè)備具有更好的通用性和環(huán)境適應(yīng)性.Li W 等[50]于CbCr-CgCr 空間提出雙橢圓模型進(jìn)行膚色分割和提取膚色區(qū)域,結(jié)合AdaBoost 級聯(lián)分類器進(jìn)行人臉檢測,該算法能夠有效地應(yīng)用于單面、多面、不同光照、背景復(fù)雜的人臉檢測.
Lee JY 等[46]在多個(gè)色度平面中(rg、CIE-uv、CIE-ab、CIExy、IQ、CbCr)對EM 和高斯模型進(jìn)行評估并得出結(jié)論:在所有顏色空間中,從檢測率的角度來看,EM 優(yōu)于SGM 和6 個(gè)內(nèi)核的GMM;從訓(xùn)練的角度來看,EM 比GMM 計(jì)算量少,參數(shù)簡單;在計(jì)算速度上,EM 幾乎與SGM 一樣快,但它比GMM 快.
綜上所述,基于統(tǒng)計(jì)的膚色檢測方法的主要優(yōu)勢是模型的建立和實(shí)施比較容易,集群形狀具有獨(dú)立性[51].相對而言,非參數(shù)方法的膚色檢測率相對更高,因?yàn)樵诟怕使烙?jì)的過程中沒有擬合誤差,但需要大量膚色像素作為訓(xùn)練集,當(dāng)需要精細(xì)分辨率時(shí),需要大型存儲(chǔ)器支持[51,52].參數(shù)方法不需要太多的訓(xùn)練集,可以彌補(bǔ)非參數(shù)方法的高存儲(chǔ)要求,但是計(jì)算成本高.
基于閾值的膚色檢測方法是通過明確規(guī)定膚色范圍來檢測膚色像素,主要考慮不同種族人群膚色的主要區(qū)別在于強(qiáng)度(亮度)而不是色度的特征.
基于閾值構(gòu)建膚色分類器是根據(jù)特定顏色空間中的膚色軌跡來定義分類規(guī)則,圖4 是不同顏色空間中的膚色軌跡分布圖.可以看出該方法與顏色空間的選擇密切相關(guān)[5,53].通常,分類規(guī)則用以確定顏色分量之間的關(guān)系,需要對每個(gè)顏色分量確定合適的閾值.選擇閾值的方法有很多,主要可以分為兩種:一種是手動(dòng)選擇閾值并以交互方式查看結(jié)果,通過不斷調(diào)試閾值得到最佳閾值,稱為閾值調(diào)試法;一種是使用閾值算法自動(dòng)計(jì)算閾值,稱為自適應(yīng)閾值處理.閾值調(diào)試法主要研究的是在特定顏色空間中明確定義膚色閾值范圍的方法.
圖4 不同顏色空間中膚色分布軌跡圖
Kovac J 等[5]在RGB 顏色空間提出一種閾值定義方法,在日光和閃光燈照明條件下,若滿足:
則認(rèn)為像素是膚色像素.在手電筒照明中,若滿足:
則認(rèn)為像素是膚色像素.
Gomez G 等[53]提出結(jié)合Harr 特征與膚色進(jìn)行人臉檢測的方法,后處理采用了明確定義閾值邊界的方法,實(shí)驗(yàn)結(jié)果表明該方法優(yōu)于著名的正面人臉檢測Viola-Jones 算法.閾值調(diào)試法經(jīng)常使用正交顏色空間進(jìn)行閾值選擇,如Sagheer A 等[54]在YCbCr 顏色空間確定了兩種照明條件下(正常光照和弱光照)的膚色CbCr 閾值范圍,式(11)和式(12)所示.
自適應(yīng)閾值方法針對的是可變環(huán)境下的膚色檢測,研究的是在特定顏色空間中動(dòng)態(tài)配置規(guī)則的方法.如Yang GZ 等[55]為了檢測面部膚色像素,在YCbCr 顏色空間基于像素亮度值的變化,定義動(dòng)態(tài)配置規(guī)則如下:
如果像素的Cb,Cr值滿足以下條件,則將其分類為膚色像素:
許多研究者采用感知顏色空間,來定義明確的閾值規(guī)則.如Zahir NB 等[56]提出了一種使用HSV 顏色空間的膚色邊界模型,滿足室內(nèi)和室外照明條件.Pitas I等[57]在HSV 顏色空間定義膚色像素閾值規(guī)則如式(16)所示.
Garcia C 等[58]基于HSV 顏色空間設(shè)計(jì)了更復(fù)雜的規(guī)則,如式(17)所示.
自適應(yīng)閾值方法的應(yīng)用研究有很多,如Fooprateepsiri R 等[59]在HSV 顏色空間結(jié)合自適應(yīng)閾值與面部重建算法,提高人臉識別的準(zhǔn)確性;Mariappan M 等[60]在CIEL*a*b*顏色空間結(jié)合自適應(yīng)閾值與橢圓模型算法來提高面部檢測準(zhǔn)確性,精度達(dá)到97%左右.此外,還可以融合不同顏色空間構(gòu)造檢測規(guī)則來減少誤報(bào)率,例如Xiang FH 等[61]提出了一種基于RGB 和YUV 組合顏色空間檢測膚色的方法,與歸一化rg、HSV、YUV、YIQ、YCbCr、RGB、YCbCr-YUV 等7 種顏色空間的檢測結(jié)果進(jìn)行比較,基于RGB-YUV 組合顏色空間是所提方法的最優(yōu)顏色空間.
顯式定義膚色閾值的方法具有分類規(guī)則簡單、易于調(diào)整、計(jì)算成本低等優(yōu)點(diǎn),但是對訓(xùn)練圖像和顏色空間有高度依賴性,另外,有時(shí)閾值的選取不能描述像素的實(shí)際分布情況,規(guī)則的有限性會(huì)降低分類器的檢測性能.
基于機(jī)器學(xué)習(xí)的膚色檢測方法是從一組訓(xùn)練數(shù)據(jù)中學(xué)習(xí)構(gòu)建膚色分類器,無需構(gòu)建明確的膚色模型.機(jī)器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),用于膚色檢測的機(jī)器學(xué)習(xí)大多是有監(jiān)督學(xué)習(xí)的方法.比較熱門的是采用人工神經(jīng)網(wǎng)絡(luò)(ANN)[62-65]的方法,人工神經(jīng)網(wǎng)絡(luò)分類如圖5 所示.
圖5 人工神經(jīng)網(wǎng)絡(luò)分類
人工神經(jīng)網(wǎng)絡(luò)模型主要考慮網(wǎng)絡(luò)連接的拓?fù)浣Y(jié)構(gòu)、神經(jīng)元特征、學(xué)習(xí)規(guī)則等.人工神經(jīng)網(wǎng)絡(luò)的基本處理單元是神經(jīng)元,一般是多輸入單輸出的單元,其結(jié)構(gòu)模型如圖6 所示,每兩個(gè)神經(jīng)元間的連接都代表一個(gè)對于通過該連接信號的加權(quán)值,稱之為權(quán)重.
圖6 神經(jīng)元模型
其中,xi表 示輸入信號;n個(gè) 輸入信號同時(shí)輸入神經(jīng)元j,wi j表示輸入信號xi與 神經(jīng)元j連接的權(quán)重值,bj表示神經(jīng)元的內(nèi)部狀態(tài)即偏置值,yj為神經(jīng)元的輸出.輸入與輸出之間的對應(yīng)關(guān)系可用式(18)表示:
其中,f(·)為激活函數(shù),可以有多種選擇,可以是線性糾正函數(shù)(ReLU)、Sigmoid 函數(shù)、Tanh(x)函數(shù)、徑向基函數(shù)等.
神經(jīng)網(wǎng)絡(luò)的輸出取決于網(wǎng)絡(luò)的結(jié)構(gòu)、網(wǎng)絡(luò)的連接方式、權(quán)重和激活函數(shù).人工神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)可以分為前饋神經(jīng)網(wǎng)絡(luò)和反饋神經(jīng)網(wǎng)絡(luò),前饋神經(jīng)網(wǎng)絡(luò)在膚色檢測問題中被廣泛采用[62].
與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)不同,多層神經(jīng)網(wǎng)絡(luò)即深度學(xué)習(xí)引入了用于訓(xùn)練具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò).深度學(xué)習(xí)本質(zhì)上是構(gòu)建含有多隱層的機(jī)器學(xué)習(xí)架構(gòu)模型,通過大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,得到大量更具代表性的特征信息.深度學(xué)習(xí)算法打破了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對層數(shù)的限制,可根據(jù)研究者需要選擇網(wǎng)絡(luò)層數(shù).目前,用于膚色檢測的深度學(xué)習(xí)算法最具有代表性的有卷積神經(jīng)網(wǎng)絡(luò)(CNN)[63,64]和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[65]等.
采用神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)進(jìn)行膚色檢測主要目的有兩個(gè):一是提高算法性能;二是解決膚色檢測存在的多種族膚色、多光照條件等膚色檢測挑戰(zhàn)問題.如Yasar A 等[66]用UCI(University of California Irvine)數(shù)據(jù)庫作為數(shù)據(jù)樣本,15% 的編號數(shù)據(jù)作為測試數(shù)據(jù),15%的隨機(jī)數(shù)據(jù)作為驗(yàn)證數(shù)據(jù),剩余的70%作為培訓(xùn)數(shù)據(jù),在RGB 顏色空間訓(xùn)練數(shù)據(jù)集,確定ANN 神經(jīng)元和偏差權(quán)重值.最終由4 個(gè)輸入層、10 個(gè)隱藏層和1 個(gè)輸出層構(gòu)成的神經(jīng)網(wǎng)絡(luò)得到了平均值超過99%的驗(yàn)證性能,同時(shí)可以消除年齡與種族帶來的膚色檢測影響.Vicentini RE 等[67]提出多層結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(RNA),每個(gè)RNA 的輸入層具有與RGB、HSV 和YCbCr 顏色空間參數(shù)相對應(yīng)的3 個(gè)接收器節(jié)點(diǎn),中間層有20 個(gè)神經(jīng)元,每個(gè)神經(jīng)元的輸出信號由LOGSIG激活函數(shù)處理,該函數(shù)將其輸出范圍限制在0(非膚色)和1(膚色)之間;輸出層包含單個(gè)神經(jīng)元,其激活函數(shù)為TANSIG,結(jié)果顯示,在YCbCr 顏色空間中對不同的光照條件有較好的檢測性能,一定程度上解決了光照條件對膚色檢測效果的影響.
除此之外,結(jié)合不同檢測算法與特征提高膚色檢測準(zhǔn)確性已經(jīng)成了一種新的研究趨勢.例如,Zuo HQ等[65]考慮了像素與鄰域的關(guān)系,結(jié)合全卷積神經(jīng)網(wǎng)絡(luò)(FCN)和回歸神經(jīng)網(wǎng)絡(luò)(RNN)進(jìn)行人體膚色檢測,采用2 個(gè)公開的膚色數(shù)據(jù)集COMPAQ 和ECU 進(jìn)行檢測,COMPAQ 和ECU 數(shù)據(jù)集都提供了具有多種屬性的真實(shí)膚色數(shù)據(jù),包括膚色背景、不均勻照明、相機(jī)特征、種族、年齡等,實(shí)驗(yàn)結(jié)果表明此方法有效地提高了復(fù)雜背景下膚色檢測算法的穩(wěn)定性.
Al-Mohair HK 等[68]考慮基于像素的檢測方法性能會(huì)受到特定顏色空間中膚色和非膚色重疊的限制,膚色點(diǎn)很難從非膚色點(diǎn)中分離出來.為了提高膚色檢測的準(zhǔn)確性,結(jié)合紋理特征提出了基于神經(jīng)網(wǎng)絡(luò)和K-均值聚類技術(shù)的混合人體膚色檢測算法,實(shí)驗(yàn)結(jié)果表明,該方法在ECU 數(shù)據(jù)庫(包含相同數(shù)量的膚色和非膚色像素)圖像可以實(shí)現(xiàn)高效率膚色檢測,表1 是文獻(xiàn)[68]的檢測方法與相關(guān)文獻(xiàn)中檢測方法的結(jié)果對比.可以看出神經(jīng)網(wǎng)絡(luò)結(jié)合K-均值聚類方法有更高的檢測率.
表1 不同檢測方法檢測率結(jié)果對比(%)
總體而言,深度學(xué)習(xí)的分層特性可以獲得更多的信息,在膚色檢測精確度方面優(yōu)于統(tǒng)計(jì)和閾值方法,但是增加隱藏層提高性能的同時(shí)也會(huì)增加訓(xùn)練時(shí)間與計(jì)算成本,確定網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)是其中的一大難點(diǎn).
通過對基于像素的膚色檢測方法研究現(xiàn)狀的分析,可以發(fā)現(xiàn),基于像素的膚色檢測方法大部分要考慮檢測方法的顏色空間選擇問題.其中,基于統(tǒng)計(jì)的非參數(shù)方法訓(xùn)練簡單快速,但強(qiáng)烈依賴于膚色簇的形狀,擬合度與訓(xùn)練集的大小會(huì)直接影響參數(shù)方法分類器的性能.基于閾值的方法最容易操作,但用其難以實(shí)現(xiàn)高識別率,主要困難是需要根據(jù)經(jīng)驗(yàn)找到適當(dāng)?shù)念伾臻g和決策規(guī)則.與傳統(tǒng)的檢測方法相比,機(jī)器學(xué)習(xí)會(huì)較少地依賴先驗(yàn)知識,分類精確度較高,但機(jī)器學(xué)習(xí)的研究難點(diǎn)是結(jié)構(gòu)復(fù)雜度和高訓(xùn)練成本.
從這些技術(shù)現(xiàn)狀可以看出,基于像素的膚色檢測目前仍然存在如下主要問題.
(1)檢測方法與顏色空間的選擇.基于像素的檢測方法大部分都要確認(rèn)顏色空間的選擇,顏色空間的選擇與數(shù)據(jù)庫圖像若干因素相關(guān),例如照明、成像條件、噪聲、圖像尺寸及清晰度等.這些圖像可以改變特定顏色空間的檢測結(jié)果.為了找到檢測方法的最優(yōu)顏色空間,應(yīng)考慮可能影響性能的所有因素.
(2)檢測任務(wù)的數(shù)據(jù)樣本與評價(jià)標(biāo)準(zhǔn)的建設(shè).目前,雖然文獻(xiàn)中有許多膚色模型,但是如何測量模型的實(shí)用性,以及該模型的有效性范圍都存在限制.通常,模型的性能取決于許多因素,例如使用的顏色空間、分布的形狀、使用的參數(shù)、數(shù)據(jù)的性質(zhì)、訓(xùn)練樣本的大小、圖像特征、噪聲數(shù)據(jù)等.為了定量客觀地比較各種膚色檢測技術(shù),需要加強(qiáng)公用膚色數(shù)據(jù)庫的建設(shè),統(tǒng)一方法評測標(biāo)準(zhǔn)和規(guī)范.
(3)光照、種族、成像設(shè)備和復(fù)雜背景等膚色挑戰(zhàn)問題的解決與繼續(xù)優(yōu)化.雖然許多檢測方法考慮到膚色檢測挑戰(zhàn)帶來的影響,并試圖解決這些不利因素.但都是針對單一因素的解決,需要改進(jìn)算法解決多因素影響下的膚色挑戰(zhàn)任務(wù).
針對這些問題,本文歸納了未來基于像素的膚色檢測方法的一些發(fā)展趨勢,供讀者參考.
(1)結(jié)合空間信息的膚色檢測.膚色特征通常單獨(dú)使用效果不佳,結(jié)合與空間分布有關(guān)的信息,如紋理、形狀和梯度等,可以有效提高膚色檢測性能.
(2)自適應(yīng)動(dòng)態(tài)膚色模型的建立.手動(dòng)建立的膚色模型在不同的檢測條件下會(huì)有局限性.建立動(dòng)態(tài)膚色模型包括動(dòng)態(tài)直方圖、高斯分布自適應(yīng)等膚色分布動(dòng)態(tài)更新方法,在提高檢測性的同時(shí)更好地適應(yīng)于不同的檢測環(huán)境.
(3)預(yù)處理與后處理步驟的加強(qiáng).預(yù)處理對于排除復(fù)雜背景以及減少光照影響至關(guān)重要,可以通過照明補(bǔ)償技術(shù)增強(qiáng)檢測方法對光照的可控程度.通過形態(tài)學(xué)后處理增強(qiáng)膚色分割的效果.
(4)結(jié)合不同檢測算法進(jìn)行膚色檢測與識別.每種膚色檢測算法都有各自的優(yōu)缺點(diǎn),可以通過不同方法的融合實(shí)現(xiàn)分類精度高、易操作和降低復(fù)雜度及訓(xùn)練成本,同時(shí)提高膚色檢測準(zhǔn)確度的檢測效果.
基于像素的膚色檢測方法是膚色檢測技術(shù)采用的基礎(chǔ)方法.其中,基于統(tǒng)計(jì)與基于閾值的膚色檢測方法著重于參數(shù)與聚類模型的建立,易操作;基于機(jī)器學(xué)習(xí)的方法通過訓(xùn)練數(shù)據(jù)集找到膚色區(qū)域,檢測精度高.它們的局限性都在于不能適應(yīng)動(dòng)態(tài)實(shí)時(shí)檢測任務(wù),以及開放式數(shù)據(jù)庫的檢測.本文探討了基于像素的膚色檢測方法相關(guān)理論與研究,歸納了現(xiàn)存研究問題與發(fā)展趨勢.最終目的是為膚色檢測的方法及其應(yīng)用的研究提供參考.