陳俊任,劉瑞航
(1.四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,成都 610065;2.四川大學(xué)軟件學(xué)院,成都 610065)
近年來,社交媒體和互聯(lián)網(wǎng)能搜索發(fā)現(xiàn)越來越多有關(guān)不良(色情)圖片和不良(含有性暗示)的小視頻等網(wǎng)頁資源[1-2]。相關(guān)研究表明,瀏覽網(wǎng)絡(luò)色情制品不利于人們的身心健康,其危害對青少年來說影響更大[2]。因此,網(wǎng)絡(luò)色情的識別對于網(wǎng)絡(luò)資源和文化的健康發(fā)展具有重要意義。設(shè)計一種實用有效的色情圖像識別方法勢在必行。另外,如何檢測和識別網(wǎng)絡(luò)色情一直是網(wǎng)絡(luò)信息安全領(lǐng)域廣泛關(guān)注的問題之一。色情圖片是網(wǎng)絡(luò)色情的重要組成部分,并且由于計算機(jī)視覺的發(fā)展,基于內(nèi)容的色情圖像識別受到廣泛關(guān)注。因此,需要一種實用而有效的色情圖像識別方法對網(wǎng)絡(luò)上的圖片資源進(jìn)行合理有效的色情過濾分類。
色情圖像識別是一個典型的二分類問題:圖像色情與正常;目前在色情圖像識別領(lǐng)域以基于內(nèi)容的方法來識別色情圖像的方法中,這些方法主要可以歸納為三類:基于人體膚色識別的方法[3-6],基于手工特征的方法[7-9]以及基于深度學(xué)習(xí)的方法[10-12]。其中,基于人體膚色識別是最簡單而直接的方法。該類方法關(guān)注于檢測整個圖像中的人體膚色,通過膚色所占整個圖像的比例來判斷該圖像的性質(zhì)是否為色情。由于許多類似膚色的正常圖像(例如沙灘)以及具有較大膚色比例的圖像(例如比基尼、面部特寫)等在基于人體膚色的方法情況下具有很高的誤報率。為了克服基于膚色識別方法的缺點,基于手工特征的方法被提出。該類方法關(guān)注于對色情圖像特征的設(shè)計與提取。一方面,其性能的優(yōu)劣依賴于專家對手工特征的設(shè)計。另一方面,由于圖像攝影條件的復(fù)雜性和色情內(nèi)容的多樣性,人工設(shè)計穩(wěn)定可靠的特征變得困難。隨著深度學(xué)習(xí)在計算機(jī)視覺的廣泛應(yīng)用,基于深度學(xué)習(xí)的方法被用于色情圖像檢測。這是一種自動化的技術(shù),能夠適應(yīng)互聯(lián)網(wǎng)上圖像內(nèi)容和規(guī)模的多樣性。并且該方法能夠充分利用數(shù)據(jù),自動地提取低維到高維的圖像特征。因此,本文提出的色情圖像識別模型PIRPDA(Pornographic Images Recognition with Pre-Filtering and Data Augmen?tation)也將基于深度學(xué)習(xí)方法。
綜上,當(dāng)前基于深度學(xué)習(xí)的色情圖像識別仍然面臨許多挑戰(zhàn)。首先,人的面部特寫鏡頭以及嬰兒圖像仍然容易被識別為色情圖像;其次,深度學(xué)習(xí)的需要大量的相關(guān)圖像進(jìn)行訓(xùn)練,由于色情圖像數(shù)據(jù)集少使得基于深度學(xué)習(xí)的色情圖像識別的訓(xùn)練容易產(chǎn)生過擬合,并且采用傳統(tǒng)的數(shù)據(jù)增強方法比如隨機(jī)裁剪可能會為我們的色情圖像識別任務(wù)生成許多錯誤的標(biāo)簽。
針對上述問題,本文提出了PIRPDA模型,一種改進(jìn)的基于深度學(xué)習(xí)的色情圖像識別模型。該模型由數(shù)據(jù)增強部分,人臉識別與年齡檢測部分和色情內(nèi)容識別部分共同組成,提高色情圖像識別的準(zhǔn)確率。此外,在本文的PIRPDA模型中,還設(shè)計了能夠適用于色情圖像的數(shù)據(jù)增強方法。
根據(jù)現(xiàn)有色情圖像檢測技術(shù)的識別方法,主要可分為三類:基于人體膚色識別的方法[3-6],基于手工特征的方法[7-9]和基于深度學(xué)習(xí)的方法[10-12]。
基于人體膚色的檢測方法因其直觀性而較早得到研究者的關(guān)注。通過利用具有大塊皮膚的圖像與成人或色情圖像之間存在強相關(guān)性的事實,皮膚檢測器可以用作成人圖像檢測器的基礎(chǔ)。而皮膚和非皮膚分布之間存在很大程度的可分離性,利用通用直方圖顏色模型[13],構(gòu)建出皮膚和非皮膚顏色模型,為了檢測成人圖像,基于皮膚檢測器的輸出形成特征向量,然后在一組標(biāo)記的特征向量上訓(xùn)練神經(jīng)網(wǎng)絡(luò)分類器。但這種方法過于依賴于膚色識別的效果而且我們的數(shù)據(jù)集圖片證明擁有高膚色像素的圖像不一定是色情材料。所以研究者們將目前成人圖像識別大體分三類:裸體圖像;敏感部位特寫圖像;色情動作/性行為圖像??紤]到拍攝時的圖像照明條件,將圖像轉(zhuǎn)換為YCbCr顏色空間;提取出轉(zhuǎn)換后的顏色模型關(guān)于人膚色的闕值;計算圖像中皮膚像素的數(shù)量;最后通過皮膚所占圖像的百分比進(jìn)行分類[14]。2018年還有學(xué)者將這個方法更加完善[15]:在預(yù)處理階段,每個文件都經(jīng)歷直方圖均衡,光照校正,降噪和銳化;并基于像素(閾值)的分割而非基于區(qū)域的分割;通過紋理過濾器(高斯低通濾波器)刪除錯誤地歸類為皮膚像素的像素。并且用YCbCr顏色模型,消除圖像的其他區(qū)域和仍然不被視為人類皮膚的框架。由于基于人體膚色的檢測方法非常依賴對膚色的識別的效果,而且具有很高的誤判的可能,于是研究者們就將皮膚檢測出來的結(jié)果與其他不同的圖像識別結(jié)果(例如,乳房等性器官)進(jìn)一步結(jié)合,提高色情圖像識別的準(zhǔn)確率。為了進(jìn)一步提高色情圖像識別的準(zhǔn)確率,研究人員開始嘗試結(jié)合領(lǐng)域知識背景,通過設(shè)計手工特征的方法,來進(jìn)一步識別色情圖像。從最開始使用不同形狀描述符的組合可以增強形狀分類的性能[16]。其方法為首先進(jìn)行皮膚檢測(多貝葉斯分類器檢測),將圖像二值化為皮膚區(qū)域和非皮膚區(qū)域。之后提取這些皮膚區(qū)域的形狀特征,并使用增強分類器AdaBoost來確定這些皮膚區(qū)域是否代表裸體。但是手工特征設(shè)計復(fù)雜,而且面對的數(shù)據(jù)集又是各不同的,解決的問題比較單一,不具有普適性,所以無法應(yīng)用到真正的應(yīng)用中去。近年來,由于深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的完全自動化解決方案在大眾普遍的數(shù)據(jù)集上的表現(xiàn)要逐漸優(yōu)于基于手工制作的特征描述符解決方案的準(zhǔn)確性。Moustaf等人是使用卷積神經(jīng)網(wǎng)絡(luò)做圖片鑒黃最早的研究之一[17]。其使用的方法將ImageNet數(shù)據(jù)集作預(yù)訓(xùn)練。并將ImageNet數(shù)據(jù)集預(yù)訓(xùn)練好的AlexNet和GoogleNet直接在自己的數(shù)據(jù)集上做微調(diào)(finetune),之后將兩個模型的輸出結(jié)果進(jìn)行投票得到最終的分類結(jié)果。這些方法往往表現(xiàn)出依賴大量數(shù)據(jù)集的特點,且模型較為復(fù)雜,容易過擬合。但是相比前兩個方法,他的結(jié)果更為讓人信服,且具有很強的普適性,在面對大量數(shù)據(jù)集會有很好的表現(xiàn)效果。
綜上所述,現(xiàn)有方法沒有考慮到人的面部特寫鏡頭以及嬰兒圖像與色情圖像特征之間的相似性。盡管采用當(dāng)前流行的神經(jīng)網(wǎng)絡(luò)來進(jìn)行識別,但檢測誤報率較高;其次,深度學(xué)習(xí)的需要大量的相關(guān)圖像進(jìn)行訓(xùn)練,由于色情圖像數(shù)據(jù)集少使得基于深度學(xué)習(xí)的色情圖像識別的訓(xùn)練容易產(chǎn)生過擬合,并且采用傳統(tǒng)的數(shù)據(jù)增強方法比如隨機(jī)裁剪可能會在色情圖像中裁取到非色情的正常部分。在這種情況下,會錯誤地將色情類這個標(biāo)簽賦予裁取出的正常部分的圖像,這將增大神經(jīng)網(wǎng)絡(luò)對色情圖像識別的誤報率。此外,一些圖像翻轉(zhuǎn)比如倒置產(chǎn)生的圖像并不完全符合真實的色情圖像,這將降低識別的準(zhǔn)確率。
本文提出的PIRPDA模型由三部分組成:數(shù)據(jù)增強部分、人臉識別與年齡檢測部分、色情內(nèi)容識別部分。數(shù)據(jù)增強部分通過改變圖像的光照條件和顏色通道值等增加訓(xùn)練集中的色情圖像,這為色情圖像識別任務(wù)設(shè)計了合理的數(shù)據(jù)增強方案;人臉識別與年齡檢測部分則是通過使用適用于未成年人的人體測量學(xué)模型(Anthro?pometric Models);色情內(nèi)容識別部分是基于當(dāng)前強大的卷積神經(jīng)網(wǎng)絡(luò)模型ResNet,并且采用預(yù)訓(xùn)練的方法來減少對本文中色情圖像識別任務(wù)的訓(xùn)練時間。
本文提出的PIRPDA模型的整體框架如圖1所示。首先對訓(xùn)練集中的色情圖像進(jìn)行數(shù)據(jù)增強。然后進(jìn)行人臉識別與年齡檢測,過濾掉一些人臉圖像和嬰兒圖像這些與色情圖像特征有較高相似性的正常圖像。最后將上一步未過濾掉的圖像進(jìn)行色情內(nèi)容識別,其中輸出五個類別,分別是:neutral(普通)、porn(色情)、hentai(動漫色情、圖畫)、drawings(普通動漫、圖畫)、sexy(性感)。
與其他圖像任務(wù)識別相比,色情圖像中的一部分可能是良性的。例如人體的非性器官的皮膚區(qū)域部分。傳統(tǒng)的數(shù)據(jù)增強方案比如隨機(jī)裁剪,便可能在色情圖像中裁取出正常圖像。由于對色情圖像進(jìn)行數(shù)據(jù)增強,擴(kuò)增的圖像將統(tǒng)一被標(biāo)識為色情類。因此,經(jīng)過這種方法,通過色情圖像獲的正常圖像將被錯誤地貼上色情的標(biāo)簽。此外,某些角度的圖像翻轉(zhuǎn)并不符合實際情況。這些傳統(tǒng)的數(shù)據(jù)增強方法都將干擾神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。本文中,在經(jīng)過數(shù)據(jù)增強方法后,為了讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到通道顏色、光照條件等對于色情對象類別不變的重要特征,本文做了一些適用于色情圖像的數(shù)據(jù)處理工作,例如通過鏡像翻轉(zhuǎn)和通道顏色變化等不改變色情圖像性質(zhì)的方法來設(shè)計數(shù)據(jù)增強方案。假設(shè)每個圖像xi∈X={x1,x2,…,xn},具體的操作如下:首先生成色情圖像的鏡像對稱圖。因為對人類而言,鏡面對稱的圖像并沒有改變圖像的色情本質(zhì)信息;但對計算機(jī)而言,兩個互為鏡像對稱的圖像,由于其像素點的分布不同而被視為兩個不同的圖像。此外,色情圖像的,鏡像對稱可視為因拍攝角度的不同而產(chǎn)生。因此該方法能夠合理地倍增色情圖像數(shù)據(jù)集,鏡像對稱的數(shù)據(jù)增強方法可通過以下公式定義:
其中,X表示重塑最短邊尺寸后的圖像數(shù)據(jù)集;Mirror(?)表示將原始圖像進(jìn)行鏡像翻轉(zhuǎn)操作。
之后,隨機(jī)選擇0.5到1.5之間的三個數(shù)字作為增強量(設(shè)置為1表示圖像不變),并且增強量作用于隨機(jī)的RGB三個通道之一。顏色通道值的改變在一定程度上模擬了不同人的膚色信息,此外,該數(shù)據(jù)增強方法并沒有改變色情圖像的本質(zhì),因此有利于增強神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型的健壯性,該方法可通過下式定義:
其中,αi,βi,γi∈[0.5,1.5] 并且各自為隨機(jī)選取的值;xi∈X,為原始圖像;xi'∈X',為原始圖像經(jīng)過鏡像翻轉(zhuǎn)操作后獲取的圖像;RGB(?)表示應(yīng)該被隨機(jī)改變的RGB三個通道之一。
最后,將隨機(jī)照明噪聲添加到圖像。通過合理地模擬增加不同圖像的拍攝光照條件,保留了色情圖像的本質(zhì)信息。該數(shù)據(jù)增強方法可通過下式定義:
其中,Light(?)表示隨機(jī)改變的照明條件。
上面介紹中提到的數(shù)據(jù)增強方案可以正確地捕獲自然圖像中的色情內(nèi)容,因為它們不會改變原始圖像的類別。并且,它使我們的神經(jīng)網(wǎng)絡(luò)對于照明強度和顏色的變化或其他變換具有不變性,從而使神經(jīng)網(wǎng)絡(luò)模型更加健壯。此外,經(jīng)過數(shù)據(jù)增強后獲取的大量數(shù)據(jù)在一定程度上會減少神經(jīng)網(wǎng)絡(luò)模型的過擬合。
圖1 PIRPDA模型整體框架圖
由于存在像嬰兒、人臉特寫等相關(guān)噪聲圖片,他們并不屬于色情圖像,卻可能因為其皮膚區(qū)域過多,像素過于密集等因素影響分類器的判斷。所以在將圖片輸入到分類器中前,先將測試圖片輸入到人臉識別模型中,定位到圖片的人臉區(qū)域,如果存在人臉區(qū)域,判斷其占整個圖片的比例是否超過閾值,若超過,則將其歸類為人臉特寫圖像,若未超過則繼續(xù)下一步,接著對人臉區(qū)域進(jìn)行年齡預(yù)測,判斷他的年齡是否其在閾值以下,若超過,則將其歸類為非嬰兒圖片,繼續(xù)下一步。
本文提出的PIRPDA模型中的人臉識別于年齡檢測部分可分為人臉檢測與定位、年齡特征提取、年齡估計、系統(tǒng)性能評價幾個方面。本文選取的數(shù)據(jù)集是Ad?ience Benchmark Of Unfiltered Faces For Gender And Age Classification數(shù)據(jù)集,有26580張,包括了2284個人的圖片。在人臉信息特征方面,本文采用手動提取特征使用的是人體測量學(xué)模型(Anthropometric Mod?els)。由于人體測量學(xué)模型主要適合于對未成年人進(jìn)行年齡分類符合我們的預(yù)期分類目標(biāo),且輸入的圖片多為已經(jīng)進(jìn)行人臉檢測正面人臉圖像對人體姿勢要求較少,利用了人臉的幾何形狀特征進(jìn)行年齡分類,通過八個特征點六種距離主要是描述隨著年齡的增長人臉整體輪廓變化的數(shù)學(xué)規(guī)律,它所測量的是人臉的一種結(jié)構(gòu)信息。主要過程歸納為人臉輪廓檢測,人臉特征點定位,多種幾何比例測量(如兩眼之間的間距等),最后利用幾何比例進(jìn)行年齡段的區(qū)分。在本文中,標(biāo)簽?zāi)挲g段分別為:0-2,4-6,8-13,15-20,25-32,38-43,48-53,60+。該部分的評價指標(biāo)采用平均絕對誤差(MAE)和累積指數(shù)(CS),其中平均絕對誤差(MAE)作為平均絕對誤差是指估計年齡和真實年齡之間絕對誤差的平均值,累積指數(shù)(CS)是因為關(guān)注更多的是所估計出的年齡值的絕對誤差范圍是否在人們能接受的范圍內(nèi)。平均絕對誤差與累積指數(shù)的定義如下:
其中,Sk為真實年齡;為估計年齡;N是所有測試圖像的個數(shù);Nθ≤j表示測試圖像中估計年齡與真實年齡的絕對誤差不超過j年的測試圖像數(shù)。
根據(jù)評價指標(biāo)的定義,平均絕對誤差越小表示誤差范圍越小,該算法準(zhǔn)確性越高而累積指數(shù)越大,說明估計年齡越接近真實年齡,年齡估計越準(zhǔn)確。
在本文中,提出的PIRPDA模型的色情內(nèi)容識別部分的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)受到ResNet50神經(jīng)網(wǎng)絡(luò)模型架構(gòu)的啟發(fā)而設(shè)計。該部分使用ImageNet進(jìn)行預(yù)訓(xùn)練,并采用色情圖像數(shù)據(jù)集進(jìn)行訓(xùn)練。此外,該部分神經(jīng)網(wǎng)絡(luò)的最后一層采用Softmax激活函數(shù),其分類數(shù)設(shè)置為5,分別為:porn(色情)、hentai(動漫色情、圖畫)、sexy(性感)、neutral(普通)、drawings(普通動漫、圖畫)。因此,該部分訓(xùn)練的優(yōu)化目標(biāo)為五元交叉熵,其定義如下:
其中,X表示訓(xùn)練數(shù)據(jù)集;yi,c∈Y表示訓(xùn)練數(shù)據(jù)集對應(yīng)的標(biāo)簽;C=5代表類別數(shù);pi,c∈P表示第i個樣本預(yù)測為第c類標(biāo)簽的概率,c取值的具體意義為:c=0 :neutral(普通),c=1:porn(色情),c=2:hentai(動漫色情、圖畫),c=3:drawings(普通動漫、圖畫),c=4 :sexy(性感)。
神經(jīng)網(wǎng)絡(luò)模型的性能受深度影響,當(dāng)增加網(wǎng)絡(luò)層數(shù)后,網(wǎng)絡(luò)可以進(jìn)行更加復(fù)雜的特征模式的提取,所以當(dāng)模型更深時理論上可以取得更好的結(jié)果。因此,本文提出的PIRPDA模型的色情內(nèi)容識別部分將采用深層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型。但是深層網(wǎng)絡(luò)存在著梯度爆炸或者消失的問題,這使得深度學(xué)習(xí)模型難以訓(xùn)練。為了解決上述問題,本文提出的PIRPDA模型的色情內(nèi)容識別部分將引入短路跳躍鏈接,其結(jié)構(gòu)如圖2所示。
假設(shè)神經(jīng)網(wǎng)絡(luò)第l層的色情圖像的特征圖為ml,之后經(jīng)過一層卷積操作(Convolution)提取色情特征,然后進(jìn)行批歸一化(Batch Normalization,BN),使得輸出結(jié)果的均值為0,方差為1,這有效防止了神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的梯度彌散效應(yīng)。之后通過修正線性單元(Recti?fied Linear Unit,ReLU)。由于非負(fù)區(qū)間的梯度為常數(shù),因此不存在梯度消失問題,使得模型的收斂速度維持在一個穩(wěn)定狀態(tài)。之后再依次通過卷積和批歸一化操作得到中間的輸出向量F(ml,Wl)。將這個中間的輸出向量F(ml,Wl)與色情圖像的特征圖為ml進(jìn)行結(jié)合,從而將信息傳遞到神經(jīng)網(wǎng)絡(luò)的更深層。最后再次通過修正線性單元,輸出第l+1層的色情圖像的特征圖ml+1。綜上,經(jīng)過本文提出的PIRPDA模型中色情內(nèi)容識別部分的短路跳躍鏈接后的第l+1層的色情圖像的特征圖ml+1由下式定義:
其中,ReLU{?}表示 ReLU激活函數(shù);Wl表示當(dāng)前特征圖所對應(yīng)的權(quán)重向量;Conv(?)表示神經(jīng)網(wǎng)絡(luò)的卷積操作;BN[?]表示批標(biāo)準(zhǔn)化操作。
通過神經(jīng)網(wǎng)絡(luò)的正向傳播計算當(dāng)前優(yōu)化目標(biāo)的值,并且通過反向傳播以及梯度更新策略減小優(yōu)化目標(biāo)的值,最終訓(xùn)練出本文提出的PIRPDA模型中色情內(nèi)容識別部分神經(jīng)網(wǎng)絡(luò)模型。
在本文中,使用了Intel Core i7 6700k 6.4 GHz CPU、64 GB RAM和4 NVIDIA GTX2080 Ti GPU的主機(jī)作為實驗環(huán)境。數(shù)據(jù)集則是通過在網(wǎng)上收集了porn(色情)、hentai(動漫色情、圖畫)、sexy(性感)、neutral(普通)、drawings(普通動漫、圖畫)這五類共計六十萬張圖片,其中10%的數(shù)據(jù)被用作測試集。本文提出的PIRPDA模型的實驗結(jié)果如圖3所示。實驗表明,在色情圖像識別方面達(dá)到了93.862%的準(zhǔn)確率。
圖2 短路跳躍鏈接結(jié)構(gòu)圖
圖3 標(biāo)準(zhǔn)化的混淆矩陣圖
為了探究本文提出的PIRPDA模型中的數(shù)據(jù)增強部分和人臉識別與年齡檢測部分的效果,本文采用控制變量法的原則,分別設(shè)置了三組對比實驗:實驗A:去掉數(shù)據(jù)增強部分的PIRPDA模型;實驗B:去掉人臉識別與年齡檢測部分的PIRPDA模型;實驗C:同時去掉數(shù)據(jù)增強部分和人臉識別與年齡檢測部分的PIRP?DA模型。實驗結(jié)果如表1所示。實驗表明,通過過濾掉人臉特寫圖像以及嬰兒圖像以及對數(shù)據(jù)的增強方案,能夠提高色情圖像識別的準(zhǔn)確率。
表1 有無數(shù)據(jù)增強部分和人臉識別與年齡檢測部分的對比實驗
此外,本文使用了公開的色情圖像數(shù)據(jù)庫NPDI[18],該色情數(shù)據(jù)庫是巴西一所大學(xué)的一個小組所收集發(fā)布,它包含了了80個小時的視頻,包括400段正常的視頻,200段比較容易混淆的正常視頻和200段色情視頻。NPDI圖像數(shù)據(jù)庫包含了各種不同種類的圖像,不同種族,不同膚色,以及不同分辨率,多模態(tài)(實物、動漫),還包括很多特別容易混淆的非色情場景,這些對于色情圖像識別任務(wù)都是一個挑戰(zhàn)。在本文的實驗中,通過截取關(guān)鍵幀的方式從NPDI色情數(shù)據(jù)庫獲取兩萬張圖像,其中色情圖像和非色情圖像各一萬張。
本文將提出的PIRPDA模型與基于膚色的方法(Skin-based)、基于詞袋的方法(BoVW-based)、基于卷積神經(jīng)網(wǎng)絡(luò)的方法(CNN-based)以及基于殘差卷積神經(jīng)網(wǎng)絡(luò)的方法(ResNet-based)在公開的色情圖像數(shù)據(jù)庫NPDI上進(jìn)行對比,其結(jié)果如圖4所示。
圖4 對比實驗準(zhǔn)確率圖
實驗表明,基于膚色的方法準(zhǔn)確率最低。這是由于該類方法關(guān)注于檢測整個圖像中的人體膚色,通過膚色所占整個圖像的比例來判斷該圖像的性質(zhì)是否為色情。但存在許多類似膚色的正常圖像(例如沙灘)以及具有較大膚色比例的圖像(例如比基尼、面部特寫)等,這些圖像對基于人體膚色的方法具有很高的誤報率。基于詞袋的方法是通過構(gòu)建色情內(nèi)容圖像的視覺詞袋(例如乳房、陰莖等性器官)來進(jìn)行識別的。這類方法需要相關(guān)的知識背景來人工提取色情信息。但該類方法的準(zhǔn)確率并不高的主要原因是由于其性能的優(yōu)劣依賴于專家對手工特征的設(shè)計,并且由于圖像攝影條件的復(fù)雜性和色情內(nèi)容的多樣性,人工設(shè)計穩(wěn)定可靠的特征變得困難。此外,基于卷積神經(jīng)網(wǎng)絡(luò)的方法,基于殘差卷積神經(jīng)網(wǎng)絡(luò)的方法和本文提出的PIRPDA模型的準(zhǔn)確率均超過了85%。這是由于神經(jīng)網(wǎng)絡(luò)具有強大的特征提取功能,是一種自動化的技術(shù),能夠適應(yīng)互聯(lián)網(wǎng)上圖像內(nèi)容和規(guī)模的多樣性,并且該方法能夠充分利用數(shù)據(jù),自動地提取低維到高維的圖像特征。在圖4中,本文提出的方法在NPDI取得了93.268%的準(zhǔn)確率,優(yōu)于其他主流的色情圖像識別方法。
本文提出了一種改進(jìn)的基于深度學(xué)習(xí)的色情圖像識別模型PIRPDA。該模型由數(shù)據(jù)增強部分、人臉識別與年齡檢測部分、色情內(nèi)容識別部分三部分組成。數(shù)據(jù)增強部分通過改變圖像的關(guān)照條件和顏色通道值等增加訓(xùn)練集中的色情圖像,這為色情圖像識別任務(wù)設(shè)計了合理的數(shù)據(jù)增強方案;人臉識別與年齡檢測部分則是通過使用適用于未成年人的人體測量學(xué)模型;色情內(nèi)容識別部分是基于當(dāng)前強大的卷積神經(jīng)網(wǎng)絡(luò)模型ResNet,并且采用預(yù)訓(xùn)練的方法來減少對本文中色情圖像識別任務(wù)的訓(xùn)練時間。實驗表明在NPDI數(shù)據(jù)集上取得了93.268%的準(zhǔn)確率,優(yōu)于其他主流的色情圖像識別方法。然而色情圖像和性感圖像的區(qū)分在本文提出的PIRPDA模型中仍然不能很好地區(qū)分。在未來的研究工作中,我們將致力于如何更好地區(qū)分色情圖像與性感圖像之間的邊界。