范 亮,閆玲博,韋占坤,金 星,吳庚杰
(1.中國(guó)人民解放軍75837部隊(duì),廣東 廣州 510000;2.國(guó)防科技大學(xué)信息通信學(xué)院,陜西 西安 710106)
隨著社會(huì)的發(fā)展與進(jìn)步,人們的日常生活已經(jīng)與各式各樣的數(shù)據(jù)息息相關(guān)?;A(chǔ)數(shù)據(jù)作為社會(huì)服務(wù)的支撐,已經(jīng)開(kāi)始讓大家意識(shí)到公共服務(wù)質(zhì)量的好壞在很大程度上依賴于基礎(chǔ)數(shù)據(jù)的規(guī)范性與準(zhǔn)確性,特別是對(duì)于涉及公共服務(wù)的基礎(chǔ)數(shù)據(jù)則顯得尤為重要。當(dāng)前為了改善數(shù)據(jù)的規(guī)范性和準(zhǔn)確性通常采用以下兩種方式:在數(shù)據(jù)采集錄入時(shí),基于數(shù)據(jù)錄入要求和填報(bào)規(guī)則等約束條件實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)確與規(guī)范;在數(shù)據(jù)匯聚整編時(shí),基于規(guī)則匹配和人工核對(duì)相結(jié)合的審核校驗(yàn)方式實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)確與規(guī)范。由于前一種方式往往對(duì)系統(tǒng)部署統(tǒng)一性要求較高,在當(dāng)前大數(shù)據(jù)相互融合匯聚的趨勢(shì)下并不能完全解決基礎(chǔ)數(shù)據(jù)的規(guī)范性和準(zhǔn)確性的所有問(wèn)題,因而第二種方式始終作為數(shù)據(jù)管理的一項(xiàng)重要的補(bǔ)充手段受到大家的重視。
當(dāng)前數(shù)據(jù)審核校驗(yàn)通常采用基于規(guī)則和模式匹配的方式[1-2]實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)化審核校驗(yàn),然而對(duì)于文本、媒體等非格式數(shù)據(jù)的審核校驗(yàn)往往只能基于人工核對(duì)的方式進(jìn)行篩選判斷,因而當(dāng)面對(duì)大量數(shù)據(jù)的審核校驗(yàn)任務(wù)時(shí)則顯得力不從心,進(jìn)而影響了基礎(chǔ)數(shù)據(jù)在公共服務(wù)中的支撐保障效果。
得益于近些年來(lái)計(jì)算資源的升級(jí)和機(jī)器學(xué)習(xí)算法的發(fā)展,人們已經(jīng)在人工智能領(lǐng)域取得了長(zhǎng)足的進(jìn)步。特別深度神經(jīng)網(wǎng)絡(luò)算法的再度興起,人工智能算法當(dāng)前在部分領(lǐng)域所展現(xiàn)的工作能力足以與人工相媲美。例如,在文獻(xiàn)[3-5]介紹了采用深度卷積網(wǎng)絡(luò)實(shí)現(xiàn)圖片媒體數(shù)據(jù)中特定物體特征屬性的自動(dòng)化學(xué)習(xí),并實(shí)現(xiàn)了泛化樣本中相應(yīng)物體的檢測(cè)與判別。通過(guò)在ImageNet等公開(kāi)數(shù)據(jù)集上的測(cè)試,上述算法的識(shí)別準(zhǔn)確率已經(jīng)超過(guò)人工識(shí)別水平取得令人驚喜的實(shí)際效果。相較而言,當(dāng)前基礎(chǔ)數(shù)據(jù)中非結(jié)構(gòu)化媒體數(shù)據(jù)上的審核校驗(yàn)依舊依靠人工比對(duì)的方式進(jìn)行,因此在工作效率和保障效果上都存在較大缺陷。例如在人力資源系統(tǒng)中審核相關(guān)人員照片的級(jí)別、崗位等信息內(nèi)容時(shí),只能粗粒度核查重要崗位領(lǐng)導(dǎo)人員的信息。
針對(duì)上述等問(wèn)題,為了有效緩解當(dāng)前非結(jié)構(gòu)化媒體數(shù)據(jù)自動(dòng)化審核手段不足的問(wèn)題,本文以人力資源系統(tǒng)中人員媒體數(shù)據(jù)的審核為切入點(diǎn),通過(guò)深度卷積網(wǎng)絡(luò)實(shí)現(xiàn)非結(jié)構(gòu)化媒體數(shù)據(jù)的自動(dòng)化審核校驗(yàn),有效提高人力資源系統(tǒng)中人員媒體基礎(chǔ)數(shù)據(jù)的審核校驗(yàn),為基于機(jī)器學(xué)習(xí)的方式實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)審核校驗(yàn)探索了新思路,因而具有較好現(xiàn)實(shí)意義和實(shí)際應(yīng)用價(jià)值。
本文的后續(xù)內(nèi)容安排如下:第二部分主要介紹了深度卷積網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的基本組成和概念;第三部分主要以非結(jié)構(gòu)化人員媒體數(shù)據(jù)為研究對(duì)象,綜合考慮計(jì)算資源和設(shè)計(jì)復(fù)雜度等因素,設(shè)計(jì)提出了基于VGG卷積網(wǎng)絡(luò)結(jié)構(gòu)(Visual Geometry Group network,VGG)的人員媒體數(shù)據(jù)自動(dòng)化審核校驗(yàn)方法;第四部分通過(guò)實(shí)際采集的數(shù)據(jù)對(duì)本文提出的審核校驗(yàn)方法進(jìn)行了測(cè)試,驗(yàn)證了該方法在實(shí)際工作中的可行性與有效性;第五部分對(duì)全文內(nèi)容進(jìn)行了總結(jié)。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為一種特殊的前饋神經(jīng)網(wǎng)絡(luò)[6],是由上世紀(jì)60年代Hubel和Wiesel等人在研究貓腦皮層時(shí)發(fā)現(xiàn)的一種獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)結(jié)構(gòu)相較于傳統(tǒng)全連接形式的反饋神經(jīng)網(wǎng)絡(luò)而言具有復(fù)雜度較小的優(yōu)勢(shì),為實(shí)現(xiàn)當(dāng)前構(gòu)建深度神經(jīng)網(wǎng)絡(luò)提供有利條件。隨著人們對(duì)深度卷積網(wǎng)絡(luò)的研究和實(shí)踐,人們發(fā)現(xiàn)CNN網(wǎng)絡(luò)在圖像模式識(shí)別與分類(lèi)領(lǐng)域具有突出優(yōu)勢(shì),能夠自適應(yīng)的實(shí)現(xiàn)特征的學(xué)習(xí)與選擇,有效避免傳統(tǒng)圖像處理技術(shù)中復(fù)雜的特征選取等預(yù)處理操作,因此具有廣泛的應(yīng)用價(jià)值。
CNN網(wǎng)絡(luò)通常主要包括卷積層(Convolutional Laye,Conv)、線性整流層(Rectified Linear Units Layer,Relu)、池化層(Pooling Layer,Pooling)以及全連接層(Fully-Connected Layer,F(xiàn)C)等4種基本結(jié)構(gòu),其基本組成形式如圖1所示。在實(shí)際應(yīng)用中通過(guò)對(duì)上述4種基本單元的組合與設(shè)計(jì),能夠形成如ResNet、AlexNet、VGG、Inception等各種不同模式的深度卷積網(wǎng)絡(luò)。
(1)Conv層:該單元通過(guò)構(gòu)建具有寬度(Width)、高度(Height)、深度(Depth)的三維神經(jīng)元來(lái)對(duì)輸入層的局部特診進(jìn)行過(guò)濾篩選??拷W(wǎng)絡(luò)輸入端的卷積層通常能夠?qū)崿F(xiàn)圖像中邊緣、線條和拐角等特征的識(shí)別與提取。隨著卷積層的深入迭代,在靠近輸出端的卷積層則能夠進(jìn)一步識(shí)別圖片中具有具體語(yǔ)義的物體特征,最終實(shí)現(xiàn)物體屬性的識(shí)別。
(2)Relu層:該單元通過(guò)構(gòu)建非線性的激活函數(shù),使得整個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)具備非線性特征的學(xué)習(xí)能力。相較于傳統(tǒng)的Sigmod,Tanh激活函數(shù),Relu激活函數(shù)在保證網(wǎng)絡(luò)具有非線性特征的基礎(chǔ)上,具有運(yùn)算復(fù)雜度小、反饋梯度導(dǎo)數(shù)簡(jiǎn)單特點(diǎn),因此廣泛被應(yīng)用于深度卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)過(guò)程。
(3)池化層:該單元能夠?qū)D像中所提出特征進(jìn)行聚合和匯聚,同時(shí)剔除局部重復(fù)特征的冗余信息實(shí)現(xiàn)特征參數(shù)的降維,節(jié)省計(jì)算資源。另一方面,由于該網(wǎng)絡(luò)層能夠通過(guò)對(duì)局部特征的篩選,減少非重要特征對(duì)分類(lèi)判別的影響從而對(duì)網(wǎng)絡(luò)的過(guò)擬合學(xué)習(xí)具有一定的抑制作用,從而在一定程度上提高了系統(tǒng)的泛化能力。
圖1 CNN網(wǎng)絡(luò)基本結(jié)構(gòu)示意圖
(4)全連接層:該單元通常為卷積網(wǎng)絡(luò)的輸出單元,主要實(shí)現(xiàn)根據(jù)前端網(wǎng)絡(luò)提取的特征參數(shù)實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的分類(lèi)與判別。
在綜合考慮算法性能和計(jì)算資源的基礎(chǔ)上,當(dāng)前較為通用靈活的CNN網(wǎng)絡(luò)主要分為AlexNet、GoogleNet、VGG、以及ResNet等類(lèi)型,其中Alex網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單但存在著隨網(wǎng)絡(luò)層數(shù)的增加參數(shù)規(guī)模急劇增加的缺點(diǎn);GoogleNet網(wǎng)絡(luò)為了適應(yīng)圖像中不同大小的結(jié)構(gòu)特征采用不同尺度的卷積核有效提高了圖像分類(lèi)的準(zhǔn)確性,但其在網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)湓O(shè)計(jì)上往往需要較強(qiáng)的專業(yè)知識(shí),因此也是一項(xiàng)十分艱巨的任務(wù);VGG網(wǎng)絡(luò)則通過(guò)多層小尺寸的卷積核來(lái)覆蓋大尺寸卷積核視野的方式,有效地簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu),降低了訓(xùn)練參數(shù)規(guī)模,具有算法性能較好、訓(xùn)練速度快等優(yōu)點(diǎn);ResNet則為了適應(yīng)更高深度卷積網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練,通過(guò)殘差的方式進(jìn)一步提高網(wǎng)絡(luò)深度,取得更好的學(xué)習(xí)分類(lèi)效果,但其對(duì)計(jì)算資源的要求則更為苛刻。
本文在綜合考慮計(jì)算資源和網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)復(fù)雜程度等因素,主要以VGG卷積網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),設(shè)計(jì)提出了針對(duì)人力資源系統(tǒng)中人員媒體數(shù)據(jù)的自動(dòng)化審核校驗(yàn)方法,實(shí)現(xiàn)人員媒體數(shù)據(jù)中崗位級(jí)別的判斷與審核。
VGG網(wǎng)絡(luò)結(jié)構(gòu)是由英國(guó)牛津大學(xué)Visual Geometry Group團(tuán)隊(duì)與2015年提出[7],正如上節(jié)介紹的,該網(wǎng)絡(luò)結(jié)構(gòu)能夠通過(guò)多層的小尺寸的卷積核得到與大卷積核同樣效果的“感受野”,從而減少網(wǎng)絡(luò)參數(shù),使得網(wǎng)絡(luò)結(jié)構(gòu)樣式能夠簡(jiǎn)單和統(tǒng)一,有效緩解大家對(duì)于深度神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的設(shè)計(jì)壓力。VGG網(wǎng)絡(luò)具有從A到E共5種配置方式,卷積層數(shù)也從8層到19層,具體參數(shù)如圖2所示。
圖2 各型VGG網(wǎng)絡(luò)結(jié)構(gòu)配置示意圖
在實(shí)際應(yīng)用可知,在針對(duì)媒體數(shù)據(jù)進(jìn)行審核校驗(yàn)時(shí),可以根據(jù)媒體數(shù)據(jù)的具體特點(diǎn)設(shè)計(jì)調(diào)整相應(yīng)網(wǎng)絡(luò)參數(shù),以較低的計(jì)算資源開(kāi)銷(xiāo)取得較好的審核效果即可。因此本文以人力資源中警務(wù)系統(tǒng)的人員媒體數(shù)據(jù)為對(duì)象,重點(diǎn)實(shí)現(xiàn)對(duì)警務(wù)人員的崗位級(jí)別數(shù)據(jù)的審核校驗(yàn)。由于警務(wù)人力資源系統(tǒng)中人員媒體數(shù)據(jù)相對(duì)規(guī)范,具有規(guī)定大小和分辨率,因此可以適當(dāng)選擇規(guī)模較小、相對(duì)簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)崗位級(jí)別的判斷。通過(guò)對(duì)于實(shí)際數(shù)據(jù)進(jìn)行分析預(yù)處理后,本文主要從以下3方面對(duì)原始VGG網(wǎng)絡(luò)的進(jìn)行調(diào)整配置:
(1)由于媒體數(shù)據(jù)采集規(guī)范的約束,當(dāng)前錄入的人員媒體數(shù)據(jù)通常具有固定的分辨率,即為寬295像素、高413像素的RGB彩色照片。人員崗位級(jí)別標(biāo)識(shí)通常在照片中相對(duì)固定的位置,因此可以通過(guò)裁剪的方式摳取媒體數(shù)據(jù)中崗位級(jí)別標(biāo)識(shí),以此剔除相關(guān)干擾信息,提高算法的識(shí)別準(zhǔn)確率。
(2)由3.1節(jié)可知,原始VGG網(wǎng)絡(luò)最大可設(shè)計(jì)為19層神經(jīng)網(wǎng)絡(luò)層,同時(shí)各層卷積網(wǎng)絡(luò)所使用的卷積核數(shù)量(64、128、256、512)和全連接層神經(jīng)元個(gè)數(shù)(4 096)都十分龐大。因此在綜合考慮當(dāng)前單個(gè)筆記本獨(dú)立運(yùn)行的硬件資源約束以及識(shí)別任務(wù)相對(duì)簡(jiǎn)單等因素,本文主要在VGG-A網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上將輸入媒體尺寸調(diào)整配置為寬128像素、高128像素的RGB彩色照片;減小各卷積層的卷積核數(shù)量,相應(yīng)分別配置為16、32、64、128;實(shí)際判別人員崗位等級(jí)較少,將最后兩全連接層的神經(jīng)元個(gè)數(shù)減少為1024。
(3)為了適應(yīng)深度神經(jīng)網(wǎng)絡(luò)的快速收斂,在每個(gè)卷積網(wǎng)絡(luò)的激活單元前端添加了批歸一化操作(Batch Normalization,BN),使激活層的數(shù)據(jù)輸入滿足0均值、方差為1的標(biāo)準(zhǔn)化分布,從而解決網(wǎng)絡(luò)內(nèi)部因協(xié)變量偏移造成網(wǎng)絡(luò)訓(xùn)練效果不理想的問(wèn)題[8]。為了進(jìn)一步提高訓(xùn)練模型對(duì)實(shí)際數(shù)據(jù)的泛化能力,在全連接層后引入了Dropout操作[9],通過(guò)隨機(jī)抑制部分神經(jīng)元的活性來(lái)使得整個(gè)網(wǎng)絡(luò)更加傾向提取數(shù)據(jù)中的本質(zhì)特征,進(jìn)一步防止模型的過(guò)擬合。
為了增加網(wǎng)絡(luò)對(duì)媒體數(shù)據(jù)的旋轉(zhuǎn)角度、亮度、對(duì)比度以及顏色等的泛化能力,提高魯棒性,在進(jìn)行預(yù)處理時(shí)本文通過(guò)隨機(jī)旋轉(zhuǎn),調(diào)整亮度、對(duì)比度、色度以及清晰度等操作對(duì)媒體數(shù)據(jù)進(jìn)行變化,一定程度上豐富樣本數(shù)據(jù)的數(shù)量,克服數(shù)據(jù)樣本的隨機(jī)性干擾。通過(guò)上述調(diào)整即可完成對(duì)人員媒體數(shù)據(jù)進(jìn)行審核校驗(yàn)的卷積網(wǎng)絡(luò)設(shè)計(jì),整個(gè)網(wǎng)絡(luò)模型的訓(xùn)練流程如圖3所示。
圖3 針對(duì)媒體數(shù)據(jù)自動(dòng)審核校驗(yàn)示意圖
為了驗(yàn)證本文所提出方法的有效性,本節(jié)以實(shí)際采集收錄的2 000幅人員媒體照片作為訓(xùn)練數(shù)據(jù)對(duì)2.2節(jié)所提出的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,并另取1 000幅人員媒體照片作為測(cè)試數(shù)據(jù)對(duì)訓(xùn)練后的模型進(jìn)行測(cè)試驗(yàn)證。訓(xùn)練過(guò)程中,以80副人員媒體數(shù)據(jù)作為一批(Batch)進(jìn)行訓(xùn)練,總共迭代訓(xùn)練30 000次;以網(wǎng)絡(luò)判別概率分布與實(shí)際期望的概率分布之間的交叉熵[10]作為網(wǎng)絡(luò)識(shí)別損失;配置學(xué)習(xí)率為0.000 5的Adam優(yōu)化算子作為模型的優(yōu)化方法,配置選擇隨機(jī)概率為0.5的Dropout算子,進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練。通過(guò)上述配置,整個(gè)模型的最終學(xué)習(xí)曲線如圖4所示。
圖4 媒體數(shù)據(jù)審核校驗(yàn)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)曲線
由圖4可知隨著不斷的訓(xùn)練迭代,整個(gè)網(wǎng)絡(luò)的識(shí)別損失在逐步下降并逐漸趨于平緩,其原因在于隨著網(wǎng)絡(luò)模型的不斷收斂,Dropout操作所引入的隨機(jī)性逐漸變成了網(wǎng)絡(luò)不確定性的主要因素,因此在整個(gè)訓(xùn)練的最后階段網(wǎng)絡(luò)仍舊以較小的幅度進(jìn)行的震蕩。當(dāng)?shù)綌?shù)達(dá)到25 000時(shí)訓(xùn)練準(zhǔn)確率已經(jīng)可以達(dá)到92.3%,因此可知最終訓(xùn)練后的網(wǎng)絡(luò)已經(jīng)具有較好的判別能力。
在網(wǎng)絡(luò)訓(xùn)練結(jié)束后,以1 000幅人員媒體數(shù)據(jù)作為測(cè)試樣本,對(duì)訓(xùn)練的模型進(jìn)行驗(yàn)證。在實(shí)際數(shù)據(jù)審核校驗(yàn)中人們更加關(guān)心媒體數(shù)據(jù)與相關(guān)采集的信息是否一致的問(wèn)題,因此在該部分主要結(jié)合數(shù)據(jù)審核校驗(yàn)的實(shí)際工作目的,對(duì)實(shí)際數(shù)據(jù)進(jìn)行判別檢測(cè),其檢測(cè)結(jié)果如表1所示。
表1 實(shí)際數(shù)據(jù)在審核校驗(yàn)中的測(cè)試結(jié)果
通過(guò)表1數(shù)據(jù)可知,本文所提出的模型能夠有效對(duì)人員媒體數(shù)據(jù)中崗位級(jí)別信息進(jìn)行一致性審核校驗(yàn),其準(zhǔn)確率接近80%。因此在實(shí)際應(yīng)用過(guò)程中,可以通過(guò)該網(wǎng)絡(luò)的自動(dòng)識(shí)別后,依靠人工輔助的方式對(duì)判別結(jié)果進(jìn)一步進(jìn)行核準(zhǔn),即能夠快速完成大批量非結(jié)構(gòu)化媒體數(shù)據(jù)的審核校驗(yàn),從而有效地減緩人工作業(yè)壓力,具有良好的現(xiàn)實(shí)意義和實(shí)際應(yīng)用價(jià)值。
為了緩解當(dāng)前依靠人工方式進(jìn)行非結(jié)構(gòu)化媒體數(shù)據(jù)審核校驗(yàn)的現(xiàn)狀,本文在綜合考慮計(jì)算資源和人員媒體數(shù)據(jù)基本特點(diǎn)的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)了一種基于深度卷積網(wǎng)絡(luò)的媒體數(shù)據(jù)自動(dòng)化審核校驗(yàn)方法,為實(shí)現(xiàn)非結(jié)構(gòu)化基礎(chǔ)數(shù)據(jù)的自動(dòng)化審核給出了一種有效的解決思路。該方法能夠通過(guò)機(jī)器學(xué)習(xí)的方式對(duì)媒體數(shù)據(jù)中的特征進(jìn)行自動(dòng)提取,并能實(shí)現(xiàn)相應(yīng)規(guī)則的判斷與識(shí)別,進(jìn)而實(shí)現(xiàn)媒體數(shù)據(jù)自動(dòng)化審核校驗(yàn),有效地減輕數(shù)據(jù)整編作業(yè)壓力,具有較高的實(shí)際應(yīng)用價(jià)值。最后,以實(shí)際工作中人員媒體數(shù)據(jù)的審核校驗(yàn)為實(shí)際應(yīng)用場(chǎng)景,對(duì)現(xiàn)實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練與測(cè)試,其測(cè)試結(jié)果表明本文所提方法能夠有人員媒體中崗位級(jí)別的重要基礎(chǔ)信息,從而實(shí)現(xiàn)媒體數(shù)據(jù)的自動(dòng)化審核校驗(yàn),有力的驗(yàn)證了本方法的實(shí)用性和現(xiàn)實(shí)價(jià)值。