基于Hadoop的煤礦圖像PCA SIFT 特征提取算法研究

2018-02-12 12:24:56米向榮曹建芳史昊

軟件導(dǎo)刊 2018年12期

米向榮曹建芳史昊

摘要：大數(shù)據(jù)技術(shù)已經(jīng)成為當(dāng)下熱點(diǎn)問題，Hadoop技術(shù)在煤礦領(lǐng)域運(yùn)用也引起了廣泛關(guān)注。針對傳統(tǒng)監(jiān)控模式下煤礦視頻監(jiān)控系統(tǒng)圖像采集點(diǎn)多、歷史留存數(shù)據(jù)量大、不利于后續(xù)查找特征圖像等問題，提出一種Hadoop平臺下PCA-SIFT算子的圖像特征提取算法，研究并改進(jìn)了MapReduce并行編程模型的任務(wù)設(shè)計(jì)，對傳統(tǒng)尺度不變特征轉(zhuǎn)換算法進(jìn)行了并行化設(shè)計(jì)，在Hadoop集群下實(shí)現(xiàn)了海量煤礦圖像的PCA?SIFT并行特征提取。使用汾西礦務(wù)局煤礦圖像井下數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，算法SIFT特征點(diǎn)檢測效果好，運(yùn)行耗時少。在圖像數(shù)量龐大時，系統(tǒng)加速比幾乎呈線性增長趨勢，驗(yàn)證了算法處理大規(guī)模煤礦圖像數(shù)據(jù)的有效性。

關(guān)鍵詞：SIFT算子;尺度不變特征;Hadoop平臺;MapReduce并行編程模型

PCA?SIFT Feature Extraction Algorithm of Coal Mine Image in Hadoop Platform

MI Xiang?rong?CAO Jian?fang?SHI Hao?2

（1.Computer Department， Xinzhou Teachers University， Xinzhou 034000， China;

2.College of Computer Science and Technology， Taiyuan University of Science and Technology， Taiyuan 030024， China）

Abstract：Large data technology has become a hot issue at present， and Hadoop technology has also attracted widespread attention in the field of coal mining. Aiming at multiple the image acquisition points of traditional video monitoring system of coal mine monitoring mode and?the huge historical data which are not conducive to the subsequent search features of images and other issues， this paper presents an image feature of a Hadoop platform for the optimization of SIFT operator algorithm. We studied and improved design of MapReduce parallel programming model and?the traditional scale invariant feature conversion algorithm for parallel design in the Hadoop cluster and implemented parallel SIFT image feature extraction of massive coal mine. By using the Pascal VOC2012 data set for experiment， the effect of the SIFT feature point detection algorithm is proposed and the operation is less time?consuming. When dealing with?a large number of images， the system speedup is almost linearly， which verifies the validity of data processing algorithm of large?scale coal mine image.

Key Words：SIFT operator; scale invariant feature; hadoop platform; MapReduce parallel programming model

0?引言

煤炭資源一直是我國較為豐富的資源，煤礦產(chǎn)業(yè)也是我國發(fā)達(dá)產(chǎn)業(yè)，但由于特殊地理環(huán)境，井下事故時有發(fā)生，嚴(yán)重影響安全生產(chǎn)。為了實(shí)現(xiàn)安全生產(chǎn)，多數(shù)礦區(qū)安裝井下監(jiān)控系統(tǒng)實(shí)現(xiàn)對井下視頻信號的監(jiān)控，產(chǎn)生大量監(jiān)控?cái)?shù)據(jù)，為大數(shù)據(jù)應(yīng)用于煤礦奠定了基礎(chǔ)[1?2]。通過對多機(jī)位煤礦場景圖像提取目標(biāo)特征，可以實(shí)時觀測、及時匹配井下運(yùn)動目標(biāo)，同時針對井下機(jī)位角度有限等問題，可根據(jù)匹配特征點(diǎn)建立投影模型實(shí)現(xiàn)拼接[4]。

近年來，目標(biāo)特征提取技術(shù)一直都是國內(nèi)外學(xué)者研究的熱點(diǎn)。Morioka等[5]提出了使用顏色直方圖作為區(qū)域特征，Mittal等[6]通過使用高斯顏色模型解決了多個攝像機(jī)之間的匹配問題。然而顏色特征易受光線強(qiáng)度和視角變化影響，加上煤礦井下工人制服顏色近似，易產(chǎn)生誤匹配。煤礦井下光線差、粉塵多、噪聲大，環(huán)境復(fù)雜，使得煤礦井下圖像特征匹配難度較大[7]。SUSAN[8]、MIC[9]等角點(diǎn)檢測算子雖具有一定程度的不變性，但由于關(guān)鍵點(diǎn)只集中在某些區(qū)域，信息量單一，不適合煤礦井下環(huán)境[10]。David [11]于 2004 年提出了基于尺度不變特征變換（Scale?Invariant Feature Transform，SIFT）的特征提取算法，對于不同場景、光照、幾何形狀變換都具有較強(qiáng)穩(wěn)定性，提高了匹配精確度。因此，相對于其它圖像局部特征提取算法，SIFT更適用于煤礦領(lǐng)域[11?12]。賈世杰等[13]對SIFT算法在圖像尺度、視角變化、目標(biāo)遮擋、噪聲影響等方面的魯棒性進(jìn)行了驗(yàn)證;厲丹等[14]將SIFT算法應(yīng)用于煤礦目標(biāo)，匹配準(zhǔn)確率高于其它算法;梁玉等[15]采用RANSAC隨機(jī)抽樣一致性優(yōu)化的SIFT算法解決誤匹配問題;姜代紅等[16]將SIFT特征點(diǎn)提取算法中多尺度理論和特征點(diǎn)描述符引入傳統(tǒng)Harris算法。然而，SIFT算法本身仍然存在一些不足，比如特征描述符的維數(shù)過大、耗時過長，而且隨著煤礦監(jiān)控系統(tǒng)的逐步完善，煤礦場景圖像數(shù)據(jù)集越來越龐大，SIFT算法在處理海量煤礦領(lǐng)域場景圖像時問題更加明顯。

本文針對大數(shù)據(jù)量下SIFT計(jì)算量急劇增大、時間性能驟然下降問題，提出一種新的基于Hadoop平臺的融合PCA（Principal Component Analysis）降維SIFT算法[17?18]。該方法將原始 SIFT 特征提取算法與主成分分析法（PCA）融入，既不改變算法的穩(wěn)定性，又降低了SIFT特征向量的維數(shù)。通過改進(jìn)OpenCV函數(shù)庫中SIFT算法規(guī)范MapReduce代碼框架，利用Hadoop平臺MapReduce并行編程模型實(shí)現(xiàn)了在集群環(huán)境下并行PCA?SIFT算法，對煤礦領(lǐng)域場景圖像局部特征提取任務(wù)進(jìn)行并行處理，將其結(jié)果與傳統(tǒng)SIFT算法對比。將Haddop平臺下不同數(shù)量圖片的運(yùn)行時間和加速比進(jìn)行比較，大大加快了對海量煤礦領(lǐng)域圖像局部特征提取的速度，對優(yōu)化煤礦監(jiān)控視頻提取目標(biāo)特征有積極意義。

1?PCA?SIFT特征提取算法

1.1?SIFT算法原理

SIFT即尺度不變特征變換算法，是一種利用尺度空間性質(zhì)提出的局部特征檢測方法，利用圖像關(guān)鍵點(diǎn)的SIFT特征向量進(jìn)行匹配，提取出的特征點(diǎn)具有尺度和旋轉(zhuǎn)不變性等特點(diǎn)，因此對視角變化、仿射變換及噪聲變化具有較好魯棒性。傳統(tǒng)SIFT算法通過分步處理對圖像局部特征進(jìn)行提取，主要包括以下步驟[11]：

（1）生成不同尺度空間，檢測極值點(diǎn)。高斯核是唯一一個能夠?qū)崿F(xiàn)尺度變換的變換核，通過高斯微分函數(shù)與圖像卷積，識別潛在特征點(diǎn)。

其中，?σ?0是基準(zhǔn)層尺度，o?為組Octave的索引，?s?為組里圖像的層索引。

（2）刪去一些無效點(diǎn)和關(guān)鍵點(diǎn)定位。抹掉低對比度點(diǎn)，在每個可能候選位置上，通過一個擬合精細(xì)的模型確定關(guān)鍵點(diǎn)位置和尺度。關(guān)鍵點(diǎn)的精確定位需要對尺度空間DoG函數(shù)進(jìn)行曲線擬合。利用DoG函數(shù)在尺度空間的Taylor展開式（擬合函數(shù)）為：

其中，?X=（x，y，σ）?T。求導(dǎo)并令方程等于0，可以得到極值點(diǎn)的偏移量為：

對應(yīng)極值點(diǎn)，方程取值為：

其中，?=（x，y，σ）?T代表相對插值中心的偏移量，當(dāng)它在任一維度上大于0.5時（即?x或y或σ?），意味著插值中心已經(jīng)偏移到其鄰近點(diǎn)上，所以必須改變當(dāng)前關(guān)鍵點(diǎn)位置。

（3）提取關(guān)鍵點(diǎn)方向，保證旋轉(zhuǎn)不變性。根據(jù)圖像局部梯度方向，算法自動分配給每個關(guān)鍵點(diǎn)位置一個或多個方向。

（4）關(guān)鍵點(diǎn)描述。按照以上步驟，考慮到每一個關(guān)鍵點(diǎn)有3個信息：位置、尺度以及方向，接下來為每個關(guān)鍵點(diǎn)建立一個描述符，用一組向量將該關(guān)鍵點(diǎn)描述出來，使其不隨各種變化而改變，比如光照變化、視角變化等。該描述子不但包括關(guān)鍵點(diǎn)，也包含關(guān)鍵點(diǎn)周圍對其有貢獻(xiàn)的像素點(diǎn)，并且描述較有獨(dú)特性，以提高特征點(diǎn)正確匹配的概率。

1.2?PCA?SIFT降維

主成分分析算法即PCA是最常用的線性降維方法，用于降低數(shù)據(jù)復(fù)雜性，識別最重要的多個特征。它將高維數(shù)據(jù)映射到低維空間中表示，以此使用較少數(shù)據(jù)維度，而且數(shù)據(jù)在較少維度上的方差最大。這是原始數(shù)據(jù)信息丟失最少的一種線性降維方式。

PCA?SIFT壓縮了SIFT描述子數(shù)據(jù)。首先收集數(shù)據(jù)所有特征，通過變換數(shù)據(jù)，觀察數(shù)據(jù)的重要成分并進(jìn)行分類以減少數(shù)據(jù)。如想表達(dá)某一種物體，而物體有很多個屬性，通過變換數(shù)據(jù)，可以觀察到每個屬性的重要性，從而選擇幾種重要屬性描述該物體，就起到了壓縮數(shù)據(jù)的作用。具體步驟如下：

（1）構(gòu)建描述子區(qū)域選定為以特征點(diǎn)為中心的41×41矩形（已與特征點(diǎn)主方向?qū)R）。

（2）由于最外層像素不計(jì)算偏導(dǎo)數(shù)，計(jì)算39×39矩陣每個像素水平、垂直方向的偏導(dǎo)數(shù)，得到一個39×39×2=3 042維的向量，并將其歸一化。

（3）假設(shè)有N個特征點(diǎn)，則所有特征點(diǎn)描述子向量構(gòu)成一個N×3 024的矩陣，然后計(jì)算N個向量的協(xié)方差矩陣。

（4）計(jì)算N×N協(xié)方差矩陣前m個最大特征值對應(yīng)的特征向量，該 m個向量組成一個3 042×m的投影矩陣。

（5）將N×3 024描述子矩陣與3 024×m投影矩陣相乘，得到降維描述子向量組成的N×m矩陣。此時N個特征點(diǎn)的描述子向量均為m維，也就將數(shù)據(jù)轉(zhuǎn)換到上述m個特征向量構(gòu)建的新空間中了。

2?海量煤礦場景圖像特征提取PCA?SIFT算法并行化

2.1?Hadoop平臺

Hadoop是一個能夠?qū)Υ笠?guī)模數(shù)據(jù)進(jìn)行分布式處理的軟件框架，以一種可靠、高效、可伸縮方式進(jìn)行數(shù)據(jù)處理[19]。HDFS（Hadoop Distributed File System）和MapReduce 是Hadoop框架最核心的兩個設(shè)計(jì)，前者為海量數(shù)據(jù)提供存儲，而海量數(shù)據(jù)計(jì)算由后者提供。HDFS是一種在通用硬件上運(yùn)行的分布式文件系統(tǒng)，采用主/從模式體系結(jié)構(gòu)，提供了高吞吐量數(shù)據(jù)訪問，很適合大規(guī)模數(shù)據(jù)集的應(yīng)用。MapReduce是一種并行編程模型且用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算[20]。它能夠?qū)⒂?jì)算任務(wù)和數(shù)據(jù)分配到Hadoop集群的各個節(jié)點(diǎn)，由各節(jié)點(diǎn)并行執(zhí)行任務(wù)得到中間結(jié)果，然后進(jìn)行匯總并再次向各節(jié)點(diǎn)分配計(jì)算，以獲得最終結(jié)果。MapReduce的Map函數(shù)和Reduce函數(shù)定義了任務(wù)本身，交給用戶實(shí)現(xiàn)，通過定義mapper（）和reducer（）函數(shù)實(shí)現(xiàn)一個鍵值對到另一個鍵值對的映射，其處理流程如圖1所示。

2.2?總體框架

Hadoop平臺上SIFT算法煤礦圖像特征提取過程如圖2所示。系統(tǒng)架構(gòu)共3層。

（1）表現(xiàn)層。使用者通過網(wǎng)絡(luò)接受服務(wù)，提交煤礦圖像或接收檢測結(jié)果。

（2）業(yè)務(wù)邏輯層。Web服務(wù)器根據(jù)使用者的請求執(zhí)行對應(yīng)業(yè)務(wù)處理。

（3）數(shù)據(jù)處理層。其是整個系統(tǒng)的核心部分，主要進(jìn)行海量煤礦圖像的存儲和管理，負(fù)責(zé)并行PCA—SIFT特征提取、輸出結(jié)果等。使用者將煤礦圖像數(shù)據(jù)通過網(wǎng)絡(luò)提交給Hadoop分布式系統(tǒng)，經(jīng)過MapReduce計(jì)算模型進(jìn)行算法優(yōu)化和特征提取，最后輸出結(jié)果。

本文對MapReduce框架的處理模型進(jìn)行了改進(jìn)，將Reduce任務(wù)數(shù)設(shè)置為0，全程通過mapper（）函數(shù)完成所有處理任務(wù)，Map階段結(jié)束后直接將實(shí)驗(yàn)結(jié)果輸出。避免Reduce任務(wù)處理需大量時間，減少M(fèi)ap任務(wù)與Reduce任務(wù)中間操作消耗時間，使得集群節(jié)點(diǎn)之間傳輸數(shù)據(jù)的時間消耗降低，提高時間性能。

具體步驟如下：①將海量煤礦圖像庫中的圖像處理成Hadoop作業(yè)的輸入格式SequenceFile;②Map 任務(wù)按照Hadoop默認(rèn)的切片大?。?28M Byte）對圖像文件進(jìn)行分片，每個分片包含多個圖像文件;③以<圖像文件名，圖像源文件>鍵值對形式，利用MapReduce框架對圖像的PCA?SIFT特征并行提取;④最后生成<圖像文件名，圖像PCA?SIFT特征>形式的鍵值對，寫入Hadoop平臺的分布式文件系統(tǒng)HDFS中。

2.3?算法設(shè)計(jì)與實(shí)現(xiàn)

OpenCV提供大量Java接口，實(shí)現(xiàn)了圖像處理和計(jì)算機(jī)視覺方面的很多算法。因此，實(shí)驗(yàn)使用OpenCV函數(shù)庫，對其中SIFT算法進(jìn)行改進(jìn)，在Hadoop平臺下用Java語言編程，實(shí)現(xiàn)基于并行PCA?SIFT的煤礦場景圖像特征提取算法。

2.3.1?圖像數(shù)據(jù)類型定義

由于Hadoop本身沒有定義與圖像相關(guān)的類，作為鍵值對<key， value>的數(shù)據(jù)類型，而Hadoop規(guī)定用戶自定義類型只有通過實(shí)現(xiàn)Writable接口才能使用。因此，本文自定義了數(shù)據(jù)類型RawImage，重寫了Hadoop中Writable定義的基本輸入輸出方法。與其它類型不同，該類型在實(shí)現(xiàn)圖像讀取、存儲等基礎(chǔ)功能時，增加了將圖像轉(zhuǎn)換為單通道或者三通道的Mat類型以及將Mat類型編碼為圖像文件的功能，使其與OpenCV結(jié)合更加方便。

2.3.2?作業(yè)輸入/輸出格式設(shè)計(jì)

在Hadoop平臺下，一張圖像若被分片進(jìn)行分布式存儲并處理，則會破壞像素信息。因此，本文將整張圖像作為鍵值對中的value值進(jìn)行處理。

（1）圖像文件輸入格式類定義。本文采用Hadoop內(nèi)置的SequenceFileInputFormat輸入格式，它以SequenceFile文件作為輸入，把大的SequencFile文件切成分片，交給Map任務(wù)處理，而一個分片里包含多條記錄，每一條記錄就是一張圖像，key為圖像文件名，value為其值，很好地解決了由于小文件太多導(dǎo)致啟動Map任務(wù)數(shù)量過多的問題。

（2）圖像文件輸出格式類定義。FileOutputFormat類主要用于描述輸出數(shù)據(jù)格式，本文設(shè)計(jì)了ImageOutputFormat類，繼承自FileOutputFormat實(shí)現(xiàn)，用于將用戶提供的<key， value>對寫入特定格式文件中。ImageRecordWriter類繼承自RecordWriter<Text， RawImage>類的實(shí)現(xiàn)，將圖像文件名作為鍵名、RawImage類型的實(shí)例作為值存入HDFS文件系統(tǒng)中。

2.3.3?mapper（）函數(shù)設(shè)計(jì)與實(shí)現(xiàn)

mapper（）函數(shù)的主要功能包括讀取圖像、處理圖像、轉(zhuǎn)換數(shù)據(jù)等操作。實(shí)現(xiàn)偽代碼如下：

Mat mat = Highgui.imread（files[i].toString（））;

Mat SIFTMat=new Mat（）;

FeatureDetector fd = FeatureDetector.create（FeatureDetector.

SIFT）;

MatOfKeyPoint mkp =new MatOfKeyPoint（）;

fd.detect（mat， mkp）;

//Features2d.drawKeypoints（mat， mkp， SIFTMat）;

DescriptorExtractor de = DescriptorExtractor.create（Descri

ptorExtractor. SIFT）;

de.compute（mat，mkp，SIFTMat ）;//提取SIFT特征

2.3.4?圖像特征提取結(jié)果輸出

由于Hadoop默認(rèn)輸出文件名是name?r（m）?nnnnn形式，其中name是由用戶設(shè)定的名字，r表示reduce輸出，m表示map輸出，nnnnn是一個指明塊號的整數(shù)。但為了便于后續(xù)方便處理和顯示圖像，能夠使輸出文件以文件名.jpg的形式輸出，本文重寫了FileOutputFormat類的getDefaultWorkFile（）方法，實(shí)現(xiàn)偽代碼如下：

getDefaultWorkFile（TaskAttemptContext

context，String extension） throws IOException{

FileOutputCommitter committer =

（FileOutputCommitter） getOutputCommitter（context）;

return new Path（committer.getWorkPath（），

getUniqueFile（context，getOutputName（context），extension））;

}?//獲得一個任務(wù)提交器

本文使用hadoop中的 MultipleOutputs多文件輸出格式，將每個圖像的文件名作為key值，圖像文件作為Value值以一條記錄的方式寫入文件系統(tǒng)。實(shí)現(xiàn)偽代碼如下：

ImageRecordWriter extends RecordWriter<Text， RawImage>

{

write（Text fileName， RawImage img）

{

FSDataOutputStream out = fs.create（outputPath）;

out.write（img.getRawData（））;

}

//把圖像寫入到輸出路徑，且文件名為圖像原文件名

}

2.3.5?PCA?SIFT并行化降維

單幅煤礦場景圖像每個SIFT特征點(diǎn)有128維，海量圖像數(shù)據(jù)集維度過于龐大，而PCA可以在盡可能保留原始數(shù)據(jù)信息的情況下，把可能具有相關(guān)性的高維變量合成線性無關(guān)的低維變量。偽代碼如下：

//用pca降維

Mat mean = new Mat（）;

Mat vectors = new Mat（）;

Mat result=new Mat（）;

Mat SIFTMat_r=new?Mat（）;

Core.normalize（SIFTMat， SIFTMat_r，-1.0， 1.0， Core.NORM_MINMAX）;

Core.PCACompute（SIFTMat_r， mean， vectors，64）;

Core.PCAProject（SIFTMat_r， mean， vectors， result）;

//第二輪降維

Mat mean_2 = new Mat（）;

Mat vectors_2 = new Mat（）;

Mat result_2=new Mat（）;

Core.PCACompute（result.t（）， mean_2， vectors_2，64）;

Core.PCAProject（result.t（）， mean_2， mean_2， result_2）;

3?實(shí)驗(yàn)結(jié)果及分析

3.1?實(shí)驗(yàn)環(huán)境與數(shù)據(jù)來源

本文采用6臺計(jì)算機(jī)搭建Hadoop集群，1臺為Master節(jié)點(diǎn)，其余5臺為Slave節(jié)點(diǎn)。所有節(jié)點(diǎn)計(jì)算機(jī)硬件配置：酷睿i7四核八線程4.2G處理器，8G內(nèi)存，4T硬盤;軟件配置：操作系統(tǒng)為64位Ubuntu 14.04，Java環(huán)境為jdk1.7.0_79，Hadoop為Hadoop?2.5.1（64位編譯）版本。

本文使用的實(shí)驗(yàn)數(shù)據(jù)來源于汾西礦務(wù)局煤礦圖像井下數(shù)據(jù)集，涉及人物、開采工具、井下隧道場景等多種類別。數(shù)據(jù)集共包含2萬張圖像、14個類別，為驗(yàn)證提出算法在處理海量圖像時的性能，本文采用復(fù)制方法構(gòu)建了海量圖像庫。

3.2?煤礦圖像SIFT特征點(diǎn)檢測效果

為了驗(yàn)證SIFT特征點(diǎn)檢測效果，本文對傳統(tǒng)SIFT算子與提出的算法在汾西礦務(wù)局煤礦圖像井下數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)對比，圖3 是部分圖像的PCA?SIFT特征檢測效果。

從圖3結(jié)果可清晰看到，相對于傳統(tǒng)SIFT算法的特征提取效果，并行PCA?SIFT算法特征提取效果更加明顯。并行PCA?SIFT所獲取的描述子在旋轉(zhuǎn)、尺度變換、透視變換、添加噪聲匹配和亮度變換等條件下，匹配均大幅領(lǐng)先于SIFT。雖然提取特征點(diǎn)沒有傳統(tǒng)SIFT多，但所得正確特征點(diǎn)遠(yuǎn)遠(yuǎn)多于傳統(tǒng)SIFT。由此可見，并行PCA?SIFT生成的描述子質(zhì)量很高。并行PCA?SIFT在特征點(diǎn)提取、描述子計(jì)算中運(yùn)行時間稍少于SIFT，速度稍快，但在隨后描述子匹配過程中，運(yùn)行時間遠(yuǎn)遠(yuǎn)低于SIFT算法，速度遠(yuǎn)遠(yuǎn)超過SIFT算法。

3.2.2?運(yùn)行時間

為進(jìn)一步驗(yàn)證并行化算法的時間性能，同時為了公平比較，本文采用復(fù)制方法構(gòu)建不同數(shù)量級規(guī)模的數(shù)據(jù)集，對單一節(jié)點(diǎn)和多節(jié)點(diǎn)算法的運(yùn)行耗時進(jìn)行了實(shí)驗(yàn)比較，結(jié)果如圖4所示。

圖4結(jié)果表明，在圖像數(shù)量小于8 000時，節(jié)點(diǎn)數(shù)目不同對煤礦圖像SIFT特征提取的運(yùn)行耗時影響不是很明顯。多節(jié)點(diǎn)集群架構(gòu)運(yùn)行耗時有時可能會比單節(jié)點(diǎn)計(jì)算機(jī)處理時間長，原因是多節(jié)點(diǎn)架構(gòu)在處理小量圖像數(shù)據(jù)集時增加了節(jié)點(diǎn)計(jì)算機(jī)之間的通信聯(lián)系開銷，而煤礦場景圖像數(shù)量急劇增大時，多節(jié)點(diǎn)架構(gòu)的Hadoop集群計(jì)算機(jī)系統(tǒng)優(yōu)勢就慢慢體現(xiàn)出來。雖然不同節(jié)點(diǎn)情況下，算法運(yùn)行時間均會隨煤礦場景圖像數(shù)量增加而增加，但單一節(jié)點(diǎn)計(jì)算機(jī)運(yùn)行耗時線性增長，而多節(jié)點(diǎn)集群架構(gòu)的計(jì)算機(jī)系統(tǒng)運(yùn)行耗時增加比較平緩，并且隨著節(jié)點(diǎn)計(jì)算機(jī)數(shù)量愈多，所需處理的運(yùn)行時間曲線上升愈平緩。因此，本實(shí)驗(yàn)充分證明了Hadoop集群架構(gòu)在處理海量圖像數(shù)據(jù)時的優(yōu)越性。

3.3?加速比

加速比是指同一任務(wù)在單節(jié)點(diǎn)環(huán)境下與多節(jié)點(diǎn)環(huán)境下運(yùn)行時間的比值，是衡量Hadoop平臺下并行算法效率的一個重要指標(biāo)[21]。為驗(yàn)證算法在Hadoop平臺下的性能，本文從汾西礦務(wù)局煤礦圖像井下數(shù)據(jù)集上復(fù)制并構(gòu)建了包含8 000、20 000、60 000張不同類別圖像的3個數(shù)據(jù)集，進(jìn)行加速比測試，結(jié)果如圖5所示。

理想狀態(tài)下，系統(tǒng)加速比應(yīng)隨著節(jié)點(diǎn)計(jì)算機(jī)增加而呈線性增長，但由于受通信開銷、負(fù)載平衡影響，實(shí)際上加速比并不能呈線性增長。從圖5可以看到，在圖像數(shù)量不多時，系統(tǒng)的加速比隨著節(jié)點(diǎn)計(jì)算機(jī)增多而增大，但增長幅度并不大，而隨著圖像數(shù)量增多，系統(tǒng)加速比增長幅度會變大，圖像數(shù)量達(dá)到60 000張時，系統(tǒng)加速比幾乎呈線性增長趨勢，進(jìn)一步充分說明了Hadoop集群在處理大規(guī)模數(shù)據(jù)集時更能體現(xiàn)其優(yōu)越性。

4?結(jié)語

本文對Hadoop平臺下基于PCA?SIFT算子的煤礦圖像特征提取算法進(jìn)行了深入探討，并研究如何將MapReduce并行編程模型應(yīng)用于傳統(tǒng)SIFT特征提取算法中，實(shí)現(xiàn)海量圖像的SIFT特征提取。實(shí)驗(yàn)結(jié)果表明，算法的SIFT特征提取效果好，處理大規(guī)模圖像數(shù)據(jù)集運(yùn)行耗時少，搭建的Hadoop集群能夠充分利用各節(jié)點(diǎn)計(jì)算機(jī)資源，相對于單節(jié)點(diǎn)計(jì)算機(jī)，系統(tǒng)獲得了很好的加速比，充分體現(xiàn)了Hadoop集群分布式并行處理的強(qiáng)大運(yùn)算能力。

隨著大數(shù)據(jù)時代到來，各類大數(shù)據(jù)分析處理已成為新的研究熱點(diǎn)。下一步研究工作主要有：①擴(kuò)展Hadoop集群的節(jié)點(diǎn)數(shù)、調(diào)節(jié)參數(shù)，提高分布式并行處理效率;②將提取的并行PCA?SIFT特征應(yīng)用于煤礦場景圖像分類中，以提高數(shù)字圖像理解的智能性。

參考文獻(xiàn)：

[1]?李波，巨廣剛，王珂，等.2005?2014年我國煤礦災(zāi)害事故特征及規(guī)律研究[J].礦業(yè)安全與環(huán)保， 2016，43（3）：111?114.

[2]?賈世奎，李臻，李鑫，等.煤礦井下用夜視攝像系統(tǒng)研制[J].機(jī)械研究與應(yīng)用，2016，29（6）：147?149.

[3]?馬小平，胡延軍，繆燕子.物聯(lián)網(wǎng)、大數(shù)據(jù)及云計(jì)算技術(shù)在煤礦安全生產(chǎn)中的應(yīng)用研究[J].工礦自動化， 2014，40（4）：5?9.

[4]?王蓓蓓，李玉良，胡浩.基于Matlab的煤礦井下運(yùn)動目標(biāo)檢測的研究[C].廈門：煤礦機(jī)電一體化新技術(shù)2011學(xué)術(shù)年會，2011.

[5]?MORIOKA K， MAO X， HASHIMOTO H. Global color model based object matching in the multi?camera environment[C].International Conference on Intelligent Robots and Systems， 2006：2644?2649.

[6]?MITTAL A， DAVIS L S.M2 tracker： a multi?view approach to segmenting and tracking people in a cluttered scene[J].International Journal of Computer Vision， 2003，51（3）：189?203.

[7]?高翔，徐柱.基于多尺度模型的數(shù)據(jù)庫影像特征匹配[J].測繪科學(xué)，2016，41（2）：121?125.

[8]?WENG M， HE M. Image feature detection and matching based on SUSAN method[C]. International Conference on Innovative Computing， Information and Control， 2006：322?325.

[9]?TANG L， WANG K， LI Y， et al. The application of the MIC and improved snake algorithm on the image segmentation[C].Industrial Electronics and Applications，2007：1898?1902.

[10]?厲丹，錢建生，柴艷莉.井下危險(xiǎn)區(qū)域目標(biāo)檢測[J].煤炭學(xué)報(bào)，2011，36（3）：527?532.

[11]?LOWE D G. Distinctive image features from Scale?Invariant keypoints[M].Kluwer：Kluwer Academic Publishers，2004.

[12]?FROMMEL A Y， MANEJA R， LOWE D， et al. Severe tissue damage in Atlantic cod larvae under increasing ocean acidification[J]. Nature Climate Change， 2012，2（1）：42?46.

[13]?JIA S J， WANG P X， JIANG H Y， et al. Study of image matching algorithm based on SIFT[J]. Journal of Dalian Jiaotong University， 2010，31（4）：17?21.

[14]?DAN L， QIAN J S. SIFT?based object matching and tracking of coal mine[C].International Conference on Wireless， Mobile and Multimedia Networks，2011：327?330.

[15]?梁玉，厲丹，牛翠溪，等.基于井下環(huán)境的SIFT算法研究[J].工礦自動化，2011（2）：55?58.

[16]?姜代紅，華鋼，王永星.礦井監(jiān)控圖像自動快速拼接算法研究[J].工礦自動化，2015，41（4）：78?82.

[17]?WHITE T. Hadoop： the definitive guide[M]. 2nd edition. Hadoop： The Definitive Guide Yahoo Press， 2010.

[18]?LUO J， GWUN O. A comparison of SIFT， PCA?SIFT and SURF[J]. International Journal of Image Processing， 2013，3（4）：143?152.

[19]?顧榮，嚴(yán)金雙，楊曉亮，等.Hadoop MapReduce短作業(yè)執(zhí)行性能優(yōu)化[J].計(jì)算機(jī)研究與發(fā)展，2014（6）：1270?1280.

[20]?李建江，崔健，王聃，等.MapReduce并行編程模型研究綜述[J].電子學(xué)報(bào)，2011，39（11）：2635?2642.

[21]?林宇晗，孔繁鑫，徐惠婷，等.線性加速比并行實(shí)時任務(wù)的節(jié)能研究[J].計(jì)算機(jī)學(xué)報(bào)，2013，36（2）：384?392.