• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Hadoop平臺(tái)下SVM的圖像識(shí)別技術(shù)

      2016-04-12 00:00:00白靈
      現(xiàn)代電子技術(shù) 2016年16期

      摘 要: 針對(duì)海量圖像的識(shí)別技術(shù)進(jìn)行研究,使用SVM算法作為圖像識(shí)別模型,考慮到隨著圖像訓(xùn)練樣本數(shù)據(jù)量逐步增大,訓(xùn)練樣本呈現(xiàn)指數(shù)上升這一問題,在此對(duì)基于Hadoop云平臺(tái)的并行運(yùn)算SVM方法進(jìn)行研究,縮短訓(xùn)練時(shí)間,加快圖像識(shí)別效率。使用Corel圖像庫中圖像進(jìn)行實(shí)驗(yàn)研究,結(jié)果表明,常規(guī)單機(jī)SVM圖像識(shí)別系統(tǒng)以及基于Hadoop平臺(tái)SVM的圖像識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確率相差不大。當(dāng)Hadoop平臺(tái)中擁有超過2個(gè)節(jié)點(diǎn)時(shí),加速比明顯上升,訓(xùn)練時(shí)間下降,Hadoop平臺(tái)中使用SVM進(jìn)行圖像識(shí)別的效率優(yōu)勢(shì)體現(xiàn)出來。

      關(guān)鍵詞: Hadoop平臺(tái); 圖像識(shí)別; SVM; 云計(jì)算; 加速比

      中圖分類號(hào): TN915.43?34; TP391.4 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)16?0098?04

      Abstract: The recognition technology of massive images is researched, in which the SVM algorithm is taken as the image recognition model. In consideration of the problem that the training samples increase exponentially with the gradual increase of data size of image training samples, the parallel computation SVM method based on Hadoop platform is studied to shorten the training time and quicken the image recognition efficiency. In an experiment, the SVM image recognition technology were studied by means of the images in Corel image library. The results show that the recognition accuracy rate of the image recognition system using SVM algorithm based on Hadoop platform has no difference with that of the conventional stand?alone SVM image recognition system, but when more than 2 nodes exist in Hadoop platform, the speedup ratio is increased significantly, and the training time is decreased, so the efficiency advantage of using SVM in Hadoop platform for the image recognition is reflected.

      Keywords: Hadoop platform; image recognition; SVM; cloud computing; speedup ratio

      0 引 言

      現(xiàn)階段個(gè)人電腦和移動(dòng)互聯(lián)網(wǎng)的廣泛使用,各種圖片、聲音、視頻等數(shù)字信息在網(wǎng)絡(luò)上廣泛交互,數(shù)據(jù)量已經(jīng)不可估量。作為其中最為生動(dòng)直接的圖片圖像信息正因?yàn)榛ヂ?lián)網(wǎng)的使用而大放光彩,越來越成為人們?nèi)粘I钪薪涣髋c學(xué)習(xí)的重要組成部分。海量的圖像數(shù)據(jù)在互聯(lián)網(wǎng)上廣泛傳播,每天都有數(shù)以億計(jì)的圖片在網(wǎng)絡(luò)上上傳或下載。為了便于人們?cè)诤A繄D像中檢索到自己需要的圖像,專家對(duì)圖像檢索方法進(jìn)行了廣泛的研究和學(xué)習(xí)。其中,支持向量機(jī)(Support Vector Machine,SVM)模型被廣泛應(yīng)用于圖像檢索系統(tǒng)中[1?3]。

      隨著大量數(shù)據(jù)的產(chǎn)生,云計(jì)算隨之出現(xiàn)。云計(jì)算是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。簡單來說,云計(jì)算就是將所有資源進(jìn)過計(jì)算、轉(zhuǎn)換和存儲(chǔ),形成一個(gè)巨型的云端網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)平臺(tái),利用此平臺(tái)可以完成各種存儲(chǔ)和運(yùn)算任務(wù),非常適合于檢索系統(tǒng)的應(yīng)用[4]。因此本文將單機(jī)SVM算法和云平臺(tái)結(jié)合,以探討提高海量圖像識(shí)別檢索效率的方法。

      1 云計(jì)算

      在云計(jì)算逐漸得到廣泛應(yīng)用的今天,云計(jì)算的方法種類也在增多,其中apache的開源分布式平臺(tái)Hadoop以其價(jià)格低廉、高容錯(cuò)性等特點(diǎn)得到了廣泛的應(yīng)用。以IBM現(xiàn)階段使用的“藍(lán)云”云計(jì)算平臺(tái)為例,Hadoop最受廣大用戶群青睞的主要原因還是對(duì)于它所提供的分布式的可以提供存儲(chǔ)的計(jì)算平臺(tái)完全是開源的。Hadoop主要由三部分構(gòu)成:文件系統(tǒng)HDFS、數(shù)據(jù)庫Hbase、分布式并行計(jì)算Map Reduce。在平臺(tái)中最主要的運(yùn)算和處理部分主要通過分布式文件管理系統(tǒng)和并行處理兩個(gè)關(guān)鍵技術(shù)實(shí)現(xiàn)。

      作為存儲(chǔ)和計(jì)算的處理平臺(tái),Hadoop平臺(tái)處理的核心部分還是分布式文件系統(tǒng)HDFS以及并行處理Map Reduce。優(yōu)越的硬件系統(tǒng)也使該平臺(tái)體現(xiàn)出了可擴(kuò)展、廉價(jià)、高容錯(cuò)、高效穩(wěn)定等特點(diǎn)。該平臺(tái)結(jié)構(gòu)完善,不需要進(jìn)行改動(dòng)即可直接進(jìn)行存儲(chǔ)和計(jì)算的擴(kuò)展,這也是Hadoop平臺(tái)的關(guān)鍵屬性:可擴(kuò)展性;該平臺(tái)可以直接設(shè)計(jì)并部署在低廉的硬件上;Hadoop平臺(tái)能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,當(dāng)錯(cuò)誤發(fā)生時(shí)可以自動(dòng)恢復(fù)分配;對(duì)于Hadoop平臺(tái)來說, Map Reduce對(duì)數(shù)據(jù)的處理方式為按位操作,更加安全高效[5?7]。

      2 Map Reduce過程

      Map Reduce編程的最主要內(nèi)容是對(duì)Map和Reduce函數(shù)自定義的過程。其中無論對(duì)于任何個(gè)體差異的編寫Map和Reduce函數(shù),其主要的任務(wù)都是對(duì)數(shù)據(jù)值的讀取以及運(yùn)算。Input Format類為Map操作提供最基本的支持。Map操作的主要對(duì)象是對(duì)形式的樣本,而Input Format類則是將數(shù)據(jù)文件的輸入地址或者其他形式的輸入樣本轉(zhuǎn)換為對(duì)。

      Input Format 類有兩個(gè)主要的抽象方法,主要是:get Splits,create Record Reader。其中g(shù)et Splits是將輸入圖像進(jìn)行分片處理并收集所有圖像的分片數(shù)據(jù)的集合。在HDFS中是按照塊的方法進(jìn)行儲(chǔ)存的。如果是針對(duì)于不同圖像形成Splits時(shí),則需要調(diào)用執(zhí)行Map Reduce 編程框架,從而使運(yùn)算時(shí)間加長,所以數(shù)據(jù)處理過程中要盡量避免此現(xiàn)象的發(fā)生。

      通過以上方法可以得到分片數(shù)組,得到此數(shù)組后,Hadoop 平臺(tái)自動(dòng)查詢tasktracker是否處于空閑狀態(tài),當(dāng)tasktracker處于空閑狀態(tài)時(shí),Hadoop平臺(tái)進(jìn)行算法調(diào)度,將對(duì)應(yīng)的數(shù)據(jù)Splits輸入到Map任務(wù)中,同時(shí)也將Splits所含信息如位置節(jié)點(diǎn)信息一同進(jìn)行上傳處理。通過自定義的create Record Reader方法讀取該數(shù)據(jù)內(nèi)容,并將內(nèi)容轉(zhuǎn)化成的形式,供Map操作進(jìn)行試用。若不在空閑狀態(tài)則等待[8?11]。

      3 基于Hadoop的SVM算法

      Libsvm是由臺(tái)灣大學(xué)林智仁教授設(shè)計(jì)研發(fā)的一個(gè)簡單容易使用的軟件分析包,主要用于SVM 模式識(shí)別和回歸分析。1988年John C.Platt研究并發(fā)明SMO算法,通過此算法對(duì)Libsvm進(jìn)行二次規(guī)劃并進(jìn)行算法的優(yōu)化。SMO算法簡單實(shí)用,使得二次規(guī)劃優(yōu)化算法加快,再對(duì)SVM進(jìn)行求解得到了更好的效果,同時(shí)也得到了眾多學(xué)者的廣泛認(rèn)同。

      訓(xùn)練樣本數(shù)據(jù)量逐步增大,而且訓(xùn)練樣本的時(shí)間還出現(xiàn)了指數(shù)上升的趨勢(shì),由此一來雖然二次規(guī)劃算法的速度相對(duì)較快,但在單機(jī)模式下進(jìn)行仍然十分困難。這也是訓(xùn)練樣本規(guī)模增大帶來的問題[12]。

      為了解決這個(gè)問題,使SVM 算法的訓(xùn)練速度加快,本文對(duì)基于Hadoop云平臺(tái)的并行運(yùn)算SVM方法進(jìn)行研究,使得運(yùn)算時(shí)間得到了進(jìn)一步縮短。

      SVM 算法的主要思想是在訓(xùn)練數(shù)據(jù)集中找到?jīng)Q策函數(shù)對(duì)應(yīng)的分類進(jìn)行分析,就是要找到數(shù)據(jù)集的支持向量。所有的支持向量都具有稀疏性的特點(diǎn),它們?cè)跀?shù)據(jù)向量集中占據(jù)很小的比重,可以通過利用這樣的特征,實(shí)現(xiàn)對(duì)數(shù)據(jù)的并行SVM算法。在運(yùn)算過程中,首先將訓(xùn)練數(shù)據(jù)進(jìn)行切分,進(jìn)行分塊化處理,然后對(duì)每個(gè)切分的數(shù)據(jù)塊分別進(jìn)行SVM 算法求解,以此來達(dá)到縮短求解時(shí)間的目的?;贖adoop的SVM算法示意圖如圖1所示。

      4 基于Hadoop的SVM算法的實(shí)現(xiàn)

      基于Hadoop的SVM 算法主要通過以下幾個(gè)方面來實(shí)現(xiàn)的:

      (1) 向Hadoop云平臺(tái)上傳數(shù)據(jù)信息。向Hadoop云平臺(tái)上傳數(shù)據(jù)信息及提交作業(yè),主要從HDFS 中獲取數(shù)據(jù)源,根據(jù)數(shù)據(jù)集群配置對(duì)數(shù)據(jù)進(jìn)行劃分處理,也要對(duì)作業(yè)的Map和Reduce進(jìn)行分類處理,輸入Map和Reduce 過程中所需的節(jié)點(diǎn)信息。

      (2) 實(shí)現(xiàn)Map 的操作過程。Map函數(shù)的主要功能是將儲(chǔ)存在HDFS中的圖像樣本讀入系統(tǒng),同時(shí)轉(zhuǎn)換block中的數(shù)據(jù)樣本的參數(shù)類型。轉(zhuǎn)換之后通過遺傳算法進(jìn)行優(yōu)化轉(zhuǎn)換的組合參數(shù)。所有準(zhǔn)備工作之后,進(jìn)行svm_train函數(shù)的調(diào)入,進(jìn)行樣本訓(xùn)練處理,從而得到數(shù)據(jù)的支持向量即形式的支持向量。最后處理結(jié)果等待傳入Reduce的操作過程。

      (3) 實(shí)現(xiàn)Reduce的操作過程。Reduce函數(shù)主要目的是把Map函數(shù)所轉(zhuǎn)換的數(shù)據(jù)形式進(jìn)行分類排序,經(jīng)過處理后輸入到事先所規(guī)定的指定路徑文件中[13?15]。

      實(shí)現(xiàn)過程示意圖如圖2所示。

      5 Hadoop平臺(tái)圖像識(shí)別效果分析

      5.1 實(shí)驗(yàn)平臺(tái)搭建

      通過實(shí)驗(yàn)對(duì)比方法研究在Hadoop平臺(tái)使用SVM算法進(jìn)行圖像識(shí)別以及在單機(jī)平臺(tái)使用SVM算法進(jìn)行圖像識(shí)別的效果。單機(jī)以及Hadoop中主機(jī)和各個(gè)節(jié)點(diǎn)均使用相同配置的計(jì)算機(jī): CPU為Intel I5 4950,內(nèi)存為8 GB DDR3 1 333 MHz,硬盤為1 TB。Hadoop平臺(tái)中節(jié)點(diǎn)計(jì)算機(jī)使用Ubuntu 14.10 操作系統(tǒng),Hadoop 1.0.0版本以及 eclipse?jee?juno?SR2版本的IDE平臺(tái),Java的執(zhí)行環(huán)境為: JDK1.7.0_07。

      Hadoop平臺(tái)的主要搭建過程為安裝JDK;安裝并配置SSH;搭建 Hadoop分布式環(huán)境;進(jìn)行Hadoop云平臺(tái)測試。

      5.2 實(shí)驗(yàn)數(shù)據(jù)集

      本文使用Corel 圖像庫中的圖像文件進(jìn)行Hadoop平臺(tái)下SVM圖像識(shí)別研究。該圖像庫含有恐龍、大象、公共交通工具、人物、山川、河流等圖像,常用于圖像檢索系統(tǒng)和方法的測試。部分圖像示例如圖3所示。

      5.3 圖像識(shí)別準(zhǔn)確率實(shí)驗(yàn)研究

      從Corel圖像庫中分別選取訓(xùn)練樣本和測試樣本均為1 000,2 000,5 000和10 000的實(shí)驗(yàn)組,使用本文研究的基于Hadoop平臺(tái)SVM圖像識(shí)別系統(tǒng),常規(guī)單機(jī)SVM圖像識(shí)別系統(tǒng)以及基于Hadoop平臺(tái)BP神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別系統(tǒng)對(duì)圖像樣本進(jìn)行訓(xùn)練和識(shí)別,測試結(jié)果如表1和圖4所示。

      對(duì)比表1和圖4中數(shù)據(jù)可以看出,常規(guī)單機(jī)SVM圖像識(shí)別系統(tǒng)以及基于Hadoop平臺(tái)SVM的圖像識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確率相差不大,在Hadoop平臺(tái)下進(jìn)行圖像識(shí)別對(duì)于提高識(shí)別準(zhǔn)確率意義不大,而使用基于Hadoop平臺(tái)BP神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別系統(tǒng)識(shí)別準(zhǔn)確率很低,因此BP神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別系統(tǒng)不適用于Hadoop平臺(tái)中。

      5.4 圖像識(shí)別效率實(shí)驗(yàn)研究

      對(duì)基于Hadoop平臺(tái)下SVM圖像識(shí)別技術(shù)的效率進(jìn)行研究,使用加速比衡量其效率,加速比為單機(jī)SVM訓(xùn)練時(shí)間和基于Hadoop平臺(tái)下SVM圖像識(shí)別技術(shù)的訓(xùn)練時(shí)間之比。同樣使用Corel圖像庫中的10 000條數(shù)據(jù)對(duì)兩種對(duì)比識(shí)別模型進(jìn)行訓(xùn)練,Hadoop平臺(tái)中的節(jié)點(diǎn)數(shù)分別設(shè)置為1,2,3和4,則實(shí)驗(yàn)得到的訓(xùn)練時(shí)間和加速比如圖5所示。

      從實(shí)驗(yàn)結(jié)果可看出,當(dāng)Hadoop平臺(tái)中僅有1個(gè)節(jié)點(diǎn)時(shí),相當(dāng)于單機(jī)SVM識(shí)別模型,訓(xùn)練時(shí)間為66 s,加速比為1。當(dāng)Hadoop平臺(tái)中僅有2個(gè)節(jié)點(diǎn)時(shí),由于計(jì)算機(jī)之間交互數(shù)據(jù)消耗了部分時(shí)間,因此訓(xùn)練時(shí)間甚至超過了單機(jī)SVM識(shí)別模型,加速比為0.92,低于1,當(dāng)Hadoop平臺(tái)中擁有超過2個(gè)節(jié)點(diǎn)時(shí),加速比明顯上升,訓(xùn)練時(shí)間下降,Hadoop平臺(tái)中使用SVM進(jìn)行圖像識(shí)別的效率優(yōu)勢(shì)體現(xiàn)出來。

      6 結(jié) 語

      本文將單機(jī)SVM算法和云平臺(tái)結(jié)合,以探討提高海量圖像識(shí)別檢索效率的方法。通過實(shí)例分析,結(jié)果表明:常規(guī)單機(jī)SVM圖像識(shí)別系統(tǒng)以及基于Hadoop平臺(tái)SVM的圖像識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確率相差不大,而使用基于Hadoop平臺(tái)BP神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別系統(tǒng)識(shí)別準(zhǔn)確率很低,BP神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別系統(tǒng)不適用于Hadoop平臺(tái)中;當(dāng)Hadoop平臺(tái)中僅有1個(gè)節(jié)點(diǎn)時(shí),相當(dāng)于單機(jī)SVM識(shí)別模型。當(dāng)Hadoop平臺(tái)中僅有2個(gè)節(jié)點(diǎn)時(shí),訓(xùn)練時(shí)間甚至超過了單機(jī)SVM識(shí)別模型,當(dāng)Hadoop平臺(tái)中擁有超過2個(gè)節(jié)點(diǎn)時(shí),加速比明顯上升,訓(xùn)練時(shí)間下降,Hadoop平臺(tái)中使用SVM進(jìn)行圖像識(shí)別的效率優(yōu)勢(shì)體現(xiàn)出來。

      參考文獻(xiàn)

      [1] ???基于Hadoop云平臺(tái)的分布式支持向量機(jī)研究[D].臨汾:山西師范大學(xué),2014.

      [2] 高曉健.基于支持向量機(jī)的高光譜遙感圖像分類方法研究[D].杭州:杭州電子科技大學(xué),2012.

      [3] 郭欣欣.基于分布式計(jì)算的SVM算法優(yōu)化[D].西安:西安電子科技大學(xué),2014.

      [4] 陶杭.基于Hadoop的SVM算法優(yōu)化及在文本分類中的應(yīng)用[D].北京:北京郵電大學(xué),2015.

      [5] 張小琴,胡景,肖煒.基于Hadoop云平臺(tái)的分布式支持向量機(jī)[J].山西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(4):19?23.

      [6] 張奕武.基于Hadoop分布式平臺(tái)的SVM算法優(yōu)化及應(yīng)用[D].廣州:中山大學(xué),2012.

      [7] 盧文清.基于Hadoop的Android軟件惡意檢測的研究與實(shí)現(xiàn)[D].寧波:寧波大學(xué),2014.

      [8] 張乃斌.HadoopDDos攻擊檢測研究分析[D].北京:北京郵電大學(xué),2014.

      [9] 張磊磊.基于Hadoop和SVM算法的中文文本分類的研究與實(shí)現(xiàn)[D].昆明:昆明理工大學(xué),2015.

      [10] 孫繼平,佘杰.基于支持向量機(jī)的煤巖圖像特征抽取與分類識(shí)別[J].煤炭學(xué)報(bào),2013,38(z2):508?512.

      [11] 雷學(xué)智.云計(jì)算平臺(tái)下分布式支持向量機(jī)在煤炭行業(yè)分類預(yù)測應(yīng)用[J].煤炭技術(shù),2013(11):248?250.

      [12] 崔文斌,溫孚江,牟少敏,等.基于Hadoop的局部支持向量機(jī)[J].計(jì)算機(jī)研究與發(fā)展,2014(z2):116?121.

      [13] 曹健.基于支持向量機(jī)的圖像分類方法研究[D].金華:浙江師范大學(xué),2013.

      [14] 丁勝鋒,孫勁光,陳東莉,等.基于模糊雙支持向量機(jī)的遙感圖像分類研究[J].遙感技術(shù)與應(yīng)用,2012,27(3):353?358.

      [15] 祁亨年,楊建剛,方陸明.基于多類支持向量機(jī)的遙感圖像分類及其半監(jiān)督式改進(jìn)策略[J].復(fù)旦學(xué)報(bào)(自然科學(xué)版),2004,43(5):781?784.

      前郭尔| 池州市| 德钦县| 旬邑县| 芮城县| 德昌县| 阜平县| 建瓯市| 延津县| 桐城市| 嵊州市| 宿迁市| 海林市| 丽水市| 农安县| 本溪市| 静海县| 通渭县| 皋兰县| 景洪市| 潮州市| 济宁市| 虹口区| 化德县| 山西省| 裕民县| 乌鲁木齐市| 伊宁县| 平果县| 惠安县| 五台县| 玛沁县| 东平县| 河北省| 牡丹江市| 遂宁市| 黑龙江省| 县级市| 泰兴市| 平凉市| 盘山县|