• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Hadoop平臺的圖像識別

      2017-03-23 23:35:40趙禎
      現(xiàn)代電子技術(shù) 2017年4期
      關(guān)鍵詞:字符識別圖像識別

      趙禎

      摘 要: 基于Hadoop平臺以字符識別為例建立圖像識別系統(tǒng)。所設(shè)計的系統(tǒng)在借鑒云平臺高擴(kuò)展性以及高效性等優(yōu)勢的基礎(chǔ)上,有效地解決了傳統(tǒng)字符識別系統(tǒng)在計算效率以及數(shù)據(jù)處理方面所存在的不足。通過實例驗證了基于Hadoop平臺進(jìn)行圖像識別相比單機(jī)圖像識別系統(tǒng)具有更高的效率:在僅具有2個節(jié)點的Hadoop圖像識別平臺上進(jìn)行字符圖像的識別時,由于節(jié)點數(shù)較少,在2臺計算機(jī)中消耗的數(shù)據(jù)交換時間使得Hadoop圖像識別平臺進(jìn)行圖像識別的總時間甚至超過了單臺計算機(jī)所使用的時間,而在具有4個節(jié)點、6個節(jié)點和8個節(jié)點的Hadoop圖像識別平臺上,處理相同圖像所使用的時間隨著節(jié)點數(shù)量增多而降低。

      關(guān)鍵詞: 字符識別; Hadoop平臺; 圖像識別; 數(shù)據(jù)交換時間

      中圖分類號: TN911?34; U495 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)04?0128?04

      Image recognition based on Hadoop platform

      ZHAO Zhen

      (Department of Software Engineering, Inner Mongolia Electronic Information Vocational Technical College, Hohhot 010000, China)

      Abstract: The image recognition system was established based on Hadoop platform, which takes the character recognition as an example. The system based on the advantages of good scalability and high efficiency of the cloud platform can effectively eliminate the shortcomings of the traditional character recognition system in the aspects of computing efficiency and data processing. The fact that the efficiency of the image recognition system based on Hadoop platform is higher than that of the stand?alone image recognition system is verified with an instance. The data exchange time consumed in two computers makes the total time of the image recognition based on Hadoop image recognition platform with only two nodes longer than the use time of the image recognition based on single computer due to the less node quantity, when the character image is recognized on Hadoop image recognition platform with two nodes. The use time for processing the same image on Hadoop image recognition platform with four nodes, six nodes or eight nodes is deduced with the increase of the node quantity.

      Keywords: character recognition; Hadoop platform; image recognition; data exchange time

      在對互聯(lián)網(wǎng)圖片進(jìn)行匹配和分類的過程中,單臺計算機(jī)已經(jīng)無法滿足相應(yīng)的需求,而分布式計算框架能夠穩(wěn)定和高效地匹配和分配大量的互聯(lián)網(wǎng)圖片,具有顯著的優(yōu)勢[1?2]。本文基于Hadoop平臺,以字符識別為例建立圖像識別系統(tǒng)。本文所設(shè)計的系統(tǒng)在借鑒云平臺高擴(kuò)展性以及高效性等優(yōu)勢的基礎(chǔ)上有效的解決在計算效率以及數(shù)據(jù)處理方面?zhèn)鹘y(tǒng)字符識別系統(tǒng)所存在的不足。主要體現(xiàn)在以下兩個方面:利用Hadoop能夠在平臺各個節(jié)點中分配字符識別任務(wù),對于任務(wù)執(zhí)行時間的縮短有非常積極的作用,還能夠提升系統(tǒng)處理大型數(shù)據(jù)集的效率;能夠在普通的PC機(jī)上搭建Hadoop平臺,同時節(jié)點數(shù)可以根據(jù)數(shù)據(jù)量大小以及任務(wù)需求來靈活的減小,相比于一些昂貴的服務(wù)器,其具有非常顯著的成本優(yōu)勢。另外,在互聯(lián)網(wǎng)技術(shù)逐漸發(fā)展和完善的過程中傳統(tǒng)的單機(jī)離線識別系統(tǒng)已經(jīng)不能滿足現(xiàn)代化的需求,所以以云平臺為基礎(chǔ)對字符識別系統(tǒng)進(jìn)行研究具有顯著的現(xiàn)實意義和實用價值[3?4]。

      1 基于Hadoop平臺圖像識別系統(tǒng)框架

      1.1 傳統(tǒng)圖像識別框架

      傳統(tǒng)圖像識別框架如圖1所示。

      傳統(tǒng)圖像識別框架主要由圖像預(yù)處理模塊、相關(guān)特征提取模塊和分類器訓(xùn)練分類模塊組成[5]。

      (1) 圖像預(yù)處理模塊。通過圖像預(yù)處理模塊能夠轉(zhuǎn)換用戶所選擇的彩色圖片,并將轉(zhuǎn)換得到的灰度圖像在內(nèi)存中進(jìn)行讀入,為下一步的計算做好準(zhǔn)備工作。

      (2) 相關(guān)特征提取模塊。通過相關(guān)特征提取模塊能夠運算讀入到內(nèi)存中的圖像數(shù)據(jù),進(jìn)而保證所獲取的圖像特征能夠滿足用戶需求。通過該模塊能夠向量化用戶提供所需要的特征。

      (3) 分類器訓(xùn)練分類模塊。通過對神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)等機(jī)器學(xué)習(xí)算法的應(yīng)用,該模塊能夠訓(xùn)練所提取的樣本數(shù)據(jù),同時根據(jù)實際的需求用戶可以對相關(guān)的算法訓(xùn)練分類器進(jìn)行選擇。能夠在本地文件系統(tǒng)中以文件的形式將這些訓(xùn)練得到的分類器儲存起來。在實現(xiàn)前兩個模塊的功能以后就可以使用分類器判決特征向量,進(jìn)而對輸入圖像的類別進(jìn)行識別。

      在利用傳統(tǒng)圖像分類系統(tǒng)進(jìn)行圖像分類的過程中,圖像特性提取過程需要耗費非常長的時間,另外在對較大數(shù)據(jù)量的特征矩陣進(jìn)行計算時需要讀寫系統(tǒng)硬盤與內(nèi)存,這就直接增加了程序的出錯率,降低了系統(tǒng)的穩(wěn)定性和可靠性。

      在訓(xùn)練分類模型的過程中用戶可以利用傳統(tǒng)圖像分類系統(tǒng)對不同類型的分類器模型進(jìn)行選擇。但是不同的分類器采用了不同的訓(xùn)練算法,使得所選取的參數(shù)以及模型存在著一定的差距,如果不能保證所選取分類器模型的適用性,沒有充分地優(yōu)化模型參數(shù),就會降低分類器的正確率。

      1.2 基于hadoop平臺圖像識別系統(tǒng)框架

      基于Hadoop平臺的圖像識別系統(tǒng)整體框圖如圖2所示[6]。在Hadoop平臺上進(jìn)行圖像識別主要分為以下5個過程[7]:

      (1) 用戶提交圖像分類請求。通過Job Client就可以從Hadoop的Job Tracker中獲取新的圖像分類作業(yè)ID。然后工程JAR包可以由圖像分類作業(yè)運行,通過Job Client能夠?qū)⒊绦蛞蕾嚨膱D像特征分類數(shù)據(jù)以及配置文件復(fù)制到HDFS中。完成以上過程以后,Job Client就可以將作業(yè)提交到Job Tracker中,Job Tracker首先對作業(yè)的相關(guān)信息進(jìn)行檢查,然后輸入數(shù)據(jù)的劃分情況就可以從HDFS中獲取,做好作業(yè)執(zhí)行的準(zhǔn)備工作。

      (2) 圖像分類作業(yè)的任務(wù)分配與初始化。在接收到Job Client提交的作業(yè)之后,Job Tracker就會對作業(yè)進(jìn)行初始化操作,并在一個內(nèi)部的任務(wù)隊列中放置該作業(yè)。利用Hadoop的作業(yè)調(diào)度器可以調(diào)度這個隊列中的任務(wù)。根據(jù)Task Tracker的心跳情況Job Tracker就可以在相應(yīng)的集群節(jié)點上分配相關(guān)的作業(yè)任務(wù),由于部分特征數(shù)據(jù)是存放在DataNode上的,因此在進(jìn)行MapTask的過程中Job Tracker能夠從本次直接獲取輸入數(shù)據(jù),這樣能夠有效地減少數(shù)據(jù)傳輸過程中所產(chǎn)生的網(wǎng)絡(luò)損耗。

      (3) 圖像分類任務(wù)的Map階段。在獲取到Job Tracker所分配的任務(wù)以后,程序的相關(guān)數(shù)據(jù)以及JAR文件就可以自動地從HDFS中獲取,并在本地的文件磁盤中進(jìn)行儲存,通過對本地的Java虛擬機(jī)進(jìn)行執(zhí)行就可以對JAR文件和數(shù)據(jù)進(jìn)行加載,這樣運行任務(wù)實例的Task Tracker中就可以接收到數(shù)據(jù)塊。在對Map任務(wù)進(jìn)行執(zhí)行的過程中,應(yīng)當(dāng)對特征庫中的圖像特征與對應(yīng)類下輸入圖像的特征之間的距離進(jìn)行計算,并將特征圖像庫中的圖像類別以及計算得到的距離作為輸出結(jié)果的鍵值對,并在本地文件磁盤中存儲得到的結(jié)果。

      (4) 圖像分類任務(wù)的Reduce階段。在獲取Map任務(wù)計算得到的圖像特征向量的中間臨時鍵值對之后,就可以進(jìn)行圖像的分類。MapReduce框架按照其對應(yīng)的鍵值對這些特征向量進(jìn)行分類,當(dāng)中間結(jié)果的鍵值一致時就會整理和合并鍵值對的特征向量,并由ReduceTask來處理合并之后的結(jié)果。利用ReduceTask可以排序MapTask的輸出,并獲取圖像分類的結(jié)果,同時將結(jié)果寫入到HDFS中。

      (5) 圖像分類任務(wù)的完成:完成Reduce階段以后,JobTracker就會識別到任務(wù)已經(jīng)完成,并進(jìn)行相應(yīng)的表示,另外用戶利用JobTracker可以獲取作業(yè)運行的相關(guān)參數(shù)。最后,利用JobTracker清空所有作業(yè)狀態(tài),利用TaskTracker刪除Map階段產(chǎn)生的中間結(jié)果,這樣用戶就可以在HDFS上對結(jié)果文件進(jìn)行查看。

      2 字符圖像識別方法

      通常情況下,對字符進(jìn)行識別,會使用神經(jīng)網(wǎng)絡(luò)和字符識別兩種方法。神經(jīng)網(wǎng)絡(luò)的識別效率很低,但是擁有較好的容錯性能;字符識別形式簡單,運行速度快,應(yīng)用比較廣泛。在文中對字符進(jìn)行識別,使用文獻(xiàn)[8]提到的模板匹配和字符圖像特征統(tǒng)計相結(jié)合的方法。通過確定分析樣本和輸入形式之間的相似度,將相似程度最高的確定為輸入模型類型。在特征的提取過程中,會使用字符的最直接形象,在識別過程中會用到內(nèi)容匹配原理。也就是說,在完成匹配的時候,要將標(biāo)準(zhǔn)形式的字符和需要輸入的字符放到相同的分類器中。相關(guān)匹配方法表示如下:

      假設(shè)以輸入函數(shù)表示輸入字符,函數(shù)表示標(biāo)準(zhǔn)模板,為通過相關(guān)器比較得到的輸出。相關(guān)器的輸出表示為:

      3 Hadoop平臺圖像識別過程實現(xiàn)

      為了保證Hadoop平臺能夠并行地識別字符圖像,應(yīng)當(dāng)以MapReduce框架為基礎(chǔ)進(jìn)行Reduce()和Map()函數(shù)的編寫,其中輸入和數(shù)據(jù)鍵值對的設(shè)計對于Map()和Reduce()函數(shù)的編寫非常關(guān)鍵[9]。

      將Keyin設(shè)定為Text 類型來對字符圖像的文件名進(jìn)行儲存;將Valuein設(shè)置為Image 類型來對字符圖像數(shù)據(jù)進(jìn)行儲存。在將圖像數(shù)據(jù)從HDFS中批量讀入以后,Map()函數(shù)就可以將其解析為相應(yīng)的鍵值對,通過Exif信息提取的執(zhí)行就可以識別字符,同時在中間結(jié)果Keyj中存儲所識別的字符,在中間結(jié)果Valuej中存儲圖像文件名以及拍攝時間,經(jīng)過Collect,Spill,Combine過程Reduce()函數(shù)就可以接收到最終的結(jié)果。在執(zhí)行Map Tasks的過程中,輸入圖像的數(shù)量控制著所產(chǎn)生的Map 任務(wù)個數(shù),同時這些Map 任務(wù)具有相互獨立的特點。Map任務(wù)數(shù)據(jù)流處理過程如圖3所示[10?11]。

      其中,字符識別功能可以通過Map()函數(shù)來實現(xiàn),每個Map 任務(wù)由單獨的鍵值對來啟動,采用下面兩個步驟處理解析出的圖像。首先通過調(diào)用metadata?extractor就可以將拍攝文件名和時間提取出來。然后通過算法的執(zhí)行來對圖像中的字符進(jìn)行識別。最后在鍵值對中寫入結(jié)果,并將其作為Reduce()函數(shù)的輸入[12]。

      在完成Map()函數(shù)的執(zhí)行以后就需要將輸出的中間值Valuej以及keyj傳遞到Reduce Task,不同的Keyj下的Valuej由不同的Reduce Task來負(fù)責(zé),在執(zhí)行完所有的Map()函數(shù)以后就可以在Reduce()函數(shù)中合并和排序處理收集到的鍵值對。Reduce任務(wù)數(shù)據(jù)流處理過程如圖4所示。

      其中,通過應(yīng)用冒泡法Reduce()函數(shù)可以排序Value 值中的時間參數(shù),并將拍攝時間與文件名以及字符以文本的形式進(jìn)行輸出[13]。

      4 基于Hadoop平臺圖像識別效率分析

      本文通過實例對比分析基于Hadoop平臺以及單機(jī)圖像識別平臺的識別效率。

      單機(jī)圖像識別平臺和Hadoop圖像識別平臺中主從機(jī)均使用相同配置的計算機(jī)。在Hadoop平臺中節(jié)點計算機(jī)上安裝Hadoop 1.0.0版本平臺系統(tǒng),并對Hadoop平臺系統(tǒng)進(jìn)行配置。

      將采集到的字符圖像分為四組,各組中分別包含了200,500,1 000和2 000張字符圖像,分別使用單機(jī)圖像識別平臺以及配置有2,4,6和8個節(jié)點的Hadoop圖像識別平臺進(jìn)行圖像識別,分別得到各種識別平臺下的識別時間如圖5所示。

      從各識別平臺的識別效率對比曲線可以看出,在僅具有2個節(jié)點的Hadoop圖像識別平臺上進(jìn)行字符圖像的識別時,由于節(jié)點數(shù)較少,在兩臺計算機(jī)中消耗的數(shù)據(jù)交換時間使得Hadoop圖像識別平臺進(jìn)行圖像識別的總時間甚至超過了單臺計算機(jī)所使用的時間,而在具有4個節(jié)點、6個節(jié)點和8個節(jié)點的Hadoop圖像識別平臺上,處理相同圖像所使用的時間隨著節(jié)點數(shù)量增多而降低。

      5 結(jié) 論

      在對互聯(lián)網(wǎng)圖片進(jìn)行匹配和分類的過程中,單臺計算機(jī)已經(jīng)無法滿足相應(yīng)的需求,而分布式計算框架能夠穩(wěn)定和高效地匹配和分配大量的互聯(lián)網(wǎng)圖片,具有顯著的優(yōu)勢。本文基于Hadoop平臺,以字符識別為例建立圖像識別系統(tǒng)。本文所設(shè)計的系統(tǒng)在借鑒云平臺高擴(kuò)展性以及高效性等優(yōu)勢的基礎(chǔ)上有效地解決在計算效率以及數(shù)據(jù)處理方面?zhèn)鹘y(tǒng)字符識別系統(tǒng)所存在的不足。通過實例驗證了基于Hadoop平臺進(jìn)行圖像識別相比單機(jī)圖像識別系統(tǒng)具有更高的效率。

      參考文獻(xiàn)

      [1] 王自昊.基于Hadoop的圖像分類與匹配研究[D].北京:北京郵電大學(xué),2015.

      [2] 梁世磊.基于Hadoop平臺的隨機(jī)森林算法研究及圖像分類系統(tǒng)實現(xiàn)[D].廈門:廈門大學(xué),2014.

      [3] 呂聯(lián)盟.基于云計算的人臉識別系統(tǒng)研究與設(shè)計[D].西安:長安大學(xué),2014.

      [4] 李潔.基于Hadoop的海量視頻的分布式存儲與檢索研究[D].南京:南京郵電大學(xué),2015.

      [5] 陳永權(quán).基于Hadoop的圖像檢索算法研究與實現(xiàn)[D].廣州:華南理工大學(xué),2013.

      [6] 李彬.嵌入式車牌識別系統(tǒng)的設(shè)計與實現(xiàn)[D].西安:西安工業(yè)大學(xué),2013.

      [7] 陳洪.基于云計算的大規(guī)模圖像檢索后臺處理系統(tǒng)實現(xiàn)[D].成都:西南交通大學(xué),2013.

      [8] 陳聰,姚大志.高靈敏度CCD和圖像特征在車牌識別中的應(yīng)用[J].計算機(jī)仿真,2015,32(11):164?168.

      [9] 潘天工.汽車牌照自動識別系統(tǒng)的研究[D].哈爾濱:哈爾濱理工大學(xué),2006.

      [10] 李科.基于FPGA和DSP的車牌識別系統(tǒng)的硬件設(shè)計與實現(xiàn)[D].成都:電子科技大學(xué),2007.

      [11] 王彤.車牌識別系統(tǒng)設(shè)計與實現(xiàn)[D].蘇州:蘇州大學(xué),2009.

      [12] 李顏.基于云平臺的車牌識別系統(tǒng)設(shè)計與實現(xiàn)[D].桂林:桂林電子科技大學(xué),2015.

      [13] 章為川.基于神經(jīng)網(wǎng)絡(luò)的車牌識別系統(tǒng)的研究與設(shè)計[D].成都:西南交通大學(xué),2006.

      猜你喜歡
      字符識別圖像識別
      基于Resnet-50的貓狗圖像識別
      電子制作(2019年16期)2019-09-27 09:34:50
      高速公路圖像識別技術(shù)應(yīng)用探討
      圖像識別在物聯(lián)網(wǎng)上的應(yīng)用
      電子制作(2018年19期)2018-11-14 02:37:04
      圖像識別在水質(zhì)檢測中的應(yīng)用
      電子制作(2018年14期)2018-08-21 01:38:16
      一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識別
      淺談模式識別在圖像識別中的應(yīng)用
      電子測試(2017年23期)2017-04-04 05:06:50
      基于自動智能分類器的圖書館亂架圖書檢測
      儀表字符識別中的圖像處理算法研究
      基于數(shù)據(jù)挖掘技術(shù)的圖片字符檢測與識別
      基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識別
      西藏| 泽普县| 思茅市| 阿克苏市| 上栗县| 宜兴市| 万载县| 聊城市| 汉川市| 屏山县| 贵南县| 江源县| 华蓥市| 镇平县| 古田县| 桐城市| 忻州市| 长治市| 台东县| 连山| 丹寨县| 株洲县| 临泉县| 襄汾县| 彰化市| 谢通门县| 射洪县| 缙云县| 沁水县| 开阳县| 崇义县| 丰台区| 新龙县| 梅河口市| 囊谦县| 广丰县| 平凉市| 余干县| 格尔木市| 克什克腾旗| 延川县|