• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經(jīng)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)街道字符識(shí)別

      2021-09-14 23:54:44袁姍姍
      電腦知識(shí)與技術(shù) 2021年22期
      關(guān)鍵詞:圖像分類卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

      袁姍姍

      摘要:卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)領(lǐng)域近年來最優(yōu)秀的算法之一,已經(jīng)廣泛應(yīng)用于各種計(jì)算機(jī)視覺任務(wù),尤其在圖像分類任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)憑借其極高的分類準(zhǔn)確率,使用率已經(jīng)遠(yuǎn)超過傳統(tǒng)的機(jī)器學(xué)習(xí)算法。街道字符識(shí)別作為圖像分類任務(wù)的一種,為了完成這個(gè)分類任務(wù),全文基于卷積神經(jīng)網(wǎng)絡(luò)技術(shù),首先對數(shù)據(jù)集進(jìn)行讀取、并針對數(shù)據(jù)量較少問題,采取一系列的數(shù)據(jù)增強(qiáng)操作,然后完成卷積神經(jīng)網(wǎng)絡(luò)模型的構(gòu)造。通過對模型的訓(xùn)練,測試結(jié)果顯示測試集和驗(yàn)證集準(zhǔn)確率分別為0.9523和0.7453,出色地完成了對街道字符的識(shí)別任務(wù),并驗(yàn)證了所搭建模型的有效性和優(yōu)異性。

      關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);圖像分類;街道字符識(shí)別

      1 引言

      圖像作為重要的信息傳遞方式引起了當(dāng)今學(xué)者們和工業(yè)者極大的重視,圖像信息及圖像深層蘊(yùn)含的語義信息有著巨大的價(jià)值。街道字符作為圖像分類領(lǐng)域典型的分類任務(wù)之一,如何將街道字符中包含的街道信息和數(shù)字等字符信息提取出來并正確分類,是一個(gè)具有實(shí)際意義的研究課題。在街道上,隨處可見的街牌、門牌的背后蘊(yùn)含豐富的數(shù)字信息、地址信息以及文化信息,更應(yīng)該合理地運(yùn)用這寶貴的圖像信息資源,挖掘信息中的內(nèi)在聯(lián)系,首要的就是通過計(jì)算機(jī)對這些街道字符信息進(jìn)行自動(dòng)地識(shí)別。文中采用卷積神經(jīng)網(wǎng)絡(luò)技術(shù),就如何高精度正確的區(qū)分街道字符這一問題展開研究,結(jié)合街道字符信息特點(diǎn)和卷積神經(jīng)網(wǎng)絡(luò)的技術(shù)手段,來完成任務(wù)要求。

      2 卷積神經(jīng)網(wǎng)絡(luò)簡介

      卷積神經(jīng)網(wǎng)絡(luò)[1](CNN)是一種優(yōu)秀的人工神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)在許多領(lǐng)域都有優(yōu)異的性能,卷積神經(jīng)網(wǎng)絡(luò)最大的優(yōu)點(diǎn)是其訓(xùn)練結(jié)果的精度遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的算法。特別是在計(jì)算機(jī)視覺領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)是解決圖像分類、圖像檢索、目標(biāo)檢測和語義分割問題的主流模型。卷積神經(jīng)網(wǎng)絡(luò)的每一層都由許多卷積核組成。每個(gè)卷積對圖像進(jìn)行卷積操作,并將它們輸出到下一個(gè)輸入。隨著網(wǎng)絡(luò)層的增加,卷積核會(huì)逐漸擴(kuò)大接受域,減小圖像的大小。從結(jié)構(gòu)上看,卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)分層模型。輸入的是原始圖像數(shù)據(jù),最終輸出的是經(jīng)過多層運(yùn)算后的精度結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)由卷積、池化、輸入、輸出和全連接層組成。以最經(jīng)典的LeNet[2]模型為例,說明卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)組成。LeNet模型的網(wǎng)絡(luò)結(jié)構(gòu),是由兩個(gè)卷積層,兩個(gè)池化層和兩個(gè)全連接層組成。LeNet模型卷積核的大小都是5×5,步長stride=1,池化層使用最大池化。通過多次卷積和池化,將輸入圖像像素映射到具體輸出。例如,在分類任務(wù)中,將不同類別的概率輸出進(jìn)行轉(zhuǎn)換,然后計(jì)算卷積神經(jīng)網(wǎng)絡(luò)模型的真實(shí)標(biāo)簽和預(yù)測結(jié)果之間的差異,并通過反向傳播更新每一層的參數(shù),更新完成后再次重復(fù)正向傳播,以此類推,直到訓(xùn)練完成。與傳統(tǒng)的機(jī)器學(xué)習(xí)模型相比,卷積神經(jīng)網(wǎng)絡(luò)有一種端到端的方法,即只需要輸入相應(yīng)的數(shù)據(jù)集,經(jīng)過訓(xùn)練后就可以直接輸出結(jié)果。因此,在卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,直接從圖像輸入到最終結(jié)果的輸出,不涉及煩瑣的特征提取步驟也不需要任何的人為參與,就可以得到結(jié)果。

      回顧卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,模型大多都是隨著層數(shù)和參數(shù)量的增長來更新?lián)Q代的。模型的交替更新中,不得不提到LeNet-5、AlexNet[3]兩個(gè)優(yōu)秀的卷積神經(jīng)網(wǎng)絡(luò)模型。LeNet-5模型是在1998年由Yann LeCun等搭建的模型。他們不但提出了卷積、池化、也第一次正式提出卷積神經(jīng)網(wǎng)絡(luò)局部感受野的理論依據(jù)。LeNet-5模型算是卷積神經(jīng)網(wǎng)絡(luò)引起學(xué)者們廣泛關(guān)注的看開端。而AlexNet模型就是將卷積神經(jīng)網(wǎng)絡(luò)推入學(xué)者們研究熱點(diǎn)的催化劑。AlexNet模型在2012年由Hinton等人設(shè)計(jì)搭建完成的。在ImageNet大規(guī)模的圖像分類競賽中,AlexNet模型以極大的優(yōu)勢領(lǐng)先其他的機(jī)器學(xué)習(xí)的算法,將人們的目光聚焦在卷積神經(jīng)網(wǎng)絡(luò)技術(shù)上,作為推廣卷積神經(jīng)網(wǎng)絡(luò)的強(qiáng)力推手,AlexNet模型功不可。隨后,越來越多的CNN模型,如VGG[4]、InceptionV3[5]和ResNet[6]等,被學(xué)者們搭建出來,并成功在各個(gè)領(lǐng)域廣泛的應(yīng)用。

      3 基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行街道字符識(shí)別

      基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行街道字符識(shí)別主要分為數(shù)據(jù)集的準(zhǔn)備、數(shù)據(jù)讀取、數(shù)據(jù)增強(qiáng)、模型的訓(xùn)練與驗(yàn)證這四個(gè)步驟。數(shù)據(jù)集的獲取是整個(gè)實(shí)驗(yàn)的基礎(chǔ),選取合適的數(shù)據(jù)集,不僅有利于實(shí)驗(yàn)還可以更方便地進(jìn)行橫向的對比,來驗(yàn)證模型的優(yōu)劣。數(shù)據(jù)讀取與數(shù)據(jù)增強(qiáng)屬于對圖像數(shù)據(jù)的預(yù)處理工作,將圖像進(jìn)行規(guī)范的讀取,并用數(shù)據(jù)增強(qiáng)的方法來增加數(shù)據(jù)集的樣本量來更好的訓(xùn)練所構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)。模型的訓(xùn)練與驗(yàn)證中從模型的搭建、驗(yàn)證集的構(gòu)造、模型的保存、調(diào)參等多個(gè)方面,對模型訓(xùn)練驗(yàn)證過程做出了詳細(xì)的說明。通過對卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,結(jié)果顯示,所搭建的模型高精度地完成了對街道字符的識(shí)別任務(wù)。文中實(shí)驗(yàn)基于python編程語言。實(shí)驗(yàn)使用pytorch框架對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行搭建。

      3.1 數(shù)據(jù)集

      本文任務(wù)是街道字符識(shí)別任務(wù),數(shù)據(jù)集選用The Street View House Numbers[7] 數(shù)據(jù)集,簡稱SVHN。SVHN數(shù)據(jù)集中所有的圖像,都是真實(shí)存在的,它們是源自真實(shí)的房屋號(hào)碼。在SVHN的使用中,SVHN數(shù)據(jù)集常用于模式識(shí)別,圖像分類算法的開發(fā)。因?yàn)镾VHN數(shù)據(jù)集中圖像像素偏小,所以它只需要簡單的預(yù)處理和讀取操作即可,同時(shí)訓(xùn)練時(shí)相對時(shí)間較短。盡管SVHN數(shù)據(jù)集中圖像的裁剪數(shù)字很小,但是它合并了更多數(shù)量級(jí)的標(biāo)簽數(shù)據(jù),標(biāo)簽數(shù)據(jù)量超過600,000個(gè)圖像。此數(shù)據(jù)集主要的應(yīng)用就是用于識(shí)別自然場景圖像中的字符和數(shù)字的模型的訓(xùn)練及測試。數(shù)據(jù)集大小為2.5G,格式為.mat 文件,共含有10個(gè)類別,一共含有630,420張圖片。所有原始圖片的大小均已調(diào)整為固定的32 x 32像素分辨率,原始字符邊框在適當(dāng)?shù)某叽缟蠑U(kuò)展為方形窗口,其中包含圖像中每個(gè)圖像的邊界框的位置、大小和標(biāo)簽。

      3.2 數(shù)據(jù)讀取

      本文任務(wù)是針對原始的圖像數(shù)據(jù),精準(zhǔn)地識(shí)別街道路牌圖像中的字符。第一步要做的是讀取數(shù)據(jù),我們使用的是Python語言,調(diào)取常用的Pillow庫和OpenCV庫完成對數(shù)據(jù)的讀取和寫入。 下文從兩個(gè)庫的具體用法,包括常用函數(shù)等方面,舉例說明這兩個(gè)函數(shù)庫的使用方法。

      猜你喜歡
      圖像分類卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)
      基于云計(jì)算的圖像分類算法
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      基于錨點(diǎn)建圖的半監(jiān)督分類在遙感圖像中的應(yīng)用
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      一種基于引導(dǎo)濾波和MNF的高光譜遙感圖像分類方法
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      基于最大似然法的南京市土地利用類型分類研究
      商(2016年22期)2016-07-08 14:32:30
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識(shí)別的算法的研究
      和顺县| 八宿县| 连云港市| 日照市| 淮阳县| 武平县| 涟水县| 肇庆市| 崇文区| 鲁山县| 顺昌县| 东乌珠穆沁旗| 溧水县| 手机| 鄢陵县| 石楼县| 台湾省| 清新县| 东乡| 米林县| 万安县| 军事| 郸城县| 鄂温| 久治县| 米林县| 双桥区| 天长市| 曲松县| 麻城市| 东兴市| 蕉岭县| 鹤庆县| 前郭尔| 延寿县| 大同县| 忻城县| 枣阳市| 嘉荫县| 金坛市| 临泉县|