• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      用于七段碼識別的BP網(wǎng)絡(luò)中虛擬樣本的生成

      2012-07-25 05:34:08付雅冰
      傳感器與微系統(tǒng) 2012年3期
      關(guān)鍵詞:樣本空間構(gòu)造方法訓(xùn)練樣本

      付雅冰,徐 曉

      (華南理工大學(xué)理學(xué)院,廣東廣州 510640)

      0 引言

      目前,工業(yè)儀表的自動化識別是一個(gè)熱門的課題。目前主要的識別方法有許多種。顧晨勤等人運(yùn)用基于模板匹配進(jìn)行字符識別[1],該方法受噪聲、圖像偏轉(zhuǎn)影響較大,且較耗時(shí)。崔行臣等人[2]利用各數(shù)字背景四連通區(qū)域?qū)ο蟮膫€(gè)數(shù)和標(biāo)識矩陣元素的分布來構(gòu)造識別特征從而對數(shù)字進(jìn)行分類識別,前提是需要對儀表圖像進(jìn)行一系列預(yù)處理,過程比較復(fù)雜。還有基于數(shù)字拓?fù)浣Y(jié)構(gòu)特征的分類識別[3,4]等。BP神經(jīng)網(wǎng)絡(luò)作為應(yīng)用最廣泛的人工神經(jīng)網(wǎng)絡(luò),在儀表字符識別方面的效果也是相當(dāng)顯著,影響基于BP網(wǎng)絡(luò)的七段碼識別系統(tǒng)用于工業(yè)環(huán)境的主要因素是BP網(wǎng)絡(luò)的泛化能力。

      在現(xiàn)實(shí)應(yīng)用中,為了使BP神經(jīng)網(wǎng)絡(luò)的泛化能力滿足現(xiàn)實(shí)使用要求,理論上就必須搜集大量的訓(xùn)練樣本,這通常要消耗大量人力物力,且在工業(yè)環(huán)境下難以實(shí)現(xiàn),因此,如何在少量訓(xùn)練樣本下,提高BP網(wǎng)絡(luò)的泛化能力,就值得深入研究。1992年,Poggio T和Vetter T[5]提出了虛擬樣本的思想,目前虛擬樣本構(gòu)造方法有:添加噪聲[6]、基于模板[7]、基于高斯變換[8]等方法。本文根據(jù)工業(yè)用七段碼數(shù)顯儀表的特征,采用特定的構(gòu)造方法在原有樣本的基礎(chǔ)上,模擬七段碼碼段重疊,構(gòu)造一定量的虛擬樣本,并增加到訓(xùn)練樣本集中,使訓(xùn)練樣本集的樣本在樣本空間的分布盡量均勻,提高用于識別七段碼數(shù)顯儀表的BP網(wǎng)絡(luò)的泛化能力。

      1 虛擬樣本及其構(gòu)造方法

      1.1 概 念

      虛擬樣本[9]是指在未知樣本概率分布函數(shù)的情況下,利用所研究的領(lǐng)域的先驗(yàn)知識,結(jié)合已有的訓(xùn)練樣本產(chǎn)生待研究問題的樣本空間中的部分合理樣本。自從Poggio T和Vetter T提出虛擬樣本概念以來[5],虛擬樣本生成技術(shù)引起了廣大學(xué)者的關(guān)注,并在很多機(jī)器學(xué)習(xí)領(lǐng)域,尤其是小樣本學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用。目前對于虛擬樣本的構(gòu)造的研究主要集中在某一特定領(lǐng)域內(nèi)如何利用先驗(yàn)知識構(gòu)造合理的虛擬樣本。

      1.2 評價(jià)標(biāo)準(zhǔn)

      如何評價(jià)所構(gòu)造虛擬樣本是否合理,采用如下評價(jià)標(biāo)準(zhǔn)[9]:

      1)合理性標(biāo)準(zhǔn):通過虛擬樣本生成技術(shù)產(chǎn)生的虛擬樣本是真實(shí)特征空間的樣本的概率期望。

      2)適應(yīng)性標(biāo)準(zhǔn):虛擬樣本生成技術(shù)適應(yīng)領(lǐng)域的廣泛性。

      1.3 虛擬樣本構(gòu)造方法

      通常假設(shè)各個(gè)類別在特征空間中組成一個(gè)緊致集,它具有下列性質(zhì):臨界點(diǎn)的數(shù)量與總的點(diǎn)數(shù)相比很少;集合中任意2個(gè)內(nèi)點(diǎn)可以用光滑線連接,在該連線上的點(diǎn)也屬于這個(gè)集合;每個(gè)內(nèi)點(diǎn)都有一個(gè)足夠大的鄰域,在該領(lǐng)域中只包含同一集合中的點(diǎn)。如圖1,假設(shè)有n個(gè)類別,Ri表示第i個(gè)類別,Hij表示類別Ri與類別Rj的邊界,要正確識別這n個(gè)類別,就是對樣本空間進(jìn)行區(qū)域劃分,即要找出各類別間的邊界Hij,使同一類別的樣本盡量落在同一區(qū)域內(nèi),這樣就能正確識別這n個(gè)類別。由此可見,劃分區(qū)域的重點(diǎn)在于尋找各類別之間的邊界。

      圖1 樣本空間結(jié)構(gòu)圖(Hij表示邊界,Ri表示類別)Fig 1 Spacial structure diagram of samples(Hijmeans boundary,Rimeans class)

      工業(yè)用數(shù)顯儀表通常是采用七段數(shù)碼管顯示數(shù)字,而根據(jù)七段數(shù)碼管的顯示特征,影響其正確識別的主要原因是七段數(shù)碼管數(shù)字動態(tài)變化過程中碼段的疊加?;谶@種特點(diǎn),可通過人為構(gòu)造碼段的重疊來生成虛擬樣本,模仿處于特征空間的各類別的邊界點(diǎn),并將這些虛擬樣本作為訓(xùn)練樣本集的一部分來訓(xùn)練已設(shè)計(jì)好的BP網(wǎng)絡(luò),從而提高BP網(wǎng)絡(luò)的工作性能。

      以上介紹的虛擬樣本構(gòu)造方法具體如下:如圖2中2個(gè)分屬Ri類和Rj類的單字符原始樣本分別用矢量Ii和矢量Ij表示。所有樣本經(jīng)過預(yù)處理時(shí)已歸一化大小為20×16的圖片,被看作是一個(gè)320維矢量,每個(gè)像素點(diǎn)對應(yīng)一個(gè)維度。本文通過取2個(gè)原始樣本Ii和Ij的中點(diǎn)Ii(見式(1)),即在320維樣本空間中將Ii和Ij的對應(yīng)像素點(diǎn)相加;再分別取原始樣本Ii,Ij與中點(diǎn)Imid的中點(diǎn)Iij和Iji見式(2)),即得到四分之一邊界點(diǎn)。計(jì)算過程如下所示

      由Iij,Iji構(gòu)成所需的虛擬樣本。該方法得到的虛擬樣本,分別為靠近Ri類和Rj類邊界的Ri類虛擬樣本和Rj類虛擬樣本。該樣本滿足原始樣本類別不變性,將原始樣本向該類別的邊界延伸,使訓(xùn)練樣本集盡量覆蓋整個(gè)樣本特征空間。用這樣的訓(xùn)練樣本集訓(xùn)練的BP網(wǎng)絡(luò),是提高BP網(wǎng)絡(luò)泛化能力的行之有效的方法。

      圖2 單個(gè)數(shù)字的原始樣本(由采集到的儀表圖像,經(jīng)過預(yù)處理并歸一化為20×16大小的二值圖片)Fig 2 Original sample of single number(the collected instrument mage,after pretreatment and normalize to be 20 ×16 binary image

      2 采用虛擬樣本的BP網(wǎng)絡(luò)的實(shí)現(xiàn)

      BP網(wǎng)絡(luò)實(shí)質(zhì)上實(shí)現(xiàn)了一個(gè)從輸入到輸出的映射功能,它能通過學(xué)習(xí)帶正確答案的訓(xùn)練樣本集,識別訓(xùn)練樣本集之外的同類樣本。七段碼的識別問題,實(shí)際上就是要通過BP網(wǎng)絡(luò)在320維的高維空間做m個(gè)分界以區(qū)分n個(gè)分類(10個(gè)數(shù)字0~9)。本實(shí)驗(yàn)采用的是典型的三層BP網(wǎng)絡(luò),如圖3所示,要識別的字符是七段碼顯示的10個(gè)數(shù)字0~9。

      圖3 三層BP網(wǎng)絡(luò)結(jié)構(gòu)示意圖(括號內(nèi)為各層節(jié)點(diǎn)數(shù))Fig 3 Structure diagram of three layers BP network

      圖4 七段碼數(shù)顯儀表Fig 4 The seven-segment code digital display instrument

      2.1 構(gòu)造訓(xùn)練樣本集

      首先,采集儀表圖像,如圖4,經(jīng)過一系列圖像預(yù)處理得到600個(gè)單個(gè)數(shù)字的原始樣本(如圖2),并分為兩部分:300個(gè)原始訓(xùn)練樣本(以下簡稱樣本A)和300個(gè)測試樣本(T)。再在300個(gè)原始訓(xùn)練樣本的基礎(chǔ)上,通過上文提過的虛擬樣本構(gòu)造方法構(gòu)造200個(gè)虛擬樣本(以下簡稱樣本B),如圖5所示。

      圖5 虛擬樣本生成示意圖Fig 5 Diagram of virtual sample generation

      2.2 訓(xùn)練BP網(wǎng)絡(luò)并仿真

      根據(jù)以上的分析,使用Matlab軟件,利用其自帶的神經(jīng)網(wǎng)絡(luò)工具箱,構(gòu)造三層BP神經(jīng)網(wǎng)絡(luò),并對其進(jìn)行訓(xùn)練和仿真,具體步驟如下:

      1)用樣本A訓(xùn)練BP網(wǎng)絡(luò),并分別用訓(xùn)練樣本A和T作為測試樣本對網(wǎng)絡(luò)進(jìn)行仿真,記錄其識別效果,重復(fù)100次實(shí)驗(yàn)取平均值,計(jì)算網(wǎng)絡(luò)的識別率并記錄。

      2)將樣本A和樣本B合并為訓(xùn)練樣本C(以下簡稱樣本C),用樣本C訓(xùn)練BP網(wǎng)絡(luò),并分別用訓(xùn)練樣本C和T作為測試樣本對網(wǎng)絡(luò)進(jìn)行仿真,記錄其識別效果,重復(fù)100次實(shí)驗(yàn)取平均值,計(jì)算網(wǎng)絡(luò)的識別率并記錄。

      3)用樣本B訓(xùn)練BP網(wǎng)絡(luò),并分別用樣本B和T作為測試樣本對網(wǎng)絡(luò)進(jìn)行仿真,記錄其識別效果,重復(fù)100次實(shí)驗(yàn)取平均值,計(jì)算網(wǎng)絡(luò)的識別率并記錄。

      3 實(shí)驗(yàn)結(jié)果

      通過以上實(shí)驗(yàn)方法得到的實(shí)驗(yàn)數(shù)據(jù)記錄如表1所示。

      表1 不同訓(xùn)練樣本下的BP網(wǎng)絡(luò)的識別率Tab 1 The BP network recognition rate under different training samples

      從表中數(shù)據(jù)可明顯看出:所訓(xùn)練的3個(gè)網(wǎng)絡(luò)的正確識別率均達(dá)到90%以上,所以,這三個(gè)網(wǎng)絡(luò)是收斂的。對測試樣本的正確識別率表明該網(wǎng)絡(luò)對訓(xùn)練樣本之外的樣本的識別情況,即網(wǎng)絡(luò)的泛化能力。對比實(shí)驗(yàn)一和實(shí)驗(yàn)二對測試樣本的正確識別率可看出:用包含虛擬樣本的訓(xùn)練樣本集所訓(xùn)練的BP網(wǎng)絡(luò)對訓(xùn)練樣本集之外的測試樣本的正確識別率較高,即其泛化能力較好。其中用生成樣本作為訓(xùn)練樣本集的BP網(wǎng)絡(luò),由于生成樣本主要是表示類別的邊界,而采集到的樣本一般集中在各類別的樣本空間的中間位置,所以,該網(wǎng)絡(luò)對測試樣本的識別率較低,沒有現(xiàn)實(shí)意義,故沒有記錄。

      4 結(jié)束語

      由于工業(yè)用環(huán)境較復(fù)雜,通常只能取得少量的樣本,實(shí)驗(yàn)證明:本文提出的虛擬樣本的構(gòu)造方法是有效的。使用包含虛擬樣本的訓(xùn)練樣本集進(jìn)行訓(xùn)練得到的BP網(wǎng)絡(luò),能夠在小樣本訓(xùn)練下得到較好的識別率,且泛化能力有所提高,有利于將這種用于識別七段碼數(shù)顯儀表的BP網(wǎng)絡(luò)推廣到復(fù)雜的工業(yè)環(huán)境中使用。對文中提出的構(gòu)造方法進(jìn)行改進(jìn),可以進(jìn)一步考慮工業(yè)環(huán)境的光照等對儀表字符的識別的影響,構(gòu)造更符合工業(yè)環(huán)境需求的虛擬樣本。

      [1]顧晨勤,葛萬成.基于模板匹配算法的字符識別研究[J].通信技術(shù),2009,42(3):220 -222.

      [2]崔行臣,段會川,王金玲,等.數(shù)顯儀表數(shù)字實(shí)時(shí)識別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(1):214 -217.

      [3]楊金偉,段會川.脫機(jī)手寫數(shù)字識別方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(20):5379 -5382.

      [4]陳家翔,龍建忠,陶青川,等.數(shù)字儀表顯示值的快速識別方法[J].中國測試技術(shù),2006,32(6):49 -51.

      [5]Poggio T,Vetter T.Recognition and structure from one 2-D model view:Observations on prototypes,object classes,and symmetries[R].A.I.Memo No.1347.Artificial Intelligence Laboratory,Massachusetts Institute of Technoloy,1992.

      [6]Bishop C M.Training with noise is equivalent to tikhonov regularization[J].Neural Computation,1995,7(1):108 -116.

      [7]Gavrila D M,Giebel J.Virtual sample generation for templatebased shape matching[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,CVPR 2001,2001:I—676—I—681.

      [8]Yang Jing,Yu Xu,Zhang Jianpei.A novel virtual sample generation method based on Gaussian distribution [J].Knowledge-Based Systems,2011(24):740 -748.

      [9]于 旭,楊 靜,謝志強(qiáng).虛擬樣本生成技術(shù)研究[J].計(jì)算機(jī)科學(xué),2011,38(3):16 -19.

      猜你喜歡
      樣本空間構(gòu)造方法訓(xùn)練樣本
      高中數(shù)學(xué)新教材一個(gè)探究試驗(yàn)的商榷
      DC-DC變換器分層級構(gòu)造方法
      概率統(tǒng)計(jì)中樣本空間芻議
      人工智能
      淺談高校古典概率的教學(xué)
      《夢溪筆談》“甲子納音”構(gòu)造方法的數(shù)學(xué)分析
      幾乎最佳屏蔽二進(jìn)序列偶構(gòu)造方法
      寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
      融合原始樣本和虛擬樣本的人臉識別算法
      基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
      永修县| 繁峙县| 房山区| 金门县| 宜州市| 伊春市| 延边| 磴口县| 南丹县| 青冈县| 柳州市| 中西区| 台东县| 林西县| 山西省| 华池县| 鸡西市| 神农架林区| 漳浦县| 珠海市| 平顶山市| 平泉县| 金秀| 新疆| 西峡县| 延庆县| 永兴县| 郑州市| 博客| 喀什市| 五台县| 光泽县| 平湖市| 祁连县| 扎赉特旗| 汶上县| 平凉市| 手机| 汽车| 蒙阴县| 百色市|