陳京水李業(yè)勤劉 玉蔡顯圣
人工神經(jīng)網(wǎng)絡(luò)在圖像處理中的應(yīng)用
陳京水①李業(yè)勤②劉 玉③蔡顯圣④
圖像處理是包含豐富內(nèi)容和具有廣闊應(yīng)用領(lǐng)域的研究學(xué)科。近幾年來,作為具有自組織、自學(xué)習(xí)和聯(lián)想功能的人工神經(jīng)網(wǎng)絡(luò)理論已成功地應(yīng)用于圖像處理的許多方面,神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像處理的主要思路是:把原始圖像或經(jīng)過適當(dāng)預(yù)處理的圖像作為網(wǎng)絡(luò)的輸入信號(hào),在網(wǎng)絡(luò)的輸出端得到處理后的圖像信號(hào)或分類結(jié)果。
圖像處理;人工神經(jīng)網(wǎng)絡(luò);圖像壓縮;圖像分割;邊緣檢測(cè);圖像增強(qiáng)
[First-author's address]Department of Medical Equipment Management, Jinan Health School, Jinan 250023, China.
圖像是用各種觀測(cè)系統(tǒng)以不同形式和手段觀測(cè)客觀世界而獲得的,可以直接或間接地作用于人眼進(jìn)而產(chǎn)生視覺的實(shí)體。圖像技術(shù)在廣義上是各種與圖像有關(guān)的技術(shù)的總稱,包括利用計(jì)算機(jī)和其它電子設(shè)備進(jìn)行和完成的一系列工作。例如圖像的采集、獲取、編碼、存儲(chǔ)和傳輸,圖像的合成和產(chǎn)生,圖像水印的嵌入和輸出,圖像的變換、增強(qiáng)、恢復(fù)和重建,圖像的分割,目標(biāo)的檢測(cè)、跟蹤、表達(dá)和描述,目標(biāo)特征的提取和測(cè)量。因此,為了對(duì)各種圖像技術(shù)進(jìn)行綜合研究集成應(yīng)用,有必要建立一個(gè)整體框架——圖像工程。圖像工程根據(jù)抽象程度和研究方法等的不同可分為3個(gè)層次:圖像處理、圖像分析和圖像理解。
隨著科學(xué)技術(shù),特別是信息技術(shù)的發(fā)展,圖像處理技術(shù)已經(jīng)成為科學(xué)研究不可缺少的強(qiáng)有力工具,傳統(tǒng)的圖像處理方法已經(jīng)無法滿足需要,研究人員開始探索新的更有效的方法,其中利用神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像處理是最活躍的方向。神經(jīng)網(wǎng)絡(luò)算法比起傳統(tǒng)的算法顯示了更大的優(yōu)越性,主要表現(xiàn)在:(1)高度并行處理能力,處理的速度遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的序列處理算法;(2)具有自適應(yīng)功能,能夠根據(jù)學(xué)習(xí)提供的數(shù)據(jù)樣本找出和輸出數(shù)據(jù)的內(nèi)在聯(lián)系;(3)非線性映射功能,圖像處理很多問題是非線性問題,神經(jīng)網(wǎng)絡(luò)為處理這些問題提供了有用的工具;(4)具有泛化功能,能夠處理帶有噪聲的或不完全的數(shù)據(jù)。
最初,人工神經(jīng)網(wǎng)絡(luò)是作為模式識(shí)別分類器和聚類技術(shù)在圖像處理領(lǐng)域中得到應(yīng)用的。隨著神經(jīng)網(wǎng)絡(luò)理論的進(jìn)一步研究,神經(jīng)網(wǎng)絡(luò)的特點(diǎn)得到人們充分的認(rèn)識(shí),如印刷體和手寫字符識(shí)別、語音識(shí)別、指紋、人臉識(shí)別、圖像壓縮復(fù)原等。
2.1 圖像數(shù)據(jù)壓縮
為克服存儲(chǔ)容量較大的圖片在存儲(chǔ)和傳輸過程中帶來的不便,我們常常希望通過某種變換手段,將數(shù)量巨大的圖像信息進(jìn)行壓縮,以壓縮后的圖像數(shù)據(jù)信號(hào)進(jìn)行存儲(chǔ)和傳輸,當(dāng)需要提取圖像或在傳輸終端接收?qǐng)D像時(shí),按一定規(guī)則將圖像恢復(fù),這就是圖像數(shù)據(jù)壓縮。
神經(jīng)網(wǎng)絡(luò)圖像數(shù)據(jù)壓縮系統(tǒng)主要由壓縮網(wǎng)絡(luò)(輸入層/中間層)、傳輸通道(中間層/中間層)和再生網(wǎng)絡(luò)(中間層/輸出層)組成,輸入層和輸出層由相同的N個(gè)單元組成。在網(wǎng)絡(luò)學(xué)習(xí)過程中,輸入層的學(xué)習(xí)模式及輸出層的教師模式使用同一圖像信號(hào)。由于中間層單元數(shù)可以大大少于輸入層、輸出層的單元數(shù),所以學(xué)習(xí)后的網(wǎng)絡(luò)將以較少的中間層單元有效地表示輸入圖像模式,并以此進(jìn)行存儲(chǔ)和傳輸,在輸出層將輸入圖像模式再現(xiàn)出來。在這一過程中,輸入層/中間層的變換可以看作是壓縮編碼過程,中間層/輸出層的變換可以看作是解碼的過程。
2.2 圖像分割
在任何人工視覺系統(tǒng)中,分割是早期視覺中最重要、最困難的一步。分割時(shí)將圖像劃分為互不相交部分的過程;通過分割,將我們感興趣的部分(如物體)提取出來,將不感興趣的部分(如背景)濾除掉。目前,神經(jīng)網(wǎng)絡(luò)在圖像分割方面也有很多應(yīng)用。
Blanz和Gish使用一個(gè)三層前饋網(wǎng)絡(luò)進(jìn)行圖像分割。輸入層神經(jīng)元數(shù)取決于每個(gè)像素的輸入特征數(shù),輸出層等于類別數(shù),Babaguchi等使用一個(gè)多層BP網(wǎng)絡(luò)對(duì)圖像取閾值。網(wǎng)絡(luò)的輸入是圖像的直方圖,輸出是期望的閾值。學(xué)習(xí)過程采用的樣本是大量已知閾值的圖像,這些閾值經(jīng)驗(yàn)證能產(chǎn)生具有良好視覺效果的二值化圖像。最近,Ghosh等人用一個(gè)巨量連接的神經(jīng)網(wǎng)絡(luò)在噪聲環(huán)境中提取物體。
2.3 圖像分類與識(shí)別
在前面提到的圖像分割問題中,有時(shí)也會(huì)涉及劃分屬于多個(gè)不同類別的區(qū)域,這實(shí)際上已經(jīng)包含了圖像分類的任務(wù)。如果圖像中的類別不多,模式不復(fù)雜,類之間的區(qū)別明顯,當(dāng)分割任務(wù)完成時(shí),分類任務(wù)也就完成了。這里主要是指那些類別眾多,模式復(fù)雜、類之間區(qū)別細(xì)微的圖像分類問題,如手寫體字符識(shí)別、人臉識(shí)別、指紋識(shí)別、染色體識(shí)別等。
圖像分類也許是神經(jīng)網(wǎng)絡(luò)應(yīng)用最多的一個(gè)領(lǐng)域。具體實(shí)現(xiàn)時(shí),可以用原始圖像作為輸入,用中間隱層進(jìn)行特征提取。這樣做雖然簡單、直觀,但存在很大的缺陷。一是圖像的分辨率不宜太高,否則會(huì)導(dǎo)致網(wǎng)絡(luò)輸入單元?jiǎng)≡?,?jì)算量也隨之成倍增加,而降低圖像分辨率又導(dǎo)致相近模式間的差異不明顯,給識(shí)別帶來困難。二是原始圖像包含了大量冗余信息,且信息量分散,特征隱蔽較深,大大增加了模式特征提取的難度,降低了網(wǎng)絡(luò)的學(xué)習(xí)效率。因此,大多數(shù)情況下需要對(duì)原始圖像進(jìn)行一定的預(yù)處理。如何抽取有效的特征,是圖像分類問題的關(guān)鍵。由于各類圖像的特點(diǎn)各不相同,相應(yīng)的特征提取方法也千差萬別,專用性非常強(qiáng),將提取出的特征輸入合適的網(wǎng)絡(luò)模型,最后得到分類結(jié)果。
J.Cao等人用一個(gè)主分量分析(PCA)神經(jīng)網(wǎng)絡(luò)提取輸入圖像的10個(gè)主特征,再將提取出的特征輸入后一級(jí)網(wǎng)絡(luò)——貝葉斯增長聚類神經(jīng)網(wǎng)絡(luò)(BICNN)。這兩個(gè)網(wǎng)絡(luò)是以級(jí)聯(lián)的形式串接起來的,分別以不同的學(xué)習(xí)規(guī)則訓(xùn)練,其性能略優(yōu)于三層BP網(wǎng)絡(luò)。根據(jù)傳統(tǒng)的誤差BP原理進(jìn)行學(xué)習(xí),有時(shí)顯得效率較低,因?yàn)橹虚g隱層抽取特征的過程很難,未必能如我們所期望的那樣抽取有效特征。前一層網(wǎng)絡(luò)還未充分學(xué)習(xí)并對(duì)輸入模式形成正確的特征映射前,后一層網(wǎng)絡(luò)的權(quán)值調(diào)整不具有明顯效果。采取級(jí)聯(lián)形式的網(wǎng)絡(luò)能克服這個(gè)問題,各層網(wǎng)絡(luò)任務(wù)單一、目標(biāo)明確,極大地提高了學(xué)習(xí)效率,并減少了陷于局部極小值的概率。
B.Lerner等人在人體染色體分類的問題中,采用染色體的中軸密度投影以及染色體長度和著絲粒指數(shù)作為特征。中軸密度投影將二維圖像用一維形式表達(dá)出來,其幅度被歸一化到-0.5~0.5區(qū)間,長度被修為64,染色體長度和著絲粒指數(shù)也被歸一到-0.5~0.5區(qū)間。采用的網(wǎng)絡(luò)是一個(gè)三層BP網(wǎng)絡(luò),共有66個(gè)輸入單元。輸出層單元數(shù)等于類別數(shù)。中間隱含層單元數(shù)用PCA方法確定,事先規(guī)定一個(gè)閾值,若最大的n個(gè)特征值之和占所有特征值總和的百分比大于該閾值,則隱單元數(shù)就設(shè)為n。
利用多分辨率信息進(jìn)行識(shí)別是近來的一個(gè)熱點(diǎn)。文獻(xiàn)提出了一個(gè)新方法,用小波變換和一個(gè)簡易的多層聚類神經(jīng)網(wǎng)絡(luò)(MCNN)進(jìn)行手寫體數(shù)字的多分辨率識(shí)別,將字符圖像與Haar小波卷積得到小波系數(shù)作為多分辨率特征向量輸入MCNN。與傳統(tǒng)的全連接型網(wǎng)絡(luò)不同,MCNN是一種局部連接型網(wǎng)絡(luò)。對(duì)于全連接型BP網(wǎng)絡(luò)來說,由于輸入層各單元與擔(dān)負(fù)特征提取任務(wù)的中間層單元實(shí)行全連接,學(xué)習(xí)模式的整體相關(guān)特征被分布記憶在網(wǎng)絡(luò)的各連接中。手寫體文字的特點(diǎn)是其模式整體相關(guān)性變化大,而各筆劃之間的相關(guān)系數(shù)較穩(wěn)定,所以在網(wǎng)絡(luò)運(yùn)行時(shí),當(dāng)遇到未學(xué)習(xí)過的輸入模式,由于整體相關(guān)性的差別造成網(wǎng)絡(luò)輸出模式的振蕩,降低了網(wǎng)絡(luò)的識(shí)別率,網(wǎng)絡(luò)的泛化能力不強(qiáng)。雖然減少連接權(quán)數(shù)量能避免振蕩,但是過少的連接權(quán)甚至對(duì)訓(xùn)練集也不能精確學(xué)習(xí)。因此,有必要將輸入層單元分成若干區(qū)域,每個(gè)區(qū)域的單元僅與部分中間層單元連接,目的是使網(wǎng)絡(luò)對(duì)學(xué)習(xí)模式的特征分解記憶,淡化對(duì)其整體特征的記憶。MCNN的輸入層由8個(gè)聚類組成,每個(gè)聚類都與隱層中對(duì)應(yīng)的聚類進(jìn)行全連接,這樣構(gòu)成8個(gè)子網(wǎng)。每個(gè)子網(wǎng)都從隨機(jī)的初始值開始,學(xué)習(xí)不同的特征映射。學(xué)習(xí)完后,每個(gè)子網(wǎng)都有不同的內(nèi)部表示。而輸出層是與所有隱層單元全連接的,這樣當(dāng)一個(gè)子網(wǎng)辨認(rèn)不出某一給定輸入時(shí),依靠其它子網(wǎng)仍能得到正確輸出。很多圖像識(shí)別問題要求算法具有不變性、旋轉(zhuǎn)不變性、縮放不變性等。對(duì)于特定一些問題,存在某種特征提取方法或變換,其本身就具有不變性,是較為通用的方法,Jeffrey Wood 作了一個(gè)詳盡的總結(jié),神經(jīng)網(wǎng)絡(luò)當(dāng)然也是其中必不可少的一種方法。最簡單(但效率最低)的方法就是給網(wǎng)絡(luò)提供每一模式許多形態(tài)的樣本,使其充分學(xué)習(xí)。利用網(wǎng)絡(luò)的內(nèi)插能力,能識(shí)別其它各種形態(tài)的樣本。Simard等通過修改BP算法,使得網(wǎng)絡(luò)經(jīng)訓(xùn)練后其輸出不受輸入微小變化的影響。
很多方法利用權(quán)值共享的原理實(shí)現(xiàn)不變性識(shí)別,其基本原理是:強(qiáng)迫網(wǎng)絡(luò)中的某些連接權(quán)具有相同權(quán)值,這樣就能對(duì)網(wǎng)絡(luò)輸出施加約束,例如在某些給定的集合下執(zhí)行不變性輸出。這種結(jié)構(gòu)化網(wǎng)絡(luò)自由參數(shù)的數(shù)目少于具有相同連接形式的同類網(wǎng)絡(luò),因此訓(xùn)練過程加快,由于這種受約束網(wǎng)絡(luò)在其結(jié)構(gòu)中包含了先驗(yàn)知識(shí),它的推廣能力將優(yōu)于未受約束的網(wǎng)絡(luò)。
很多學(xué)者采用高階神經(jīng)網(wǎng)絡(luò)解決不變性識(shí)別的問題。高階神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元不僅將它的輸入進(jìn)行加權(quán)求和,還對(duì)輸入之間的組合乘積進(jìn)行加權(quán)求和,也就是引入了高次項(xiàng)。這使計(jì)算復(fù)雜度大為增加,因此在高階神經(jīng)網(wǎng)絡(luò)解決不變性識(shí)別問題時(shí),通常只采用一個(gè)神經(jīng)元。這樣一個(gè)單結(jié)點(diǎn)網(wǎng)絡(luò)的學(xué)習(xí)算法類似于感知機(jī)收斂算法,因而學(xué)習(xí)速成度快,容易收斂。
Fukushima提出的新認(rèn)知機(jī)模型是不變性識(shí)別方面最成功的應(yīng)用之一,它對(duì)于輸入樣本的位移、畸變和噪聲干擾等都有較強(qiáng)的抵抗能力。網(wǎng)絡(luò)是由若干結(jié)構(gòu)相同的神經(jīng)元模塊加上輸入層而構(gòu)成的,由于處理的視覺信息,所以每個(gè)模塊都是由一些不同的二維陣列的神經(jīng)元層所組成。各神經(jīng)元層以級(jí)聯(lián)的形式組織起來,第一層(或前面幾層)能夠抽取局部特征;后面幾層通過對(duì)前一層中性平面的組合,能夠形成整體特征。經(jīng)過這樣一個(gè)從局部到整體,從低級(jí)到綜合的過程,最后在輸出層得到?jīng)Q策,并且不受位置和畸變的影響。網(wǎng)絡(luò)采用自組織競爭算法進(jìn)行學(xué)習(xí),自動(dòng)調(diào)節(jié)一些神經(jīng)元的可變連接權(quán),并對(duì)學(xué)習(xí)樣本集進(jìn)行分類。
2.4 圖像增強(qiáng)
圖像增強(qiáng)的主要目的是使圖像處理后達(dá)到特定的效果。不同的圖像,其處理方法也各不相同,使我們很難找到一個(gè)標(biāo)準(zhǔn)的公式或函數(shù),因此可利用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)特性和自組織能力幫助我們完成這一任務(wù)。此外,神經(jīng)網(wǎng)絡(luò)在圖像恢復(fù)、目標(biāo)識(shí)別、計(jì)算機(jī)視覺中的體式匹配等方面也有應(yīng)用,它的引入極大豐富了圖像處理的手段。
鑒于以上提及的優(yōu)勢(shì),近些年來,人工神經(jīng)網(wǎng)絡(luò)在圖像處理中的應(yīng)用十分廣泛,領(lǐng)域也比較寬。在車牌識(shí)別、字符識(shí)別、紅外圖像識(shí)別、遙感圖像識(shí)別中發(fā)揮了舉足輕重的作用。不僅如此,作為人工神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)圖像處理中,意義也是十分重大的。舉例說明,通過對(duì)醫(yī)學(xué)影片獲取的圖像,如CT、核磁共振成像等,進(jìn)行特征紋理提取,然后輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),從得到的輸出判別出相應(yīng)的病癥,在臨床上可作為醫(yī)師治療和診斷的輔助。
鑒于神經(jīng)網(wǎng)絡(luò)的強(qiáng)大處理功能和解決問題的強(qiáng)大優(yōu)勢(shì),我們相信,它將在圖像處理領(lǐng)域發(fā)揮越來越大的作用。當(dāng)然,有些問題也是需要我們?nèi)タ紤],比如,哲學(xué)上的具體問題具體對(duì)待,對(duì)于什么樣的要求和目的,我們采用什么樣的模型,建立何種神經(jīng)網(wǎng)絡(luò),如何使學(xué)習(xí)效果最好,都需要我們進(jìn)一步的去探索和追究。
人工神經(jīng)網(wǎng)絡(luò)應(yīng)用在圖像處理方面案例比比皆是,如圖像壓縮、圖像分割、邊緣檢測(cè)、圖像增強(qiáng)、圖像識(shí)別等。人工神經(jīng)網(wǎng)絡(luò)具有的自組織,非線性,自學(xué)習(xí)能力使其在很多領(lǐng)域發(fā)揮了重要作用。相信隨著人工神經(jīng)網(wǎng)絡(luò)理論和實(shí)踐的發(fā)展,在不遠(yuǎn)的將來,它將在圖像處理領(lǐng)域發(fā)揮更大的作用。
[1]王保華,羅立民.生物醫(yī)學(xué)電子學(xué)高級(jí)教程[m].南京:東南大學(xué)出版社,2001:98-102.
[2]楊建剛.人工神經(jīng)網(wǎng)絡(luò)實(shí)用教程[m].杭州:浙江大學(xué)出版社,2001.
[3]章毓晉.圖像工程[m].北京:清華大學(xué)出版社,2002:6-9.
[4]趙建民,朱信忠,殷建平,等.基于特征提取和BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的車牌字符識(shí)別技術(shù)[J].全國理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì),2005(8):1-4.
[5]周羽.紅外圖像人臉識(shí)別研究[D].大連理工大學(xué),2007.
[6]劉偉.基于紋理分析和人工神經(jīng)網(wǎng)絡(luò)的肝部CT圖像識(shí)別[D].泰山醫(yī)學(xué)院,2006.
[7]于洋.利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行齲齒診斷[D].北京師范大學(xué),2006.
[8]Sing-Rong Li and Idongesit E. Ebong,Tunneling-Based Cellular Nonlinear Network Architectures for Image Processing[J], IEEE,2009.
[9]Edward Dunstone', James Andrew,SUPER-HIGH, SCALE INVARIANT IMAGE COMPRESSION USING A SURFACE LEARNING NEURAL NETWORK[J], International Symposium on Speech,1994.
[10]Segyeong Joo1, Woo Kyung Moon2 and Hee Chan Kim3,26th Annual International Conference of the IEEE EMBS[J], 2004.
[11]H. Saad1, A. Hussain,Classification for the Ripeness of Papayas UsingArtificial Neural Network (ANN) and Threshold Rule[J], 4th Student Conference on Research and Development, 2006.
[12]Blanz W E, et al. A connectionist classifier architecture applied to image segmentation. Proc 10th ICPR, 1990:272-277.
[13]Babaguchi N, et al. connectionist model binarization. In: Proc 10th ICPR,1990:51-56.
[14]Ghosh A, et al. Image segmentation using a neural network. Biol Cybern, 1991, 66:151-158.
[15]Cortes C, et al. A network system for image segmentation. In: Proc Intl Joint Conf on Neural Network, 1989,1: 121-125.
Application of artificial neural network in image processing
CHEN Jingshui, LI Ye-qin, LIU Yu,et al
Image processing can be seen as a large class of imaging technology, emphasizing on the transformation between the images, image processing is a subject with rich content and broad application areas. In recent years, as a selforganizing, self-study and associate function artificial neural network theory has been successfully applied to many aspects of image processing such as image compression, image segmentation, edge detection, image enhancement, image recognition and so on. In general, the main idea of neural network application in image processing is as below: put the original image or an appropriate preprocessing image as the input signal of network, the network output is the result : processed image signal or classification results.
Image processing; Artificial neural network; Image compression; Image segmentation; Edge detection; Image enhancement.
1672-8270(2010)07-0039-04
TH 774
A
陳京水,男,(1982- ),本科,現(xiàn)就職于山東省濟(jì)南衛(wèi)生學(xué)校醫(yī)械學(xué)科,從事醫(yī)療器械維修技術(shù)專業(yè)的一線教學(xué)工作。
2010-02-29
①山東省濟(jì)南衛(wèi)生學(xué)校醫(yī)療器械學(xué)科 山東 濟(jì)南 250023
②山東省日照市中醫(yī)院設(shè)備科 山東 日照 276800
③山東省平陰縣人民醫(yī)院設(shè)備科 山東 平陰 250400
④山東省聊城市人民醫(yī)院設(shè)備科 山東 聊城 252000
China Medical Equipment,2010,7(7):39-42.