圖像數(shù)據(jù)挖掘技術(shù)研究及應(yīng)用

2011-01-29 06:25:48王文淵

制造業(yè)自動化 2011年13期

關(guān)鍵詞：鄰域紋理數(shù)據(jù)挖掘

王文淵

WANG Wen-yuan

（楚雄師范學(xué)院，楚雄 675000）

1 圖像數(shù)據(jù)模型

圖像數(shù)據(jù)挖掘模型主要有功能驅(qū)動模型和信息驅(qū)動模型。

1.1 功能驅(qū)動模型

功能驅(qū)動的圖像數(shù)據(jù)挖掘是針對具體應(yīng)用的特定要求來設(shè)計挖掘系統(tǒng)的驅(qū)動框架。MultiMediaMiner是以DBMiner系統(tǒng)和C-BIRD(content-based image retrieval from digital libraries)系統(tǒng)為基礎(chǔ)發(fā)展起來的圖像數(shù)據(jù)挖掘系統(tǒng)，它是典型的功能驅(qū)動模型[2]，如圖1所示。它由4個功能模塊組成。圖像采集器(excavator)：從多媒體數(shù)據(jù)庫中抽取圖像數(shù)據(jù)。預(yù)處理器(preprocessor)：提取圖像特征，并把所計算的特征存放在特征數(shù)據(jù)庫中。檢索引擎(search engine)：利用圖像特征進(jìn)行匹配查詢。知識發(fā)現(xiàn)模塊(discovery modules)：對圖像集進(jìn)行特征描述、分類、關(guān)聯(lián)規(guī)則挖掘、聚類等挖掘。

圖1 數(shù)據(jù)挖掘功能驅(qū)動模型

1.2 信息驅(qū)動模型

Zhang[3]提出信息驅(qū)動模型是針對圖像的原始信息，以基于內(nèi)容的圖像處理技術(shù)為基礎(chǔ)的圖像數(shù)據(jù)挖掘框架，主要強(qiáng)調(diào)不同的圖像信息層次起到的作用不同。該模型首先根據(jù)圖像的原始信息，以及基于原始特征的對象或區(qū)域信息，利用聚類算法和領(lǐng)域知識將圖像分割成有意義的區(qū)域或?qū)ο螅缓筮M(jìn)行高層次的推理和挖掘，從而產(chǎn)生高層次的語義概念和有用的、易于理解的模式。該模型中圖像信息分為4個層次[3]：象素層：由原始圖像信息和原始圖像特征組成，如象素點(diǎn)、紋理、形狀和色彩等。對象層：處理基于象素層原始特征的對象和區(qū)域信息。語義概念層：結(jié)合領(lǐng)域知識從識別出的對象和區(qū)域中生成高層次的語義概念。模式知識層：可結(jié)合與某一領(lǐng)域相關(guān)的文字和數(shù)字信息發(fā)現(xiàn)潛在的領(lǐng)域知識和模式。在信息驅(qū)動模型中，象素層和對象層主要進(jìn)行圖像處理、對象識別和特征提取，而語義概念層和模式知識層主要進(jìn)行圖像數(shù)據(jù)挖掘和知識集成。該模型不僅只在圖像的高層次進(jìn)行挖掘，而且還可以擴(kuò)展此模型以使挖掘能夠在每個層次以及不同層次間進(jìn)行。

2 圖像數(shù)據(jù)挖掘技術(shù)

2.1 圖像預(yù)處理

在大型圖像數(shù)據(jù)庫中存在許多臟數(shù)據(jù)和已破壞了的數(shù)據(jù)，這些數(shù)據(jù)能使挖掘過程陷入混亂導(dǎo)致不可靠的輸出，有必要對數(shù)據(jù)進(jìn)行清洗，以提高數(shù)據(jù)的質(zhì)量。圖像數(shù)據(jù)不僅數(shù)據(jù)量大，信息豐富，而且原始圖像無法直接應(yīng)用于數(shù)據(jù)挖掘，在使用挖掘工具之前，除了必要的數(shù)據(jù)清洗外，還要根據(jù)挖掘工具的特點(diǎn)和挖掘目的對圖像數(shù)據(jù)進(jìn)行必要的預(yù)處理。預(yù)處理主要包括可視特征提取、對象識別、數(shù)據(jù)規(guī)約、遙感數(shù)據(jù)離散化、圖像融合等。

1）可視特征采用圖像處理技術(shù)通過計算獲得，主要包括顏色、紋理、形狀等。顏色是應(yīng)用最廣泛的可視特征。顏色直方圖用于存放圖像對象中每種顏色的像素的比例，具有平移和旋轉(zhuǎn)不變性，是最常用的顏色描述。紋理刻畫了顏色和密度分布的均勻性，包含了表面結(jié)構(gòu)和其與周圍環(huán)境關(guān)系的重要信息，表示方法主要有：共現(xiàn)矩陣法，小波變換法等。形狀表示法主要有基于邊界表示的傅立葉描述法、基于區(qū)域表示的不變矩方法。

2）對象識別即在圖像中識別出對象及其空間關(guān)系，涉及到的技術(shù)有圖像分割、對象模型的表示及對象識別。

3）數(shù)據(jù)規(guī)約主要包括維規(guī)約和數(shù)據(jù)壓縮，是為了提高挖掘質(zhì)量和效率而進(jìn)行的數(shù)據(jù)處理。

4）為了更好地提取圖像特征，有必要進(jìn)行圖像融合，獲取一種新型圖像，其形態(tài)結(jié)構(gòu)顯示得更直觀，可獲取更詳細(xì)、準(zhǔn)確的特征。

2.2 圖像數(shù)據(jù)的相似性搜索

對于圖像數(shù)據(jù)的相似性檢索，主要考慮了兩種圖像標(biāo)引和檢索系統(tǒng)：1）基于描述的檢索系統(tǒng)，主要是在圖像描述之上建立標(biāo)引和執(zhí)行對象檢索；2）基于內(nèi)容的檢索系統(tǒng)，它支持基于圖像內(nèi)容的檢索，如顏色構(gòu)成、紋理、形狀、對象和小波變換等.基于描述的檢索若用手工完成是很費(fèi)力的；若自動完成，檢索的結(jié)果質(zhì)量通常又較差?；趦?nèi)容的檢索使用視覺的特征標(biāo)引圖像并基于特征相似檢索對象。

2.3 目標(biāo)識別

目標(biāo)識別一直是圖像處理領(lǐng)域中活躍的研究焦點(diǎn)。這是圖像挖掘領(lǐng)域中的一個主要任務(wù)。自動的機(jī)器學(xué)習(xí)和有意義的信息抽取能被實(shí)現(xiàn)僅僅在某些目標(biāo)已經(jīng)被機(jī)器識別的情況下。已知目標(biāo)的模型通常由人工輸入作為先驗知識。

2.4 圖像關(guān)聯(lián)規(guī)則挖掘

關(guān)聯(lián)規(guī)則挖掘主要根據(jù)圖像中象素的光譜特征，構(gòu)成紋理圖像的各個象素、各個紋理基元之間都具有關(guān)聯(lián)關(guān)系，這是關(guān)聯(lián)規(guī)則挖掘能夠用于圖像的前提。要挖掘紋理圖像的關(guān)聯(lián)規(guī)則，我們可以把每一個圖像看作一個事務(wù)，從中找出不同圖像問出現(xiàn)頻率高的模式。如果圖像數(shù)據(jù)挖掘深入到象素級，則需要將一個象素及其鄰域看作一個事務(wù)，從中找出在圖像中重復(fù)出現(xiàn)的模式。在紋理圖像中，這種模式實(shí)際上就是紋理基元。紋理基元有大小之分，這就要求在多個層次上多分辨率情況下進(jìn)行挖掘。根據(jù)圖像數(shù)據(jù)的矩陣表達(dá)方法，借助圖像矩陣的事務(wù)數(shù)據(jù)模式化的方法，我們界定一系列圖像事務(wù)定義。根象素：一個nⅹn鄰域的根象素是這個鄰域的中心象素，一個ⅹn的圖像包含(N-n+1)2個根象素。項：所給定的根象素所在的鄰域中每一個象素映射為一個項。通過一個元組(X，Y，I)來定義，其中X和Y分別是鄰域中相對于根象素的偏移量，I是象素的灰度值。這樣，一個具有G種灰度值的n Xn鄰域中，可能產(chǎn)生n2G個不同的項。項集：一系列項的集合構(gòu)成項集，實(shí)際上映射為圖像中一系列相關(guān)象素集合。事務(wù)：同某一根象素相關(guān)的一系列項組成一個事務(wù)。確切地說，每一個根象素對應(yīng)一條事務(wù)，鄰域中每個項都可能進(jìn)人事務(wù)。針對每個根象素，如果有K種偏移量情況，加之每個象素可以有G種可能的灰度值，因此，統(tǒng)計相同的偏移量所構(gòu)成的事務(wù)，會產(chǎn)生Gk條事務(wù)。關(guān)聯(lián)規(guī)則：一條關(guān)聯(lián)規(guī)則表達(dá)了圖像的局部結(jié)構(gòu)，形式為(X1，Y1，I)∧…∧(Xm，Ym，Im)→(Xm+1，ym+1，I m+1)∧…∧(Xm+n，Ym+Im+n)(s%，c%)。例如，下面這條關(guān)聯(lián)規(guī)則表示了在二值圖像中，一個象素寬的垂直條帶的右邊通常為一個象素寬的白色條帶。(0，1，l)∧(0，0，l)∧(0，-1，l)→(1，0，0)∧(1，1，0)∧(1，-1，0)(s%，c%支持度和置信度表明了這種情況出現(xiàn)的可能性。

2.5 圖像分類和聚類

基于內(nèi)容的智能圖像分類可通過將圖像與不同的信息類別相關(guān)聯(lián)實(shí)現(xiàn)。圖像分類是一種有監(jiān)督學(xué)習(xí)方法，過程分3步：1）建立圖像表示模型，對已進(jìn)行類別標(biāo)注的樣本圖像進(jìn)行特征提取，建立每一圖像屬性描述；2）對每一類別的樣本集進(jìn)行學(xué)習(xí)，建立規(guī)則或公式；3）使用模型對未標(biāo)注圖像進(jìn)行分類判決和標(biāo)注。常用的分類方法有：判定樹Bayes方法、神經(jīng)網(wǎng)絡(luò)方法，其它方法包括：K一最近鄰分類、粗糙集分類等。圖像聚類是依據(jù)沒有先驗知識圖像的內(nèi)容本身將給定的無標(biāo)簽圖像集合分為有含義的簇，常用于挖掘過程的早期階段，其特征屬性是顏色，紋理和形狀。

3 結(jié)束語

圖像數(shù)據(jù)挖掘是目前國際上數(shù)據(jù)庫、圖形圖像技術(shù)和信息決策領(lǐng)域最前沿的研究方向之一，是數(shù)據(jù)挖掘的一個新興的富有挑戰(zhàn)性的領(lǐng)域，具有較高的學(xué)術(shù)價值和廣泛的應(yīng)用前景?，F(xiàn)階段圖像挖掘的理論與技術(shù)有待繼續(xù)研究和完善，所以專門研究圖像數(shù)據(jù)挖掘技術(shù)具有重要的意義。

[1]Burl M C,et al.Mining for image content[C]∥Systemics,Cy-bernetics and Informatics/Information System:Analysis and Synthesis.Orlando,FL,1999.

[2]Zaiane OR,Han JW.Mining Multimedia Data,Proceedings of CASCON98,Meeting of Minds,Toronto,Canada,1998:83-96.

[3]Zhang J.An Information–Driven Framework for Image Mining,Proceedings of 12th International Conference on Database and Expert Systems Applications(DEXA),Germa ny,2001-09.

[4]方玲玲,王相海.圖像挖掘研究[J].計算機(jī)科學(xué)2009,8.

[5]薛麗霞,冀志敏,王佐成.圖像紋理特征挖掘[D].計算機(jī)應(yīng)用研究,2010.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看