紀(jì)秀輝 周 亮
[摘要]數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖像處理可以在一定程度上解決圖像內(nèi)容的表示、存儲(chǔ)和檢索過程中存在的一些難點(diǎn)。針對圖像數(shù)據(jù)挖掘過程和方法的研究基礎(chǔ)上詳細(xì)討論圖像數(shù)據(jù)預(yù)處理、挖掘技術(shù)等問題,給出未來可發(fā)展和研究的方向。
[關(guān)鍵詞]圖像檢索圖像處理圖像數(shù)據(jù)挖掘
中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼;A文章編號(hào):1671—7597(2009)0210054—01
一、引言
隨著數(shù)字化時(shí)代的到來,數(shù)碼相機(jī)、監(jiān)視相機(jī)、衛(wèi)星遙感系統(tǒng)的應(yīng)用越來越廣泛,涌現(xiàn)出大量的圖像數(shù)據(jù)。這些圖像里有很多對用戶有用的信息,但是,缺乏有效的方法從這些圖像中搜索和發(fā)現(xiàn)有用的模式。圖像數(shù)據(jù)挖掘被要求能夠從圖像數(shù)據(jù)中自動(dòng)地提取有用的語義信息。從數(shù)據(jù)的轉(zhuǎn)化、同步、連續(xù)數(shù)據(jù)流的管理到圖像數(shù)據(jù)的檢索及目前的圖像數(shù)據(jù)挖掘一直是人們關(guān)注的熱點(diǎn)。
二、圖像數(shù)據(jù)挖掘的過程
(一)數(shù)據(jù)預(yù)處理。在大型圖像數(shù)據(jù)庫中存在許多臟數(shù)據(jù)和已破壞了的數(shù)據(jù),如極不清晰的圖片、已遭破壞的圖像等,這些數(shù)據(jù)能使挖掘過程陷入混亂,導(dǎo)致不可靠的輸出,因此有必要對數(shù)據(jù)進(jìn)行預(yù)處理,去掉臟數(shù)據(jù)和已破壞了的數(shù)據(jù)以及去掉數(shù)據(jù)中的噪音。
(二)圖像數(shù)據(jù)挖掘過程圖解。圖像數(shù)據(jù)挖掘的一個(gè)十分關(guān)鍵的問題是圖像數(shù)據(jù)本身的表示問題,這也是圖像處理和模式識(shí)別的關(guān)鍵問題。一般而言,可以用顏色、紋理、形狀和運(yùn)動(dòng)向量等來表示圖像的基本特征。高級(jí)概念可以看成是一種特征模式。比如,河流可以認(rèn)為是具有某種顏色特征的長條形;大片莊稼區(qū)可以認(rèn)為是具有某種顏色分布和紋理特征的大片圖像區(qū)域。高級(jí)概念是我們所關(guān)心的,它可能是某種物體的存在、某種現(xiàn)象的發(fā)生等。底層的基本特征與高層概念之間必然存在著某種映射關(guān)系,這種關(guān)系可以用數(shù)據(jù)挖掘的方法來發(fā)現(xiàn)這樣,圖像數(shù)據(jù)挖掘的基本過程可以用圖1所示的圖來表示。
三、圖像挖掘中研究的問題
人們對圖像挖掘研究的問題主要在于挖掘系統(tǒng)的建立和挖掘算法的發(fā)現(xiàn),為了得到新的圖像模式的發(fā)掘算法,還有一系列其它相關(guān)的研究主題需要解決。例如,為了使發(fā)現(xiàn)的圖像模式有意義,它們必須對用戶可視。這個(gè)可以解釋為下列的主題:(1)圖像模式的表達(dá):如何將上下文信息,空間信息和重要的圖像特征包含在表達(dá)機(jī)制中;(2)圖像特征的選擇:哪個(gè)才是重要的圖像特征被用于圖像處理過程,這樣發(fā)現(xiàn)的模式是有可視意義的;(3)圖像模式可視化問題:在視覺豐富的環(huán)境里如何表達(dá)挖掘的模式給用戶。
四、圖像挖掘的技術(shù)
除了研究合適的圖像挖掘框架,早期的圖像挖掘者已經(jīng)試圖試用已有的技術(shù)挖掘圖像信息。常用的技術(shù)包括圖像分類與聚類,圖像數(shù)據(jù)的相似性搜索,目標(biāo)識(shí)別等。
(一)圖像分類與聚類?;趦?nèi)容的智能圖像分類可通過將圖像與不同的信息類別相關(guān)聯(lián)實(shí)現(xiàn)。圖像分類是一種有監(jiān)督學(xué)習(xí)方法,過程分3步:(1)建立圖像表示模型,對已進(jìn)行類別標(biāo)注的樣本圖像進(jìn)行特征提取,建立每一圖像屬性描述;(2)對每一類別的樣本集進(jìn)行學(xué)習(xí),建立規(guī)則或公式;(3)使用模型對未標(biāo)注圖像進(jìn)行分類判決和標(biāo)注。常用的分類方法有:判定樹、Bayes方法、神經(jīng)網(wǎng)絡(luò)方法,其它方法包括:K-最近鄰分類、粗糙集分類等。
圖像數(shù)據(jù)聚類就是運(yùn)用某種算法,使得圖像對象集中具有相似特征的對象聚成組的過程。經(jīng)過聚類,同一類的對象之間的相似性盡可能大,而不同類別的數(shù)據(jù)之間的相似性盡可能小。對象之間的相似性是根據(jù)對象特征向量之間的距離來計(jì)算的,常用的方法有加權(quán)歐氏距離、相異度矩陣等。
(二)圖像數(shù)據(jù)的相似性搜索。對于圖像數(shù)據(jù)的相似性檢索,主要考慮了兩種圖像標(biāo)引和檢索系統(tǒng):(1)基于描述的檢索系統(tǒng),主要是在圖像描述之上建立標(biāo)引和執(zhí)行對象檢索,如關(guān)鍵字、標(biāo)題、尺寸和創(chuàng)建時(shí)間等;(2)基于內(nèi)容的檢索系統(tǒng),它支持基于圖像內(nèi)容的檢索,如顏色構(gòu)成、紋理、形狀、對象和小波變換等?;诿枋龅臋z索若用手工完成是很費(fèi)力的;若自動(dòng)完成,檢索的結(jié)果質(zhì)量通常又較差。例如,對圖像賦予關(guān)鍵字可以是很靈活隨意的事情?;趦?nèi)容的檢索使用視覺的特征標(biāo)引圖像并基于特征相似檢索對象,這在很多應(yīng)用中都是需要的。
(三)目標(biāo)識(shí)別。目標(biāo)識(shí)別一直是圖像處理領(lǐng)域中活躍的研究焦點(diǎn)。一個(gè)目標(biāo)識(shí)別系統(tǒng)用已知的目標(biāo)模型從圖像中發(fā)現(xiàn)真實(shí)的世界中的目標(biāo)。這是圖像挖掘領(lǐng)域中的一個(gè)主要任務(wù)。自動(dòng)的機(jī)器學(xué)習(xí)和有意義的信息抽取能被實(shí)現(xiàn)僅僅在某些目標(biāo)已經(jīng)被機(jī)器識(shí)別的情況下。已知目標(biāo)的模型通常由人工輸入作為先驗(yàn)知識(shí)。
五、結(jié)論
本文概述了圖像挖掘中的問題,現(xiàn)有的圖像挖圖像挖掘的技術(shù),圖像挖掘的研究仍處在初期,許多問題有待于解決,比如下列的問題應(yīng)引起關(guān)注;適合圖形圖像挖掘的統(tǒng)一的圖像表示模型和表示方法;圖像預(yù)處理方法包括特征提取、圖像分割、對象識(shí)別、圖像表示方法;高效和可伸縮的各類圖像模式挖掘算法;圖像與其它多媒體形式數(shù)據(jù)(如音頻、視頻)的集成模式挖掘。作者簡介:
紀(jì)秀輝,男,漢族,黑龍江綏化人,九江學(xué)院信息科學(xué)與技術(shù)學(xué)院教師,主要研究領(lǐng)域?yàn)榍度胧较到y(tǒng)、數(shù)據(jù)庫。