呂 娜 擺小軍 張 烜 張鎮(zhèn)東
?
基于分布式聚類算法的圖像特征提取研究
呂 娜 擺小軍 張 烜 張鎮(zhèn)東
國網(wǎng)新疆電力公司信息通信公司,新疆 烏魯木齊 830000
在計算機視覺領(lǐng)域,聚類算法主要用來構(gòu)建視覺詞匯的詞袋,因其簡單、高效而得到了廣泛的應(yīng)用。眾所周知,最簡單的聚類算法是K-means算法。該算法主要是通過初始化一組聚類中心,并通過計算其他樣本點到聚類中心的距離判斷該樣本點屬于某一個聚類中心。采用分布式K-means算法提取圖像特征則是在分布式的環(huán)境下圖像特征的提取。通過聚類的過程得到聚類中心,即字典,在得到字典后,通過特征映射函數(shù),將輸入的圖像向量轉(zhuǎn)換成相應(yīng)的新的特征表達,用來準確表達。
聚類算法;聚類中心;特征提取;分布式
1967年,J.B.MacQueen提出了K-means聚類算法,隨后該算法被廣泛應(yīng)用在不同的領(lǐng)域,由于其容易實現(xiàn)、簡單高效的特點,使其依舊是目前被研究的熱點。由于K-means 算法易于描述,時間效率高,在處理大規(guī)模數(shù)據(jù)方面有很大的優(yōu)勢。目前,該算法在圖像分類,圖像檢索以及自然語言處理等眾多領(lǐng)域都有廣泛的應(yīng)用。
分布式K-means算法[1]是在分布式平臺上實現(xiàn)的,主要是對大規(guī)模的數(shù)據(jù)進行聚類分析,體現(xiàn)了并行計算和分布式計算日益增長的趨勢。其思想是:首先在各個站點上對數(shù)據(jù)進行局部聚類操作,之后將其結(jié)果輸入給其他站點并聚集成最終的聚類結(jié)果。
1.1 顏色特征
顏色特征是一種全局特征,描述了圖像或圖像區(qū)域所對應(yīng)的景物的表面性質(zhì)。一般顏色特征是基于像素點的特征,此時所有屬于圖像或圖像區(qū)域的像素都有各自的貢獻。由于顏色對圖像或圖像區(qū)域的方向、大小等變化不敏感,所以顏色特征不能很好地捕捉圖像中對象的局部特征。
常用的特征提取方法主要是顏色直方圖,能簡單描述一幅圖像中顏色的全局分布,即不同色彩在整幅圖像中所占的比例,特別適用于描述那些難以自動分割的圖像和不需要考慮物體空間位置的圖像。但是,顏色直方圖無法描述圖像中顏色的局部分布及每種色彩所處的空間位置,即無法描述圖像中的某一具體的對象或物體。
1.2 紋理特征
紋理特征同樣也是一種全局特征,描述圖像或圖像區(qū)域所對應(yīng)景物的表面性質(zhì)。由于紋理只是一種物體表面的特性,并不能完全反映出物體的本質(zhì)屬性,所以僅僅利用紋理特征是無法獲得高層次圖像內(nèi)容的。與顏色特征不同,紋理特征不是基于像素點的特征,它需要在包含多個像素點的區(qū)域中進行統(tǒng)計計算。在模式匹配中,這種區(qū)域性的特征具有較大的優(yōu)越性,不會由于局部的偏差而無法匹配成功。作為一種統(tǒng)計特征,紋理特征常具有旋轉(zhuǎn)不變性,并且對于噪聲有較強的抵抗能力。但是,紋理特征也有不足之處,一個很明顯的缺點是當圖像的分辨率變化的時候,所計算出來的紋理可能會有較大偏差。另外,由于有可能受到光照、反射情況的影響,從2D圖像中反映出來的紋理不一定是3D物體表面真實的紋理。
1.3 形狀特征
各種基于形狀特征的檢索方法都可以比較有效地利用圖像中感興趣的目標來進行檢索,但它們也有一些共同的問題。主要有:基于行政的檢索方法還缺乏完善的數(shù)據(jù)模型;當目標有變形時,會引起檢索結(jié)果不準確的現(xiàn)象等[2]。通常情況下,形狀特征有兩類表示方法:一類是輪廓特征;另一類是區(qū)域特征。圖像的輪廓特征主要針對物體的外邊界,而圖像的區(qū)域特征則關(guān)系到整個形狀區(qū)域。
2.1 原理
K-means算法是基于樣本間相似性度量的聚類方法的一種,屬于非監(jiān)督學(xué)習方法的一種。K-means算法主要是來計算數(shù)據(jù)聚集的算法,通過迭代的方式不斷地選取離聚類中心最近均值的算法。K-means聚類算法是一種典型的動態(tài)的聚類算法,其主要關(guān)注點是以誤差平方和作為準則函數(shù),通過逐點修改聚類中心,對每一個樣本按某一種計算方法,將該樣本分配給某一組,之后重新計算這個組的均值。同時,所獲得的新的均值作為該組的新的聚類中心進行下一次樣本的聚類。
在分布式的基礎(chǔ)上,將單機K-means算法并行化、分布式化,對輸入的數(shù)據(jù)并行處理。在具體的聚類過程中,給定上一步驟得到的完整的聚類中心,在每個獨立計算的節(jié)點上讀取輸入數(shù)據(jù),計算每個數(shù)據(jù)點的相應(yīng)的聚類中心,最終輸出全局的聚類集合。
2.2 圖像特征提取
采用分布式K-means算法來提取圖像特征。首先對輸入的圖像隨機提取圖像塊,這一操作對圖片之間是不相關(guān)的,在分布式的環(huán)境下可以并行進行。同時為了減少冗余信息,保留關(guān)鍵信息,之后會對所提取的圖像塊進行預(yù)處理操作,這里包括正則化和白化過程,在預(yù)處理過程中,同樣可以在多個獨立月工作的節(jié)點之間并行的進行,從而提高效率,最后將得到的預(yù)處理后的圖像塊作為并行化K-means算法的輸入,進行提取字典的操作,在得到字典后,通過選取的特征映射函數(shù),將圖像映射為一個新的表達,即是圖像特征。該算法是在分布式上實現(xiàn)的每一個步驟,包括預(yù)處理、字典的學(xué)習以及最終的圖像特征提取過程都是并行處理的。相對于單機系統(tǒng)實現(xiàn)的算法,在一定程度上節(jié)約了時間成本。同時,K-means作為一種無監(jiān)督的特征學(xué)習方法,避免了對各種訓(xùn)練參數(shù)的學(xué)習。這些參數(shù)一般是需要通過交叉驗證的方式來獲得最優(yōu)設(shè)置,這無疑會增加很大的時間成本。但是,在分布式K-means提取圖像特征的過程中,除了需要學(xué)習字典外,不需要學(xué)習其他的參數(shù)。因此,相對于其他的特征學(xué)習算法,該算法時間效率上具有很大的優(yōu)勢[3]。
圖像特征提取是計算機視覺和圖像處理領(lǐng)域中一個很重要的部分,主要指的是使用計算機提取圖像信息,決定每個圖像的點是否屬于一個圖像特征,其結(jié)果是把圖像上的點分為不同的子集,這些子集通常屬于孤立的點、連續(xù)的曲線或者連續(xù)的區(qū)域。聚類算法被廣泛的應(yīng)用在日常生活中。在商業(yè)上,聚類算法有助于分析人員從各種消費數(shù)據(jù)庫中提取出特定的消費信息,并且概括出消費信息中體現(xiàn)的消費模式。聚類算法是數(shù)據(jù)挖掘領(lǐng)域中的一個重要部分,通??梢宰鳛橐粋€良好的工具來發(fā)現(xiàn)數(shù)據(jù)庫中的深層次的特征表達。同時,可以概括出每一個特定類別的特點,采用分布式的聚類算法提取圖像特征,能夠避免眾多參數(shù)的訓(xùn)練,很大程度上節(jié)省了時間成本。
[1]張建萍,劉希玉.基于聚類分析的K-means算法研究及應(yīng)用[J].計算機應(yīng)用研究,2007,24(5):166-168.
[2]吳夙慧,成穎,鄭彥寧,潘云濤.K-means算法研究綜述[J].現(xiàn)代圖書情報技術(shù),2011(5):28-35.
[3]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報,2008,19(1):48-61.
Research on image feature extraction based on Distributed Clustering Algorithm
LYU Na Bai Xiaojun Zhang Xuan Zhang Zhendong
State Grid Xinjiang Electric Power Company Information and Communication Company,Xinjiang Urumqi 830000
In the field of computer vision,clustering algorithm is mainly used to construct the word bag of visual words, which is widely used for its simple and efficient. As everyone knows,the most simple clustering algorithm is the K-means algorithm,the algorithm is mainly by initializing a set of cluster centers,and by calculating the other sample points to the distance from the cluster center to determine the sample belongs to a cluster center. The distributed K-means algorithm of image feature extraction is to extract image features in the distributed environment,clustering centers obtained by clustering process, which is in the dictionary, the dictionary,the feature mapping function,the input image vector is converted to the new features of the corresponding expression for accurate expression.
clustering algorithm;cluster center;feature extraction;distributed
TP391.41
A
1009-6434(2017)01-0147-02