• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      云計算環(huán)境下的海量圖像查重算法設(shè)計

      2021-09-01 14:18:34
      綏化學院學報 2021年9期
      關(guān)鍵詞:查重海量數(shù)量

      高 興

      (沈陽音樂學院公共基礎(chǔ)部 遼寧沈陽 110818)

      云計算技術(shù)是借助于大規(guī)模低成本的服務(wù)器構(gòu)成的分布式計算系統(tǒng),將海量的數(shù)據(jù)通過網(wǎng)絡(luò)云進行分解或者分類,將結(jié)果傳送或者反饋給用戶。云計算能夠按照用戶需求提供云服務(wù),且具備運行成本低、可靠性高、擴展性好等優(yōu)勢[1]。云計算包括虛擬化技術(shù)、分布式海量數(shù)據(jù)存儲和分布式計算技術(shù),可以實現(xiàn)龐大、復雜的數(shù)據(jù)信息等資源處理,使海量的數(shù)據(jù)信息在較短時間內(nèi)完成處理,提高數(shù)據(jù)信息的處理效率[2]。圖像作為當下主要的信息傳播方式,在眾多領(lǐng)域都廣泛應(yīng)用,如何在海量的圖像中判斷相同的圖像,已然成為當下圖像查重領(lǐng)域的主要研究內(nèi)容。

      一、云計算環(huán)境下的海量圖像查重算法

      (一)云計算環(huán)境下的海量圖像識別技術(shù)。海量圖像分類是圖像查重的前提,為了更好地完成海量圖像分類,采用云計算技術(shù)完成[3]。在云平臺上利用云計算技術(shù)實現(xiàn)圖像分類處理的整體流程。圖像分類需先提取云平臺上圖像數(shù)據(jù)庫中的圖像特征,并將待分類圖像特征與圖像庫中圖像特征進行匹配,根據(jù)匹配結(jié)果完成圖像的類別劃分[4]。云計算技術(shù)圖像分類原理如圖1所示。其中,圖像預(yù)處理主要作用是完成圖像的色彩轉(zhuǎn)換,并將轉(zhuǎn)換后的圖像存儲。采用相關(guān)特征提取方法完成存儲圖像的數(shù)據(jù)計算,獲取圖像特征[5]。

      圖1 云計算技術(shù)圖像分類原理

      利用圖像分類器將圖像特征數(shù)據(jù)樣本進行訓練,并將訓練后的結(jié)果存儲于本地文件中,用于圖像分類。分類器主要運行步驟如下所述:

      (1)通過云平臺上傳海量圖像數(shù)據(jù)信息,上傳完成提交后,從分布式文件系統(tǒng)中獲取數(shù)據(jù)源,通過數(shù)據(jù)集群配置劃分數(shù)據(jù),并分類處理上傳的Reduce和Map,并輸入Reduce和Map過程中的節(jié)點信息。

      (2)操作時,讀入儲存在分布式文件系統(tǒng)中圖像樣本的同時,使用遺傳算法優(yōu)化數(shù)據(jù)樣本參數(shù)類型轉(zhuǎn)換后的組合參數(shù),完成svm—train函數(shù)的調(diào)入。為獲取支持向量,需完成樣本數(shù)據(jù)的訓練,并將處理結(jié)果輸入在Reduce中。

      (3)實現(xiàn)Reduce的操作過程,采用數(shù)據(jù)形式key/value完成分類和排序Map函數(shù)的轉(zhuǎn)換,向?qū)崿F(xiàn)規(guī)定的路徑文件中輸入處理后的數(shù)據(jù),輸出圖像分類結(jié)果。

      (二)基于Zernike矩陣的圖像比對。

      1.比對算法流程。采用Zernike矩陣完成分類圖像比對,步驟為:

      (1)由于圖像旋轉(zhuǎn)后可能存在偽邊塊,為將其去除,需要先完成兩幅對比圖像(圖像A和B)的偽邊塊檢測,確定兩幅圖像的區(qū)域和大小,將偽邊塊去除后,保存圖像區(qū)域的有效內(nèi)容[6],即為A1和B1。

      (2)采用插值法對B1實行圖像歸一化處理,使B1和A1的大小相同,得出B2。

      (3)將A1旋轉(zhuǎn),旋轉(zhuǎn)次數(shù)為s,每次旋轉(zhuǎn)角度為360/s,計算A1每次旋轉(zhuǎn)結(jié)束后的第T個Zernike矩,并且T≥2,根據(jù)計算得出的數(shù)值構(gòu)建S*T矩陣,其為:

      (4)對矩陣KA的每一列進行均值和標準差的計算,獲取均值向量和標準差向量,分別為其中:

      (5)無需對B2進行旋轉(zhuǎn),對A1相對應(yīng)的T個Zernike矩進行計算,得出矩值向量VB。

      其具體流程如圖2所示。

      圖2 算法比對流程

      2.真實圖像區(qū)域大小的確定。由于圖像旋轉(zhuǎn)后四周會出現(xiàn)偽邊塊,通常情況下偽邊塊的區(qū)域呈現(xiàn)黑色、白色或者是其他的單一灰度區(qū)域[7]。為了解決偽邊塊對Zernike矩值造成的影響,需對所有偽邊塊實行區(qū)分。對圖像靠近四條邊沿位置的像素值進行掃描后,統(tǒng)計像素值的出現(xiàn)概率。如果某個像素值出現(xiàn)比例較大,判斷該像素值在旋轉(zhuǎn)后形成偽邊塊像素值,將該像素值的臨近四條邊沿的連通圖像區(qū)域判斷為偽邊塊。為確定真實圖像的實際大小,從而保障后續(xù)的圖像大小歸一化,則處理步驟如下:

      (1)為將圖像轉(zhuǎn)化為黑白圖像,根據(jù)圖像像素值采取二值化方式完成圖像處理。偽邊塊區(qū)域作為單獨一類,其余區(qū)域歸為另一類,均判斷為真實圖像。

      (2)對二值化后的黑白圖像實行邊緣檢測以及其中存在的直線進行檢測,將圖像中相交后可構(gòu)成矩形的四條直線看作真實圖像的邊界。

      (3)確定由四條直線相交構(gòu)成的矩形,將其看作為真實圖像區(qū)域,并依據(jù)四個直線交點坐標,確定真實圖像大小。

      3.歸一化相似度準則。真實圖像之間的相似程度通過相似度準則進行衡量,其取值范圍在[0,1]之間。當Zernike矩的階數(shù)較高時,計算結(jié)果與較低階的矩值存在很大差別,甚至存在數(shù)個數(shù)量級的差別。為保證每一個Zernike矩陣作用的統(tǒng)一和均衡,對VB實行歸一化處理,獲取,其中:

      如果獲取的相似度κ值大于設(shè)定的閾值,則表示兩幅圖像的內(nèi)容相同,反之,則不相同。根據(jù)相似結(jié)果判斷圖像重復情況,完成圖像查重。對和VB的相似度進行計算,如果已經(jīng)經(jīng)過歸一化處理,并且成為一個全1向量,則兩幅圖像相似度為:

      二、仿真測試結(jié)果與分析

      選取某圖像庫作為研究對象,展開相關(guān)測試分析。該圖像庫共有圖像數(shù)量82000張,重復圖像共10087張。其中主要分為風景類圖像14600張,重復圖像4220張;建筑類圖像12800,人物類圖像3020張;文字文本類圖像18400張,重復圖像1120張;動物類圖像11200,重復圖像728張;玩具類圖像25000張,重復圖像999張。

      (一)分類性能測試。測試本文算法的圖像分類性能,從節(jié)點數(shù)量對圖像識別時間的影響和圖像分類精度兩個方面完成測試,測試結(jié)果如表1、表2所示。分析表1可知:本文算法進行圖像識別過程中,如果云計算平臺上只有2個節(jié)點時,玩具類圖像數(shù)據(jù)交換所需時間較長,該現(xiàn)象表明針對圖像識別,兩臺計算機所需時間較大程度大于1臺計算機識別所需時間。當節(jié)點數(shù)量為3個以上時,隨著節(jié)點數(shù)量的增加,處理相同數(shù)量圖像所需的時間逐漸減少。該測試結(jié)果表明,節(jié)點數(shù)量的增加,會增加圖像分類的速度,可根據(jù)需要分類的圖像數(shù)量,選擇適合的節(jié)點數(shù)量。

      表1 不同節(jié)點數(shù)量下圖像識別時間/ms

      表2 三種算法的分類精度對比

      從表2可知:對于五類圖像,本文算法的分類精度最佳,分類精度均在99%以上對比算法的漏識和誤識數(shù)量高于本文算法,它的分類精度低,這主要是因為本文算法采用云計算技術(shù)從通過分布式文件系統(tǒng)中獲取海量圖像數(shù)據(jù)源,通過數(shù)據(jù)集群配置劃分處理數(shù)據(jù),保證圖像分類結(jié)果的精度。

      (二)查重性能測試。為進一步測試本文算法查重性能,隨機抽取人物類圖像的一組圖像,如圖3所示。其中(a)圖為原始給定圖像,經(jīng)其縮放60%后,進行逆時針旋轉(zhuǎn),得出(b)圖,此時兩幅圖像內(nèi)容相同,但是數(shù)據(jù)本身存在較大差別。選取4階Zernike矩(共包含9個Zernike矩值),對(a)圖進行旋轉(zhuǎn),每次旋轉(zhuǎn)角度為20°,獲取(a)圖的Zernike矩值、標準差數(shù)值和(b)圖的Zernike矩值、歸一化后的數(shù)值,分別如表3、表4所示。分析表3可知:表中包含圖3(a)圖均值以及標準差的數(shù)值,相比較均值而言,可看出標準差相對很小,說明Zernike矩在進行圖像不同角度旋轉(zhuǎn)時,大小保持相對穩(wěn)定,表示本文算法具備較好的旋轉(zhuǎn)不變性。

      圖3 實驗使用的圖像

      表3 (a)圖的均值和標準

      表4 (b)圖的矩值和歸一化值

      分析表4可知:將獲取的矩值通過公式(5)進行計算,獲取相似度值。相似度值越高說明兩幅圖像內(nèi)容相同,表明兩幅圖像重復。說明本文方法具備圖像查重能力,可完成海量圖像的查重。差

      圖像查重可理解為將重復圖像聚集到相同的簇,因此,查重效果的衡量公式為:

      式中:A為圖片重復檢測的結(jié)果集合,其元素為檢測到的重復圖像,a中最大的真實重復圖像數(shù)量為max-dup函數(shù);如果a=[1,1,2,2,2,3,3],則max-dup(a)=3,表示2的個數(shù)為a中出現(xiàn)最多的元素數(shù)量,acc表示查重聚類純度。

      以人物圖像數(shù)據(jù)集為例,采用三種算法對其進行相似度查詢,測試三種算法在相似度閾值變化的情況下,acc的變化結(jié)果如圖4所示。分析圖4可知:本文算法在相似度閾值變化的情況下,acc值高于兩種對比算法那,明本文算法進行圖像查重的圖像相似度查重效果最佳。兩種對比算法的acc值相對較低,由于閾值的變化導致大量圖像被錯誤地檢測為重復。本文方法具備較好的分類性能,可將相同類別的圖像劃分為一個集合,極大程度降低了圖像相似度檢測的錯誤數(shù)量,保證圖像相似度檢測的精度。并且根據(jù)圖中曲線變化,結(jié)合閾值的固定的范圍可以看出,本文算法在相似度閾值為0.8~0.9范圍內(nèi),acc精度最高。

      圖4 不同算法acc變化結(jié)果

      三、結(jié)論

      為了實現(xiàn)海量圖像內(nèi)容查重,設(shè)計了云計算環(huán)境下的海量圖像查重算法,測試結(jié)果表明:云計算技術(shù)的節(jié)點數(shù)量對于海量圖像分類存在影響,可根據(jù)圖像數(shù)量適當選擇合適的節(jié)點;針對五種類型圖像,本文算法的分類精度高,為后續(xù)圖像高精度查重奠定了可靠基礎(chǔ);本文算法具備較好的旋轉(zhuǎn)不變性,可有效完成圖像查重。

      猜你喜歡
      查重海量數(shù)量
      一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
      學位論文查重亂象引關(guān)注
      科教新報(2021年18期)2021-06-11 13:25:24
      論文查重雜談
      海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
      當代陜西(2019年14期)2019-08-26 09:42:00
      統(tǒng)一數(shù)量再比較
      學術(shù)論文該“查”什么?
      雜文月刊(2018年20期)2018-11-14 21:28:46
      學術(shù)論文該“查”什么?
      一個圖形所蘊含的“海量”巧題
      頭發(fā)的數(shù)量
      我國博物館數(shù)量達4510家
      鄯善县| 朝阳县| 宁城县| 钦州市| 焦作市| 剑阁县| 惠州市| 安顺市| 无极县| 侯马市| 乌审旗| 皮山县| 体育| 大厂| 定兴县| 论坛| 保山市| 西昌市| 清远市| 孝昌县| 神农架林区| 定安县| 兴文县| 渑池县| 龙游县| 施甸县| 抚松县| 南开区| 都匀市| 茶陵县| 黄龙县| 桐庐县| 泾源县| 高唐县| 翁牛特旗| 舞阳县| 大足县| 金山区| 贵港市| 昌都县| 扎兰屯市|