趙燕萍
摘要:針對傳統(tǒng)的壓縮圖像數(shù)據(jù)挖掘方法中由于頻繁項集過多造成的方法復雜性增加的問題,提出基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法研究。以壓縮圖像數(shù)據(jù)庫作為基礎(chǔ),利用完全項集前綴樹獲得所有頻繁項集,根據(jù)計算的置信度和支持度,從頻繁項集中提取出強關(guān)聯(lián)規(guī)則,考慮壓縮圖像數(shù)據(jù)的安全性,對強關(guān)聯(lián)規(guī)則集合進行進一步的處理,獲得候選規(guī)則集合,掃描集合中的每個規(guī)則,選擇最少錯誤的規(guī)則,形成分類器,利用分類器實現(xiàn)數(shù)據(jù)挖掘。實驗結(jié)果表明:設(shè)計的基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法的計算時間和通信時間所需較少,數(shù)據(jù)挖掘效率高,該方法適合應(yīng)用在實際項目中。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;壓縮圖像;數(shù)據(jù)挖掘;壓縮數(shù)據(jù)集
中圖分類號:TP309.2? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)03-0055-02
作為在互聯(lián)網(wǎng)和商業(yè)系統(tǒng)中誕生出的新的研究領(lǐng)域,數(shù)據(jù)挖掘技術(shù)有廣泛的研究方向,但是其核心從未改變,其核心就是將大量數(shù)據(jù)中的有價值的數(shù)據(jù)提取或挖掘出來,為決策者提供重要的知識或信息,幫助經(jīng)濟效益增長[1]。數(shù)據(jù)挖掘技術(shù)逐步被社會各領(lǐng)域所應(yīng)用,以數(shù)據(jù)挖掘分析行業(yè)數(shù)據(jù),便于行業(yè)發(fā)展決策確立,當前,數(shù)據(jù)挖掘技術(shù)已成為重要的數(shù)據(jù)分析工具[2]。
考慮現(xiàn)階段網(wǎng)絡(luò)中數(shù)據(jù)規(guī)模和其安全性,當前多通過數(shù)據(jù)壓縮技術(shù)來管理海量數(shù)據(jù),可以在一定程度上提升數(shù)據(jù)管理效率,但是在數(shù)據(jù)挖掘中,對此類數(shù)據(jù)的挖掘有一定的困難,特別是壓縮圖像數(shù)據(jù)[3]。國外對于數(shù)據(jù)挖掘技術(shù)的發(fā)展取得了不錯的成果,如美國斯坦福大學智能數(shù)據(jù)庫系統(tǒng)實驗室開發(fā)的商用化數(shù)據(jù)挖掘系統(tǒng),應(yīng)用范圍十分廣泛,可以在多種平臺上運行,并且還引入了在線分析挖掘技術(shù)[4]。相比之下,國內(nèi)對于數(shù)據(jù)挖掘技術(shù)的研究稍稍落后一點,目前主要集中數(shù)據(jù)挖掘算法的研究,由此看出,數(shù)據(jù)挖掘的研究與應(yīng)用已經(jīng)越來越受到各界人士的重視。目前,比較成熟數(shù)據(jù)挖掘方法有基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法和基于遺傳算法的數(shù)據(jù)挖掘方法,這兩種挖掘方法主要依賴其內(nèi)部的算法,在實際應(yīng)用中,會產(chǎn)生大量無用數(shù)據(jù),生成過多的頻繁項集,增加數(shù)據(jù)挖掘負擔,使得數(shù)據(jù)的計算時間和通信時間增加,影響數(shù)據(jù)挖掘的效率[5-7]。因此,將關(guān)聯(lián)規(guī)則應(yīng)用與壓縮圖像數(shù)據(jù)挖掘中,以解決當前數(shù)據(jù)挖掘中存在的問題。
1 基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法設(shè)計
1.1 獲取所有頻繁項集
基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法主要是通過數(shù)據(jù)獲得所有頻繁項集,從中獲得強關(guān)聯(lián)規(guī)則,利用關(guān)聯(lián)規(guī)則實現(xiàn)數(shù)據(jù)挖掘。獲取頻繁項集具體流程如下圖所示。
為了能夠高效地對壓縮圖像數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘,使用完全項集前綴樹結(jié)構(gòu),產(chǎn)生頻繁項集。假設(shè)壓縮圖像數(shù)據(jù)集合為[Q=q1,q2,…,qn],對應(yīng)的屬性集合為[E=E1,E2,…,Em],屬性[Ei]的值域為[domEi]。將壓縮數(shù)據(jù)集合看作是(屬性,值)對的集合,將(屬性,值)稱為項,其中的值為[q],記為[q=c1,c2,…,cm],其中[ci]的值域與屬性的值域相同。將具有[β]個項的集合稱為[β-]集合。壓縮數(shù)據(jù)集合中共有[i=1,mdomEi]個[1-]項集。
在獲取所有頻繁項集過程中使用的完全項集前綴樹是一個項集枚舉樹,由節(jié)點標簽項和擴展項集組成了樹中的節(jié)點。擴展項集中按照1~m的排位順序,根節(jié)點內(nèi)的標簽為空,擴展項集為所有的[1-]項集[8]。
對于樹上任意節(jié)點,假設(shè)其擴展項集數(shù)與子節(jié)點個數(shù)相同,將項集內(nèi)的所有相都看作樹的子節(jié)點,由此,每一個經(jīng)過由根節(jié)點到子節(jié)點路徑上的節(jié)點都從屬于子節(jié)點的集合。每一個根節(jié)點的子節(jié)點共同組成了項集前綴樹,在前綴樹內(nèi)的第一層,每一個節(jié)點長度都為1,第二層項集內(nèi)所有長度均為2,以此類推,項集前綴樹共有[m]層。
確定完全項集前綴樹層數(shù)后,建立一個可容納[β]層的項集前綴樹,把前綴樹設(shè)置于內(nèi)存中。對圖像數(shù)據(jù)庫進行掃描,將數(shù)據(jù)庫內(nèi)的所有數(shù)據(jù)進行項集前綴樹處理,假如節(jié)點所在項集屬于當前數(shù)據(jù)庫,則在節(jié)點計數(shù)上加1,遍歷壓縮圖像數(shù)據(jù)庫中所有數(shù)據(jù),完成后,以預(yù)設(shè)的最小支持度閾值為對比依據(jù),將每一個長度小于[β]的數(shù)據(jù)進行項集。
1.2 量化強關(guān)聯(lián)規(guī)則
在獲得所有頻繁項集后,從中提取出關(guān)聯(lián)規(guī)則并量化,用于后續(xù)的數(shù)據(jù)挖掘中。定義一個事務(wù)數(shù)據(jù)庫為[T=T1,T2,…,Tn],其中包含[N]個事務(wù),每個事務(wù)都是項的集合,一個事務(wù)中包含有項集為[W]當且僅當[W?T],獲得的頻繁項集為[β-]項集。從頻繁項集中提取出強關(guān)聯(lián)規(guī)則,其表現(xiàn)形式為[W?R],并且[W?R=?]。定義的關(guān)聯(lián)規(guī)則[W?R]的支持度表示為:
支持度主要是數(shù)據(jù)庫中既包含[W]又包含[R]的數(shù)據(jù)所占數(shù)據(jù)庫總事務(wù)數(shù)的百分比,相應(yīng)的關(guān)聯(lián)規(guī)則[W?R]的置信度公式表示為:
[confW?R]表示的是既包含[W]又包含[R]的事務(wù)占包含[W]的事務(wù)的百分比。獲得的頻繁項集為所有大于最小支持度的項集集合,從中獲取關(guān)聯(lián)規(guī)則主要是挖掘出所有值為1的屬性值之間的關(guān)聯(lián)規(guī)則,在關(guān)聯(lián)規(guī)則的作用下,數(shù)據(jù)庫中事務(wù)對應(yīng)一個數(shù)據(jù)元組,每個項對應(yīng)一個屬性域。如果屬性域的值為1,則表示數(shù)據(jù)元組中,對應(yīng)的事務(wù)中包含屬性域?qū)?yīng)的項。當數(shù)據(jù)庫中只存在量化屬性值域比較小時,每個屬性在映射后的關(guān)系數(shù)據(jù)庫中所占的列數(shù)和其值域大小是相同的,當某一元組在屬性[x]的取值為value1時,在映射的數(shù)據(jù)庫中,此條數(shù)據(jù)上的屬性域的取值為1,屬性[x]的其余列則為0。此時,就可以利用關(guān)聯(lián)規(guī)則挖掘壓縮圖像數(shù)據(jù)庫中的數(shù)據(jù)了。
1.3 實現(xiàn)數(shù)據(jù)挖掘
通過上述過程得到的強關(guān)聯(lián)規(guī)則,需要再進一步選擇出用于挖掘壓縮圖像數(shù)據(jù)的高質(zhì)量規(guī)則集。以支持度為標準,將集合中的關(guān)聯(lián)規(guī)則按照從高到低進行排列,并以此排序順序作為掃描順序,將所有數(shù)據(jù)庫元組進行掃描處理,找出首個符合[W?R]規(guī)則,并且正確判別的規(guī)則[rule1],同時找到第一個滿足[W?R],但是判別錯誤的規(guī)則[rule2],判斷兩者的大小,哪一方支持度更高,則表示該規(guī)則,并將規(guī)則加入候選規(guī)則集中,否則加入錯誤子集中。
以支持度為排列依據(jù),對將所有候選的規(guī)則進行排序,在排序前需要對規(guī)則集合內(nèi)的所有規(guī)則進行簡單處理:
若集合內(nèi)的所有規(guī)則[u]在其所在屬類別上的覆蓋計數(shù)為零,說明規(guī)則[u]至少正確判別出一個壓縮圖像數(shù)據(jù)實例,對于集合中的每一個元素,需判定以dID為標識的數(shù)據(jù)是否已經(jīng)被規(guī)則[u]前面的規(guī)則覆蓋住。假設(shè)判定結(jié)果為覆蓋,需對覆蓋計數(shù)減小1;假設(shè)判斷結(jié)果顯示還沒被覆蓋,則規(guī)則[u]對應(yīng)的屬性類別上的覆蓋技術(shù)不變,獲得當前的默認屬性類別,將規(guī)則[u]加入分類器中。重復以上過程,處理完候選規(guī)則集合中的每一個規(guī)則,把所有排序在規(guī)則[u]之后規(guī)則進行刪除,把[u]的所屬類別看作是規(guī)則分類器的默認類別。
將壓縮圖像數(shù)據(jù)庫中的數(shù)據(jù)作為輸入,利用包含高支持度、高質(zhì)量關(guān)聯(lián)規(guī)則的分類器挖掘出用戶所需數(shù)據(jù)。至此,設(shè)計的基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法設(shè)計完成。
2 壓縮圖像數(shù)據(jù)挖掘方法實驗研究
2.1 實驗數(shù)據(jù)準備
對于壓縮圖像數(shù)據(jù),數(shù)據(jù)挖掘需要解決好圖像自身的表示問題,因此對于壓縮圖像數(shù)據(jù)的挖掘往往需要更多的計算時間和通信時間,影響數(shù)據(jù)挖掘效率。因此,在壓縮圖像數(shù)據(jù)挖掘方法研究中,以數(shù)據(jù)挖掘時間為衡量標準,結(jié)合傳統(tǒng)的基于遺傳算法的數(shù)據(jù)挖掘方法和基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法,設(shè)計對比實驗。實驗中使用的數(shù)據(jù)集為UCI公共數(shù)據(jù)庫中的Breast cancer數(shù)據(jù)集,因為第一個屬性是編號,去除第一個屬性,保留其中的第2-11個屬性,將最后一個屬性設(shè)置為類別屬性,基數(shù)為2。在實驗之前,將數(shù)據(jù)集中缺失屬性值的記錄刪除,同時擴大數(shù)據(jù)集整體20倍,最終得到13660條數(shù)據(jù)記錄。
2.2 數(shù)據(jù)挖掘時間實驗與分析
在實驗中,采用VC++開發(fā)環(huán)境,以C語言作為宿主語言,嵌入MPI消息傳遞函數(shù)庫,實現(xiàn)數(shù)據(jù)挖掘方法的運行與計算。實驗中的機群環(huán)境為6臺普通的計算機作為工作站,1臺DELL服務(wù)器,計算機之間網(wǎng)絡(luò)通過以太網(wǎng)交換機連接,結(jié)合MPI消息傳遞機制特點,在每個計算機看作信息節(jié)點,并在所有節(jié)點建立統(tǒng)一的登錄賬戶,在機群內(nèi)確定一個相同路徑的共享空間,存放實現(xiàn)不同數(shù)據(jù)挖掘算法的程序。將三種不同的數(shù)據(jù)挖掘方法應(yīng)用在局域網(wǎng)內(nèi)構(gòu)建的機群中,基于上述中的數(shù)據(jù)集對算法進行測試,主要計算出不同數(shù)據(jù)挖掘算法的通信時間和計算時間。其計算時間主要通過MPI提供的MPI_Wtime函數(shù)獲取。則數(shù)據(jù)挖掘時間實驗結(jié)果如下表所示。
觀察表中結(jié)果,從整體上看,設(shè)計的基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法在工作過程中所需時間最少,并且效率更高,再結(jié)合非頻繁項集分布實驗結(jié)果可知,設(shè)計的數(shù)據(jù)挖掘方法非頻繁項集分布滿足壓縮圖像數(shù)據(jù)挖掘的需求,需要的時間較少,效率更高。
3 結(jié)束語
互聯(lián)網(wǎng)隨著人類的使用,產(chǎn)生了越來越多的信息,其中包含了大量無用信息,用戶及時從中獲得自己所需的有效的信息十分困難。因此,本文利用壓縮圖像數(shù)據(jù)作為基礎(chǔ),以關(guān)聯(lián)規(guī)則為主,提出一種基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法。經(jīng)過深入研究與探討,在原有的關(guān)聯(lián)規(guī)則基礎(chǔ)上,做了更深層次的處理,實現(xiàn)了基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘。通過設(shè)計的對比實驗證明了,設(shè)計的基于關(guān)聯(lián)規(guī)則的壓縮圖像數(shù)據(jù)挖掘方法效率更高,解決了傳統(tǒng)的壓縮圖像數(shù)據(jù)挖掘方法中由于頻繁項集過多造成的復雜性過高的問題。但是研究過程中受到技術(shù)和實驗環(huán)境的限制,方法中存在不足之處,對壓縮圖像數(shù)據(jù)挖掘研究還處于初期階段,在后續(xù)研究中,可就其適應(yīng)范圍進行更深入的探討與分析。
參考文獻:
[1] 王丹.基于數(shù)據(jù)挖掘的三維圖像無損恢復研究[J].現(xiàn)代電子技術(shù),2018,41(7):67-70.
[2] 孫紅,李存進.融合遺傳算法和關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法改進[J].數(shù)據(jù)采集與處理,2019,34(5):863-871.
[3] 孫豐杰,王承民,謝寧.面向智能電網(wǎng)大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的頻繁模式網(wǎng)絡(luò)模型[J].電力自動化設(shè)備,2018,38(5):110-116.
[4] 毛曉菊.基于模糊關(guān)聯(lián)規(guī)則的海量數(shù)據(jù)挖掘方法研究[J].微電子學與計算機,2018,35(2):89-93.
[5] 顧廣華,曹宇堯,崔冬,等.基于形式概念分析和語義關(guān)聯(lián)規(guī)則的目標圖像標注[J].自動化學報,2020,46(4):767-781.
[6] 曹蒙蒙,郭朝有.面向動力監(jiān)測數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則算法改進研究[J].船舶工程,2018,40(S1):355-357.
[7] 于超,王璐,程道文.基于圖像降階的紋理特征挖掘方法在醫(yī)學上的應(yīng)用[J].東北師大學報(自然科學版),2018,50(3):53-57.
[8] 張定祥,張躍進.基于改進多層次模糊關(guān)聯(lián)規(guī)則的定量數(shù)據(jù)挖掘算法[J].計算機應(yīng)用研究,2019,36(12):3619-3622.
【通聯(lián)編輯:張薇】