• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      高維數據集中局部離散文本數據挖掘方法研究

      2017-10-12 09:18農曉鋒
      現代電子技術 2017年19期
      關鍵詞:關聯規(guī)則數據挖掘

      農曉鋒

      摘 要: 提出利用基于多目標優(yōu)化軟子空間聚類理論的關聯規(guī)則數據挖掘方法對高維數據集中局部離散文本數據實現數據特征有效挖掘。首先,利用多目標優(yōu)化軟子空間聚類思想結合非支配排序遺傳理論優(yōu)化加權類內緊致及加權類間分離函數,獲取優(yōu)化后的目標函數及非占優(yōu)Pareto最優(yōu)解集,運用加權子空間劃分方法對最優(yōu)解集完成特征聚類;其次,基于關聯規(guī)則思想運用一種特征提取和關聯文本的識別方法,對聚類后的文本特征進行文本間及文本內部的特征識別和分類,即實現了文本信息數據的有效挖掘。實驗證明,利用多目標優(yōu)化軟子空間聚類數據挖掘方法可以有效實現高維集中局部離散文本數據的挖掘。

      關鍵詞: 高維數據; 數據特征聚類; 數據挖掘; 關聯規(guī)則

      中圖分類號: TN911.1?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)19?0138?04

      Research on local discrete text data mining method in high?dimensional dataset

      NONG Xiaofeng

      (Modern Educational and Technological Center, Guilin Tourism University, Guilin 541006, China)

      Abstract: An association rules data mining method based on the theory of multi?objective optimization soft subspace clustering is proposed to mine the data feature of local discrete text data in high?dimensional dataset effectively. The thought of multi?objective optimization soft subspace clustering is combined with the theory of non?dominated sorting genetic optimization to optimize the weighted intra?class compactness and weighted inter?class separation function, and obtain the optimized objective function and non?dominated Pareto optimal solution set. The weighting subspace classification method is used to cluster the features of the optimal solution set. A recognition method for feature extraction and text association based on the thought of association rules is used to recognize and classify the features among texts and within texts for the clustered text features, which can realize the effective mining of the text information data. The experimental results show that the data mining method of multi?objective optimization soft subspace clustering can realize the local discrete text data mining in high?dimensional dataset effectively.

      Keywords: high?dimensional data; data feature clustering; data mining; association rule

      0 引 言

      文獻[1]指出,在人工智能和數據庫領域中,目前各種數據挖掘方法也獲得了不同程度的關注。20世紀末開始,人們對各種不同的數據挖掘方法進行深入研究。數據挖掘作為一種決策支持手段,幫助各個領域的專家和開發(fā)人員分析各種類型的數據[2?3],然后從中挖掘出潛在的模式并做出正確決策判斷。文獻[4]中提到數據挖掘通常會利用人工智能、機器學習、模式識別、統(tǒng)計學、可視化等技術來實現該過程。

      當前數據挖掘研究領域發(fā)展迅速,其面臨的問題與挑戰(zhàn)也越來越多。第一,越來越大的數據規(guī)模,也稱之為大規(guī)模數據問題;第二,不斷增加的數據特征維數引起的問題也稱為維數災難問題;第三,有生物學、腦科學、證券金融等學科的知識背景[5?6]。文獻[7]中提出基于上述問題面臨的挑戰(zhàn),部分學者提出針對大規(guī)模數據的流數據分析方法、針對高維數據的特征加權和特征選擇方法。目前數據挖掘領域的研究重點包括很多學科的交叉領域。

      由于數據挖掘方法被越來越廣泛的應用,本文提出對高維數據集中局部離散文本數據進行有效數據挖掘。首先,運用多目標優(yōu)化軟子空間聚類思想獲得優(yōu)化后的目標函數和非占優(yōu)Pareto最優(yōu)解集,最優(yōu)解集的獲取即實現了數據特征聚類;其次,以關聯規(guī)則思想為基礎,通過一種特征提取和關聯文本的識別方法實現對聚類后的文本特征進行文本之間及文本內部的特征識別和分類,最終達到有效挖掘文本信息數據的目的[8?9]。

      1 高維數據集中局部離散文本數據挖掘研究

      1.1 基于多目標優(yōu)化軟子空間的數據特征聚類

      多目標優(yōu)化屬于最合理的通用優(yōu)化方法,在特定條件的約束下,能夠優(yōu)化兩個以上的多個目標函數,該過程可描述如下:

      多目標優(yōu)化:最小化[M]個目標函數[fx=][f1x,f2x,…,fMx],找出全部可行域[X]范圍內的[D]維決策目標向量[x?=x?1,x?2,…,x?D],通過目標函數變換決策目標向量,則:

      [x?=argminx∈Xfx=argminx∈Xf1x,f2x,…,fMx] (1)

      式中:[i]表示目標函數數量;[fi?]表示目標函數;[x?]代表決策目標向量;[x]表示解向量。

      針對多目標優(yōu)化的可行解問題,其含有的解是多個或者無限多,組成Pareto集合。因為Pareto集合借助目標函數存在相互占優(yōu)的關系,所以也稱之為非占優(yōu)解集,可將其描述如下。

      Pareto解集:最小化[M]個目標函數[fx=][f1x,f2x,…,fMx,]解向量[x]是全部可行域[X]范圍內多目標優(yōu)化問題的可行解,Pareto解集必須滿足最優(yōu)準則,同時在全部可行域[X]范圍內,比[x]更加占優(yōu)的解向量[x]是不存在的,則:

      [?i∈1,2,…,M, fix=fix] (2)

      式中[fix]表示占優(yōu)解向量目標函數。目標優(yōu)化問題的可行解通過Pareto最優(yōu)準則來獲取,稱為Pareto解集。

      如果所有數據簇的特征加權系數都是[D]維特征向量,用[wi=wi1,wi2,…,wiD1≤i≤C]表示,[C×D]表示含有[C]個數據簇的染色體長度。其中,[w1]表示初始數據簇的特征因子,由前[D]個基因團來表示,[w2]也就是第二個數據簇的特征因子,以此類推。

      定義目標函數以及劃分數據樣本,聚類評價準則選用模糊軟子空間聚類目標函數[JFWSC]來優(yōu)化目標函數,則[JFWSC]可描述為:

      [JFWSC=i=1Cj=1Numijk=1Dwτikxjk-vik2] (3)

      式中:[N]表示數據樣本的個數;[j]表示常數;模糊聚類指數為[m]的隸屬度用[umij]表示;模糊加權指數為[τ]的加權系數用[wτik]表示;維數為[k]的第[j]個可行解用[xjk]表示;[vik]表示聚類中心。獲取各個數據簇加權系數[W]及聚類中心[V=vi,1≤i≤C],樣本到各個聚類中心的模糊隸屬度[uij]可描述為:

      [uij=dij-1m-1i=1Ddij-1m-1, i=1,2,…,C; j=1,2,…,N] (4)

      式中[dij]表示樣本到聚類中心的距離??擅枋鼍垲愔行臑椋?/p>

      [vik=j=1Numijxjkj=1Numij] (5)

      選擇聚類評價準則的合理性決定了最終聚類結果的產生,多目標優(yōu)化問題的適應度函數可選擇FWSC目標函數[JFWSC]。然后構建聚類數據集的樣本和聚類中心二部圖,數據聚類劃分可通過圖劃分方法推導得出。

      構建二部圖[G=V,E],以二部圖[G]為基礎,通過譜聚類取得相應聚類中心以及樣本點劃分的結果,由[VCi]表示每個聚類中心的劃分結果,相應的特征加權向量[wi]通過計算得出,同時輸出[N]個數據樣本的聚類劃分。

      1.2 關聯規(guī)則理論下文本數據挖掘

      對不同詞語數據實現不同加權就是文本特征提取方法,在數據樣本中詞語的重要性由此表示。加權實現方法中選用布爾加權方式,如果一個文本數據出現在數據樣本中,則加權為1,反之為0,加權參數可描述為:

      [wij=1,fij≥10,fij<1] (6)

      式中:[wij]表示文本加權結果;[fij]表示文本數據在數據樣本中出現的頻率。

      權重可以表示文本數據出現的概率,同時可以反映出文本數據的重要性,是一種基于信息理論的權重計算方法,以熵權重為基礎的文本挖掘方法,則:

      [wij=logfij+1.0*1+log1Nk=1Nfiknilogfikni ] (7)

      式中:[ni]表示研究特征次數;[fik]表示目標函數在數據樣本中出現的頻率。

      通過數字化的歸一化方法進行處理實現文本數據挖掘識別過程能夠有效地分類度量數據樣本中的關鍵數據,文本個數與最大相關系數互相關聯,則可作如下描述:

      [maxLac=log2k] (8)

      式中:[Lac]表示相關系數;[maxLac]表示各個特征類信息熵的最大值;[k]為常數。

      變化加權時采用固定系數coff1和coffconst對IDF1和IDFconst值進行適度調整,可以達到較好的分類效果。

      關聯挖掘屬于一種數據處理的挖掘方法,基于數據關聯度挖掘文本特征。文本挖掘首先要將文本挖掘區(qū)域劃定,參數[xi,yi]表示各文本在區(qū)域[Z]中的坐標,也就是文本坐標。假設將該區(qū)域視為圖像區(qū)域,設定像素點為[p,q,]若存在待識別的數據為[K(r),]運用關聯規(guī)則挖掘該數據的概率為:

      [Q(Z)=KZpqp×q] (9)

      式中:[Q(Z)]表示在文本[Z]區(qū)域內數據信息的挖掘概率;[KZpq]表示區(qū)域中的某文本數據樣本點。

      利用關聯度挖掘方法對高維數據集中局部文本數據進行數據樣本的特征提取,并利用關聯規(guī)則求解出數據被挖掘的概率,通過以上步驟可以較好地實現高維數據內部特征的描述,完成數據挖掘過程。

      2 仿真實驗與結果分析

      數據規(guī)模的不斷增大使數據挖掘成為核心的研究課題,本文以高維數據集中局部離散文本數據為研究對象,運用基于多目標軟子空間聚類理論的關聯規(guī)則法對其進行數據挖掘。通過以下實驗驗證本文方法的可行性,具體如下。

      實驗1:在對數據特征實現挖掘前,先對數據進行特征聚類處理,實驗設定高維文本數據共8組,每組為400個樣本,要求聚類為5個數據簇,每個簇為80個高維文本數據。采用本文多目標軟子空間聚類方法及數據流軟子空間聚類方法對實驗給出的400個文本數據進行聚類處理,獲取經過聚類處理后的數據簇結果及每個簇含有的文本數據個數,將結果與設定結果進行比較。具體數據結果如表1,表2所示。

      根據實驗條件設定每組為400個數據樣本,經過聚類處理后,400個文本數據聚類為5個數據簇,且每個數據簇內包含80個數據樣本。對照實驗事先設定的條件,表1為利用數據流軟子空間聚類法獲取的聚類結果,觀察聚類后形成數據簇的結果能夠看出,利用該方法獲取的數據簇個數與實驗預先設定結果不相符,表明利用數據流軟子空間聚類法對文本數據并未準確實現聚類處理;表2為多目標軟子空間聚類方法獲取的聚類結果,從表2能夠觀察出利用該方法經過聚類處理后形成的數據簇個數及每組數據簇包含的文本數據個數與實驗事先設定的限制條件吻合,依據結果顯示,利用本文多目標軟子空間聚類方法能夠對高維文本數據進行有效聚類處理。

      利用數據流軟子空間聚類法及本文多目標軟子空間聚類方法對文本數據進行聚類處理后形成曲線,并比較兩條曲線的差異,具體如圖1所示。

      觀察圖1能夠看出,運用本文多目標軟子空間聚類方法對400個文本數據進行聚類處理后,獲取的數據簇為5個,而運用數據流軟子空間聚類法進行聚類處理后,形成的數據簇結果與實驗預先設定結果不吻合,比較兩種聚類方法,本文方法更為有效。

      實驗2:為測試文中關聯規(guī)則方法的有效性能,實驗給出900個高維數據,將其分為6組。通過運用本文方法及回歸分析法對高維數據進行數據挖掘,比較兩種方法數據挖掘的速度,具體數據如表3所示。

      3 結 論

      數據挖掘是對數據進行特征有效分類及挖掘其內部關聯性的一種方法,在眾多科學領域中得到了廣泛應用。因此,本文以高維數據集中局部離散文本數據為研究對象,提出基于多目標軟子空間聚類理論的關聯規(guī)則法對數據實現挖掘。首先,將多目標軟子空間聚類理論與非支配排序遺傳思想結合,獲取Pareto最優(yōu)解集,對數據實現聚類處理;其次,運用關聯規(guī)則數據挖掘法在數據特征聚類結果的基礎上,采用本文特征提取法對文本數據進行特征分類與識別,最終實現高維數據集中局部離散文本數據的挖掘過程。

      參考文獻

      [1] 張銀柯,張驥,趙達.基于CNKI數據庫的文獻探索我國人工智能的研究狀況[J].內江科技,2016,37(1):79?80.

      [2] 王元卓,賈巖濤,劉大偉,等.基于開放網絡知識的信息檢索與數據挖掘[J].計算機研究與發(fā)展,2015,52(2):456?474.

      [3] 王樂,王芳.數據庫異常數據的檢測仿真研究[J].計算機仿真,2016,33(1):430?433.

      [4] 米允龍,米春橋,劉文奇.海量數據挖掘過程相關技術研究進展[J].計算機科學與探索,2015,9(6):641?659.

      [5] 耿娟,焦紅兵.統(tǒng)計學專業(yè)數據挖掘課程教學探索[J].產業(yè)與科技論壇,2016,15(3):202?203.

      [6] 何光凝.數據挖掘在計算機網絡安全領域的應用研究[J].技術與市場,2016,23(8):13.

      [7] 許麗娟.基于自適應波束形成的高維數據挖掘算法[J].電聲技術,2016,40(3):65?68.

      [8] 邱云飛,狄龍娟.基于簇間距離自適應的軟子空間聚類算法[J].計算機工程與應用,2016,52(21):88?93.

      [9] 張春生.大數據環(huán)境下相容數據集的關聯規(guī)則數據挖掘[J].微電子學與計算機,2016,33(8):34?39.

      [10] 董本清,彭健鈞.復雜網絡數據流中的異常數據挖掘算法仿真[J].計算機仿真,2016,33(1):434?437.

      [11] 郭崇,王征,紀建偉,等.電力用戶數據中用電特征數據挖掘模型仿真[J].計算機仿真,2016,33(5):447?450.

      猜你喜歡
      關聯規(guī)則數據挖掘
      探討人工智能與數據挖掘發(fā)展趨勢
      基于并行計算的大數據挖掘在電網中的應用
      基于Apriori算法的高校學生成績數據關聯規(guī)則挖掘分析
      基于關聯規(guī)則和時間閾值算法的5G基站部署研究
      數據挖掘技術在中醫(yī)診療數據分析中的應用
      關聯規(guī)則挖掘Apriori算法的一種改進
      基于關聯規(guī)則的計算機入侵檢測方法
      一種基于Hadoop的大數據挖掘云服務及應用
      數據挖掘的分析與探索
      基于GPGPU的離散數據挖掘研究
      惠州市| 渝北区| 辉县市| 罗城| 左权县| 东城区| 阳谷县| 泸西县| 崇文区| 宣化县| 金湖县| 正安县| 磴口县| 姚安县| 克东县| 宿州市| 武陟县| 灵川县| 田林县| 东方市| 六枝特区| 绥江县| 盐池县| 西贡区| 南投县| 顺义区| 民乐县| 城固县| 宝鸡市| 甘洛县| 来宾市| 建阳市| 宿迁市| 关岭| 库车县| 囊谦县| 华蓥市| 丰县| 安平县| 奎屯市| 东安县|