• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      淺談數據挖掘和自適應算法的應用

      2016-12-21 10:20:55張曉東王斌
      電腦知識與技術 2016年28期
      關鍵詞:擴展數據挖掘

      張曉東+王斌

      摘要:數據挖掘自從提出以來,已經得到了廣泛的應用和發(fā)展。關系關聯(lián)規(guī)則表示一種特定類型的關聯(lián)規(guī)則,該規(guī)則描述了在數據集內描述實例的特征之間發(fā)生的頻繁關系。該文研究的是重新挖掘一個數據集,這個數據集是之前已經被挖掘過的,但是描述數據庫中的元素的屬性集增加時,如何更高效的挖掘關聯(lián)規(guī)則。

      關鍵詞:數據挖掘;數據屬性集;自適應算法;擴展

      中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)28-0023-01

      1 數據挖掘背景

      自從人類進入信息社會以來,隨著計算機和網絡的普及,科學技術迅猛發(fā)展,產生的數據量越來越大,在各個領域都積累了大量的數據,如考試報名系統(tǒng)人員的報名信息、搜索引擎每天的海量搜索記錄、購物平臺產生的海量交易記錄和銀行系統(tǒng)每天繁雜的轉賬記錄等等。顯然在這些數據中蘊藏著豐富的可以加以利用的信息,但是傳統(tǒng)的文件系統(tǒng)面對如此海量的數據顯得無能為力。因此我們迫切需要一種工具和手段,從這些數據中挖掘出我們感興趣的信息和知識。數據庫技術的發(fā)展有力地加快了人類向信息化時代發(fā)展的腳步,但是數據庫的統(tǒng)計和查詢功能,根本無法滿足人們對有趣知識和信息的挖掘需求。于是,人們將數據庫技術、信息檢索、算法、機器學習和統(tǒng)計學等技術相結合,數據挖掘應運而生。

      數據挖掘是一門交叉學科,它融匯了不同學科的技術,具有分類、聚類、關聯(lián)規(guī)則和序列模式的發(fā)現(xiàn)、預測、偏差的檢測等多種功能,各項功能互相聯(lián)系,共同發(fā)揮作用。

      2 自適應算法在數據挖掘中的應用

      自適應算法是一種嶄新的關聯(lián)規(guī)則挖掘算法。關聯(lián)規(guī)則挖掘的傳統(tǒng)方法是從一組已知的對象開始,在數據集內發(fā)現(xiàn)有趣的關系關聯(lián)規(guī)則。在這組已知的對象中,每個對象是由一組屬性來描述。例如,假設用D來表示一個數據集,則|D|表示這個數據集中對象的個數。D中每個對象都用n個屬性{A1μ1A2,...μm-1Am}來描述,每個屬性Ai(1≤i≤m)都有唯一的取值,μi表示一種大小關系,比如≤。但是在現(xiàn)實生活中,對象的屬性集可能是要變化的,顯然,為了獲得在這些條件下的對象集的有趣的關聯(lián)規(guī)則,也就是當描述對象的屬性集增加的時候,傳統(tǒng)的挖掘算法可以一次又一次從頭開始應用。但這可能是低效的。于是我們提出一種自適應算法的思想。

      自適應算法適用于在第一次挖掘結束,屬性擴展之后需要進行第二次挖掘的時候。如果表示這些數據元素的屬性集擴展s項,分別是m+1,m+2,...,m+s項。很顯然,擴展之后,描述數據元素的向量變成m+s維。這個時候,我們應該充分利用第一次的挖掘結果。在一項集結合的時候,舊屬性之間不能再進行結合,相結合的兩個屬性至少要有一個是新屬性,這樣結合,得出的結果一定是第一次挖掘的時候所沒有的,是嶄新的規(guī)則。

      自適應算法識別有趣的關聯(lián)規(guī)則是一個迭代的過程,首先是基于關聯(lián)規(guī)則長度的迭代,然后驗證的候選人的最小支持度和最小置信度。在開始階段,它先計算長度為2的關聯(lián)規(guī)則的支持度和置信度,選出有趣的關聯(lián)規(guī)則,即驗證關聯(lián)規(guī)則的最小支持度和最小置信度。長度為k的關聯(lián)規(guī)則挖掘過程分為兩個階段。第一個階段是要產生候選項,長度為k的候選項的產生來源于兩部分。一部分是屬性集擴展之前的數據集中,另一部分是在屬性集擴展之前的數據集中的兩個長度為k-1的關聯(lián)規(guī)則結合而成。第二個階段是要掃描數據集,驗證最小支持度和最小置信度,找出有趣的關聯(lián)規(guī)則。

      由上述可知,自適應算法對第一次挖掘的結果采取了“回避”的策略,并沒有在已有的結果上花費時間,而是采用了一種新穎的屬性結合方式,讓那s個新屬性和所有的m+s個屬性相結合,這樣就保證了結合出來的關聯(lián)規(guī)則是新的關聯(lián)規(guī)則,直觀上可以看出效率更高。

      3 結束語

      在本文中,我們提出了挖掘關聯(lián)規(guī)則的一種嶄新的挖掘思想——自適應挖掘思想。這種思想是在第一次挖掘之后,如何利用已有的結果,盡快挖掘出所有有趣的關聯(lián)規(guī)則。但這種算法仍然是順序挖掘算法,并沒有考慮到在多處理機系統(tǒng)的環(huán)境下,如何利用并行思想,更加高效的挖掘信息。在未來的工作中,我們準備把并行思想融入到自適應算法之中。

      參考文獻:

      [1]韓家煒,裴健.數據挖掘概念與技術[M].3版.范明,孟小峰,譯. 機械工業(yè) 出版時間,2012.

      [2]紀希禹.數據挖掘技術應用實例[M].北京:機械工業(yè)出版社,2008.

      [3]R. Agrawal, T. Imielinski, A. Swarmi, Mining association rules between sets of items in large databases[C]. Proceedings of the ACM SIGMOD Conference on Management of Data 1993:207–216.

      [4]譚建豪.數據挖掘技術[M]. 水利水電出版社, 2009.

      [5]R. Agrawal and R. Srikant. Fast algorithms for mining association rules in large databases. In VLDB, pages 487–499, 1994.

      猜你喜歡
      擴展數據挖掘
      探討人工智能與數據挖掘發(fā)展趨勢
      基于并行計算的大數據挖掘在電網中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      使用 xlwings 擴展 Excel
      價值工程(2017年7期)2017-03-17 23:45:49
      多維傳播語境下的播音主持功能與拓展研究
      數據挖掘技術在中醫(yī)診療數據分析中的應用
      恒溫晶體振蕩器調頻范圍擴展思考
      財務管理內容擴展的路徑與方法
      求知導刊(2016年11期)2016-06-20 12:09:12
      淺談小學英語教學中的情境教學法
      反詰—指令言語行為范疇擴展的關聯(lián)性解釋
      科技視界(2015年35期)2016-01-04 10:12:30
      一種基于Hadoop的大數據挖掘云服務及應用
      蒙阴县| 杭州市| 虎林市| 苍山县| 泽州县| 天祝| 任丘市| 望都县| 雷波县| 胶州市| 忻州市| 建瓯市| 常宁市| 彭州市| 中牟县| 延寿县| 大城县| 桃源县| 襄城县| 黎川县| 朔州市| 房产| 克拉玛依市| 雷波县| 吴忠市| 铜山县| 涞源县| 庆元县| 三河市| 万州区| 五指山市| 高青县| 黔西县| 石棉县| 郎溪县| 固原市| 唐河县| 三原县| 通江县| 达孜县| 潞西市|