• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      淺談數(shù)據(jù)挖掘技術(shù)及其應(yīng)用

      2018-10-21 04:12李星星段超
      科學導(dǎo)報·學術(shù) 2018年14期
      關(guān)鍵詞:數(shù)據(jù)挖掘應(yīng)用研究

      李星星 段超

      摘 要: 數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中提取潛在有趣模式的過程。數(shù)據(jù)挖掘技術(shù)現(xiàn)已廣泛應(yīng)用于零售業(yè)、金融業(yè)、電信、網(wǎng)絡(luò)安全分析、農(nóng)業(yè)、醫(yī)療衛(wèi)生等領(lǐng)域,研究十分廣泛。

      關(guān)鍵詞: 海量數(shù)據(jù);數(shù)據(jù)挖掘;應(yīng)用研究

      【中圖分類號】 TP311.1 【文獻標識碼】 A【文章編號】 2236-1879(2018)14-0178-01

      一、數(shù)據(jù)挖掘概念

      數(shù)據(jù)挖掘比較公認的定義是由U.M.Fayyad等人提出的:數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中提取潛在有趣模式的過程[1]。還有一些術(shù)語,具有和數(shù)據(jù)挖掘類似但稍有不同的含義,如數(shù)據(jù)庫中知識挖掘、知識提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古等。數(shù)據(jù)挖掘技術(shù)最初是面向應(yīng)用層面的,不光可以實現(xiàn)檢索和統(tǒng)計專門數(shù)據(jù)庫的操作,還能夠在大量的數(shù)據(jù)集中實現(xiàn)小型、中型乃至大型系統(tǒng)的分析、歸納、推理等工作。

      二、數(shù)據(jù)挖掘的基本任務(wù)

      數(shù)據(jù)挖掘的目的就是發(fā)現(xiàn)有用的知識(即概念、規(guī)則和模式)。數(shù)據(jù)挖掘的基本任務(wù)主要有以下幾個方面:

      (1)分類與預(yù)測。

      分類屬于有監(jiān)督的學習,在構(gòu)建分類模型之前,在數(shù)據(jù)源中選取訓(xùn)練集數(shù)據(jù)并作分類標記,然后運用分類模型對訓(xùn)練集數(shù)據(jù)進行分類,實在是按照樣本屬性相近的劃入一類,最后將完成訓(xùn)練的分類模型應(yīng)用到在未知類別的數(shù)據(jù)集中,獲得相應(yīng)的分類。預(yù)測是依據(jù)歷史數(shù)據(jù)和現(xiàn)有的數(shù)據(jù)建立兩種或兩種以上變量間相互依賴的函數(shù)模型,然后進行預(yù)測或控制。

      (2)聚類分析。

      聚類分析是在識別數(shù)據(jù)的內(nèi)在規(guī)則后,將數(shù)據(jù)分成相似數(shù)據(jù)對象組,從而獲得數(shù)據(jù)的分布規(guī)律,劃分的原則是不同組間距離盡可能大,組內(nèi)距離盡可能小。聚類分析進一步是打算從一組雜亂的數(shù)據(jù)中發(fā)掘隱藏其中的分類規(guī)則。聚類分析與分類模式模型不同,分類模式是使用有標記樣本構(gòu)成的訓(xùn)練集的一種有監(jiān)督學習方法,則聚類模型是使用在無標記的數(shù)據(jù)上的一種無監(jiān)督學習方法。近年來,聚類分析在圖像處理、商業(yè)分析、模式識別等有廣泛應(yīng)用。

      (3)關(guān)聯(lián)規(guī)則。

      關(guān)聯(lián)分析是通過對數(shù)據(jù)集中數(shù)據(jù)之間隱藏的相互關(guān)系的分析,揭露了具有相同類別的數(shù)據(jù)之間未知的關(guān)系。關(guān)聯(lián)分析就是將給定一組項集和一個記錄集合,通過對記錄集合的分析,推導(dǎo)項集間的相關(guān)性,側(cè)重確定數(shù)據(jù)中在不同領(lǐng)域之間的聯(lián)系,并找出符合用戶給定的最小支持度和最小置信度的依賴關(guān)系。著名的Apriori算法就屬于目前關(guān)聯(lián)規(guī)則中最常用的算法模型之一。

      (4)時序模式。

      時間序列預(yù)測是一種依據(jù)事物過去的歷史資料記錄延伸到未來的預(yù)測,是以時間序列所能反映現(xiàn)象的發(fā)展過程和規(guī)律性,建立比較精確地反應(yīng)動態(tài)依存關(guān)系的數(shù)學模型,然后進行引伸外推,預(yù)測其發(fā)展趨勢的方法。

      (5)偏差檢測。

      偏差檢測,也稱異常檢測,主要是從數(shù)據(jù)中提取其中的偏差和異常。偏差檢測的方法主要有:(1)基于鄰近度的技術(shù);(2)基于模型的方法;(3)基于密度的技術(shù)。

      三、數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域

      數(shù)據(jù)挖掘技術(shù)現(xiàn)已廣泛應(yīng)用于零售業(yè)、金融業(yè)、電信、網(wǎng)絡(luò)安全分析、農(nóng)業(yè)、醫(yī)療衛(wèi)生等領(lǐng)域。

      (1)零售業(yè)方面:該方面的應(yīng)用最早是在美國,超市運用數(shù)據(jù)挖掘分析售貨記錄從中發(fā)掘有關(guān)購買商品的一些特征,來調(diào)整擺放商品的位置,提高了銷售額。

      (2)電子商務(wù)方面:利用數(shù)據(jù)挖掘技術(shù)來分析系統(tǒng)中客戶購買記錄,得到如學生、白領(lǐng)、教師等不同客戶群體,然后按照客戶群體的劃分來提供個性化的促銷活動。

      (3)金融業(yè)方面:美國花旗銀行運用數(shù)據(jù)挖掘來智能分析銀行信用卡業(yè)務(wù)數(shù)據(jù)來區(qū)別客戶信用等級,其惡性透支減少了,且每年避免的損失達十幾億美元。結(jié)合分析客戶的刷卡記錄之后的結(jié)果實現(xiàn)對客戶的流失風險的預(yù)測;運用數(shù)據(jù)挖掘來識別和判斷非正常的交易,有效地減少客戶和企業(yè)的意外損失;通過分析客戶消費特點來推薦合適的理財產(chǎn)品。

      (4)通信方面:為了發(fā)掘客戶潛在需求,通過對以往客戶行為特征數(shù)據(jù)挖掘分析,應(yīng)用挖掘結(jié)果在風險可控范圍內(nèi)來制定針對性的套餐設(shè)計與定價,提高了套餐的接受度,避免了老客戶的流失和增加了新入網(wǎng)數(shù),實現(xiàn)了業(yè)務(wù)量的提升。

      (6)網(wǎng)絡(luò)安全方面:計算機網(wǎng)絡(luò)安全管理部門在信息系統(tǒng)的安全管理中,運用基于規(guī)則集的訪問控制技術(shù)和系統(tǒng)網(wǎng)絡(luò)日志文件,通過數(shù)據(jù)挖掘技術(shù)檢測出系統(tǒng)未授權(quán)用戶非法訪問受保護數(shù)據(jù),來檢測黑客程序的入侵。

      (7)在農(nóng)業(yè)方面,通過衛(wèi)星圖片作為信息源預(yù)測森林火災(zāi)的路徑和趨勢。Umama-heshwaran et al.[22]利用衛(wèi)星拍攝的圖片來研究森林火災(zāi)的產(chǎn)生以及發(fā)展時的動態(tài)變化過程,開發(fā)了一個實時監(jiān)測系統(tǒng),能夠?qū)崿F(xiàn)對森林火災(zāi)變化的檢測和跟蹤。

      (8)在醫(yī)療方面,Maria-Luiza Antonie[2]通過對比數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則和神經(jīng)網(wǎng)絡(luò)來乳腺癌圖片的實驗結(jié)果,分類精確率都能達到70%,而關(guān)聯(lián)規(guī)則效果更好。通過有效的乳腺癌圖片的分類可以減少醫(yī)生準確獲取有效信息的工作量。

      (9)在Web數(shù)據(jù)挖掘中,將數(shù)據(jù)挖掘應(yīng)用到搜索引擎,產(chǎn)生智能搜索引擎,給用戶提供一個高效、準確的Web檢索工具。還將數(shù)據(jù)挖掘用到站點訪問模式分析、網(wǎng)頁內(nèi)容自動分類、聚類等[3]。

      參考文獻

      [1] 王國勛.基于多目標決策的數(shù)據(jù)挖掘模型選擇研究:[博士學位論文].成都:電子科技大學,2013.

      [2] 丁沖,范鈞,欒添.圖像數(shù)據(jù)挖掘相關(guān)研究綜述—概念和應(yīng)用[J].統(tǒng)計教育,2008(12):8-12+7

      [3] 楊占華,楊燕.數(shù)據(jù)挖掘在智能搜索引擎中的應(yīng)用[J].微計算機信息,2006(12):244-246.

      猜你喜歡
      數(shù)據(jù)挖掘應(yīng)用研究
      數(shù)據(jù)挖掘技術(shù)在內(nèi)河航道維護管理中的應(yīng)用研究
      數(shù)據(jù)挖掘綜述
      軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
      進駐數(shù)字課堂的新興教學媒體
      AG接入技術(shù)在固網(wǎng)NGN的應(yīng)用研究
      空域分類關(guān)鍵技術(shù)及應(yīng)用研究
      分層教學,兼顧全體
      基于R的醫(yī)學大數(shù)據(jù)挖掘系統(tǒng)研究
      一本面向中高級讀者的數(shù)據(jù)挖掘好書
      轮台县| 班玛县| 平湖市| 景宁| 宿州市| 什邡市| 西城区| 阳原县| 呼和浩特市| 宜春市| 昭苏县| 太白县| 沂南县| 镇巴县| 柳州市| 双流县| 宝丰县| 青河县| 乌拉特后旗| 嘉黎县| 万年县| 鹤峰县| 扶余县| 杭锦旗| 衡阳市| 瑞丽市| 长岭县| 南通市| 交城县| 永平县| 噶尔县| 唐山市| 虎林市| 龙井市| 武安市| 西昌市| 江达县| 滨州市| 连州市| 莱芜市| 鹿邑县|