• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘的分析和研究

      2018-09-10 18:00:56蔡鑫輝
      大東方 2018年3期
      關(guān)鍵詞:數(shù)據(jù)挖掘

      蔡鑫輝

      摘 要:數(shù)據(jù)挖掘已經(jīng)引起了社會(huì)各界特別是信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是在統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫(kù)知識(shí)高速發(fā)展的今天,以前積累了大量數(shù)據(jù),迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。通過數(shù)據(jù)挖掘技術(shù)獲取的信息和知識(shí)可以廣泛用于各個(gè)領(lǐng)域,包括商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索等。

      關(guān)鍵詞:數(shù)據(jù)挖掘;直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘

      一、數(shù)據(jù)挖掘的定義

      數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的含義。數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡(jiǎn)單地說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。數(shù)據(jù)的分析是數(shù)據(jù)挖掘的一項(xiàng)技術(shù),數(shù)據(jù)的分析有頻數(shù)統(tǒng)計(jì)分析、領(lǐng)悟式分析、聚類分析、相關(guān)關(guān)系分析、人工神經(jīng)網(wǎng)絡(luò)原理分析等方法。數(shù)據(jù)挖掘中聚類分析是其中重要的分析方法之一。數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)內(nèi)信息的知識(shí)發(fā)現(xiàn),是從數(shù)據(jù)庫(kù)的海量資料中提取或挖掘用戶需要的知識(shí)信息,而這些知識(shí)信息有規(guī)則、概念、模式和規(guī)律等多種表現(xiàn)形式.在數(shù)據(jù)研究的過程中,聚類分析方法能夠有效剔除在分類的過程中所混入的主觀因素,準(zhǔn)確而客觀的將研究對(duì)象的信息表現(xiàn)在用戶面前,并完成信息內(nèi)部客觀規(guī)律的發(fā)掘任務(wù)。在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,簡(jiǎn)稱為KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。換言之,就是從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。

      二、數(shù)據(jù)挖掘的關(guān)鍵步驟

      1.挖掘

      把潛在的不明確數(shù)據(jù)關(guān)系的數(shù)據(jù)提取并轉(zhuǎn)化為數(shù)學(xué)問題。這一步的結(jié)果只是表明數(shù)據(jù)之間有關(guān)系,但是具體是什么關(guān)系仍然不明確。

      2.建模

      把不明確的數(shù)據(jù)關(guān)系通過數(shù)學(xué)建模過程轉(zhuǎn)化為明顯的數(shù)據(jù)關(guān)系,即把數(shù)據(jù)之間的內(nèi)在變化規(guī)律由數(shù)學(xué)符號(hào)與數(shù)學(xué)結(jié)構(gòu)表示出來。

      三、數(shù)據(jù)挖掘分類

      1.直接數(shù)據(jù)挖掘

      目標(biāo)是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型對(duì)剩余的數(shù)據(jù),即一個(gè)特定的變量進(jìn)行描述。

      2.間接數(shù)據(jù)挖掘

      目標(biāo)中沒有選出某一具體的變量,而是在所有的變量中建立起某種關(guān)系。

      四、數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)

      在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。

      1.數(shù)據(jù)的抽取

      就是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。

      2.數(shù)據(jù)的存儲(chǔ)和管理

      數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉(cāng)庫(kù)管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而快速累積。在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。

      3.數(shù)據(jù)的展現(xiàn)

      主要的方式有:查詢:實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識(shí)。

      五、數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)融合發(fā)展

      數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的協(xié)同工作,一方面可以迎合和簡(jiǎn)化數(shù)據(jù)挖掘過程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性;另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中極為重要和相對(duì)獨(dú)立的方面和工具。

      數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)是融合與互動(dòng)發(fā)展的,具有廣泛的應(yīng)用空間和豐富的學(xué)術(shù)價(jià)值。簡(jiǎn)而言之,掌握數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)可以使我們從數(shù)據(jù)庫(kù)的“奴隸”變成數(shù)據(jù)庫(kù)的“主人”。

      六、數(shù)據(jù)挖掘在各領(lǐng)域中的應(yīng)用及發(fā)展前景

      當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。專家也指出,數(shù)據(jù)挖掘會(huì)成為未來十年內(nèi)重要的技術(shù)之一。而數(shù)據(jù)挖掘,也已經(jīng)開始成為一門獨(dú)立的專業(yè)學(xué)科。

      具體發(fā)展趨勢(shì)和應(yīng)用方向主要有:對(duì)知識(shí)發(fā)現(xiàn)方法的研究進(jìn)一步發(fā)展,如對(duì)Bayes和Boosting方法的研究和提高;商業(yè)工具軟件不斷產(chǎn)生和完善,注重建立解決問題的整體系統(tǒng)。

      數(shù)據(jù)挖掘的發(fā)展應(yīng)是挖掘工具在先進(jìn)理論指導(dǎo)下的改進(jìn),而就現(xiàn)有情況而言,還有至少二十年的發(fā)展空間。

      目前,聯(lián)機(jī)處理技術(shù)與數(shù)據(jù)挖掘是信息系統(tǒng)領(lǐng)域內(nèi)的研究重點(diǎn),OLAP作為一種多維分析的工具,可以為用戶提供多層面、多角度的邏輯視圖,按照用戶所提出問題進(jìn)行假設(shè),分析,并將呈現(xiàn)給用戶。

      數(shù)據(jù)挖掘是在海量的數(shù)據(jù)集合中尋找模式的決策支持過程,它從大量數(shù)據(jù)中發(fā)現(xiàn)潛在的模式并作出預(yù)測(cè)性分析,是現(xiàn)有的最新的技術(shù)和統(tǒng)計(jì)學(xué)等成熟技術(shù)在特定系統(tǒng)中的具體的應(yīng)用。

      同時(shí),數(shù)據(jù)挖掘與OLAP都屬于分析型工具,從某種角度上說OLAP聯(lián)機(jī)分析方法也是一種數(shù)據(jù)挖掘方法。但二者之間有著明顯的區(qū)別,數(shù)據(jù)挖掘的分析過程是全自動(dòng)的,用戶可以不必提出確切的問題,只需工具去挖掘隱藏的模式并預(yù)測(cè)將來的趨勢(shì),這樣有利于發(fā)現(xiàn)未知的事實(shí);而OLAP更多地依靠用戶輸入問題和假設(shè),由于用戶先入為主的參與問題和假設(shè)的范圍,從而會(huì)影響最后的結(jié)論。從對(duì)數(shù)據(jù)分析的深度角度來講,它比較淺顯,數(shù)據(jù)挖掘則可以發(fā)現(xiàn)OLAP 所不能發(fā)現(xiàn)的更為復(fù)雜的信息。

      數(shù)據(jù)挖掘存在的主要問題是實(shí)現(xiàn)很困難,因?yàn)閿?shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中存在大量數(shù)據(jù)和每個(gè)數(shù)據(jù)又有很多屬性,由于挖掘分析過程是全自動(dòng)的,用戶僅僅指定挖掘的任務(wù),而不提供搜索線索,這樣導(dǎo)致搜索的空間過大,生成相當(dāng)多的外模式,其中絕大部分有可能是無意義的是用戶不感興趣的模式。OLAP分析雖然可給用戶提供在不同角度、不同抽象級(jí)別的視圖,但是由于對(duì)用戶的需求了解調(diào)研的不夠全面,視圖中缺乏所應(yīng)包含的維度,從不同的視圖得到的結(jié)果可能并不相同,容易產(chǎn)生錯(cuò)誤引導(dǎo),用戶需做大量的數(shù)據(jù)打撈工作才能夠猜出正確的結(jié)果。

      實(shí)際上數(shù)據(jù)挖掘的各個(gè)方法之間,數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理之間都有著密不可分的關(guān)系,有些是可以由OLAP 來展現(xiàn)或分析的,而數(shù)據(jù)挖掘的結(jié)果又可以指導(dǎo)生成OLAP多維模型。

      從上述分析可以看出,數(shù)據(jù)挖掘技術(shù)由于內(nèi)在技術(shù)方面和適用范圍的不同,在實(shí)際決策分析中必須協(xié)調(diào)配合使用才能發(fā)揮最好的作用。

      參考文獻(xiàn)

      [1]廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國(guó)防工業(yè)出版社,2010.

      [2]希賽IT發(fā)展研究中心.SQLSEVER數(shù)據(jù)庫(kù)系統(tǒng)開發(fā)[M].北京:電子工業(yè)出版社,2009.

      [3]廖里 數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)及其在電信業(yè)中的應(yīng)用 2000年 《重慶郵電學(xué)院學(xué)報(bào)》

      [4]石磊 OLAP與數(shù)據(jù)挖掘一體化模型的分析與討論 2000年 《小型微型計(jì)算機(jī)系統(tǒng)》

      [5]豎 苧 數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)與數(shù)據(jù)挖掘技術(shù)淺析 2003年第3期《現(xiàn)代信息技術(shù)》

      [6]宋中山 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)研究與應(yīng)用 2003年 《計(jì)算機(jī)工程與應(yīng)用》

      猜你喜歡
      數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      河南科技(2014年23期)2014-02-27 14:18:43
      數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
      河南科技(2014年19期)2014-02-27 14:15:26
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
      高級(jí)數(shù)據(jù)挖掘與應(yīng)用國(guó)際學(xué)術(shù)會(huì)議
      尉犁县| 谢通门县| 淳安县| 西峡县| 抚顺市| 德州市| 蓬溪县| 庆安县| 思南县| 阜阳市| 波密县| 调兵山市| 雷波县| 盘锦市| 临高县| 昆明市| 西青区| 信宜市| 衡水市| 沭阳县| 临桂县| 怀化市| 武鸣县| 新蔡县| 铜陵市| 霍山县| 松滋市| 如东县| 彭州市| 白玉县| 云龙县| 博乐市| 渭源县| 和硕县| 霍山县| 台湾省| 隆德县| 周至县| 美姑县| 濮阳市| 台南县|