• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      關(guān)于大數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法技術(shù)的研究

      2019-03-07 05:22王現(xiàn)君
      電腦知識與技術(shù) 2019年35期
      關(guān)鍵詞:大數(shù)據(jù)分析

      摘要:數(shù)據(jù)分類算法作為大數(shù)據(jù)分析與數(shù)據(jù)挖掘中的關(guān)鍵內(nèi)容,面對大數(shù)據(jù)信息時代的到來,各種各樣的分類技術(shù)和算法高速發(fā)展,但在發(fā)展的過程中仍然存在部分難以有效解決的問題。該文通過對數(shù)據(jù)挖掘分類問題的分析,提出決策樹分類算法、人工神經(jīng)網(wǎng)絡(luò)分類算法和樸素貝葉斯分類算法改進(jìn)策略。

      關(guān)鍵詞:大數(shù)據(jù)分析;大數(shù)據(jù)挖礦;分類算法技術(shù)

      中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A

      文章編號:1009-3044(2019)35-0006-02

      1 背景

      若希望大數(shù)據(jù)產(chǎn)生實質(zhì)性的價值和意義,對大數(shù)據(jù)的處理過程是極其重要的,因此大數(shù)據(jù)分析、大數(shù)據(jù)挖掘就是這些處理過程中的重要組成部門。那么大數(shù)據(jù)挖掘到底是什么?數(shù)據(jù)挖掘指的是從海量、有噪聲、不完善、模糊性較高且隨機(jī)的數(shù)據(jù)信息當(dāng)中提取暗含在這些海量信息當(dāng)中的,在挖掘以前人們對其具體情況完全不了解的,但是又能夠產(chǎn)生價值的有用信息的一種過程。在數(shù)據(jù)挖掘?qū)ο蠓矫妫枰鶕?jù)數(shù)據(jù)信息的具體儲存方式,對數(shù)據(jù)庫、文本數(shù)據(jù)資源、空間數(shù)據(jù)庫等等進(jìn)行一系列的挖掘工作。在數(shù)據(jù)準(zhǔn)備方面,包括擇取數(shù)據(jù)信息,也就是在數(shù)據(jù)庫目標(biāo)當(dāng)中提取數(shù)據(jù)信息的最終目標(biāo)數(shù)據(jù)集合;還包括數(shù)據(jù)信息的預(yù)先處理工作,也就是對數(shù)據(jù)進(jìn)行二次加工,檢測數(shù)據(jù)的統(tǒng)一性、完整度,將這些數(shù)據(jù)信息進(jìn)行降噪處理、清晰化處理,填補已經(jīng)丟失的部分?jǐn)?shù)據(jù)信息,將無用的、不能對需要人員產(chǎn)生實質(zhì)性價值的信息予以刪除。

      2 大數(shù)據(jù)分析與數(shù)據(jù)挖掘當(dāng)中,關(guān)于數(shù)據(jù)挖掘的分類問題

      大數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)就是從大量數(shù)據(jù)信息當(dāng)中獲取可用、有效信息的一個過程,從數(shù)據(jù)當(dāng)中尋找、探索、開采知識的過程。同時,數(shù)據(jù)挖掘技術(shù)是現(xiàn)代互聯(lián)網(wǎng)、計算機(jī)等信息技術(shù)高速發(fā)展下的產(chǎn)物,涉及信息化知識理論相對較多,包括數(shù)據(jù)庫、統(tǒng)計學(xué)、電子學(xué)、人工智能等多個領(lǐng)域,大數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)是一項覆蓋范圍廣闊、涉及內(nèi)容煩瑣復(fù)雜、融括領(lǐng)域較多的學(xué)科。關(guān)于大數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的工作過程,本文制定了一個可視性較強的示意圖,便于閱讀人員理解和認(rèn)識,具體如圖1所示。

      大數(shù)據(jù)分析與數(shù)據(jù)挖掘在主要任務(wù)方面,需要對其進(jìn)行合理分類、科學(xué)預(yù)測、關(guān)聯(lián)分析、類別匯集、時間順序排列以及誤差、缺陷分析等多項工作。其中,數(shù)據(jù)的合理分類是大數(shù)據(jù)分析與數(shù)據(jù)挖掘過程中一個極為重要和關(guān)鍵的技術(shù),始終是相關(guān)領(lǐng)域的討論熱點和熱門研究主題,因為差異性的分類算法將導(dǎo)致出現(xiàn)各種不同的分類器,同時分類器的優(yōu)劣又會對最終分類結(jié)果的可靠性、精準(zhǔn)性以及大數(shù)據(jù)分析與數(shù)據(jù)挖掘的效率、質(zhì)量造成直接性影響,所以在我們對規(guī)模系統(tǒng)龐大、數(shù)據(jù)信息量較高的數(shù)據(jù)進(jìn)行深度分類時,需要合理選擇分類算法,這對于相關(guān)任務(wù)的完成時至關(guān)重要的。

      現(xiàn)階段,國內(nèi)外計算機(jī)數(shù)據(jù)學(xué)領(lǐng)域?qū)Υ髷?shù)據(jù)分析與挖掘技術(shù)當(dāng)中,與之關(guān)聯(lián)的分類算法研究普遍匯集于兩個方面。第一,將傳統(tǒng)化的分類算法以直接性的方式應(yīng)用到實際案例當(dāng)中,或者將傳統(tǒng)算法進(jìn)行簡單組合再應(yīng)用到實際案例當(dāng)中,繼而開發(fā)出多種運用系統(tǒng)。第二,將傳統(tǒng)化的分類算法,與現(xiàn)代新型技術(shù)相結(jié)合,對傳統(tǒng)分類算法形成升級改進(jìn)作用。然而,雖然以上研究均能夠?qū)Υ髷?shù)據(jù)分析與挖掘提供有利推動作用,但是從具體上來說,仍然缺少細(xì)節(jié)性,并不利于大數(shù)據(jù)與挖掘的進(jìn)一步發(fā)展。因此,鑒于大量國內(nèi)外研究對各種分類算法研究缺乏深入性和細(xì)節(jié)化的現(xiàn)象。本文對這些分類算法進(jìn)行了系統(tǒng)化、深層次的對比研究分析,充分總結(jié)這些算法之間的特點、優(yōu)勢和缺陷,希望能為相關(guān)領(lǐng)域的發(fā)展奠定夯實基礎(chǔ)。

      3 大數(shù)據(jù)分析和數(shù)據(jù)挖掘常用分類算法對比分析

      現(xiàn)階段,在大數(shù)據(jù)分析與數(shù)據(jù)挖掘領(lǐng)域主要應(yīng)用的分類算法有以下三種類型。其一,是以決策樹(Decision Tree)為基礎(chǔ)的分類算法,例如C4、ID3等。其二,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的分類算法,例如人工智能神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)等。其三,以統(tǒng)計學(xué)為基礎(chǔ)的分類算法,例如貝葉斯網(wǎng)絡(luò)(Bayesian net-work)、樸素貝葉斯(Naive Bayesian Model)等等。

      3.1以決策樹為基礎(chǔ)的大數(shù)據(jù)挖掘分類算法

      決策樹分類算法指的是一種基于數(shù)據(jù)集,從一系列沒有規(guī)則、沒有順序的樣本數(shù)據(jù)信息當(dāng)中,推算出具體分類規(guī)則的算法,屬于歸納學(xué)習(xí)算法之一,是將組成決策方案的相關(guān)元素,以樹式圖的途徑表達(dá)出來,繼而對系統(tǒng)進(jìn)行決策方案的選擇。決策樹分類算法可以以形象直觀的方式,彰顯出整個決策過程不同時期、關(guān)鍵點上的各種決策類問題,將這些問題以清晰的邏輯、分明的層次,直觀、形象的表示成一個樹型的模型。我們用更加貼近于真實生活的方式表現(xiàn)決策樹分類算法的基本工作原理:一個年輕貌美的女孩,在朋友幫忙介紹男朋友期間,其是否去和相親對象見面便是一個決策過程,這個過程我們可以用決策樹來展示,具體如圖2所示。

      現(xiàn)階段,比較常見的決策樹算法包含種類較多,如ID3算法、C4/C5算法等等。和其他類型的分類算法進(jìn)行對比,決策樹算法具有以下幾項優(yōu)點:其一,決策樹分類算法便于理解和實現(xiàn)。對于數(shù)據(jù)挖掘技術(shù)的應(yīng)用人員來講,決策樹分類算法的這種容易理解屬性,可以幫助其更加快速地將決策樹算法應(yīng)用到實際分類中;其二,決策樹分類算法運行速度更快。由于決策樹分類算法工作量相對于其他分類算法更小,所以其總計算時間便會更短;其三,決策樹分類算法精準(zhǔn)性更高。應(yīng)用決策樹分類算到數(shù)據(jù)挖掘中,能夠更加快速和準(zhǔn)確的找出分類規(guī)則,并以清晰、直觀的形象體現(xiàn)出重點字節(jié)。

      同時,決策樹分類算法在具備多種優(yōu)點的情況下,也不得避免存在一系列的缺點:第一,必須對連續(xù)性數(shù)據(jù)信息進(jìn)行離散化處理,才能實現(xiàn)分類與學(xué)習(xí);第二,對于已經(jīng)具備時間順序的數(shù)據(jù),需要提前進(jìn)行大規(guī)模的處理加工,這是提升分類過程工作量的關(guān)鍵因素。此外,如果類別過多,將極有可能導(dǎo)致決策樹分類算法出現(xiàn)錯誤分類。

      鑒于決策樹的優(yōu)劣情況,國內(nèi)外部分專家學(xué)者提出決策樹分類算法的改進(jìn)策略。例如,將監(jiān)督學(xué)習(xí)任務(wù)算法應(yīng)用到?jīng)Q策樹分類算法之中,在決策樹形成、建設(shè)時期,該算法能夠隨著記錄的數(shù)量、屬性不斷提高,通過預(yù)排序的方式和廣度優(yōu)先的方式,實現(xiàn)決策樹算法的有效改良。

      3.2以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的數(shù)據(jù)挖掘分類算法

      神經(jīng)網(wǎng)絡(luò),指的是人工神經(jīng)網(wǎng)絡(luò),通過對生物大腦結(jié)構(gòu)、工作狀態(tài)的模擬,形成一個動態(tài)化、靈活化的信息處理模型。具體原理如下:一個神經(jīng)網(wǎng)絡(luò)便是一個單位,該單位由多層神經(jīng)元共同組成,每一個多層神經(jīng)元又包含三個層次,即輸入、輸出和隱含三層。為直觀地體現(xiàn)出神經(jīng)網(wǎng)絡(luò)算法的工作原理,制作神經(jīng)網(wǎng)絡(luò)模型示意圖如圖2所示。

      人工神經(jīng)網(wǎng)絡(luò)分類算法的優(yōu)勢較多,主要如下:其一,人工神經(jīng)網(wǎng)絡(luò)分類算的精度相對較高;其二,人工神經(jīng)網(wǎng)絡(luò)具有較強的魯棒性特點;其三,人工神經(jīng)網(wǎng)絡(luò)分類算法具有自我學(xué)習(xí)能力和一定的記憶能力;其四,人工神經(jīng)網(wǎng)絡(luò)分類算法能夠有效解答部分極為復(fù)雜的問題和現(xiàn)象,由于人工神經(jīng)網(wǎng)絡(luò)具備非線性擬合功能,甚至在不具備條件的情況下利用變量反復(fù)實施線性組合后,再將這些線性組合轉(zhuǎn)化為非線性,所以該分類算法能夠映射出較為復(fù)雜的非線性內(nèi)容。

      關(guān)于人工神經(jīng)網(wǎng)絡(luò)分類算法的缺陷,最為突出和難以解決的就是神經(jīng)網(wǎng)絡(luò)本身的建立問題。建設(shè)一個完整、先進(jìn)的神經(jīng)網(wǎng)絡(luò)往往需要花費大量的時間,并且難度也較大。鑒于此,部分國內(nèi)外專家學(xué)者提出在提取規(guī)則你對神經(jīng)網(wǎng)絡(luò)實施剪枝的方法,對部分對分類準(zhǔn)確程度影響非常小或者不能對分類造成影響的神經(jīng)元去除,繼而簡化神經(jīng)網(wǎng)絡(luò)的構(gòu)建。

      3.3以統(tǒng)計學(xué)為基礎(chǔ)的數(shù)據(jù)挖掘分類算法

      以統(tǒng)計學(xué)為基礎(chǔ)的數(shù)據(jù)挖掘分類算法,其核心在于這種算法是以概率的形式展現(xiàn)各種數(shù)據(jù)信息的不確定性,推導(dǎo)、學(xué)習(xí)均是以概率學(xué)理論予以運行。樸素貝葉斯分類是現(xiàn)代統(tǒng)計學(xué)分類算法當(dāng)中較為經(jīng)典的,這種算法操作與原理也相對簡單易懂。

      樸素貝葉斯分類算法的優(yōu)點較多,主要包括:其一,樸素貝葉斯分類算法對于空間和時間的開銷相對較小,占用更少的系統(tǒng)資源,所以這種算法的運行速度較快。其二,樸素貝葉斯分類算法邏輯思路簡單明了,可行性和可操作性更高。其三,樸素貝葉斯分類算法分類準(zhǔn)確的較高,且性能穩(wěn)定。

      在樸素貝葉斯分類算法缺點方面,這種分類算法必須立足于獨立性的假設(shè)前提,但是這一限制在現(xiàn)實情況下極難得到滿足,所以將導(dǎo)致分類的準(zhǔn)確性大幅降低,對樸素貝葉斯分類算法的應(yīng)用范圍形成嚴(yán)重制約。鑒于此,我們對樸素貝葉斯算法進(jìn)行升級和更新,提出貝葉斯算法,包括貝葉斯網(wǎng)絡(luò)等。

      4 結(jié)束語

      綜上所述,對大數(shù)據(jù)分析與數(shù)據(jù)挖掘當(dāng)中的分類算法進(jìn)行系統(tǒng)化研究,得出以決策樹分類算法、人工神經(jīng)網(wǎng)絡(luò)分類算法以及樸素貝葉斯算法的優(yōu)缺點,并對這些缺點提出改進(jìn)策略。雖然當(dāng)前的分類算法不至于以上三種,但包括這三種算法在內(nèi)的多種算法仍然處于初級發(fā)展階段,需要研究人員進(jìn)一步加強相關(guān)內(nèi)容的研究。

      參考文獻(xiàn):

      [1]張樹滑.基于ID3算法的大學(xué)生成績數(shù)據(jù)挖掘與體能分析系統(tǒng)設(shè)計[J].現(xiàn)代電子技術(shù),2019,42(5):104-106,110.

      [2]陳慧萍,林莉莉,王建東,等.WEKA數(shù)據(jù)挖掘平臺及其二次開發(fā)[J].計算機(jī)工程與應(yīng)用,2008(19):76-79.

      [3]何清,莊福振,曾立,等.PDMiner:基于云計算的并行分布式數(shù)據(jù)挖掘工具平臺[J].中國科學(xué):信息科學(xué),2014,44(7):871-885.

      [4]吳宏進(jìn),許家佗,張志楓,等.基于數(shù)據(jù)挖掘的圍絕經(jīng)期綜合征中醫(yī)證候分類算法分析[J].中國中醫(yī)藥信息雜志,2016,23(1):39-42.

      【通聯(lián)編輯:謝媛媛】

      收稿日期:2019-10-19

      作者簡介:王現(xiàn)君(1977-),男,河南魯山人,講師,碩士,研究方向為計算機(jī)應(yīng)用技術(shù),數(shù)據(jù)挖掘、人工智能、數(shù)據(jù)融合。

      猜你喜歡
      大數(shù)據(jù)分析
      基于大數(shù)據(jù)分析的電力通信設(shè)備檢修影響業(yè)務(wù)自動分析平臺研究與應(yīng)用
      傳媒變局中的人口電視欄目困境與創(chuàng)新
      革吉县| 成安县| 祁连县| 岗巴县| 青川县| 五台县| 临高县| 广灵县| 济源市| 金寨县| 平湖市| 景德镇市| 昌乐县| 伊宁市| 昭通市| 雅安市| 万载县| 玉屏| 株洲市| 陆丰市| 海伦市| 当阳市| 义马市| 赣榆县| 柳江县| 潜江市| 略阳县| 永新县| 库伦旗| 高陵县| 五常市| 东乡| 赣榆县| 介休市| 黔西县| 晋宁县| 河南省| 和林格尔县| 健康| 大港区| 杭锦后旗|