郭龍
摘要:近年來,隨著我國(guó)經(jīng)濟(jì)的持續(xù)穩(wěn)定增長(zhǎng)以及國(guó)內(nèi)國(guó)際環(huán)境的穩(wěn)定,在為科學(xué)技術(shù)創(chuàng)造良好的發(fā)展空間的同時(shí),也有效的推動(dòng)了科學(xué)技術(shù)尤其是計(jì)算機(jī)技術(shù)的發(fā)展和創(chuàng)新。在這樣的背景之下,如何利用數(shù)據(jù)的分類算法,對(duì)相關(guān)的電子數(shù)據(jù)進(jìn)行處理,成為了有關(guān)部門以及人員亟待解決的問題。本文基于此,分析了幾種處理數(shù)據(jù)分類算法,并討論如何在大數(shù)挖掘的背景下,利用數(shù)據(jù)分類算法技術(shù)對(duì)有關(guān)的數(shù)據(jù)進(jìn)行分類處理。
關(guān)鍵詞:大數(shù)據(jù)挖掘 數(shù)據(jù)分類算法 技術(shù)研究
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2016)09-0127-01
當(dāng)前,在經(jīng)濟(jì)發(fā)展以及數(shù)字化辦公的背景之下,越來越多的行業(yè)都在實(shí)際的管理環(huán)節(jié)中引入了大數(shù)據(jù)挖掘的概念。事實(shí)上,這種情況的出現(xiàn)為計(jì)算機(jī)產(chǎn)業(yè)的發(fā)展帶來了機(jī)遇,也為其制造了挑戰(zhàn)。為了更好的面對(duì)時(shí)代發(fā)展的趨勢(shì),對(duì)相關(guān)的數(shù)據(jù)進(jìn)行有效的分類處理,相關(guān)的領(lǐng)域內(nèi)逐漸加強(qiáng)了對(duì)于數(shù)據(jù)分類算法技術(shù)的學(xué)習(xí)和運(yùn)用。目前,常用的數(shù)據(jù)分類類型包括:包括決策樹類、Bayes 類等,對(duì)此筆者進(jìn)行相關(guān)具有的闡釋。
1 數(shù)據(jù)挖掘以及分類算法的含義
所謂的數(shù)據(jù)挖掘指的是在浩渺如煙的數(shù)據(jù)中之攫取有用的、價(jià)值比高的知識(shí)數(shù)據(jù)的過程,事實(shí)上,數(shù)據(jù)挖掘是數(shù)據(jù)庫技術(shù)發(fā)展的必然結(jié)果。由于數(shù)據(jù)挖掘順應(yīng)了科技發(fā)展的需求,因?yàn)槠湓谶\(yùn)用的過程中,涉及到諸如是零售、金融、醫(yī)療、通訊等諸多領(lǐng)域之中。
而分類算法指的則是通過對(duì)已知類別的數(shù)據(jù)進(jìn)行分析,并對(duì)其中的分類規(guī)律進(jìn)行總結(jié),并以此為基礎(chǔ),對(duì)新的數(shù)據(jù)類別進(jìn)行預(yù)測(cè)。事實(shí)上,分類算法是一個(gè)將未知樣本分到幾個(gè)已存在類的過程,而這個(gè)過程的實(shí)現(xiàn)主要包含兩個(gè)方面:一是以已知的訓(xùn)練數(shù)據(jù)集為依托,構(gòu)建用于描述預(yù)定的數(shù)據(jù)類集或概念集的新模型,二是在新構(gòu)建的模型的基礎(chǔ)上,對(duì)未知的數(shù)據(jù)進(jìn)行分類,繼而推動(dòng)了數(shù)據(jù)的合理處理。
2 數(shù)據(jù)挖掘的主要分類算法
由于在數(shù)據(jù)挖掘背景下,需要針對(duì)數(shù)據(jù)的具體情況,采取不同的分類算法進(jìn)行相關(guān)的分類處理,基于此,就使得現(xiàn)存的數(shù)據(jù)分類算法存在多種,它們的出現(xiàn)能夠有效的推動(dòng)數(shù)據(jù)的分類處理,繼而推動(dòng)了計(jì)算機(jī)技術(shù)的發(fā)展。關(guān)于數(shù)據(jù)分類算法的種類,筆者做了相關(guān)的總結(jié),具體內(nèi)容如下。
2.1 決策樹分類算法
所謂的決策樹分類法,又被稱之為貪心算法。該種算法采取的是由上而下的分治方式,其最大的優(yōu)點(diǎn)在于其能夠在雜亂無章的事例、數(shù)據(jù)中推導(dǎo)出以決策樹為表現(xiàn)形式的分類規(guī)律。事實(shí)上,這種分類算法是在實(shí)例的基礎(chǔ)上進(jìn)行相關(guān)的數(shù)據(jù)歸類以及處理。由于其在實(shí)際的運(yùn)用過程中對(duì)噪聲數(shù)據(jù)的處理具有良好的健壯性,因而其逐漸成為各領(lǐng)域在對(duì)數(shù)據(jù)分類處理的過程中,所采取的最為普遍的算法。
在決策樹算法的構(gòu)建過程中,其每一個(gè)節(jié)點(diǎn)所表示的則是某一個(gè)屬性的測(cè)試,而分制代表的就是數(shù)據(jù)測(cè)試輸出。而在對(duì)未知的數(shù)據(jù)樣本進(jìn)行分析的過程中,采取的往往是將樣本的屬性值與決策樹相比較的方法。為了更加直觀的了解到?jīng)Q策樹算法的形成、操作過程,筆者進(jìn)行了相關(guān)的算法流程圖的繪制,具體的內(nèi)容見圖1。
事實(shí)上,決策樹算法的傳統(tǒng)模式為C4.5算法,該種算法具有規(guī)則簡(jiǎn)單,方便操作的優(yōu)點(diǎn),但是隨著近年來計(jì)算機(jī)技術(shù)的不斷普及和運(yùn)用,使得需要處理的數(shù)據(jù)逐漸增多,而C4.5算法只能處理內(nèi)存量較小的數(shù)據(jù),在對(duì)大批量數(shù)據(jù)進(jìn)行分類處理的過程中時(shí)常會(huì)出現(xiàn)對(duì)算法運(yùn)行受阻而無法繼續(xù)運(yùn)行的狀況。而這種情況也就導(dǎo)致了C4.5算法無法適應(yīng)現(xiàn)階段的數(shù)據(jù)分類處理的需要,逐漸退出了的數(shù)據(jù)分類處理工作環(huán)節(jié)中。
但隨著相關(guān)人員結(jié)合時(shí)代發(fā)展的需要,使得C4.5算法在原有的基礎(chǔ)之上獲得了改良和突破,并推動(dòng)了以C4.5算法為母本的SLIQ算法以及SPRINT算法的誕生。改良后的決策樹算法適應(yīng)了大數(shù)據(jù)挖掘的需要,推動(dòng)了數(shù)據(jù)的分類與處理工作的有序進(jìn)行。
2.2 Bayes分類算法
Bayes分類算法是以概率統(tǒng)計(jì)學(xué)的相關(guān)理論知識(shí)為基礎(chǔ)而誕生的,雖然這種算法在實(shí)際的數(shù)據(jù)分類處理的過程中獲得了較為廣泛的運(yùn)用,但是其也存在著諸多的缺點(diǎn)。
2.3 CBA分類數(shù)據(jù)算法
CBA分類數(shù)據(jù)算法是以關(guān)聯(lián)規(guī)則為基礎(chǔ)的數(shù)據(jù)算法。這種算法的實(shí)行往往需要依托于數(shù)據(jù)構(gòu)造分類器。目前,CBA算法在運(yùn)行的過程中主要依賴于Apriori算法技術(shù)的使用,這種技術(shù)的優(yōu)點(diǎn)就在于能夠?qū)撛诘臄?shù)據(jù)關(guān)聯(lián)規(guī)則表面化,從而為方便了對(duì)于數(shù)據(jù)的歸納整理。
事實(shí)上,CBA分類數(shù)據(jù)算法也存在著諸多的缺點(diǎn),比如因?yàn)閿?shù)據(jù)分類是容易出現(xiàn)漏洞,繼而導(dǎo)致了相關(guān)的優(yōu)化作用難以發(fā)揮出來,并最終降低了該種算法的運(yùn)行效率。
3 結(jié)語
近年來,隨著計(jì)算機(jī)技術(shù)的發(fā)展,使得大數(shù)據(jù)挖掘逐漸成為時(shí)代發(fā)展的潮流,在這樣的背景之下,如何推動(dòng)數(shù)據(jù)分類算法的運(yùn)用成為了亟待解決的問題。本文筆者從大數(shù)據(jù)挖掘以及數(shù)據(jù)分類算法的定義入手,對(duì)數(shù)據(jù)分類算法的種類、發(fā)展以及相關(guān)的優(yōu)缺點(diǎn)進(jìn)行了相應(yīng)的分析,筆者認(rèn)為,在實(shí)際工作中對(duì)于數(shù)據(jù)分類算法的選擇,往往需要依據(jù)數(shù)據(jù)分析速度、可擴(kuò)展性和結(jié)果的準(zhǔn)確性等參數(shù),繼而選擇出相應(yīng)的數(shù)據(jù)分類算法。
參考文獻(xiàn)
[1]李玲俐.數(shù)據(jù)挖掘中分類算法綜述[J].重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2011(4):44-47.
[2]饒琛.大數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法技術(shù)研究[J].電子技術(shù)與軟件工程,2015(14):204.
數(shù)字技術(shù)與應(yīng)用2016年9期