葉符明
摘要:近年來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各行各業(yè)之間的信息存檔都上傳成為數(shù)據(jù)庫的數(shù)據(jù),這樣相比較傳統(tǒng)的紙質(zhì)檔案更加容易被查找以及保存,但是隨著行業(yè)的發(fā)展,上傳的數(shù)據(jù)越來越多,導(dǎo)致企業(yè)在查找時無法及時的查詢到自己需要的信息,介于這樣的情況,人們開始研究智能型的大型數(shù)據(jù)庫的數(shù)據(jù)挖掘方法,本文根據(jù)數(shù)據(jù)挖掘的含義特征進(jìn)行分析,探究大型數(shù)據(jù)庫中數(shù)據(jù)挖掘的算法以及在實際中的運用方向。
關(guān)鍵詞:大型;數(shù)據(jù)庫;數(shù)據(jù)挖掘;應(yīng)用
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2018)09-0089-02
在最近的十幾年中,世界經(jīng)歷了網(wǎng)絡(luò)數(shù)據(jù)信息滾雪球般的增長,各行各業(yè)的數(shù)據(jù)儲存量都達(dá)到一個相當(dāng)大的地步,在這樣的情況下,當(dāng)人們需要進(jìn)行數(shù)據(jù)分析時,將面臨巨大的工作量,并且因為數(shù)據(jù)的龐大,人們極易在數(shù)據(jù)分析期間出現(xiàn)過錯,導(dǎo)致數(shù)據(jù)分析的結(jié)果出現(xiàn)偏差,影響人們的判斷決策。在這樣的情況下,人們迫切的需要數(shù)據(jù)庫挖掘技術(shù),并且要求數(shù)據(jù)庫的挖掘具有智能性與自動性,能夠幫助人們快速、準(zhǔn)確的在龐大的數(shù)據(jù)中查詢到自身需要的數(shù)據(jù),并且進(jìn)行分析,為人們的判斷決策提供可靠的依據(jù)。
1 數(shù)據(jù)挖掘技術(shù)概述
1.1 數(shù)據(jù)挖掘的含義
數(shù)據(jù)挖掘主要是在信息收集完成之后,通過一系列的指令對需要的數(shù)據(jù)進(jìn)行查詢的過程。數(shù)據(jù)挖掘技術(shù)的產(chǎn)生是由于大數(shù)據(jù)時代的到來,人們所儲存和交換的數(shù)據(jù)越來越多,導(dǎo)致數(shù)據(jù)查詢難度增大,人們研究應(yīng)用數(shù)據(jù)挖掘技術(shù),希望通過數(shù)據(jù)挖掘技術(shù)在龐大的數(shù)據(jù)庫中及時準(zhǔn)確的查找到需要的數(shù)據(jù),提高人們的工作效率,并通過數(shù)據(jù)的分析為人們的決策提供數(shù)據(jù)依據(jù)。
1.2 數(shù)據(jù)挖掘的技術(shù)特點
數(shù)據(jù)挖掘技術(shù)具有四個明顯的特點,其都是受數(shù)據(jù)庫中數(shù)據(jù)的特征所影響,要想數(shù)據(jù)挖掘技術(shù)準(zhǔn)確的對數(shù)據(jù)進(jìn)行查找分析,數(shù)據(jù)挖掘技術(shù)就必須符合數(shù)據(jù)庫中數(shù)據(jù)的特點。這四個特點分別是:差異性;復(fù)雜性;算法之間的差異性以及準(zhǔn)確性。
差異性的特征是因為在數(shù)據(jù)庫中數(shù)據(jù)來源多種多樣,數(shù)據(jù)信息之間的差異性也是十分的明顯,數(shù)據(jù)挖掘技術(shù)要確保在海量的數(shù)據(jù)信息中準(zhǔn)確的找到需要的數(shù)據(jù)信息,就必須具有搜索的差異性,根據(jù)不同的信息查找需求,分析出需要查找信息的特征,在進(jìn)行相關(guān)的查找,節(jié)省查找信息的時間;數(shù)據(jù)挖掘技術(shù)的復(fù)雜性主要是體現(xiàn)在數(shù)據(jù)挖掘技術(shù)涉及的領(lǐng)域繁多,在進(jìn)行數(shù)據(jù)挖掘技術(shù)的建模時需要建立一個復(fù)雜又龐大的計算模型;數(shù)據(jù)挖掘技術(shù)的算法差異性,在數(shù)據(jù)挖掘技術(shù)中,評判數(shù)據(jù)算法的優(yōu)劣并沒有統(tǒng)一的標(biāo)準(zhǔn),而是根據(jù)實際需要進(jìn)行查找的信息進(jìn)行判斷哪種算法最合適進(jìn)行查找,使得數(shù)據(jù)挖掘技術(shù)的搜索算法具有較大的差異性;準(zhǔn)確性主要表現(xiàn)在數(shù)據(jù)挖掘技術(shù)的使用時需要根據(jù)用戶的實際需求進(jìn)行數(shù)據(jù)挖掘,若用戶沒有表示明確的查找要求時,數(shù)據(jù)挖掘技術(shù)會根據(jù)用戶的興趣以及用戶輸入的信息進(jìn)行相關(guān)信息的查找,并且搜索的結(jié)果會根據(jù)用戶的喜愛以及需求進(jìn)行相應(yīng)的改變。
2 大型數(shù)據(jù)庫的數(shù)據(jù)挖掘的算法
2.1 關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則挖掘技術(shù)就是根據(jù)用戶的一項數(shù)據(jù)來進(jìn)行用戶其他數(shù)據(jù)推測的方式。如下圖所示,當(dāng)顧客在商場購買了一件襯衫的時候,關(guān)聯(lián)規(guī)則可以根據(jù)以往用戶的消費信息進(jìn)行分析,預(yù)測出顧客可能購買領(lǐng)帶的行為以及行為發(fā)生的概率。
Apriori是關(guān)聯(lián)算法中常見的算法。假設(shè)一家商店當(dāng)中經(jīng)營四種商品,商店中各種商品之間進(jìn)行組合的可能性,再根據(jù)客戶購買行為以及商品之間的差異性,得到一個集合,表示商品組合可能性較低的情況,通過Apriori進(jìn)行計算之后構(gòu)建的組合機,此集合則是表示客戶在購買中經(jīng)常使用的組合集合,如此店主在進(jìn)行商品的推廣時就可以根據(jù)數(shù)據(jù)的分析結(jié)果,為顧客推薦常用的商品組合,滿足顧客的潛在需求,提高自身的經(jīng)濟(jì)效益。
Apriori在運算中能夠通過智能技術(shù),對數(shù)據(jù)進(jìn)行“頻繁集”的計算,在計算過程中可以對數(shù)據(jù)進(jìn)行相應(yīng)的分析挑選,使其在最短的時間內(nèi)算出用戶需要的關(guān)聯(lián)信息,滿足用戶的搜素需求,并且在Apriori的運算中對于無法一下識別出來的信息都算作頻繁集,確保了信息分析的準(zhǔn)確性,為用戶的決策提供可靠的依據(jù)。
2.2 聚類算法
聚類算法的施行主要是在相同類型的數(shù)據(jù)信息中進(jìn)行查找,其主要的算法類型又可以分為“分割聚類法”與“分層聚類法”。分割算法的的主要作用是對需要的數(shù)據(jù)信息進(jìn)行分割劃分,將相關(guān)的信息聚攏在一起成為一個新的數(shù)據(jù)信息庫,其主要計算方式是首先對需要進(jìn)行分割的數(shù)據(jù)信息進(jìn)行劃分,劃分之后根據(jù)信息程序之間的距離進(jìn)行判斷,然后將距離較近的信息劃分在一起形成一個新的數(shù)據(jù)信息群,再對新的數(shù)據(jù)信息群進(jìn)行劃分,尋找劃分之后信息程序之間的距離,將距離近的信息聚攏,如此反復(fù),知道最終的到的信息群中只剩2個具體的數(shù)據(jù)信息,此時這兩個數(shù)據(jù)信息之間會形成一個標(biāo)準(zhǔn)的距離對稱表。
在分層聚類的算法中,又包含著兩種具體的分層計算模式,一是凝聚型的分層聚類,這類型的分層凝聚法,在計算時是將數(shù)據(jù)進(jìn)行凝聚,首先在計算時將每一個數(shù)據(jù)信息都看作一個“類”,再根據(jù)用戶給出的度量信息,例如3個“類”之間的距離,以此為準(zhǔn)將之間的“類”集合成一個龐大的“類”如此反復(fù),直到所有數(shù)據(jù)信息對象都在一個類當(dāng)中,或者是類的集合滿足了用戶給出的要求,簡單的說就是根據(jù)用戶的需要將相關(guān)的數(shù)據(jù)信息集合在一個類中,形成相關(guān)的數(shù)據(jù)信息群,方便用戶在進(jìn)行數(shù)據(jù)信息搜索時,減少搜索的時間以及搜索范圍。二是分裂的分層聚類計算方法,其計算的方式與凝聚的分層聚類計算方式完全相反,其首先將相對的數(shù)據(jù)信息集合放置在一個類當(dāng)中,在根據(jù)用戶的需要對數(shù)據(jù)信息劃分較小的類,反復(fù)操作,直到每一個數(shù)據(jù)信息即代表一個類,或是達(dá)到用戶的劃分需求,簡單形容即是分裂的分層聚類算法將龐大的相關(guān)數(shù)據(jù)信息劃分成細(xì)小的數(shù)據(jù)信息,使用戶在搜索數(shù)據(jù)信息時提高搜索結(jié)果的準(zhǔn)確性。
3 大數(shù)據(jù)挖掘技術(shù)的主要運用方向
3.1 空間數(shù)據(jù)的挖掘技術(shù)
空間數(shù)據(jù)主要是通過衛(wèi)星通訊設(shè)備進(jìn)行收集,空間數(shù)據(jù)主要用來體現(xiàn)“空間實體”的具體位置或是“空間實體”的體積、外形,空間數(shù)據(jù)可以用來與現(xiàn)實世界的事物的發(fā)展相關(guān)聯(lián),可以將人們生活的現(xiàn)實世界中的信息進(jìn)行表達(dá)。因為空間數(shù)據(jù)的特殊性,空間數(shù)據(jù)的挖掘技術(shù)的使用也具有特殊性,主要應(yīng)用在交通輸送以及災(zāi)難救援當(dāng)中,或是對空間數(shù)據(jù)與非空間數(shù)據(jù)的潛在關(guān)系進(jìn)行分析,找出現(xiàn)實事物中的客觀規(guī)律,幫助人們預(yù)測或是判斷現(xiàn)實世界的運動發(fā)展。
3.2 庫存管理數(shù)據(jù)的挖掘
隨著我國工業(yè)化程度的加深,我國制造行業(yè)的水平也在不斷的提升,當(dāng)下許多的制造企業(yè)對自身的產(chǎn)品進(jìn)行出口貿(mào)易,這使得企業(yè)的產(chǎn)品生產(chǎn)量的增加,企業(yè)的庫存產(chǎn)品規(guī)模也不斷的擴大,庫存管理的難度加大。庫存管理數(shù)據(jù)的挖掘技術(shù),就是為了滿足企業(yè)日益增加的庫存管理數(shù)據(jù),使企業(yè)在龐大的數(shù)據(jù)中及時快速的對數(shù)據(jù)信息進(jìn)行分類,或是將相關(guān)的管理數(shù)據(jù)項結(jié)合形成新的數(shù)據(jù)信息群,提高企業(yè)的管理效率,增加企業(yè)對庫存管理信息分析的準(zhǔn)確性,幫助企業(yè)管理者對庫存商品做出正確的處理。
4 結(jié)語
根據(jù)上文的分析探究,根據(jù)用戶的需要的信息不同,數(shù)據(jù)挖掘技術(shù)的使用情況也就不同,不同的計算方法之間有不同的優(yōu)點,但面對越來越龐大的數(shù)據(jù)庫,數(shù)據(jù)挖掘技術(shù)的算法要不斷的進(jìn)行更新拓展,使其滿足用戶數(shù)據(jù)挖掘分析的需求,使挖掘過程更加的快捷,挖掘出的數(shù)據(jù)信息結(jié)果更加的準(zhǔn)確。
參考文獻(xiàn)
[1]徐延強.基于大數(shù)據(jù)庫的數(shù)據(jù)挖掘應(yīng)用研究[J].中國新通信,2018,20(08):121.
[2]陳霄.基于大型數(shù)據(jù)庫的數(shù)據(jù)挖掘應(yīng)用研究[J].電腦編程技巧與維護(hù),2017,(14):42-44.