劉 芬
(延安大學(xué)計(jì)算機(jī)學(xué)院,陜西 延安 716000)
現(xiàn)如今是大數(shù)據(jù)時(shí)代,海量的數(shù)據(jù)隨處可見,可能有真有假,可能數(shù)據(jù)不完整,可能是垃圾數(shù)據(jù),也可能是極有價(jià)值的數(shù)據(jù)。但是這些海量的數(shù)據(jù)都有其存在的意義,數(shù)據(jù)背后必然隱藏著重要的信息和知識(shí),所以在模糊隨機(jī)的、不完整的、有噪聲的數(shù)據(jù)中挖掘出有價(jià)值的那部分信息是十分重要的。數(shù)據(jù)挖掘,也就是通過對(duì)海量數(shù)據(jù)的分析,基本上就是自動(dòng)化分析,對(duì)其進(jìn)行歸納整理,提取有用信息,通過這些信息,對(duì)應(yīng)用對(duì)象提供幫助。例如幫助企業(yè)或者個(gè)體用戶對(duì)市場進(jìn)行重要評(píng)估,確定實(shí)施方案,根據(jù)市場政策的變化,降低投資風(fēng)險(xiǎn),獲取更大利益,它可以幫助很多行業(yè)領(lǐng)域更好地應(yīng)對(duì)政策的變化,提供最佳市場營銷手段,掌握最優(yōu)營銷策略,制定最佳管理方案,甚至是企業(yè)面臨資金或者管理危機(jī)時(shí),它都能夠貢獻(xiàn)一份力量。
對(duì)于大數(shù)據(jù)的挖掘,目前已經(jīng)有許多種挖掘方法,例如回歸分析、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)方法、Web數(shù)據(jù)挖掘以及最簡單的分類聚類等,不同方向運(yùn)用不同的挖掘方式,基于目前的數(shù)據(jù)挖掘的方式方法,未來也會(huì)出現(xiàn)更多種可靠的方法,甚至是方法的聯(lián)用等,有很可觀的發(fā)展前景。下面對(duì)于這些方法做一個(gè)簡單的介紹。
回歸分析通過函數(shù)關(guān)系式或是關(guān)系圖表發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性,實(shí)際上是對(duì)數(shù)據(jù)所具有的一種屬性值特性的體現(xiàn),可以有效地對(duì)整體數(shù)據(jù)進(jìn)行預(yù)測,也是分析數(shù)據(jù)相關(guān)性的一種常用方式。例如在銷售行業(yè)領(lǐng)域中,常常會(huì)利用回歸分析的方式,根據(jù)本月或者本季度的銷售額進(jìn)行回歸分析之后對(duì)下個(gè)月的銷售情況進(jìn)行預(yù)測,及時(shí)有效地調(diào)整策略。
關(guān)聯(lián)規(guī)則的定義比較抽象,需要考慮置信度和支持度兩個(gè)概念,都在閾值范圍內(nèi),則說明兩個(gè)事務(wù)關(guān)聯(lián)性是有效的。實(shí)際上想要反映兩個(gè)事務(wù)之間的相關(guān)性,其挖掘過程有兩個(gè)階段:第一個(gè)階段是從原始的數(shù)據(jù)庫或是說原始數(shù)據(jù)集合中找到出現(xiàn)的頻率達(dá)到一定水平的事務(wù)組,也就是說,支持度要超過規(guī)定的最小值;第二個(gè)階段就是對(duì)關(guān)聯(lián)性分析,產(chǎn)生關(guān)聯(lián)規(guī)則,這里就需要考慮到置信度,二者置信度需要滿足最小置信度,才能說明具有關(guān)聯(lián)規(guī)則。例如,超市運(yùn)營中常見的購物籃分析,根據(jù)顧客購物籃中出現(xiàn)的物品的頻率,分析它們之間的關(guān)聯(lián)性,確定哪些物品是顧客會(huì)一次性一起購買的,這也是關(guān)聯(lián)規(guī)則的起源,現(xiàn)在關(guān)聯(lián)規(guī)則常被用在金融行業(yè)中預(yù)測客戶的需求[1]。
神經(jīng)網(wǎng)絡(luò)方法實(shí)際上是對(duì)動(dòng)物神經(jīng)系統(tǒng)的模仿,它的基礎(chǔ)有兩種,一種是M-P模型,另一種是Hebb學(xué)習(xí)規(guī)則。通過對(duì)數(shù)據(jù)的挖掘,構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,累加計(jì)算或是反復(fù)迭代,最后計(jì)算權(quán)值。神經(jīng)網(wǎng)絡(luò)的這樣一種人工智能技術(shù),優(yōu)點(diǎn)有許多,比如高容錯(cuò)、自行學(xué)習(xí)處理,還有非線性等,使得它在處理一些不完整有漏洞的數(shù)據(jù)或是信息時(shí)能夠比較恰當(dāng)?shù)靥幚砗?,這也正是它能夠用于數(shù)據(jù)挖掘的原因之一。這種模擬人的思維的方式,在研究中有以下幾個(gè)方面:一是生命科學(xué)中,生物神經(jīng)系統(tǒng)原型和結(jié)構(gòu),二是根據(jù)生物原型構(gòu)建理論模型,三是模型的算法研究,這里就需要構(gòu)建具體的一種神經(jīng)網(wǎng)絡(luò)模型,最后是進(jìn)行實(shí)際應(yīng)用,例如信號(hào)探索識(shí)別,甚至是制造機(jī)器人等。
這是一種利用數(shù)據(jù)挖掘應(yīng)用于Web的方式,從相關(guān)的資源中得到所需要的隱含信息,主要有三種類型:結(jié)構(gòu)挖掘、內(nèi)容挖掘和使用挖掘。
分類,從字面意義來看非常簡單,就是從海量的數(shù)據(jù)中找出某幾組或是某幾個(gè)數(shù)據(jù)的共同點(diǎn),然后根據(jù)特點(diǎn)和具體的分類模式對(duì)其進(jìn)行分類。這種分類技術(shù)可以運(yùn)用到未來數(shù)據(jù)的預(yù)測當(dāng)中,例如,超市根據(jù)產(chǎn)品的購買情況進(jìn)行分類,再根據(jù)分類情況選擇可以對(duì)消費(fèi)者推薦的關(guān)聯(lián)產(chǎn)品,以此來增加銷售業(yè)績。和分類相似的另一種叫做聚類,但實(shí)際上也有差別,這里需要強(qiáng)調(diào)的就是聚類中相似特點(diǎn)的產(chǎn)品關(guān)聯(lián)性很大,而對(duì)于不同類別的產(chǎn)品數(shù)據(jù),特點(diǎn)的相似性很小,關(guān)聯(lián)性就很低。也就是說,聚類強(qiáng)調(diào)的是不同類別的產(chǎn)品關(guān)聯(lián)性低[2]。
現(xiàn)如今信息技術(shù)發(fā)展迅速,而檔案的管理對(duì)象也逐漸增加,利用數(shù)據(jù)挖掘技術(shù),建立一個(gè)檔案管理的系統(tǒng),對(duì)處理對(duì)象的檔案進(jìn)行有效的歸納整理有極其重要的意義。利用以上介紹的數(shù)據(jù)挖掘方法,實(shí)現(xiàn)檔案的有效分類,檔案數(shù)據(jù)快速搜索??梢韵葮?gòu)建一種數(shù)據(jù)分布的結(jié)構(gòu)模型,接著對(duì)數(shù)據(jù)進(jìn)行分類整理,尋找數(shù)據(jù)特性并對(duì)數(shù)據(jù)對(duì)象進(jìn)行關(guān)聯(lián)性的處理,對(duì)數(shù)據(jù)進(jìn)行挖掘,最后進(jìn)行一個(gè)監(jiān)測分析,根據(jù)以往的眾多研究表明,利用數(shù)據(jù)挖掘?qū)n案進(jìn)行管理,可以有效提高安全性,同時(shí)檔案的檢索速度有了相應(yīng)的提高。
類似于淘寶京東的電子商務(wù)在市場上占有重要地位,消費(fèi)者頻繁地交易使得電子商務(wù)成為了一種重要的消費(fèi)手段,交易方式簡單,基本可以人人都會(huì),也為消費(fèi)者購買商品提供了便利條件,受到廣大消費(fèi)者的歡迎。
電子商務(wù)上,數(shù)據(jù)挖掘尤其是Web挖掘的應(yīng)用是非常廣泛的。之前有提到Web挖掘是利用Web從相關(guān)資源中找到隱含信息,例如從網(wǎng)絡(luò)用戶的瀏覽記錄數(shù)據(jù)、電子商務(wù)中的購買記錄數(shù)據(jù)找到客戶主要需求,找到他們的主要興趣,然后利用這些數(shù)據(jù),做出相應(yīng)的調(diào)整改善,推出客戶最感興趣的產(chǎn)品,提高產(chǎn)品銷量,創(chuàng)造銷售業(yè)績[3]。
數(shù)據(jù)挖掘技術(shù)現(xiàn)在快速發(fā)展,在世界范圍也有廣泛應(yīng)用,因此需要對(duì)這個(gè)技術(shù)的方法、過程、應(yīng)用等有充分的認(rèn)識(shí)和了解,從而更好地深入研究和開發(fā)應(yīng)用,對(duì)于數(shù)據(jù)挖掘面臨的挑戰(zhàn),才能有更好的解決方案,為人類生活作出更大貢獻(xiàn)。
[1]周碧珍.淺析計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的應(yīng)用[J].黑龍江科技信息,2009(1):208.
[2]李智勇.數(shù)據(jù)挖掘在計(jì)算機(jī)網(wǎng)絡(luò)病毒防御中的應(yīng)用探究[J].電子測試,2014(12):46-48.
[3]應(yīng)用Web數(shù)據(jù)挖掘技術(shù)進(jìn)行電子商務(wù)的分析[J].電子技術(shù)與軟件工程,2014(7):216-217.