萬(wàn)曉燕 陳姍 劉汝元 畢軍濤
摘要:大數(shù)據(jù)時(shí)代,企業(yè)能夠進(jìn)行精準(zhǔn)決策、營(yíng)銷,關(guān)鍵還是數(shù)據(jù)分析,而其中最為重要的就是數(shù)據(jù)挖掘。本文對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行了簡(jiǎn)單分析,同時(shí)結(jié)合相關(guān)案例分析了數(shù)據(jù)挖掘技術(shù)在企業(yè)當(dāng)中的應(yīng)用步驟和成效,僅供參考。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;企業(yè)
自進(jìn)入大數(shù)據(jù)時(shí)代以來(lái),各個(gè)領(lǐng)域的大數(shù)據(jù)呈現(xiàn)飛速發(fā)展態(tài)勢(shì),數(shù)據(jù)采集、樣本分析、圖像識(shí)別、智能可穿戴設(shè)備等等紛紛面向大眾。對(duì)于企業(yè)來(lái)說(shuō)數(shù)據(jù)已經(jīng)成為重要的資產(chǎn),越來(lái)越多的企業(yè)開(kāi)始重視對(duì)大數(shù)據(jù)的分析與利用,根據(jù)貝恩咨詢公司的調(diào)研報(bào)告,其所調(diào)研的企業(yè)當(dāng)中有超過(guò)400家年?duì)I業(yè)額5億美元以上的企業(yè),其中約60%的企業(yè)正在布局大數(shù)據(jù),表明大數(shù)據(jù)已經(jīng)走下神壇,逐步成為企業(yè)常規(guī)化的決策工具,其中的核心要點(diǎn)就是數(shù)據(jù)挖掘技術(shù),這是實(shí)現(xiàn)大數(shù)據(jù)分析的前提。
一、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘算法是大數(shù)據(jù)分析的核心部分,要科學(xué)表現(xiàn)大數(shù)據(jù)的特點(diǎn)就需要針對(duì)這些數(shù)據(jù)的類型及格式制定相應(yīng)的算法。這些算法可以說(shuō)是基于統(tǒng)計(jì)學(xué)的統(tǒng)計(jì)方法,也只有這樣,挖掘出來(lái)的數(shù)據(jù)才具有公認(rèn)的價(jià)值。同時(shí)數(shù)據(jù)挖掘算法是快速處理數(shù)據(jù)的關(guān)鍵,若一個(gè)算法需要很長(zhǎng)時(shí)間才能獲得結(jié)論,那么大數(shù)據(jù)的價(jià)值也就無(wú)從談起。數(shù)據(jù)挖掘的主體沒(méi)有限制,主要是將現(xiàn)有數(shù)據(jù)通過(guò)數(shù)據(jù)挖掘算法進(jìn)行預(yù)測(cè)性分析,進(jìn)行一些高級(jí)別的數(shù)據(jù)分析,可利用Mahout工具實(shí)現(xiàn),比較典型的算法有SVM、Kmeans等。
從世界范圍來(lái)看,數(shù)據(jù)挖掘技術(shù)已經(jīng)十分成熟,對(duì)于一個(gè)企業(yè),如果云平臺(tái)架構(gòu)能力強(qiáng),能夠?qū)@取的數(shù)據(jù)實(shí)時(shí)傳遞到云端,再?gòu)脑贫讼蛴脩羧后w推送,這可以說(shuō)是大數(shù)據(jù)時(shí)代下企業(yè)的新一種核心競(jìng)爭(zhēng)力。事實(shí)上當(dāng)前擺在企業(yè)面前的是一座數(shù)據(jù)金山,數(shù)據(jù)挖掘能力就成為企業(yè)另一個(gè)重要競(jìng)爭(zhēng)力,并且挖掘能力是衡量企業(yè)業(yè)務(wù)水平高低的重要指標(biāo),通過(guò)數(shù)據(jù)挖掘以及數(shù)據(jù)分析抓住用戶重點(diǎn),只有這樣才能實(shí)現(xiàn)大數(shù)據(jù)的真正價(jià)值,下文列舉一些比較常用的數(shù)據(jù)挖掘方法。
MBR(Memory-Based Reasoning)這種方法就是利用已知case(案例)來(lái)預(yù)測(cè)未來(lái)case的一些attribute(屬性),并一般尋找最為相似的案例來(lái)比較。主要的核心就是記憶基礎(chǔ)推理法,涵蓋距離函數(shù)和結(jié)合函數(shù),前者旨在找到最相似案例,后者則將相似案例屬性結(jié)合起來(lái),以便預(yù)測(cè)分析時(shí)使用。該方法的優(yōu)點(diǎn)在于能夠容許各種型態(tài)的數(shù)據(jù),且不需要服從某些假設(shè),而且具備自學(xué)習(xí)能力,能夠憑借舊案例的學(xué)習(xí)來(lái)獲取關(guān)于新案例的知識(shí),當(dāng)然需要大量歷史數(shù)據(jù)的支撐。處理速率上比較費(fèi)時(shí),效率不是很高,在欺騙行為偵測(cè)、預(yù)測(cè)客戶反應(yīng)、醫(yī)學(xué)診療等方面應(yīng)用有較強(qiáng)應(yīng)用前景。
Decision Tree(決策樹(shù)),這在解決歸類與預(yù)測(cè)上能力極強(qiáng),通過(guò)一系列的問(wèn)題組成法則并表達(dá)出來(lái),然后經(jīng)過(guò)不斷詢問(wèn)問(wèn)題導(dǎo)出所需的結(jié)果。典型的決策樹(shù)頂端是一個(gè)樹(shù)根,底部擁有許多樹(shù)葉,記錄分解成不同的子集,每個(gè)子集可能包含一個(gè)簡(jiǎn)單法則。
Cluster Detection(聚類分析),該技術(shù)擁有相當(dāng)廣泛的范圍,涵蓋基因算法、類神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)中的群集分析,主要是找出數(shù)據(jù)當(dāng)中以前未知的相似群體,剛開(kāi)始均在群集偵測(cè)技術(shù)但中運(yùn)用,作為研究的開(kāi)端。
除上述方法外還有遺傳算法、OLAP分析、神經(jīng)網(wǎng)絡(luò)、判別分析、購(gòu)物籃分析等等,在此不做一一介紹。
二、數(shù)據(jù)挖掘?qū)嵺`
數(shù)據(jù)挖掘最主要的作用就是為決策提供支撐,某企業(yè)ERP系統(tǒng)積累一定業(yè)務(wù)數(shù)據(jù),具備了實(shí)施大數(shù)據(jù)決策的前提條件,對(duì)于領(lǐng)導(dǎo)或是管理層來(lái)說(shuō),關(guān)鍵還是要從業(yè)務(wù)數(shù)據(jù)當(dāng)中挖掘、分析數(shù)據(jù),提取信息進(jìn)而支撐決策。所以在運(yùn)營(yíng)過(guò)程當(dāng)中構(gòu)建起統(tǒng)一的數(shù)據(jù)平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的集成和共享,為企業(yè)決策提供技術(shù)支撐。
該企業(yè)基于市場(chǎng)風(fēng)險(xiǎn)、信用風(fēng)險(xiǎn)以及內(nèi)部控制,建立起風(fēng)險(xiǎn)管理系統(tǒng),整合現(xiàn)有風(fēng)險(xiǎn)控制,形成風(fēng)控戰(zhàn)略能力,建立起KRI(關(guān)鍵風(fēng)險(xiǎn)管理指標(biāo))、風(fēng)險(xiǎn)分析、風(fēng)險(xiǎn)組合管理、風(fēng)險(xiǎn)保管等,極大提升了企業(yè)風(fēng)險(xiǎn)管理水平。并在統(tǒng)一平臺(tái)下實(shí)現(xiàn)業(yè)務(wù)中心、各部門(mén)不同層次的風(fēng)控要求,滿足不同的業(yè)務(wù)需求。對(duì)該企業(yè)市場(chǎng)、信用以及倉(cāng)儲(chǔ)三個(gè)方面的風(fēng)險(xiǎn)控制提供了極大助力,同時(shí)強(qiáng)大的開(kāi)放性便于后續(xù)的擴(kuò)展深化。具體而言就是建立風(fēng)控計(jì)量模型,基于歷史數(shù)據(jù)以及數(shù)據(jù)挖掘算法,針對(duì)模型進(jìn)行調(diào)整優(yōu)化,實(shí)現(xiàn)量化監(jiān)控、預(yù)測(cè)分析以及自動(dòng)預(yù)警。
一般來(lái)說(shuō)企業(yè)進(jìn)行數(shù)據(jù)挖掘主要遵循以下流程——準(zhǔn)備數(shù)據(jù),即收集數(shù)據(jù)并進(jìn)行積累,此時(shí)企業(yè)就需要知道其所需要的是什么樣的數(shù)據(jù),并通過(guò)分類、編輯、清洗、預(yù)處理得到客觀明確的目標(biāo)數(shù)據(jù)。數(shù)據(jù)挖掘這是最為關(guān)鍵的步驟,主要是針對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行進(jìn)一步的挖掘,取得更加客觀準(zhǔn)確的數(shù)據(jù),方能引入決策之中,不同的企業(yè)可能采取的數(shù)據(jù)挖掘技術(shù)不同,但在當(dāng)前來(lái)看暫時(shí)脫離不了上述的挖掘方法。當(dāng)然隨著技術(shù)的進(jìn)步,大數(shù)據(jù)必定會(huì)進(jìn)一步成為企業(yè)的立身之本,在當(dāng)前已經(jīng)在很多領(lǐng)域得以應(yīng)用。如市場(chǎng)營(yíng)銷,這是數(shù)據(jù)挖掘應(yīng)用最早的領(lǐng)域,旨在挖掘用戶消費(fèi)習(xí)慣,分析用戶消費(fèi)特征進(jìn)而進(jìn)行精準(zhǔn)營(yíng)銷。就以令人深惡痛絕的彈窗廣告來(lái)說(shuō),當(dāng)消費(fèi)者有網(wǎng)購(gòu)習(xí)慣并在網(wǎng)絡(luò)上搜索喜愛(ài)的產(chǎn)品,當(dāng)再一次進(jìn)行搜索時(shí),就會(huì)彈出很多針對(duì)消費(fèi)者消費(fèi)習(xí)慣的商品。
三、結(jié)束語(yǔ)
大數(shù)據(jù)時(shí)代下,數(shù)據(jù)已經(jīng)成為企業(yè)重要的資產(chǎn),而企業(yè)要真正發(fā)揮出大數(shù)據(jù)的價(jià)值,關(guān)鍵還是要靠數(shù)據(jù)挖掘技術(shù),找到最精確的信息數(shù)據(jù),幫助企業(yè)進(jìn)行決策或是進(jìn)行精準(zhǔn)的市場(chǎng)營(yíng)銷。當(dāng)然對(duì)于企業(yè)來(lái)說(shuō),要真正實(shí)現(xiàn)大數(shù)據(jù)還需要走很長(zhǎng)的一段路,但不可否認(rèn)的是運(yùn)用大數(shù)據(jù)還是要依靠數(shù)據(jù)挖掘技術(shù)。
(作者單位:青島酒店管理職業(yè)技術(shù)學(xué)院)endprint