中國人民解放軍77169部隊 熊伯安
基于大數(shù)據(jù)時代的數(shù)據(jù)挖掘及分析
中國人民解放軍77169部隊 熊伯安
隨著信息技術(shù)的不斷發(fā)展,人類進入智能社會的進程不斷加快。智能社會的發(fā)展帶動了互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電子商務(wù)、現(xiàn)代物流和網(wǎng)絡(luò)金融等現(xiàn)代服務(wù)業(yè)的發(fā)展。網(wǎng)絡(luò)信息的廣泛應(yīng)用,造成各種業(yè)務(wù)數(shù)據(jù)幾何級數(shù)形式的巨大增長,這就給數(shù)據(jù)的收集、儲存、分析和應(yīng)用等帶來極大的困難。2011年5月,麥肯錫全球研究院正式提出“大數(shù)據(jù)”的概念,在大數(shù)據(jù)時代的大環(huán)境下,大數(shù)據(jù)挖掘的核心框架、本質(zhì)、應(yīng)用、算法、數(shù)據(jù)和平臺等如何有機結(jié)合,這是這個時代高科技工作者共同面臨的重要課題。
大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)應(yīng)用
隨著人類進入信息化時代,越來越多的數(shù)據(jù)需要處理,人類進入“大數(shù)據(jù)時代”,人類對信息的掌握達到前所未有的速度、厚度、細度和準確度。面對大量的數(shù)據(jù),對這些數(shù)據(jù)進行挖掘和分析,并將這些運用到各行各業(yè)的發(fā)展中,推動社會的不斷發(fā)展,成為當今大數(shù)據(jù)時代的必行之路。
2011年5月,在EMC舉辦了主題為“云計算相遇大數(shù)據(jù)” ,“大數(shù)據(jù)”概念被首次提出。掀起了學術(shù)界對于“大數(shù)據(jù)”的研究和討論。大數(shù)據(jù)具有規(guī)模大、類型多、價值高、處理速度快等特點,數(shù)據(jù)增長速度日漸增快,以至于傳統(tǒng)的主流數(shù)據(jù)庫管理工具根本無法滿足數(shù)據(jù)增長的需求,日益增長的數(shù)據(jù)的存取、分析、收索、共享和可視化需要大數(shù)據(jù)技術(shù)的支持。
由于大數(shù)據(jù)的迅速發(fā)展,不斷有專業(yè)信息技術(shù)研究機構(gòu)對“大數(shù)據(jù)”進行了解釋和分析。信息技術(shù)的不斷發(fā)展帶來了科學技術(shù)的變革,大數(shù)據(jù)環(huán)境下人民的生活、工作和思維正在隨著信息技術(shù)的更新悄無聲息的改變著,大數(shù)據(jù)成為時代變革的先行者。據(jù)權(quán)威機構(gòu)的不完全統(tǒng)計,超過百分之九十的數(shù)據(jù)是近兩年來才創(chuàng)造出來的。數(shù)據(jù)的巨大增長速度代表的不僅僅是發(fā)展速度,還代表著巨大的數(shù)據(jù)信息量。
數(shù)據(jù)挖掘是大數(shù)據(jù)時代的一項重要技術(shù)。數(shù)據(jù)挖掘可以從大量的數(shù)據(jù)中搜索出隱藏在大量數(shù)據(jù)中具有特殊關(guān)系型的信息過程。它是數(shù)據(jù)庫知識發(fā)現(xiàn)KDD中的重要步驟。知識發(fā)現(xiàn)KDD過程包括數(shù)據(jù)準備、數(shù)據(jù)挖掘、結(jié)果表示和解釋三個階段。數(shù)據(jù)挖掘需要數(shù)據(jù)庫技術(shù)、統(tǒng)計學、人工智能、云計算和可視化等學科的積極配合。
數(shù)據(jù)挖掘的實際應(yīng)用功能大致分為分類去隔法、推算預(yù)測法、序列規(guī)則法等三類。具體又分為分類、聚類、回歸、時間、關(guān)聯(lián)、序列六個分項。數(shù)據(jù)挖掘利用這些分項功能對大量數(shù)據(jù)進行挖掘,發(fā)現(xiàn)那些被隱藏的信息對于社會的發(fā)展有巨大潛在價值。
數(shù)據(jù)挖掘過程是一個復(fù)雜的建模過程。大量的復(fù)雜數(shù)據(jù)為建模提供依據(jù),各種數(shù)理模型能夠?qū)Υ罅繑?shù)據(jù)進行有效的分析和整理,從而獲取有用的信息數(shù)據(jù)幫助用戶了解情況,為客戶劃分市場尋找對策提供最基礎(chǔ)最有效的數(shù)據(jù)支持。在數(shù)據(jù)挖掘過程中經(jīng)常需要統(tǒng)計分析的一些知識和方法的支持。數(shù)據(jù)挖掘過程是一個復(fù)雜而細致的過程,數(shù)據(jù)挖掘過程還需要聯(lián)機分析與處理系統(tǒng)、專家系統(tǒng)及模式識別系統(tǒng)等科學方法的支持。數(shù)據(jù)挖掘是一種運用數(shù)據(jù)搜素技術(shù)分析整理企業(yè)所需技術(shù)的方法。規(guī)律性的聯(lián)系被隱藏在大量的數(shù)據(jù)中,數(shù)據(jù)挖掘就是把這種隱藏關(guān)系進行搜索和分析,在數(shù)據(jù)挖掘過程中,通過數(shù)據(jù)建模對大量數(shù)據(jù)進行分析,利用數(shù)據(jù)模型把隱藏在大量數(shù)據(jù)之中的關(guān)聯(lián)性、規(guī)律性從數(shù)據(jù)中提取出來。
當今社會已經(jīng)進入大數(shù)據(jù)時代,從數(shù)據(jù)的快速發(fā)展來看,工業(yè)、農(nóng)業(yè)、教育和軍事等多個信息化的發(fā)展過程中肯定會產(chǎn)生龐大的信息數(shù)據(jù)需要處理,這就對數(shù)據(jù)挖掘和數(shù)據(jù)分析提出更高的要求。隨著社會的發(fā)展,數(shù)據(jù)在不斷的增加和更新,數(shù)據(jù)挖掘和分析的技術(shù)也在不斷的進步。現(xiàn)行條件下數(shù)據(jù)分析方法大致分為描述性分析、推斷性分析、差異性分析、相關(guān)性分析、預(yù)測分析五大類。這幾種數(shù)據(jù)分析方法相互配合,為企業(yè)或機構(gòu)的發(fā)展和需求提供必要的數(shù)據(jù)分析結(jié)構(gòu)和信息資源,促進企業(yè)或機構(gòu)的高效管理和競爭力。
由于企業(yè)對大數(shù)據(jù)資源有開發(fā)方面的需求,于是便有了數(shù)據(jù)的深度挖掘。企業(yè)擁有大量寶貴的數(shù)據(jù)資源,它們都希望從中提煉出最有用的信息與線索。深度數(shù)據(jù)挖掘包括了準備階段、挖掘階段以及結(jié)果的表達和解釋工作。數(shù)據(jù)挖掘的手段也有很多,諸如關(guān)聯(lián)分析、分類分析、聚類分析、特異群組分析以及演變態(tài)勢分析等。根據(jù)數(shù)據(jù)中的差異性,可以很好地建立分類模型,這樣做有十分明顯的作用,它能夠把狀態(tài)細分化,實施更具有針對性的營銷,找到更有價值的客戶群體??梢栽谶M行正式分類前先進行一次估計,然后根據(jù)估計結(jié)果對數(shù)據(jù)進行預(yù)分類,再進行修正直到達到更好。
對數(shù)據(jù)進行預(yù)測有著十分重要的意義,這是對數(shù)據(jù)進行深度挖掘的一個不能缺少的過程,也是對于數(shù)據(jù)挖掘更為高級的應(yīng)用。預(yù)測不僅是估計大數(shù)據(jù),更要求根據(jù)這些大數(shù)據(jù)進行準確的預(yù)判。預(yù)測要對以前做好的大數(shù)據(jù)集進行分析整理,對它所代表的現(xiàn)實世界進行抽象,初步得到最基本的模型,然后從信度及效度兩個方面對模型進行檢驗,確保建立的模型的準確性。建立模型只是一個對數(shù)據(jù)進行模擬的過程,其目的是通過這一過程對未來趨勢進行預(yù)測,盡量達到準確。數(shù)據(jù)本身是過去的,從這一方面來說它們只能代表過去,但是我們可以通過模型找到其產(chǎn)生的基本機制,使預(yù)測成為可能并有準確性。過去的數(shù)據(jù)并不只是能夠表示過去,它們是十分珍貴的財富,因為從這些數(shù)據(jù)之中我們能夠預(yù)測未來。預(yù)測是一個復(fù)雜的過程,據(jù)統(tǒng)計,目前有關(guān)預(yù)測已經(jīng)存在的模型已經(jīng)有了幾百種,就算是最常用模型的也有好幾十種,因此這個過程有待于進一步提高和改進?,F(xiàn)實世界是復(fù)雜的,雖然說預(yù)測技術(shù)到目前有了突飛猛進的發(fā)展,但是預(yù)測只是預(yù)測,永遠都替代不了現(xiàn)實,而且任何已經(jīng)存在的模型都不一定比量身定做出來的更符合當前的業(yè)務(wù)。目前,可以運用于大部分企業(yè)應(yīng)用的模型有很多種,包括多元回歸、非線性回歸、AR模型、MA模型等各種各樣的預(yù)測模型。還有一些是專業(yè)級統(tǒng)計應(yīng)用軟件,比如矩陣實驗室、SAS、SPSS、MATLAB等,這些也為深度數(shù)據(jù)挖掘提供了便利條件。
如果說數(shù)據(jù)挖掘提高了企業(yè)的洞察力,那么大數(shù)據(jù)管理的精細程度則為企業(yè)提供了數(shù)據(jù)管理方面的保障。目前,大數(shù)據(jù)的精細管理僅限于大型企業(yè),尤其是互聯(lián)網(wǎng)或其他高科技企業(yè),因為龐大的數(shù)據(jù)量在目前并不會出現(xiàn)于普通百姓之家,即使一些企業(yè)有數(shù)十年的數(shù)據(jù)量,也都沒有達到大數(shù)據(jù)的水平。不管是以利潤為中心,還是以客戶為中心,大數(shù)據(jù)的精細管理都是一種推動力量,有利于推動企業(yè)的發(fā)展。大數(shù)據(jù)的精細管理為其提供了管理方面的基礎(chǔ),同時為差異化競爭提供了原始理論方面的強有力支撐。目前大型企業(yè)在精細管理方面存在著不少問題,正是由于這些問題的存在才導(dǎo)致企業(yè)主營業(yè)務(wù)缺乏方向性、針對性、導(dǎo)向性以及向心性等諸多問題。
“大數(shù)據(jù)”這個概念雖然在近幾年內(nèi)才出現(xiàn),但是這個概念卻迅速的被世界各地人民所接受和應(yīng)用。大數(shù)據(jù)挖掘和分析技術(shù)需要各地人民進行努力。我國在大數(shù)據(jù)挖掘和分析的道路上需要加強對大數(shù)據(jù)的獲取與掌握的重視加快對大數(shù)據(jù)挖掘和分析。
[1]維克托·邁爾-舍恩伯格著,周濤譯.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2012.
[2]魏娟,梁靜國.基于數(shù)據(jù)挖掘技術(shù)的企業(yè)客戶關(guān)系管理(CRM)[J].商業(yè)研究,2009(05).
[3]田苗苗.數(shù)據(jù)挖掘之決策樹方法概述[J].長春大學學報,2008(07).