張鑫
(蘭州財經(jīng)大學(xué)隴橋?qū)W院)
實際應(yīng)用的需求對大數(shù)據(jù)挖掘的推動
張鑫
(蘭州財經(jīng)大學(xué)隴橋?qū)W院)
實際應(yīng)用、大數(shù)據(jù)、挖掘算法和處理平臺4個要素的緊密結(jié)合構(gòu)成了大數(shù)據(jù)挖掘的核心.根據(jù)大數(shù)據(jù)的特征,分析相關(guān)案例,指出實際應(yīng)用的真實需求才是大數(shù)據(jù)挖掘的目標(biāo).大數(shù)據(jù)挖掘的價值體現(xiàn)必須結(jié)合應(yīng)用數(shù)據(jù)和與應(yīng)用匹配的算法,在數(shù)據(jù)處理平臺的支持下,將挖掘到的知識或模型去指導(dǎo)實踐.
數(shù)據(jù)挖掘;大數(shù)據(jù);應(yīng)用驅(qū)動
現(xiàn)今信息技術(shù)和通信技術(shù)飛速變革的推動力正是信息數(shù)字化,且在總量上信息也呈現(xiàn)爆炸式的增長.例如分布在全世界的10000多家沃爾瑪超市其1 h內(nèi)處理的消費記錄就在百萬條以上,數(shù)據(jù)量高達2.5PB[1].管中窺豹,在日常運作中各行各業(yè)會產(chǎn)生和存儲海量業(yè)務(wù)數(shù)據(jù).隨著通信技術(shù)的發(fā)展,地球變得越來越小,全世界通過互聯(lián)網(wǎng)鏈接在一起.思科預(yù)計:2019年全球移動互聯(lián)網(wǎng)的流量會增長到每年292EB[2].“大數(shù)據(jù)是由于規(guī)模、復(fù)雜性、實時性而導(dǎo)致的無法在一定時間內(nèi)用常規(guī)軟件工具對其進行獲取、存儲、搜索、分享、分析、可視化的數(shù)據(jù)集合”[3],這是維基百科給出的大數(shù)據(jù)定義.世界知名的技術(shù)咨詢公司Gartner給大數(shù)據(jù)下的定義則是:“大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)”[4].
收集、處理、管理、分析海量數(shù)據(jù);對客戶的行為進行分析并提供個性化服務(wù);改善和優(yōu)化業(yè)務(wù)流程,提高運營效率;以更智能的方式來管理城市等情況的出現(xiàn)正是由于大數(shù)據(jù)技術(shù)的支撐,大數(shù)據(jù)技術(shù)的飛速發(fā)展,已經(jīng)深刻地影響到了人類社會的各行各業(yè),在商業(yè)、經(jīng)濟及其他領(lǐng)域中,決策講日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗和直覺.可以這樣說,大數(shù)據(jù)時代已經(jīng)到來了.
2.1 特點
大數(shù)據(jù)帶給人們?nèi)齻€顛覆性觀念轉(zhuǎn)變:是全部數(shù)據(jù),而不是隨機采樣;是大體方向,而不是精確制導(dǎo);是相關(guān)關(guān)系,而不是因果關(guān)系[5].之所以稱其為“大數(shù)據(jù)”,正是因為它與以往的“小數(shù)據(jù)”有著很大的區(qū)別:(1)大量:數(shù)據(jù)量從TB級別躍升到PB(1000個T)、EB(100萬個T)乃至ZB(10億個T),體量巨大.IBM預(yù)測到2020年全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達到今天的44倍.(2)多樣:數(shù)據(jù)類型種類繁多.包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)處理能力提出了更高的要求;(3)高速:與傳統(tǒng)的數(shù)據(jù)挖掘處理方式不同,大數(shù)據(jù)要求響應(yīng)快、處理快,實時分析,如果無法通過及時處理反饋有效信息,那將是得不償失;(4)價值:數(shù)據(jù)價值密度低,要對其進行正確和準(zhǔn)確的分析,才能得到價值高的有效數(shù)據(jù),這些有效數(shù)據(jù)具有極大的商業(yè)和社會價值;(5)變化:不同的場景大數(shù)據(jù)的意義會發(fā)生變化,要考慮其實際應(yīng)用;(6)真實:只有真實可靠的數(shù)據(jù)才能保證數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確和有效;(7)波動:不同的算法、分析流程、標(biāo)準(zhǔn)會得到不同的分析結(jié)果;(8)可視化:為了能讓用戶更好地理解和應(yīng)用分析結(jié)果,將分析結(jié)果和數(shù)據(jù)意義以可視化的方式展現(xiàn)出來.
2.2 大數(shù)據(jù)架構(gòu)
從上面描述的大數(shù)據(jù)的特點并結(jié)合實際出發(fā),認為實際應(yīng)用、大數(shù)據(jù)、挖掘算法和處理平臺4個要素的緊密結(jié)合構(gòu)成了大數(shù)據(jù)的核心,其中處理平臺是基礎(chǔ),大數(shù)據(jù)和挖掘算法是核心,實際應(yīng)用是關(guān)鍵要素.從中可以分析出結(jié)合實際數(shù)據(jù)和適用算法,在處理平臺的支撐下,在實際應(yīng)用真實需求的推動下,將得到的成果應(yīng)用在實踐中才是大數(shù)據(jù)挖掘的目標(biāo).只有在實際應(yīng)用的推動下,大數(shù)據(jù)挖掘才能夠體現(xiàn)其真正的價值所在.
3.1 大數(shù)據(jù)平臺
能夠支撐海量數(shù)據(jù)處理、可視化操作并能夠保證結(jié)果穩(wěn)定性的平臺一定是一個高效的平臺.Weka、統(tǒng)計產(chǎn)品與服務(wù)解決方案(SPSS)等工具并不適合大數(shù)據(jù)挖掘;Mahout很難讓用戶添加其實際所需要的合適算法;Radoop對非基于Hadoop的算法支持有限,可見傳統(tǒng)的工具已很難滿足大數(shù)據(jù)挖掘的要求.
受實際應(yīng)用驅(qū)動的大數(shù)據(jù)處理平臺應(yīng)該滿足以下要求:(1)界面友好,任務(wù)配置方便快捷; (2)多語言、多算法集成,用戶能夠靈活選擇其所需的算法;(3)分布式異構(gòu)管理.
以分布式數(shù)據(jù)挖掘系統(tǒng)(FIU-Miner)[6]為例,看實際應(yīng)用驅(qū)動的高效大數(shù)據(jù)平臺是怎樣滿足上面提到的要求的.FIU-Miner整體的系統(tǒng)架構(gòu)有4部分構(gòu)成,從底層到高層分別為異構(gòu)物理資源層、抽象計算資源層、系統(tǒng)和任務(wù)管理層以及用戶界面層.FIU-Miner用戶界面友好,無需編寫代碼,與任務(wù)無關(guān)的底層細節(jié)由FIU-Miner管理,將相應(yīng)算法直接配置成工作流.用戶可以根據(jù)自己的實際應(yīng)用去構(gòu)建相應(yīng)的大數(shù)據(jù)挖掘應(yīng)用,對數(shù)據(jù)分析人員的開展復(fù)雜的數(shù)據(jù)挖掘任務(wù)提供了很大的幫助.FIU-Miner支持外部算法庫,支持各種各種異構(gòu)的計算環(huán)境,并可以根據(jù)算法實現(xiàn)、負載平衡、數(shù)據(jù)位置等要素來優(yōu)化資源配置,提高計算效率.
3.2 大數(shù)據(jù)的獲取與預(yù)處理
在進行大數(shù)據(jù)挖掘之前首先要做的工作是數(shù)據(jù)獲取和數(shù)據(jù)預(yù)處理.以大型企業(yè)為例,在一個企業(yè)當(dāng)中,它所面臨的數(shù)據(jù)任務(wù)是各種各樣的.當(dāng)其確定某個任務(wù)目標(biāo)時,缺乏對挖掘?qū)ο蠛桶l(fā)現(xiàn)知識的理解是一個常見的現(xiàn)象,并且由于企業(yè)規(guī)模巨大,其業(yè)務(wù)流程非常復(fù)雜,具體的業(yè)務(wù)邏輯和數(shù)據(jù)之間的關(guān)系十分瑣碎,其數(shù)據(jù)來源復(fù)雜,數(shù)據(jù)獲取非常困難,導(dǎo)致即使任務(wù)比較小,也由于上述原因而難以達到預(yù)期的目標(biāo).在具體應(yīng)用大數(shù)據(jù)挖掘時,需要在數(shù)據(jù)導(dǎo)入、整合上具有很高的靈活性,只有業(yè)務(wù)人員和數(shù)據(jù)挖掘工程師不斷地嘗試、配合,才能將企業(yè)的需求和數(shù)據(jù)挖掘的功能有效、準(zhǔn)確的關(guān)聯(lián)起來,并且在數(shù)據(jù)獲取的過程中還要高度重視數(shù)據(jù)聚合過程中的數(shù)據(jù)保護問題,避免泄露用戶的隱私和敏感數(shù)據(jù).
由于數(shù)據(jù)來源的多樣性.所收集的數(shù)據(jù)還不能直接應(yīng)用相應(yīng)的挖掘算法,需要對數(shù)據(jù)進行預(yù)處理,對數(shù)據(jù)中的噪音和缺失值進行處理和過濾.
3.3 挖掘算法
從顧客交易數(shù)據(jù)分析到隱私保護數(shù)據(jù)挖掘,從文本數(shù)據(jù)到多媒體數(shù)據(jù),這些領(lǐng)域的算法都是由應(yīng)用驅(qū)動的,數(shù)據(jù)挖掘中的很多算法都是從實際應(yīng)用中衍生和發(fā)展出來的.數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、模式識別、統(tǒng)計分析、人工智能、機器學(xué)習(xí)、信息檢索等領(lǐng)域,是一個新興的交叉學(xué)科.要以實際應(yīng)用為出發(fā)點驅(qū)動大數(shù)據(jù)挖掘,根據(jù)任務(wù)目標(biāo)、需求特性、數(shù)據(jù)特征,去選擇與實際應(yīng)用相適應(yīng)的算法,并要進一步在實際應(yīng)用中去驗證算法的合理性和準(zhǔn)確性.在處理稀疏、高維的數(shù)據(jù)時,要注意算法的可靠性.在處理復(fù)雜關(guān)系網(wǎng)絡(luò)的數(shù)據(jù)時,要根據(jù)數(shù)據(jù)特征來研究選擇相應(yīng)的算法.
4.1 高端制造業(yè)面臨的大數(shù)據(jù)挖掘挑戰(zhàn)
高端制造業(yè)處于整個制造業(yè)價值鏈的高端環(huán)節(jié),具有知識、技術(shù)密集,附加值高,成長性好,關(guān)鍵性強,帶動性大,信息密集度高,低污染,低排放,強競爭力的特點,包括生物制藥、精密儀器制造、電子設(shè)備制造、軌道交通裝備制造等.這些制造領(lǐng)域往往涉及材料的嚴(yán)格規(guī)范、大量的控制加工設(shè)備、精確的過程控制、大量的工藝參數(shù)、嚴(yán)密的工程設(shè)計和復(fù)雜的裝配生產(chǎn)線.環(huán)境條件、生成設(shè)計、機器設(shè)備、生產(chǎn)流程、原材料等與生產(chǎn)要素相關(guān)的環(huán)節(jié)都積累的大量的歷史數(shù)據(jù),其中蘊含著高價值信息.企業(yè)可以通過大數(shù)據(jù)挖掘,將其中高價值數(shù)據(jù)挖掘出來,去指導(dǎo)企業(yè)的相關(guān)業(yè)務(wù)流程,改進產(chǎn)品品質(zhì),提升產(chǎn)品性能,提高生產(chǎn)效率,最終達到提高企業(yè)整體競爭力的目的.
高端制造業(yè)中的數(shù)據(jù)挖掘面臨很多挑戰(zhàn)[7],例如:如何保證數(shù)據(jù)分析結(jié)果的準(zhǔn)確性、如何有效分析大數(shù)據(jù)等.依靠傳統(tǒng)的信息系統(tǒng)或?qū)<医?jīng)驗來分析大數(shù)據(jù)已經(jīng)變得不現(xiàn)實.因此,利用數(shù)據(jù)分析技術(shù)、工具或平臺,智能地從復(fù)雜的海量原始生產(chǎn)數(shù)據(jù)中進行大數(shù)據(jù)挖掘,為企業(yè)提供決策依據(jù),提高系統(tǒng)生產(chǎn)效率已經(jīng)成為企業(yè)迫切的需求.
4.2 基于FIU-Miner的大數(shù)據(jù)解決方案案例
惠科(深圳)電子有限公司就是利用大數(shù)據(jù)挖掘來提高液晶顯示屏的良品率.通過這個案例來闡述受實際應(yīng)用推動的大數(shù)據(jù)挖掘在企業(yè)中的應(yīng)用.在液晶顯示屏制造的過程中,隨著企業(yè)自動化程度的提高,在生產(chǎn)流程中自動采集到的數(shù)據(jù)量急劇增長,生產(chǎn)流程中大量的控制參數(shù)也隨之生成,在對數(shù)據(jù)進行分析和理解的過程中,需要強大、高效率的數(shù)據(jù)分析能力來提供支撐,保證結(jié)果的準(zhǔn)確性.因此,一個集成的、高效的數(shù)據(jù)分析處理平臺是整個數(shù)據(jù)挖掘應(yīng)用系統(tǒng)的基礎(chǔ)和支撐.
在平臺方面,基于FIU-Mining,結(jié)合實際任務(wù)目標(biāo)的需求,在整個架構(gòu)上增加了一個數(shù)據(jù)分析層.在整個系統(tǒng)中,數(shù)據(jù)探索模塊主要提供對數(shù)據(jù)的宏觀理解和快速預(yù)覽.利用聯(lián)機分析處理(OLAP)技術(shù)幫助數(shù)據(jù)分析人員快速建立相關(guān)數(shù)據(jù)的特征,指導(dǎo)后續(xù)的數(shù)據(jù)預(yù)處理過程.數(shù)據(jù)分析模塊主要是用來選擇數(shù)據(jù)挖掘算法和設(shè)置已選算法所需要的參數(shù).數(shù)據(jù)分析人員通過調(diào)用相應(yīng)的算法去聚焦具體的任務(wù).結(jié)果管理模塊主要是用來產(chǎn)生分析報告,這些報告可以為企業(yè)的決策者提供決策支持.同時該模塊還提供有為領(lǐng)域?qū)<翌A(yù)留的接口,方便引入領(lǐng)域?qū)<抑R.
該文從大數(shù)據(jù)本身的特點出發(fā),結(jié)合大數(shù)據(jù)挖掘案例,提出了大數(shù)據(jù)的核心和本質(zhì)是實際應(yīng)用、大數(shù)據(jù)、挖掘算法和處理平臺4個要素的緊密結(jié)合,并且大數(shù)據(jù)挖掘的發(fā)展是受實際應(yīng)用推動的.實際應(yīng)用驅(qū)動的平臺,實際應(yīng)用驅(qū)動的算法,實際應(yīng)用驅(qū)動的數(shù)據(jù)收集,實際應(yīng)用驅(qū)動的數(shù)據(jù)預(yù)處理,都是能夠成功實施大數(shù)據(jù)挖掘的關(guān)鍵.未來,將是大數(shù)據(jù)的時代,“得數(shù)據(jù)者得天下”.隨著大數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,大數(shù)據(jù)挖掘在實際應(yīng)用的推動下,將會展現(xiàn)出更廣的應(yīng)用前景,體現(xiàn)更大的價值.
[1]Data,DataEverywhere.http://www.economist.com/node/ 15557443,2010-02-25.
[2]BAMETT J T,SUMITS A,JAIN S,et al.GLOBAL Mobile Data Traffic Forecast,2014-2019.
[3]Big Data.http://en.wikipedia.org/wiki/Big_data,2013-02-22.
[4]Garter.What Is Big Data..http://www.gartner.com/itGlossary/big-data,2014-10-20.
[5]成佑城.大數(shù)據(jù)時代下的大數(shù)據(jù)到底有多大[J].中國大數(shù)據(jù),2014,3(6):22-25.
[6]Zeng C,Jiang Y,Xheng L,et al.Fiu_Miner:AFast.Integrated,and User-Friendly System for Data Mining in Distributed Environment[C]//Proceedings of the 19thACM SIGKDD international conference on Knowledge Discovery and Data Mining(KDD'13).USA:ACM,2013:1506-1509.
[7]李濤,曾春秋,周武柏,等.大數(shù)據(jù)時代的數(shù)據(jù)挖掘—從應(yīng)用的角度看大數(shù)據(jù)挖掘[J].大數(shù)據(jù),2015,1(4):11-17.
From the Practical Application of the Demand for Large Data Mining to Promote
Zhang Xin
(Lanzhou Longqiao College University of Finance)
The core of large data mining are composed of the four elements which are practical application,largedata,mining algorithm and processing platform.According to the characteristics of large data,the relevant cases are analyzed and the goal of large data mining of the real needs of practical applications are pointed out.The value of large data mining must be combined with application data and algorithm matching with the application.With the support of the data processing platform,the practice is guided by the knowledge or model.
Datamining;Largedata;Application-driven
TP274
:A
:1000-5617(2017)01-0075-04
(責(zé)任編輯:李家云)
2016-12-11