李濤 劉崢 周綺鳳
摘要:認(rèn)為大數(shù)據(jù)挖掘的核心和本質(zhì)是應(yīng)用、數(shù)據(jù)、算法和平臺(tái)4個(gè)要素的緊密結(jié)合。 從大數(shù)據(jù)的特點(diǎn)出發(fā),結(jié)合大數(shù)據(jù)挖掘的案例,提出大數(shù)據(jù)挖掘中的平臺(tái)架構(gòu)、數(shù)據(jù)獲取和預(yù)處理、算法的選擇和集成都是應(yīng)用驅(qū)動(dòng)的。強(qiáng)調(diào)大數(shù)據(jù)挖掘的目標(biāo)來自實(shí)際應(yīng)用的真實(shí)需求,只有結(jié)合具體應(yīng)用數(shù)據(jù)和適合應(yīng)用的算法,利用高效處理平臺(tái)的支撐,并將挖掘到的模式或知識(shí)應(yīng)用在實(shí)踐中,才能體現(xiàn)大數(shù)據(jù)挖掘的真正價(jià)值。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;應(yīng)用驅(qū)動(dòng);FIU-Miner;高端制造業(yè)
Abstract:The core of big data analysis is the combination of applications, data, algorithms and platforms. Big data mining platforms, algorithms, and big data itself are driven by applications. Big data mining tasks come from real applications. With specific application data and appropriate algorithms, using efficient processing platform, digging into the patterns or knowledge in practice, big data mining platform can show its true value.
Key words:big data; data mining; application-driven; FIU-Miner; advanced manufacturing
1 大數(shù)據(jù)時(shí)代的發(fā)展
數(shù)字化變革推動(dòng)信息技術(shù)(IT)和通信技術(shù)(CT)的飛速發(fā)展,人類社會(huì)所產(chǎn)出的信息總量呈爆發(fā)式增長(zhǎng)。一方面,各行各業(yè)在日常運(yùn)作中借助IT產(chǎn)生和存儲(chǔ)了海量的運(yùn)營(yíng)數(shù)據(jù),如商業(yè)運(yùn)營(yíng)、金融證券、健康醫(yī)療、科學(xué)研究等,分布在世界各地的10 000多家沃爾瑪超市1 h需要處理百萬條以上顧客的消費(fèi)記錄,數(shù)據(jù)量高達(dá)2.5 PB[1],歐洲的大型電子對(duì)撞機(jī)每天產(chǎn)生的記錄有500 EB[2];另一方面,CT使得全世界數(shù)十億用戶通過互聯(lián)網(wǎng)鏈接在一起。目前全球移動(dòng)互聯(lián)網(wǎng)的流量每月約4.2 EB,思科預(yù)計(jì): 2019年全球移動(dòng)互聯(lián)網(wǎng)的流量會(huì)增長(zhǎng)到每年292 EB[3]。
這些海量數(shù)據(jù)被稱為大數(shù)據(jù)。維基百科對(duì)大數(shù)據(jù)的定義是:“大數(shù)據(jù)是由于規(guī)模、復(fù)雜性、實(shí)時(shí)性而導(dǎo)致的無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其進(jìn)行獲取、存貯、搜索、分享、分析、可視化的數(shù)據(jù)集合”[4]。知名技術(shù)咨詢公司Gartner對(duì)大數(shù)據(jù)的定義是:“大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)”[5]。
大數(shù)據(jù)技術(shù)的發(fā)展使得收集、處理、管理、分析在各行各業(yè)產(chǎn)生的海量數(shù)據(jù)成為可能:企業(yè)利用大數(shù)據(jù)技術(shù)理解客戶的屬性和行為,可以提供給客戶更好的個(gè)性化服務(wù),并可以利用大數(shù)據(jù)技術(shù)改善和優(yōu)化商業(yè)流程,提高企業(yè)的運(yùn)營(yíng)效率;政府通過大數(shù)據(jù)技術(shù)來更智能的管理城市,包括公共交通、醫(yī)療服務(wù)、可持續(xù)性發(fā)展[7]等;超市可以向用戶推銷所需的商品;車險(xiǎn)公司可以知道客戶的駕駛水平;甚至2012年的美國(guó)總統(tǒng)大選,奧巴馬的競(jìng)選團(tuán)隊(duì)也是依賴卓越的大數(shù)據(jù)分析取得勝利。大數(shù)據(jù)已經(jīng)融入各行各業(yè),大數(shù)據(jù)時(shí)代已經(jīng)來臨。
2 大數(shù)據(jù)的特點(diǎn)與理解
2.1 大數(shù)據(jù)的特點(diǎn)
目前業(yè)界普遍用4V的特點(diǎn)來衡量大數(shù)據(jù)所帶來的挑戰(zhàn)[7],從數(shù)據(jù)本身的表現(xiàn)形式上描述了大數(shù)據(jù)與以往部分抽樣的“小數(shù)據(jù)”的主要區(qū)別。
大量(Volume):大數(shù)據(jù)的體量巨大,從TB級(jí)別躍升到PB級(jí)別;
多樣(Variety):大數(shù)據(jù)面對(duì)數(shù)據(jù)類型種類繁多,例如地理位置等結(jié)構(gòu)化數(shù)據(jù),事件日志等非結(jié)構(gòu)化數(shù)據(jù),還包括圖片、視頻等多媒體數(shù)據(jù)等;
高速(Velocity):大數(shù)據(jù)產(chǎn)生和累計(jì)的速度快,要求處理速度快,做到實(shí)時(shí)分析,和傳統(tǒng)的離線方式的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同;
價(jià)值(Value):大數(shù)據(jù)所蘊(yùn)含的價(jià)值密度低,但有效價(jià)值高,合理利用低密度價(jià)值的數(shù)據(jù)并對(duì)其進(jìn)行正確、準(zhǔn)確的分析,將會(huì)帶來巨大的商業(yè)和社會(huì)價(jià)值。
從現(xiàn)有的一些大數(shù)據(jù)挖掘應(yīng)用案例出發(fā)[8],大數(shù)據(jù)挖掘的流程可以總結(jié)為:
(1)準(zhǔn)確定義大數(shù)據(jù)挖掘問題的目標(biāo);
(2)獲取大數(shù)據(jù),并對(duì)收集到的大數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗等預(yù)處理;
(3)選擇合適的大數(shù)據(jù)挖掘平臺(tái)架構(gòu)和算法;
(4)進(jìn)行大數(shù)據(jù)挖掘;
(5)理解所發(fā)現(xiàn)的模式或應(yīng)用所產(chǎn)生的知識(shí)。
可以看到:只有應(yīng)用才能體現(xiàn)大數(shù)據(jù)的價(jià)值。在大數(shù)據(jù)挖掘的流程和案例中,可以充分體現(xiàn)出實(shí)際應(yīng)用中大數(shù)據(jù)所具有的以下一些新的4V的特點(diǎn):
變化性(Variable):不同的應(yīng)用場(chǎng)景、不同的研究目標(biāo)下,大數(shù)據(jù)的機(jī)構(gòu)和意義均會(huì)發(fā)生變化,在大數(shù)據(jù)的實(shí)際應(yīng)用和研究中需要考慮具體的上下文,從而體現(xiàn)大數(shù)據(jù)的價(jià)值。
真實(shí)性(Veracity):大數(shù)據(jù)應(yīng)用的基礎(chǔ)是真實(shí)、可靠的大數(shù)據(jù),它們是保證分析結(jié)果準(zhǔn)確、挖掘知識(shí)有效的前提,只有真實(shí)而準(zhǔn)確的大數(shù)據(jù)才能獲取真正有意義的結(jié)果。
波動(dòng)性(Volatility):大數(shù)據(jù)本身往往含有噪音,加上有時(shí)分析流程的不規(guī)范,導(dǎo)致不同的算法、不同的分析流程、不同的衡量標(biāo)準(zhǔn)下,會(huì)得到不同的分析結(jié)果。
可視化(Visualization):數(shù)據(jù)可視化可以在大數(shù)據(jù)應(yīng)用中直觀地闡述分析的結(jié)果以及數(shù)據(jù)的意義,幫助用戶更好地理解、應(yīng)用大數(shù)據(jù)。
2.2 應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)架構(gòu)
從上述大數(shù)據(jù)本身的表現(xiàn)形式上的4V特點(diǎn)出發(fā),結(jié)合實(shí)際應(yīng)用中大數(shù)據(jù)所具有的新4V特點(diǎn),我們認(rèn)為大數(shù)據(jù)的核心和本質(zhì)是應(yīng)用、算法、數(shù)據(jù)和平臺(tái)4個(gè)要素的有機(jī)結(jié)合,如圖1所示。大數(shù)據(jù)的基礎(chǔ)是平臺(tái)架構(gòu),數(shù)據(jù)和算法是大數(shù)據(jù)的核心,而實(shí)際應(yīng)用是大數(shù)據(jù)的關(guān)鍵。上文所述的大數(shù)據(jù)挖掘的流程中,大數(shù)據(jù)挖掘的目標(biāo)必須是來自實(shí)際應(yīng)用的真實(shí)需求,只有結(jié)合具體應(yīng)用數(shù)據(jù)和適合應(yīng)用的算法,利用高效處理平臺(tái)的有效支撐,并將挖掘到的模式或知識(shí)應(yīng)用在實(shí)踐中,才能提供量化、合理、可行、有價(jià)值的信息。這個(gè)應(yīng)用、算法、數(shù)據(jù)和平臺(tái)相結(jié)合的思想體現(xiàn)了大數(shù)據(jù)的本質(zhì)和核心,可見大數(shù)據(jù)挖掘是應(yīng)用驅(qū)動(dòng)的,應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)挖掘能夠有效處理大數(shù)據(jù)的復(fù)雜特征,體現(xiàn)大數(shù)據(jù)挖掘的價(jià)值。
3 應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)挖掘
3.1 應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)平臺(tái)
一個(gè)高效的大數(shù)據(jù)平臺(tái)可以有力地支撐海量數(shù)據(jù)的集成和數(shù)據(jù)挖掘算法,以及可視化的步驟執(zhí)行,并可以利用規(guī)范的數(shù)據(jù)分析流程來保證結(jié)果的穩(wěn)定性。傳統(tǒng)的數(shù)據(jù)挖掘工具,如Weka、統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案(SPSS)等提供了友好的用戶界面,但并不適合對(duì)海量數(shù)據(jù)進(jìn)行挖掘分析。另外,最終用戶很難對(duì)這些商業(yè)工具添加應(yīng)用所需的合適算法。流行的數(shù)據(jù)挖掘算法庫,如Mahout,提供了大量的數(shù)據(jù)挖掘算法,但需要數(shù)據(jù)挖掘?qū)<襾磉M(jìn)行任務(wù)配置和算法集成,才能解決具體應(yīng)用中的數(shù)據(jù)挖掘任務(wù)。最近出現(xiàn)的大數(shù)據(jù)挖掘產(chǎn)品,如Radoop等對(duì)于非基于Hadoop的算法支持有限,在多用戶、多任務(wù)環(huán)境下的資源分配上也存在不足。
應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)平臺(tái)應(yīng)該滿足如下關(guān)鍵需求:
(1)人性化、友好的用戶界面,快速任務(wù)配置;
(2)靈活的多語言,多算法集成;
(3)高效的分布式異構(gòu)環(huán)境下的資源管理。
我們以一個(gè)快速、集成和用戶友好的分布式數(shù)據(jù)挖掘系統(tǒng)(FIU-Miner)[9]為例介紹應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)平臺(tái)如何滿足這些需求。FIU-Miner友好的用戶界面可以可視化地直接將現(xiàn)有算法配置成工作流,甚至無需編寫任何代碼,其他與挖掘任務(wù)無關(guān)的底層細(xì)節(jié)都由FIU-Miner進(jìn)行管理。FIU-Miner不僅支持直接導(dǎo)入外部算法庫來擴(kuò)充分析工具集合,還會(huì)根據(jù)所導(dǎo)入算法的語言和運(yùn)行環(huán)境自動(dòng)分配對(duì)應(yīng)任務(wù)到合適的計(jì)算節(jié)點(diǎn)。FIU-Miner可以支持各種異構(gòu)的計(jì)算環(huán)境,包括PC、服務(wù)器、圖形處理器(GPU)工作站等,同時(shí)根據(jù)算法實(shí)現(xiàn)、負(fù)載平衡、數(shù)據(jù)位置等因素來優(yōu)化計(jì)算資源的利用率。
如圖2所示的FIU-Miner的系統(tǒng)架構(gòu),包括用戶界面層、任務(wù)和系統(tǒng)管理層、抽象計(jì)算資源層和異構(gòu)物理資源層。抽象計(jì)算資源層屏蔽了不同物理環(huán)境給大數(shù)據(jù)挖掘帶來的資源調(diào)度的復(fù)雜度,提高了分布式計(jì)算的效率;任務(wù)及系統(tǒng)管理層方便了不同數(shù)據(jù)挖掘算法的集成,多種分析任務(wù)的配置管理;友好的用戶接口為基于FIU-Miner構(gòu)建不同的大數(shù)據(jù)挖掘應(yīng)用提供了極大的便捷,幫助數(shù)據(jù)分析人員方便有效地開展各項(xiàng)復(fù)雜的數(shù)據(jù)挖掘任務(wù)。
3.2 應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)獲取與預(yù)處理
大數(shù)據(jù)的獲取與預(yù)處理是應(yīng)用驅(qū)動(dòng)大數(shù)據(jù)挖掘的前提。以企業(yè)大數(shù)據(jù)挖掘?yàn)槔?,一個(gè)企業(yè)中所面臨的大數(shù)據(jù)的任務(wù)多種多樣,當(dāng)確定大數(shù)據(jù)挖掘任務(wù)的目標(biāo)時(shí),企業(yè)對(duì)挖掘的對(duì)象和所能發(fā)現(xiàn)的知識(shí)往往缺乏理解,而大企業(yè)的業(yè)務(wù)流程復(fù)雜,具體業(yè)務(wù)邏輯和數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系十分瑣碎,運(yùn)營(yíng)數(shù)據(jù)往往來自不同的數(shù)據(jù)源,具有不同的類型和格式,所以大數(shù)據(jù)通常無法預(yù)先規(guī)劃和準(zhǔn)備好,數(shù)據(jù)的獲取是一個(gè)難題。在具體應(yīng)用的大數(shù)據(jù)挖掘任務(wù)中,需要在數(shù)據(jù)的導(dǎo)入、整合上有很大的靈活性,只有通過業(yè)務(wù)人員和數(shù)據(jù)挖掘工程師的配合,不斷嘗試,才能有效地將企業(yè)的業(yè)務(wù)需求與數(shù)據(jù)挖掘的功能聯(lián)系起來。在大數(shù)據(jù)獲取過程中還需要根據(jù)應(yīng)用需求注意數(shù)據(jù)聚合過程中的隱私保護(hù),避免泄露用戶的敏感信息。
由于大數(shù)據(jù)的多樣性,所獲取和整合的大數(shù)據(jù)通常還不能直接應(yīng)用于數(shù)據(jù)挖掘算法,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,結(jié)合具體應(yīng)用處理數(shù)據(jù)的結(jié)構(gòu)信息,抽象數(shù)據(jù)的語義信息等,并需要對(duì)所獲得的大數(shù)據(jù)中的各種屬性進(jìn)行選擇,剔除與應(yīng)用無關(guān)的屬性,或者引入額外的抽象測(cè)度等。大數(shù)據(jù)的質(zhì)量是知識(shí)發(fā)現(xiàn)結(jié)果有效的保證,所以需要對(duì)數(shù)據(jù)中的噪音進(jìn)行過濾,對(duì)缺失值進(jìn)行處理。
3.3 應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘領(lǐng)域中的很多算法都是從實(shí)際應(yīng)用的具體需求衍生和發(fā)展出來的。從顧客交易數(shù)據(jù)分析到隱私保護(hù)數(shù)據(jù)挖掘,從文本數(shù)據(jù)挖掘到多媒體數(shù)據(jù)挖掘,從Web挖掘到社交網(wǎng)絡(luò)挖掘,這些不同子領(lǐng)域的算法都是由應(yīng)用推動(dòng)的。數(shù)據(jù)挖掘是個(gè)交叉學(xué)科,融合了統(tǒng)計(jì)分析、數(shù)據(jù)庫、信息檢索、機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能等領(lǐng)域的研究成果。大數(shù)據(jù)挖掘要以具體應(yīng)用為驅(qū)動(dòng),根據(jù)應(yīng)用數(shù)據(jù)特性,挖掘任務(wù)需求,選擇、集成相應(yīng)的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法,并根據(jù)需要進(jìn)一步進(jìn)行研究,在實(shí)際問題中得到應(yīng)用和驗(yàn)證。如基于關(guān)聯(lián)規(guī)則和時(shí)間序列分析的分類算法就是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)和時(shí)間序列模式識(shí)別的有機(jī)結(jié)合;半監(jiān)督學(xué)習(xí)和半監(jiān)督聚類也是分類和聚類的融合結(jié)果。在處理高維、稀疏的數(shù)據(jù)時(shí),數(shù)據(jù)的分布不明顯,需要注意算法的可靠性。在處理復(fù)雜關(guān)系網(wǎng)絡(luò)的數(shù)據(jù)時(shí),需要根據(jù)應(yīng)用的數(shù)據(jù)特征來研究能夠處理異構(gòu)信息網(wǎng)絡(luò)的圖挖掘算法。
4 應(yīng)用驅(qū)動(dòng)大數(shù)據(jù)挖掘的
應(yīng)用
4.1 高端制造業(yè)大數(shù)據(jù)挖掘挑戰(zhàn)
高端制造業(yè)是指制造業(yè)中新出現(xiàn)的具有高技術(shù)含量、高附加值、強(qiáng)競(jìng)爭(zhēng)力的產(chǎn)業(yè),包括電子半導(dǎo)體生產(chǎn)、精密儀器制造、生物制藥等。這些制造領(lǐng)域往往涉及嚴(yán)密的工程設(shè)計(jì),復(fù)雜的裝配生產(chǎn)線,大量的控制加工設(shè)備與工藝參數(shù),精確的過程控制和材料的嚴(yán)格規(guī)范。隨著信息技術(shù)在高端制造業(yè)中的普及,高端制造業(yè)中積累了大量的生成設(shè)計(jì)、機(jī)器設(shè)備、原材料、環(huán)境條件、生成流程等生產(chǎn)要素相關(guān)的歷史數(shù)據(jù),其中蘊(yùn)含了對(duì)生產(chǎn)和管理有幫助的高價(jià)值信息。通過大數(shù)據(jù)挖掘,企業(yè)可以把隱藏在這些海量數(shù)據(jù)中有用的、深層次的信息挖掘出來,用來指導(dǎo)流程控制、生產(chǎn)調(diào)度、優(yōu)化決策等方面,從而能夠在實(shí)際應(yīng)用中改進(jìn)產(chǎn)品品質(zhì),提升產(chǎn)品性能和生產(chǎn)效率,最終達(dá)到提高企業(yè)行業(yè)競(jìng)爭(zhēng)力的目的。
高端制造業(yè)中的數(shù)據(jù)挖掘面臨很多挑戰(zhàn)[10],比如:如何有效分析大規(guī)模數(shù)據(jù),如何保證對(duì)數(shù)據(jù)分析效率和分析結(jié)果的準(zhǔn)確性等。在實(shí)際應(yīng)用中,依靠傳統(tǒng)信息系統(tǒng)從海量數(shù)據(jù)中進(jìn)行查詢和報(bào)警或單純利用專家經(jīng)驗(yàn)來分析和發(fā)現(xiàn)潛在有價(jià)值的信息已經(jīng)變得不太現(xiàn)實(shí)。因此,企業(yè)需要利用數(shù)據(jù)分析技術(shù)、工具或平臺(tái),智能地從大量復(fù)雜的生產(chǎn)原始數(shù)據(jù)中發(fā)現(xiàn)新的模式和知識(shí)作為改善生產(chǎn)過程的決策依據(jù),系統(tǒng)性地提高生產(chǎn)效率。
4.2 等離子顯示器制造中基于
FIU-Miner 的大數(shù)據(jù)解決方案
四川虹歐顯示器件有限公司就是利用大數(shù)據(jù)挖掘來提高等離子屏的生產(chǎn)良率。我們可以通過下面這個(gè)案例來闡述應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)挖掘。等離子顯示器制造中大數(shù)據(jù)挖掘的難點(diǎn)是:自動(dòng)化的生產(chǎn)方式中自動(dòng)采集的數(shù)據(jù)急劇增長(zhǎng),需要強(qiáng)大的數(shù)據(jù)分析能力來支撐;大量的生成過程控制參數(shù)對(duì)高維數(shù)據(jù)分析的效率和結(jié)果的準(zhǔn)確性提出了更高要求。這個(gè)過程本身就是對(duì)數(shù)據(jù)進(jìn)行探索、分析和理解的一個(gè)循序漸進(jìn)的迭代過程。因此,一個(gè)實(shí)用的系統(tǒng)應(yīng)該提供一個(gè)集成的、高效率的分析平臺(tái)來支持這個(gè)過程。
在平臺(tái)方面,基于FIU-Miner,結(jié)合實(shí)際挖掘任務(wù)的具體需求和難點(diǎn),我們?cè)诩軜?gòu)上增加了數(shù)據(jù)分析層,如圖3所示。其中數(shù)據(jù)探索系統(tǒng)主要提供對(duì)數(shù)據(jù)的宏觀理解和快速預(yù)覽,以及敏感參數(shù)驗(yàn)證。利用聯(lián)機(jī)分析處理(OLAP)技術(shù)幫助分析人員快速掌握挖掘任務(wù)相關(guān)數(shù)據(jù)的特性,指導(dǎo)后續(xù)的數(shù)據(jù)預(yù)處理,如屬性選擇和測(cè)度建立等。數(shù)據(jù)分析系統(tǒng)集成了根據(jù)實(shí)際大數(shù)據(jù)挖掘任務(wù)的需要所選擇數(shù)據(jù)挖掘算法,包括參數(shù)選擇、參數(shù)配置和回歸分析。數(shù)據(jù)分析人員通過操作界面調(diào)用算法,聚焦具體的分析任務(wù),并且算法對(duì)數(shù)據(jù)分析人員透明。結(jié)果管理系統(tǒng)基于業(yè)務(wù)分析結(jié)果產(chǎn)生分析報(bào)告,這些分析報(bào)告可以直接給決策者提供決策依據(jù),同時(shí)報(bào)告系統(tǒng)也為領(lǐng)域?qū)<姨峁┦占答伒慕涌?。領(lǐng)域?qū)<抑R(shí)的引入對(duì)優(yōu)化模型、改進(jìn)算法具有很大的指導(dǎo)意義。
5 結(jié)束語
大數(shù)據(jù)一詞經(jīng)常被用以描述和指代信息爆炸時(shí)代產(chǎn)生的海量信息,研究大數(shù)據(jù)的意義在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的聯(lián)系。文章從大數(shù)據(jù)本身的表現(xiàn)形式的4V特點(diǎn)出發(fā),結(jié)合大數(shù)據(jù)挖掘的案例中體現(xiàn)的新4V特點(diǎn),提出應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)挖掘思想,指出大數(shù)據(jù)的本質(zhì)是應(yīng)用、算法、數(shù)據(jù)和平臺(tái)四個(gè)要素的有機(jī)結(jié)合。應(yīng)用驅(qū)動(dòng)的平臺(tái)、應(yīng)用驅(qū)動(dòng)的數(shù)據(jù)獲取和預(yù)處理、應(yīng)用驅(qū)動(dòng)的算法是大數(shù)據(jù)挖掘成功實(shí)施的關(guān)鍵。應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)挖掘在高端制造業(yè)的成功實(shí)施案例,驗(yàn)證了本文所提思想的正確性和可行性。未來,隨著大數(shù)據(jù)挖掘技術(shù)的不斷深入,應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)挖掘?qū)?huì)體現(xiàn)更大的價(jià)值和廣泛的應(yīng)用前景。
致謝
感謝南京郵電大學(xué)曾春秋、鄭理老師在本篇文章的撰寫過程中提出很多有意義的見解,并在相關(guān)工作中給予了很多幫助和貢獻(xiàn)。
參考文獻(xiàn)
[1] Data, Data Everywhere [EB/OL]. [2010-02-25]. http://www.economist.com/node/15557443
[2] HRUMFIEL G. High-EnergyPhysics: Down the Petabyte Highway [J]. Naure, 2011, 469(19): 282-283
[3] BAMETT J T, SUMITS A, JAIN S, et al, Global Mobile Data Traffic Forecast, 2014-2019 [EB/OL].[2015-02-18]. http://www.ciscoknowledgenetwork.com/files/496_02-24-15_VNI_Mobile_Forecast_Prezo_for_CKN.pdf
[4] Big Data [EB/OL]. [2013-02-22]. https://en.wikipedia.org/wiki/Big_data
[5] GARTER. What Is Big Data [EB/OL]. [2014-10-20]. http://www.gartner.com/it-glossary/big-data
[6] 周綺鳳, 李濤.大數(shù)據(jù)與計(jì)算可持續(xù)性[J]. 南京郵電大學(xué)學(xué)報(bào), 2015(5): 20-31
[7] 嚴(yán)霄鳳, 張德馨. 大數(shù)據(jù)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2013, 23(4): 168-172
[8] 李濤. 數(shù)據(jù)挖掘的應(yīng)用與實(shí)踐——大數(shù)據(jù)時(shí)代的案例分析[M]. 廈門:廈門大學(xué)出版社, 2015
[9] ZENG C, JIANG Y. ZHENG L, et al. Fiu-Miner: A Fast, Integrated, and User-Friendly System for Data Mining in Distributed Environment[C]// Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD13). USA: ACM, 2013: 1506-1509
[10] 李濤, 曾春秋, 周武柏等. 大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘——從應(yīng)用的角度看大數(shù)據(jù)挖掘[J]. 大數(shù)據(jù), 2015, 1(4) :11-17