楊曉丹
摘 要:隨著中國信息技術(shù)的快速發(fā)展,出現(xiàn)了一種由互聯(lián)網(wǎng)為基礎(chǔ)的業(yè)務(wù)模式,叫做云計算。云計算業(yè)務(wù)發(fā)展的關(guān)鍵在于互聯(lián)網(wǎng)發(fā)展水平和網(wǎng)絡(luò)質(zhì)量,本文將從云計算入手,具體剖析大數(shù)據(jù)挖掘的內(nèi)涵及大數(shù)據(jù)挖掘構(gòu)建體系,研究大數(shù)據(jù)挖掘基于傳統(tǒng)數(shù)據(jù)挖掘的對策。
關(guān)鍵詞:云計算;大數(shù)據(jù)挖掘;內(nèi)涵;對策
隨著信息技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算滲入到人們的生活中來,海量信息鋪天蓋地而來,推動著大數(shù)據(jù)的高速發(fā)展,迎來了大數(shù)據(jù)時代。目前,大數(shù)據(jù)已經(jīng)成為一種重要的生產(chǎn)要素,基于云計算技術(shù),數(shù)據(jù)擁有豐富的資源信息及巨大的儲存量,大數(shù)據(jù)面臨著機遇和挑戰(zhàn)。這個時候,大數(shù)據(jù)挖掘的出現(xiàn)給大數(shù)據(jù)面臨的挑戰(zhàn)帶來了希望,即利用大數(shù)據(jù)挖掘來應(yīng)對挑戰(zhàn)[1]。但是,大數(shù)據(jù)的構(gòu)建沒有完善,仍然無法滿足客戶的需求,在尋求解決措施的過程中,障礙重重。需要對大數(shù)據(jù)挖掘進行詳細地分析,探討出相應(yīng)的對策。本文將從大數(shù)據(jù)挖掘的內(nèi)涵入手,剖析出基于云計算的大數(shù)據(jù)挖掘?qū)Σ?,幫助大?shù)據(jù)挖掘直面挑戰(zhàn),推動大數(shù)據(jù)更好更快地發(fā)展,滿足客戶的需求服務(wù)。
一、大數(shù)據(jù)挖掘的內(nèi)涵
大數(shù)據(jù)挖掘?qū)嶋H上是從類型豐富、動態(tài)更新、高密度、價值低的大數(shù)據(jù)中替客戶挖掘出一些有價值的、潛在的信息,滿足客戶的需求,服務(wù)于客戶。大數(shù)據(jù)挖掘的真正目的就是挖掘出有價值的信息。筆者將從大數(shù)據(jù)的發(fā)展背景及現(xiàn)狀、處理對象、挖掘程度來剖析大數(shù)據(jù)挖掘的內(nèi)涵,對大數(shù)據(jù)挖掘進一步了解、認識。
(一)大數(shù)據(jù)的發(fā)展背景及現(xiàn)狀
目前是科學(xué)技術(shù)飛速發(fā)展的時代,網(wǎng)絡(luò)信息技術(shù)遍布世界各地,使人們越來越離不開網(wǎng)絡(luò)。但面對鋪天蓋地的信息,人們要怎樣有高效率地獲取有用的信息進行學(xué)習(xí)、工作、生活呢?這是大數(shù)據(jù)時代急需解決的重大問題。大數(shù)據(jù)挖掘具備大體積量、復(fù)雜多變的特征,其處理分析能力較傳統(tǒng)數(shù)據(jù)挖掘有著很大的差別,大數(shù)據(jù)現(xiàn)在已經(jīng)能夠獨立發(fā)展甚至擁有更加廣闊的發(fā)展空間。在互聯(lián)網(wǎng)、云計算及移動智能終端的幫助下能夠更好地進行數(shù)據(jù)挖掘和發(fā)展。如今,雖然大數(shù)據(jù)挖掘在應(yīng)用成熟度上明顯優(yōu)于傳統(tǒng)的數(shù)據(jù)挖掘,但對于大數(shù)據(jù)挖掘的研究仍處于不斷改進完善的過程中,大數(shù)據(jù)挖掘仍然需要借助云計算的幫助及其他相關(guān)的技術(shù)來實現(xiàn)成熟應(yīng)用。
(二)大數(shù)據(jù)的處理對象
大數(shù)據(jù)挖掘的成長背景與傳統(tǒng)的大數(shù)據(jù)挖掘成長背景截然不同,因此,其處理對象也是不同的。大數(shù)據(jù)挖掘的范圍十分廣泛,除了需要對管理信息系統(tǒng)和Web信息系統(tǒng)的數(shù)據(jù)進行處理外,還要對一些類似于感知信息系統(tǒng)的傳感設(shè)備信息進行處理探究。大數(shù)據(jù)挖掘充分地體現(xiàn)了其數(shù)據(jù)來源范圍廣泛、儲存量大、類型豐富多樣等特點[2]。正式因為如此,大數(shù)據(jù)挖掘?qū)π畔⒌牟杉艜幼杂?,沒有局限性,數(shù)據(jù)收集范圍十分廣泛,處理時效快,但同時大數(shù)據(jù)挖掘的數(shù)據(jù)精確度不是很高。
(三)大數(shù)據(jù)的挖掘程度
大數(shù)據(jù)憑借著自己數(shù)據(jù)來源范圍廣泛、獲取信息速度快、能夠依靠云計算平臺的優(yōu)勢來實現(xiàn)大數(shù)據(jù)挖掘。面對多種渠道的海量信息,以及多種多樣的類型和模式多樣化的數(shù)據(jù),大數(shù)據(jù)挖掘可以利用云計算技術(shù)來實現(xiàn)數(shù)據(jù)挖掘處理,能夠?qū)⒒靵y的數(shù)據(jù)借助云計算形成多種多樣的計算模式和計算方法,形成多維度分析,使信息采集更加全面、有價值[3]。有了元計算技術(shù)的幫助,大數(shù)據(jù)挖掘可以憑借云平臺挖掘更多有價值的信息和知識,同時,大數(shù)據(jù)還可以與一些相關(guān)技術(shù)進行技術(shù)融合或者相互合作學(xué)習(xí),促進大數(shù)據(jù)挖掘進一步發(fā)展。
二、基于云計算的大數(shù)據(jù)挖掘?qū)Σ?/p>
(一)建立健全的挖掘體系結(jié)構(gòu)
大數(shù)據(jù)挖掘的過程中,數(shù)據(jù)挖掘流程十分重要。大數(shù)據(jù)挖掘著重分為三個層次:支撐平臺層、功能層、服務(wù)層[4]。支撐平臺層包括對大數(shù)據(jù)的融合以及預(yù)處理,計算資源及存儲資源。其中計算資源包括分布式、流式、內(nèi)存、迭代、圖并行計算;存儲資源包括分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、傳統(tǒng)數(shù)據(jù)庫等。功能層便是根據(jù)客戶的實際需求與偏好來人性化挖掘,包括查詢語言、分析工具、搜索推薦引擎、挖掘工具、智能工具,這些都是憑借云平臺的幫助來進行計算統(tǒng)計的,具備很強的可伸縮性以及可擴展性。服務(wù)層是一個與客戶相互認知的過程,包括人機交互技術(shù)、數(shù)據(jù)源技術(shù)、可視化工具等[5]。
綜上所述,大數(shù)據(jù)挖掘體系結(jié)構(gòu)需要系統(tǒng)化,層層關(guān)系緊密聯(lián)系在一起,將支撐平臺層、功能層、服務(wù)層相互交融、相互滲透,充分發(fā)揮各層、各個功能、各項技術(shù)的作用,形成一個巨大的計算體系結(jié)構(gòu),實時挖掘出更多更有價值的信息,以最優(yōu)的數(shù)據(jù)資源服務(wù)于客戶,帶動大數(shù)據(jù)挖掘更快更好地發(fā)展。
(二)云平臺聯(lián)合挖掘體系使用
在這個信息發(fā)展迅速的時代,傳統(tǒng)的數(shù)據(jù)挖掘已經(jīng)遠遠不能滿足客戶的需求。為了能夠提高大數(shù)據(jù)挖掘的存儲量,提升大數(shù)據(jù)挖掘?qū)π畔⑻幚淼奶幚砟芰Γ朴嬎愠浞职l(fā)揮了自身擴展性、彈性大、虛擬化的優(yōu)勢,給予大數(shù)據(jù)挖掘十分強大的動力[6]。分布式文件存儲、分布式數(shù)據(jù)庫存儲便是云技術(shù)的核心技術(shù)。分布式數(shù)據(jù)庫系統(tǒng)包括事務(wù)性、分析型兩種數(shù)據(jù)庫,事務(wù)性數(shù)據(jù)庫包括NOSQL系統(tǒng)和NEWSQL系統(tǒng),具體來說就是鍵值系統(tǒng)、文件存儲系統(tǒng)、圖數(shù)據(jù)庫、基于內(nèi)存的數(shù)據(jù)庫[7];分析型數(shù)據(jù)庫主要是基于MapRedue、Hadoop的數(shù)據(jù)庫。這些都能為海量的數(shù)據(jù)提供足夠的存儲空間,科學(xué)合理的計算模式,降低計算的難度和復(fù)雜性,提升數(shù)據(jù)處理效率?,F(xiàn)在,大部分知名的企業(yè)都將云計算作為支撐動力,開發(fā)出一系列的大數(shù)據(jù)挖掘解決對策,如Google、微軟、IBM.、Pig、Hive等。因此,云計算的利用對大數(shù)據(jù)挖掘有著重要的意義,應(yīng)充分利用云計算的優(yōu)勢聯(lián)合健全的挖掘體系,實現(xiàn)二者相互交融,相互借鑒,探究出更多高效的大數(shù)據(jù)挖掘解決對策。
(三)實行大數(shù)據(jù)預(yù)處理
實行大數(shù)據(jù)預(yù)處理主要是將MapReduce作為原始的預(yù)處理技術(shù)中,靈活運用類似于Flume、Sqoop的流式計算技術(shù)及一些數(shù)據(jù)處理技術(shù),實現(xiàn)數(shù)據(jù)的轉(zhuǎn)移,從而提升預(yù)處理過程中一系列功能,包括并行、迭代計算等。以MapReduce作為支撐,可以實現(xiàn)高效的大數(shù)據(jù)預(yù)處理,可以把歷史數(shù)據(jù)與實時數(shù)據(jù)同步處理,但其中要提高對數(shù)據(jù)的完整性和精確度的重視,改善大數(shù)據(jù)處理數(shù)據(jù)不準確、不完整的缺點,提高可信度。endprint
(四)強化數(shù)據(jù)展示
最原始的數(shù)據(jù)挖掘展示大部分都是以文本、圖標的形式來展示數(shù)據(jù)結(jié)果,如餅狀圖、散點圖、柱狀圖、散點圖、Cain Lift圖、ROC圖等。傳統(tǒng)的數(shù)據(jù)挖掘局限性很多,如信息采集渠道不夠、數(shù)據(jù)結(jié)果的展示不夠直觀,導(dǎo)致大部分顧客無法對其輕松理解[8]。而基于云計算的大數(shù)據(jù)挖掘的數(shù)據(jù)結(jié)果展示便截然不同,大數(shù)據(jù)挖掘的數(shù)據(jù)結(jié)果展示更加具備直觀性、清晰明了的特點,客戶能夠很容易接受認可,也便于客戶理解。大數(shù)據(jù)挖掘的數(shù)據(jù)結(jié)果展示方法多種多樣,如可將數(shù)據(jù)做成動畫的形式展現(xiàn)給客戶,這樣可以使客戶的直觀感受更加強烈;利用圖像與聲音的結(jié)合,給予客戶聽覺和視覺的享受,使其發(fā)現(xiàn)并領(lǐng)會動畫中所表達的數(shù)據(jù)價值。此外,還可利用可視化仿真系統(tǒng),構(gòu)建三維圖像,進行豐富多樣的人機交互形式。可視化技術(shù)能夠清晰地展示出一些社交網(wǎng)絡(luò)關(guān)系圖,對其有專門設(shè)計的圖像展示,針對有知名度的對象進行明確的標識、詳細地分類,群分社交成員,充分展現(xiàn)了事物的歷史發(fā)展歷程及空間變化等。
(五)擴大數(shù)據(jù)儲存
數(shù)據(jù)存儲實際上就是對靜止數(shù)據(jù)的保留和反映。常用的數(shù)據(jù)儲存介質(zhì)有兩種,一種是磁盤,另一種是磁帶,但這些都有很大的局限性,一般無法滿足客戶的需求量。云儲存的出現(xiàn)彌補了這一缺憾。云儲存實際上就是云計算,云計算通過集群應(yīng)用、網(wǎng)絡(luò)操作等進行信息的儲存運用,最后以云服務(wù)的形式展示給客戶,這是一種十分新鮮且便捷的方案??蛻艨勺叩饺魏我粋€地點,不分時間差異,只要客戶在一個有網(wǎng)絡(luò)的環(huán)境當(dāng)中,登錄自己用戶賬號,都能方便客戶讀取云盤上的數(shù)據(jù)或者存儲數(shù)據(jù),有效地進行數(shù)據(jù)管理。云儲存離不開網(wǎng)絡(luò),我們需要知道網(wǎng)絡(luò)一般用云圖來表示網(wǎng)絡(luò)的結(jié)構(gòu),它是通過集群功能及分布式文件系統(tǒng)來將網(wǎng)絡(luò)聯(lián)合起來共同工作,并且運用一些APP軟件、APP接口來實現(xiàn)客戶通過用戶賬號登錄進行數(shù)據(jù)儲存使用的。
三、結(jié)語
在這個科技發(fā)達、信息高速流通的社會,人們利用大數(shù)據(jù)實現(xiàn)了人與人之間的緊密聯(lián)系。大數(shù)據(jù)給人們的生活、工作、學(xué)習(xí)帶來了巨大的改變和便利。人們在面對海量的、種類繁雜的信息難以決策時,大數(shù)據(jù)挖掘給予人們數(shù)據(jù)存儲服務(wù)和訪問服務(wù),有效解決了人們對海量信息難以決策的問題。大數(shù)據(jù)挖掘出海量信息中的潛在價值,其數(shù)據(jù)來源范圍十分廣泛,擴展性、智能性強,而且對于信息采集還十分高效,云服務(wù)還展現(xiàn)了其強大的儲存力量及其便捷性。盡管現(xiàn)在大數(shù)據(jù)挖掘的發(fā)展還十分可觀,但是還面臨著分享、隱私安全等問題,仍然需要努力研究探索出解決方案,完善大數(shù)據(jù)挖掘。
參考文獻
[1]鄧仲華,劉偉偉,陸穎雋.基于云計算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報理論與實踐,2015,(7):103-108.
[2]朱靜薇,李紅艷.大數(shù)據(jù)時代下圖書館的挑戰(zhàn)及其應(yīng)對策略[J].現(xiàn)代情報,2013,(5):9-13.
[3]郭群.基于云計算下大數(shù)據(jù)在醫(yī)療領(lǐng)域的應(yīng)用研究[J].福建電腦,2016,(6):131-132.
[4]王善勤,吳昌雨,陳業(yè)斌.大數(shù)據(jù)挖掘技術(shù)在高校專業(yè)內(nèi)涵建設(shè)中的應(yīng)用研究[J].佳木斯大學(xué)學(xué)報(自然科學(xué)版),2016,(5):827-830.
[5]李禎.大數(shù)據(jù)時代高校圖書館信息資源建設(shè)對策研究[J].大學(xué)圖書情報學(xué)刊,2017,(1):36-40.
[6]侯錫林,李天柱,馬佳,等.大數(shù)據(jù)環(huán)境下企業(yè)創(chuàng)新機會研究[J].科技進步與對策,2014, (24):82-86.
[7]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(工學(xué)版),2014,(6):957-972.
[8]陳勇.一種基于云計算的大數(shù)據(jù)關(guān)聯(lián)規(guī)律挖掘分析方法[J].無線電工程,2017,(3):8-11.endprint