白玲玲
(中共阜陽市委黨校教務(wù)處,安徽阜陽 236000)
基于云計算的大數(shù)據(jù)挖掘探討
白玲玲
(中共阜陽市委黨校教務(wù)處,安徽阜陽 236000)
隨著科學(xué)技術(shù)的不斷發(fā)展和進步,各種復(fù)雜的數(shù)據(jù)也隨之增長。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)由于人為因素,使數(shù)據(jù)受到的干擾程度比較大。將云計算與大數(shù)據(jù)進行有機的結(jié)合,可以很好地彌補這一缺陷,基于云計算的大數(shù)據(jù)挖掘具有潛在的發(fā)展優(yōu)勢。
云計算;大數(shù)據(jù)挖掘
大數(shù)據(jù)挖掘是從類型豐富、儲量較大的大數(shù)據(jù)中挖掘出有相關(guān)需求和價值的信息和知識,并提供給客戶的服務(wù)方式。相比傳統(tǒng)的數(shù)據(jù)挖掘,雖然目的相同,但就技術(shù)發(fā)展的程度以及挖掘的深度和速度來說,兩者的差異還是比較大的。
1.1 發(fā)展背景
在數(shù)據(jù)庫以及互聯(lián)網(wǎng)不斷發(fā)展的背景下,能夠?qū)崿F(xiàn)從獨立、橫向到縱向的數(shù)據(jù)挖掘,主要得益于云計算以及智能終端等先進技術(shù)的產(chǎn)生和完善[1]。相比傳統(tǒng)的數(shù)據(jù)挖掘,這種技術(shù)還在進一步的完善中。
1.2 處理對象
由于面臨的數(shù)據(jù)背景不同,大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘的處理對象存在一定差異。傳統(tǒng)的數(shù)據(jù)挖掘主要針對從某個特指的范圍管理信息的系統(tǒng)中產(chǎn)生的數(shù)據(jù),這個過程中是被動的需求,主要數(shù)據(jù)類型為結(jié)構(gòu)化數(shù)據(jù)。而大數(shù)據(jù)挖掘的數(shù)據(jù)來源更加廣泛,類型更加豐富,不僅包括管理信息系統(tǒng)數(shù)據(jù),還包括傳感設(shè)備自動產(chǎn)生的仿真數(shù)據(jù)[2]。與此同時,由于采集范圍更加全面,大數(shù)據(jù)挖掘在采集中不會處于被動,這使得處理的實效性以及速度都能夠提升。
1.3 挖掘程度
傳統(tǒng)的數(shù)據(jù)挖掘處理技術(shù)具有局限性,類型較為單一[3],導(dǎo)致對很多數(shù)據(jù)的獲取和處理受到限制。目前大數(shù)據(jù)的類型以及結(jié)構(gòu)都比較復(fù)雜,相互之間難免有交集和融合。大數(shù)據(jù)挖掘得益于云計算,能夠?qū)︻愋蛷?fù)雜、數(shù)量龐雜的數(shù)據(jù)進行處理,從多個維度進行分析,處理數(shù)據(jù)的范圍更廣泛,對數(shù)據(jù)的挖掘也更全面和深入。
2.1 云計算
由于擴展比較高,有虛擬化的計算模式,云計算為大數(shù)據(jù)挖掘處理提供了動力支持。分布式的存儲與計算是云計算的核心技術(shù),分布式文件系統(tǒng)具有高容錯率和高吞吐率,多適用于一些大型或類型多樣的數(shù)據(jù),不適于一些單點的故障問題[4]。在面對多個領(lǐng)域內(nèi)的數(shù)據(jù)分享和挖掘的適用性等一系統(tǒng)問題時,還需要進行深入分析,找到相應(yīng)的解決方案實現(xiàn)進一步融合。
2.2 大數(shù)據(jù)挖掘架構(gòu)
大數(shù)據(jù)的挖掘架構(gòu)包含了多種計算方式、存儲模式以及分析功能,如圖1所示。(1)支撐平臺層是大數(shù)據(jù)挖掘的動力支撐,能夠?qū)⒋髷?shù)據(jù)與資源豐富的元環(huán)境進行融合,向外界提供數(shù)據(jù)信息和知識等資源。而且,還可以計算數(shù)據(jù)的移動方式,為復(fù)雜數(shù)據(jù)的處理和分析提供更強大的動力。(2)功能層能夠依據(jù)用戶需求進行分析和挖掘,它依托云平臺的存儲與計算能力,具有較好的伸展性。(3)服務(wù)層,大數(shù)據(jù)挖掘通過服務(wù)平臺,將服務(wù)提供者與用戶連接起來,對其所需數(shù)據(jù)進行處理,并通過服務(wù)層將數(shù)據(jù)提供給用戶。這三者之間不是獨立存在的,而是相互融合的。
圖1 大數(shù)據(jù)挖掘框架
基于Hadoop的大數(shù)據(jù)挖掘平臺分為三層,即數(shù)據(jù)源、大數(shù)據(jù)挖掘平臺和用戶層(圖2)。它們各有分工,數(shù)據(jù)源主要對不同結(jié)構(gòu)數(shù)據(jù)形成的對象進行處理;大數(shù)據(jù)挖掘平臺是對數(shù)據(jù)進行實時的分析和處理;用戶層則是通過相關(guān)的平臺進行認知并接受服務(wù)提供者的服務(wù)。
3.1 數(shù)據(jù)預(yù)處理
傳統(tǒng)的數(shù)據(jù)挖掘是先有相關(guān)模式,而后才能夠從數(shù)據(jù)源中獲取數(shù)據(jù)。通過相關(guān)工具查詢和更新,進行數(shù)據(jù)預(yù)處理,此過程中比較重視數(shù)據(jù)的完整性和準確性,確保處理的數(shù)據(jù)質(zhì)量比較高。而大數(shù)據(jù)挖掘不是在進行數(shù)據(jù)處理時確立某種模式,而是隨著數(shù)據(jù)的變化,相應(yīng)地改變其模式。數(shù)據(jù)預(yù)處理基于MapReduce進行融合,從而對這些復(fù)雜和多樣類型的數(shù)據(jù)進行實時的處理和識別,以此提高預(yù)處理過程中對于數(shù)據(jù)的計算能力以及共享能力。利用計算機技術(shù)和相關(guān)數(shù)據(jù)處理技術(shù)對數(shù)據(jù)進行傳輸和遷移,可以實現(xiàn)對相關(guān)數(shù)據(jù)的同步處理,提高對數(shù)據(jù)的處理效率[5]。
3.2 數(shù)據(jù)的存儲
傳統(tǒng)的數(shù)據(jù)挖掘存儲管理,以相應(yīng)的數(shù)據(jù)庫以及一些文件系統(tǒng)為主,將靜態(tài)或已確定結(jié)構(gòu)的數(shù)據(jù)進行存儲,這樣的存儲方式比較被動,一般是由系統(tǒng)內(nèi)部進行機械定義,靈活性較差,可擴展性不足,容錯能力不強。而大數(shù)據(jù)挖掘的存儲還包括了分布式、可存儲以及結(jié)構(gòu)式或者混合式的存儲,這種存儲模式是由系統(tǒng)內(nèi)部來實現(xiàn)的,具有很強的擴展性,但受到一些因素的影響,數(shù)據(jù)不能對應(yīng)一致,導(dǎo)致兼容性存在問題。對于一些不確定的數(shù)據(jù),大數(shù)據(jù)存儲能夠以不確定的類型進行存儲,實現(xiàn)不確定數(shù)據(jù)的直接存儲和處理。
3.3 數(shù)據(jù)的計算和分析
相對于傳統(tǒng)的數(shù)據(jù)挖掘來說,大數(shù)據(jù)挖掘能夠以與計算模式相融合的方式對數(shù)據(jù)進行處理和分布。對于維度比較少的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)挖掘次數(shù)比較多,查詢相對精準,具有一定的靈活性和處理能力,呈現(xiàn)出較高的性能。但是在面對維度繁多且立方體龐大的數(shù)據(jù)時,傳統(tǒng)數(shù)據(jù)挖掘的處理速度、效率和質(zhì)量都差強人意。針對傳統(tǒng)數(shù)據(jù)挖掘分析工具擴展性的不足,大數(shù)據(jù)挖掘與已有的系統(tǒng)功能相融合,提高計算能力。對于一些動態(tài)圖的數(shù)據(jù)以及數(shù)據(jù)流,可基于內(nèi)存分布式的數(shù)據(jù)通過滑動窗口模型的方式,進行連續(xù)處理。除了傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的語言查詢功能外,大數(shù)據(jù)挖掘具備自身相應(yīng)的查詢語言,其擴展性和靈活性比較出眾,但查詢性能比較低,對資源的利用率相對不足。
3.4 數(shù)據(jù)的顯示
在傳統(tǒng)的數(shù)據(jù)挖掘中,數(shù)據(jù)結(jié)果集的展示僅適用于數(shù)量比較小且維度相對較低的數(shù)據(jù),展示方式主要以文本、圖表以及可視化圖形(餅狀圖、散點圖、ROC圖等)的形式對數(shù)據(jù)的理論效果和相關(guān)性能進行呈現(xiàn)和挖掘。但是,在面對多維度、類型多樣、數(shù)目繁多的數(shù)據(jù),由于技術(shù)的限制,導(dǎo)致擴展性不足且對數(shù)據(jù)的利用比較被動,難以找出數(shù)據(jù)相互之間的關(guān)聯(lián)性,可視化效果不佳。而大數(shù)據(jù)挖掘?qū)τ跀?shù)據(jù)的展示,是以圖像或者動畫的形式,通過人機交互的可視化方式進行直觀的解釋。在這個過程中可通過輔助的可視化分析,幫助用戶理清數(shù)據(jù)之間的相互關(guān)系,降低數(shù)據(jù)的理解難度,使用戶能夠在探索的基礎(chǔ)上進行理解。利用可視化技術(shù)表現(xiàn)較為復(fù)雜的圖像,如宇宙星球、集群成員的分配等,以此來反映事物的變化和空間的信息流等,使數(shù)據(jù)的流線化、管道和任務(wù)以及數(shù)據(jù)的并行化等并行算法技術(shù)成為現(xiàn)實。
[1]林昕.基于云計算的大數(shù)據(jù)挖掘平臺構(gòu)建研究[J].山東工業(yè)技術(shù),2015(17):104.
[2]張毅,崔曉燕.基于云計算平臺的物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究[J].軟件,2014(1):108-111.
[3]郭杰鋒,王琳琳.探究基于云計算的大數(shù)據(jù)挖掘平臺[J].科技經(jīng)濟市場,2015(6):176.
[4]劉猛.一種基于云計算的高效數(shù)據(jù)挖掘框架研究[J].微型電腦應(yīng)用,2015(6):15-19.
[5]王勃,徐靜.基于云計算的Web數(shù)據(jù)挖掘Map/Reduce算法的研究[J].計算機與數(shù)字工程,2014(7):1157-1159,1164.
Discussion of Data Mining Based on Cloud Computing
BAI Ling-ling
(CPC Fuyang Municipal Party Committee, Fuyang Anhui 236000,China)
With the development of economy and constant progress of science and technology, all sorts of complex data has risen as well. Due to human factors of traditional data mining techniques,data will be interfered. This paper combined cloud computing and big data to fill gaps, and it has a great deal of potential advantages for developing data mining.
cloud computing; data mining
2017-03-04
阜陽市2016年社科規(guī)劃課題“網(wǎng)絡(luò)倫理視域下領(lǐng)導(dǎo)干部網(wǎng)絡(luò)能力建設(shè)問題研究”(FSK2016007)。
白玲玲(1981- ),女,講師,碩士,從事計算機應(yīng)用研究。
TP311
A
2095-7602(2017)08-0059-03