徐萍
摘 要:文章圍繞數(shù)據(jù)挖掘展開論述,提出了基于云計(jì)算架構(gòu)的分布式數(shù)據(jù)挖掘平臺(tái),該平臺(tái)較傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)具有較為顯著的優(yōu)越性,在擴(kuò)展性、數(shù)據(jù)處理能力、服務(wù)面等方面具有較明顯的展現(xiàn)。文章對(duì)云計(jì)算及其架構(gòu)加以簡要介紹,提出了基于云計(jì)算架構(gòu)的分布式數(shù)據(jù)挖掘系統(tǒng)。
關(guān)鍵詞:云計(jì)算;分布式;數(shù)據(jù)挖掘
一、云計(jì)算概述及其架構(gòu)
(1)云計(jì)算。
1)云計(jì)算簡介。
云計(jì)算屬于商業(yè)計(jì)算模式的一員,是一種以使用量為付費(fèi)依據(jù)的模式,其基礎(chǔ)是互聯(lián)網(wǎng)及其相關(guān)服務(wù)的使用與交付,以互聯(lián)網(wǎng)作為動(dòng)態(tài)易擴(kuò)展的發(fā)展基礎(chǔ)。在云計(jì)算模式下,人們可進(jìn)行較為便捷、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置計(jì)算資源共享池。云計(jì)算的計(jì)算能力可達(dá)每秒十萬億次,如此強(qiáng)勁的計(jì)算能力可應(yīng)用與核爆炸模擬、氣候變化預(yù)測、市場發(fā)展預(yù)期等現(xiàn)代化、高運(yùn)算工作。同時(shí),使用云計(jì)算的途徑較多,使用者可以通過電腦、筆記本電腦、手機(jī)等多種方式進(jìn)入數(shù)據(jù)中心,根據(jù)各自需求進(jìn)行相應(yīng)運(yùn)算。2)云計(jì)算特點(diǎn)。
云計(jì)算的運(yùn)行特點(diǎn)是計(jì)算分布并非僅限于本地計(jì)算機(jī)或遠(yuǎn)程服務(wù)器,而是將計(jì)算分布于不同的分布式計(jì)算機(jī)上,通常來說分布式計(jì)算機(jī)數(shù)量較為龐大,此時(shí)企業(yè)數(shù)據(jù)中心運(yùn)行模式與互聯(lián)網(wǎng)有許多相似之處。其最大的優(yōu)勢在于企業(yè)在進(jìn)行資源切換與配置時(shí),自主性較強(qiáng),且對(duì)計(jì)算機(jī)與儲(chǔ)存系統(tǒng)的訪問上更貼近自身需求。
從運(yùn)行角度看,云計(jì)算具有以下幾點(diǎn)特點(diǎn)。首先,云計(jì)算的規(guī)模大。根據(jù)相應(yīng)統(tǒng)計(jì)數(shù)據(jù),通常企業(yè)擁有的私有云的規(guī)模自數(shù)百至數(shù)十萬不等,從總體上看規(guī)模較大,規(guī)模大小取決于企業(yè)的需求。云計(jì)算帶給了使用者前所未有的計(jì)算能力。其次,云計(jì)算具有虛擬性。在云計(jì)算模式下,使用者所享受的計(jì)算服務(wù)不收地點(diǎn)、終端的限制,所有資源均在“云”中存在,并不具有固定實(shí)體形態(tài)。其次,可靠性較高。云計(jì)算中,為保證其運(yùn)行的穩(wěn)定性與可靠性,采取一系列措施實(shí)現(xiàn)這一目標(biāo),例如計(jì)算節(jié)點(diǎn)同構(gòu)可互換等。這些措施的實(shí)施將使得云計(jì)算的使用較本地計(jì)算機(jī)更加可靠。
(2)云計(jì)算架構(gòu)。
云計(jì)算機(jī)構(gòu)通常分為三層,分別為基礎(chǔ)設(shè)施層(IaaS)、平臺(tái)層(PaaS)和軟件服務(wù)層(SaaS)?;A(chǔ)設(shè)施層主要包括計(jì)算機(jī)服務(wù)器、通信與儲(chǔ)存設(shè)備等,為云計(jì)算用戶提供基礎(chǔ)設(shè)施服務(wù)。平臺(tái)層主要提供以云計(jì)算為核心的開發(fā)、運(yùn)行與運(yùn)營應(yīng)用軟件的支撐平臺(tái)。軟件服務(wù)層的作用在于以互聯(lián)網(wǎng)為基礎(chǔ)下為用戶提供軟件服務(wù)的軟件應(yīng)用模式。
二、基于云架構(gòu)的分布式數(shù)據(jù)挖掘系統(tǒng)
(一)分布式數(shù)據(jù)挖掘
分布式數(shù)據(jù)挖掘(distributed data mining,DDM),較為普遍的認(rèn)為是利用分布式計(jì)算資源挖掘分布式數(shù)據(jù)資源,并對(duì)數(shù)據(jù)資源加以總結(jié)與整合最終形成結(jié)果的一整套過程。分布式數(shù)據(jù)挖掘被認(rèn)為是數(shù)據(jù)挖掘在分布式環(huán)境下的發(fā)展與應(yīng)用,在一定程度上彌補(bǔ)了由于互聯(lián)網(wǎng)異構(gòu)性等限制與實(shí)際應(yīng)用中的法律因素、行業(yè)限制等約束因素下的集中式挖掘難點(diǎn),同時(shí)提高了數(shù)據(jù)挖掘的效率。目前,分布式數(shù)據(jù)挖掘系統(tǒng)的分類有四種,分別為基于MultiAgent的系統(tǒng)、基于網(wǎng)格的系統(tǒng)、基于云學(xué)習(xí)的系統(tǒng)與基于CDM框架的系統(tǒng)。
(二)基于云架構(gòu)的分布式數(shù)據(jù)挖掘
1.系統(tǒng)框架
基于云計(jì)算架構(gòu)的分布式數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)圖
如上圖所示,系統(tǒng)結(jié)構(gòu)設(shè)計(jì)思想是分層設(shè)計(jì),并結(jié)合了系統(tǒng)組件的需要??傮w來看分為三個(gè)層面,根據(jù)云計(jì)算需要的分列,分別為數(shù)據(jù)挖掘云服務(wù)層、數(shù)據(jù)挖掘能力層與數(shù)據(jù)挖掘支撐平臺(tái),在三個(gè)層面的架構(gòu)下可依據(jù)各自功能具體細(xì)化。三個(gè)層面之間相輔相成,不可或缺,共同運(yùn)行,支持這云計(jì)算架構(gòu)下分布式數(shù)據(jù)挖掘系統(tǒng)的運(yùn)行。
2.關(guān)鍵技術(shù)
首先,云計(jì)算技術(shù)。云計(jì)算平臺(tái)為分布式計(jì)算結(jié)果提供了文件儲(chǔ)存與并行的能力,與分布式計(jì)算相輔相成、相得益彰,是整個(gè)系統(tǒng)的基礎(chǔ)。云計(jì)算技術(shù)實(shí)現(xiàn)了文件的位置、移動(dòng)、性能、擴(kuò)展等方面的透明性,并具有高容錯(cuò)、高可靠、高性能的特點(diǎn),形成數(shù)據(jù)挖掘平臺(tái)的核心支撐能力。
其次,數(shù)據(jù)匯集調(diào)度中心。數(shù)據(jù)調(diào)度中心是將與本平臺(tái)的相關(guān)的業(yè)務(wù)數(shù)據(jù)進(jìn)行匯總,其主要任務(wù)是對(duì)不同類型數(shù)據(jù)的匯集工作。數(shù)據(jù)匯集調(diào)度中心可以實(shí)現(xiàn)平臺(tái)對(duì)不同源數(shù)據(jù)格式的支持。數(shù)據(jù)源包括OLAP數(shù)據(jù)、OLTP數(shù)據(jù)及其他數(shù)據(jù),通過流式同步或下載式同步進(jìn)入云儲(chǔ)集群,形成分布式文件系統(tǒng)。
第三,服務(wù)管理與調(diào)度技術(shù)。服務(wù)管理與調(diào)度技術(shù)的使用目的在于擴(kuò)大本平臺(tái)面向用戶的寬度,使更多業(yè)務(wù)系統(tǒng)能夠利用本平臺(tái)進(jìn)行計(jì)算。服務(wù)調(diào)度是指以服務(wù)優(yōu)先級(jí)、資源與服務(wù)的配置等方面為依據(jù)進(jìn)行調(diào)度,避免出現(xiàn)服務(wù)的互斥、隔離等現(xiàn)象,是數(shù)據(jù)挖掘平臺(tái)平穩(wěn)運(yùn)行、保持可靠性的一項(xiàng)重要技術(shù),同時(shí)形成一定的系統(tǒng)控制。服務(wù)管理旨在形成本平臺(tái)內(nèi)統(tǒng)一的功能,例如注冊(cè)功能等,更好地將數(shù)據(jù)挖掘平臺(tái)的功能發(fā)揮出來。
三、結(jié)語
綜上所述,隨著時(shí)代的發(fā)展與信息技術(shù)的進(jìn)步,網(wǎng)絡(luò)環(huán)境與數(shù)據(jù)環(huán)境日趨復(fù)雜,傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)在這些因素下難以達(dá)到業(yè)務(wù)質(zhì)量,完成其業(yè)務(wù)目的,因而對(duì)數(shù)據(jù)挖掘系統(tǒng)的改革與創(chuàng)新是具有時(shí)代意義與必要性的。文章以數(shù)據(jù)挖掘?yàn)楹诵恼归_論述,首先介紹了云計(jì)算及其特點(diǎn),提出了基于云計(jì)算架構(gòu)的分布式數(shù)據(jù)挖掘系統(tǒng),其中對(duì)分布式數(shù)據(jù)挖掘進(jìn)行了概括性闡述,進(jìn)而對(duì)云計(jì)算架構(gòu)下的分布式數(shù)據(jù)挖掘系統(tǒng)進(jìn)行了探究?;诖?,旨在為我國未來互聯(lián)網(wǎng)基于云架構(gòu)的分布式數(shù)據(jù)挖掘研究提供些許參考。
參考文獻(xiàn):
[1]李穎.基于云計(jì)算的分布式數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電子技術(shù)與軟件工程,2016,15:204.
[2]趙建光.云計(jì)算環(huán)境下并行分布式數(shù)據(jù)挖掘平臺(tái)研究[J].電腦開發(fā)與應(yīng)用,2014,07:7780.
[3]郭敏杰.基于云計(jì)算的海量網(wǎng)絡(luò)流量數(shù)據(jù)分析處理及關(guān)鍵算法研究[D].北京郵電大學(xué),2014.
[4]程琳.基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)架構(gòu)研究[J].電子世界,2012,21:57.