王水萍+++王方
【 摘 要 】 隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,不僅給人們生產(chǎn)和生活提供更多有價值的信息,而且又能提升人類從大量數(shù)據(jù)中發(fā)現(xiàn)有價值信息的能力。現(xiàn)階段,數(shù)據(jù)挖掘技術(shù)已廣泛應(yīng)用在各行各業(yè)當(dāng)中,并且已取得了較好成果。本文主要針對基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)設(shè)計與實現(xiàn)進(jìn)行了深入探究和分析。
【 關(guān)鍵詞 】 云計算;數(shù)據(jù)挖掘;平臺架構(gòu);設(shè)計和實現(xiàn);探究
1 引言
近年來,隨著科學(xué)技術(shù)的飛速發(fā)展,大量的數(shù)據(jù)被存儲到計算機(jī)等存儲介質(zhì)當(dāng)中。通常情況下,所存儲的數(shù)據(jù)多是復(fù)雜的、數(shù)據(jù)量較大的等。因此,難以通過人工而直接獲得。尤其是在科研或是商業(yè)發(fā)展領(lǐng)域中,需要對海量的數(shù)據(jù)進(jìn)行分析,從而找出更多有價值的信息。為解決上述問題,很多研究人員聚集在一起,研究出一種新型的數(shù)據(jù)挖掘技術(shù)。
近來,由于計算機(jī)技術(shù)、云計算技術(shù)的飛速發(fā)展,大量的數(shù)據(jù)都存儲到了網(wǎng)絡(luò)當(dāng)中,而這些海量的、復(fù)雜式的數(shù)據(jù)信息給數(shù)據(jù)挖掘系統(tǒng)的實現(xiàn)帶來很多的難題,如數(shù)據(jù)相對復(fù)雜,現(xiàn)有的計算能力難以達(dá)到技術(shù)要求,而可以借助云計算數(shù)據(jù)挖掘技術(shù)可提升處理復(fù)雜數(shù)據(jù)的能力。
2 云計算數(shù)據(jù)挖掘系統(tǒng)架構(gòu)設(shè)計的分析
2.1 目標(biāo)系統(tǒng)模型
在云計算環(huán)境下,構(gòu)建目標(biāo)系統(tǒng)為各種終端用戶提供高透明化的界面服務(wù),并且在此基礎(chǔ)上也提供了開放式的接口支持。這樣一來,用戶不僅能夠通過終端訪問用戶訪問來使用系統(tǒng),也或是利用其它應(yīng)用程序調(diào)用開放式接口間接式的應(yīng)用系統(tǒng)服務(wù)。不管遇到上述哪一種情形,用戶都無需對系統(tǒng)實現(xiàn)而擔(dān)心其存儲能力,只需考慮要選擇何種算法進(jìn)行處理,最后通過任務(wù)形式部署給系統(tǒng)獲得所需的挖掘結(jié)果。除此之外,云計算環(huán)境下的數(shù)據(jù)挖據(jù)平臺中得模塊都是利用用戶界面和開放式接口提供服務(wù)的。其中,由開放式接口提供的服務(wù)均為外部可見服務(wù)。而當(dāng)涉及到高級權(quán)限使用功能時,可通過用戶界面直接調(diào)用開放式接口服務(wù)功能。
2.2 功能層次框架設(shè)計
2.2.1算法層
該層主要是利用下一層所提供的統(tǒng)一數(shù)據(jù)源來調(diào)用相關(guān)算法及對接口進(jìn)行合理的管理。由于不同算法的執(zhí)行順序和得到的結(jié)果有所不同而分開的。例如數(shù)據(jù)清洗算法服務(wù),它是針對具有噪聲數(shù)據(jù)的數(shù)據(jù)及在應(yīng)用數(shù)據(jù)挖掘算法前需要進(jìn)行接口服務(wù)調(diào)用,把清洗后的數(shù)據(jù)利用數(shù)據(jù)層再儲存到云計算平臺中,為后續(xù)數(shù)據(jù)挖掘工作提供更好的服務(wù);數(shù)據(jù)挖掘調(diào)用服務(wù),在應(yīng)用該服務(wù)之前,將已清洗的及不需要清洗的數(shù)據(jù)利用數(shù)據(jù)挖掘技術(shù)統(tǒng)一對數(shù)據(jù)進(jìn)行調(diào)用。
2.2.2應(yīng)用層
和其它層相比,該層的抽象性較強(qiáng),它是把海量數(shù)據(jù)挖掘涉及到的數(shù)據(jù)、算法等之間的內(nèi)在關(guān)系描述成任務(wù),同時提供提供應(yīng)用調(diào)用服務(wù)和維護(hù)接口等。
2.2.3用戶層
該層主要為用戶提供身份驗證和授權(quán)等功能。
2.3 設(shè)計關(guān)鍵點
2.3.1插件系統(tǒng)設(shè)計
插件是結(jié)合相應(yīng)的應(yīng)用程序開發(fā)接口規(guī)范而實現(xiàn)的一種程序。其中,任何一個插件都是由三大部分構(gòu)成的,即擴(kuò)展點、業(yè)務(wù)邏輯、調(diào)用下層擴(kuò)展點,并且這三者都是由相同的負(fù)責(zé)模塊管理幫頂包跟各種服務(wù)所構(gòu)成的。另外,每個綁定包涉及到一個服務(wù)說明接口與多個服務(wù)調(diào)用接口兩種類型的接口。要求綁定包接口必須滿足相關(guān)規(guī)范要求,若把插件防止到平臺的某個特定目錄下,能夠識別和加載該動態(tài)。除此之外,算法實現(xiàn)不同于以往針對特定個數(shù)、排列數(shù)據(jù)而實現(xiàn)。它是在滿足實現(xiàn)算法的基礎(chǔ)上,利用抽象數(shù)據(jù)提供更多的兼容性。盡管這種算法實現(xiàn)存在很大的難度,但其算法的復(fù)用性有了顯著提升。
2.3.2開放接口設(shè)計
通常情況下,開放接口主要被應(yīng)用數(shù)據(jù)挖掘平臺的開發(fā)使用。利用上述接口,開發(fā)者能夠更好地利用數(shù)據(jù)挖掘平臺提供的資源及數(shù)據(jù)服務(wù)。為實現(xiàn)開放接口高效性、直觀性的目的,其平臺接口主要應(yīng)用的是表述性狀態(tài)轉(zhuǎn)移接口,英文縮寫為:REST。該類接口的優(yōu)勢在于為無態(tài)型。也就是說,在同一個局域網(wǎng)中,瀏覽器中的緩沖裝置可替代服務(wù)的重復(fù)調(diào)用。這樣一來,不僅能夠有效減輕服務(wù)器的運行負(fù)擔(dān),而且若用戶量過多造成底層服務(wù)影響整個系統(tǒng)的運行,而此時可利用橫向服務(wù)器數(shù)量的增加擴(kuò)展線性的吞吐量。因此,利用云計算平臺,能夠為用戶提供無窮大的數(shù)據(jù)吞吐能力,滿足系統(tǒng)的性能要求。
3 云計算數(shù)據(jù)挖掘平臺架構(gòu)的實現(xiàn)
3.1 開發(fā)環(huán)境
Google的云計算開發(fā)環(huán)境主要為App Engine。當(dāng)遇到重載或是數(shù)據(jù)量非常的情形時,也能輕松構(gòu)建安全的應(yīng)用程序。這是因為此環(huán)境的優(yōu)勢在于可提供動態(tài)服務(wù)、自動擴(kuò)展等。
3.2 開發(fā)思想和技術(shù)
3.2.1原型開發(fā)模型
首先,需進(jìn)行快速分析。在相關(guān)人員和用戶的共同合作下,可準(zhǔn)確確定出系統(tǒng)的需求,再結(jié)合原型的特征描述需求,來滿足開發(fā)原型的需求。其次,原型的建構(gòu)。在經(jīng)過分析的基礎(chǔ)上,結(jié)合需求快速建構(gòu)一可行性較高的系統(tǒng)。在此情況下,需要有相應(yīng)的軟件工具提供可靠的技術(shù)支持,同時不考慮系統(tǒng)細(xì)節(jié)方面的具體要求。再次,原型的運行。此環(huán)節(jié)是為及時發(fā)現(xiàn)問題,從而快速消除問題的一個關(guān)鍵環(huán)節(jié)。最后,對原型的評價。原型運行的前提下,對原型的特性予以科學(xué)性的考核,對運行結(jié)果能否滿足用戶期望而進(jìn)行分析。而針對該過程中存在的錯誤或是增添的新要求等,提供合理性的修改建議和意見。
3.2.2基于WSGI規(guī)范的開發(fā)
通過分析可知,在基于WSGI規(guī)范基礎(chǔ)上的開發(fā)具有很多的優(yōu)勢。其根本目的是提升系統(tǒng)的可用性和實現(xiàn)跨平臺性操作。因此,基于WSGI規(guī)范的實現(xiàn)遠(yuǎn)比傳統(tǒng)的C/S模塊使用簡單的多。用戶通過對瀏覽器來訪問系統(tǒng),同時增加了用戶的終端的可選擇性。此外,由于WSGI規(guī)范是在Python的語言環(huán)境下而實現(xiàn)的。而該種語言屬于一種跨平臺性開發(fā)語言。這樣一來,不管是把已開發(fā)的系統(tǒng)放置到云計算平臺上還是在本地開發(fā)應(yīng)用都是極其方便的。endprint
3.3 開發(fā)步驟
3.3.1算法模塊插件系統(tǒng)
算法模塊主要涉及到數(shù)據(jù)集清洗算法、數(shù)據(jù)挖掘算法、結(jié)果可視化算法等多種。而一個完整的執(zhí)行過程必須在原始數(shù)據(jù)集的噪聲及不規(guī)則數(shù)據(jù)的情況下借助數(shù)據(jù)集清洗算法把數(shù)據(jù)集統(tǒng)一進(jìn)行整理。也或者是由異狗、分布式等數(shù)據(jù)源中轉(zhuǎn)化而得到,再自動生成規(guī)則的數(shù)據(jù)集。將這些規(guī)則的數(shù)據(jù)集利用數(shù)據(jù)挖掘算法予以處理,進(jìn)而獲得數(shù)據(jù)挖掘結(jié)果信息,再經(jīng)過可視化算法的處理,最終將數(shù)據(jù)信息傳遞給用戶。其中,任何一個環(huán)節(jié)數(shù)據(jù)的調(diào)用都必須利用REST接口而實現(xiàn),并且接口間的數(shù)據(jù)信息轉(zhuǎn)換和傳遞都是采用XML格式。特別是近年來,由于數(shù)據(jù)挖掘平臺各種算法模塊插件的出現(xiàn),這樣一來,云計算平臺下的數(shù)據(jù)挖掘平臺所提供的功能也會逐步增多。
3.3.2數(shù)據(jù)集訪問模塊
該模塊的實現(xiàn)和上述算法模塊插件系統(tǒng)實現(xiàn)具有很多相同點。它也是通過插件方式進(jìn)行維護(hù)和調(diào)用的。尤其是在訪問數(shù)據(jù)集的過程中,其訪問模塊文件被索引處在被用戶調(diào)用的狀態(tài)。而和算法模塊插件系統(tǒng)的不同之處是在調(diào)用數(shù)據(jù)集訪問模塊前,系統(tǒng)自動把數(shù)據(jù)機(jī)實例文件解析成若干個元數(shù)據(jù)組合及物理訪問地址,最后把此類數(shù)據(jù)組合成字典類型結(jié)構(gòu)的參數(shù)傳遞到數(shù)據(jù)機(jī)訪問模塊中。
4 結(jié)束語
總體來說,在云計算平臺下的數(shù)據(jù)挖掘系統(tǒng)逐步趨于完善,增強(qiáng)了數(shù)據(jù)規(guī)約的功能,從而更好地解決異構(gòu)數(shù)據(jù)訪問的問題。同時在App Engin開發(fā)平臺上,設(shè)計出一套更為完善的數(shù)據(jù)挖掘系統(tǒng),提升了云計算和數(shù)據(jù)挖掘技術(shù)結(jié)合的可靠性與高效性。文章主要針對基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)設(shè)計與實現(xiàn)予以深入的研究,并且對今后云計算環(huán)境下的數(shù)據(jù)挖掘系統(tǒng)的延伸發(fā)展予以展望,希望能夠通過論述對讀者產(chǎn)生一些積極影響。
參考文獻(xiàn)
[1] 楊慶平.基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,19(1);122-123.
[2] 黃章樹.基于云計算服務(wù)模式的數(shù)據(jù)挖掘應(yīng)用平臺的構(gòu)建[J].電信科學(xué),2012,28(1);138-139.
[3] 莊福振.基于云計算的大數(shù)據(jù)挖掘平臺[J].中興通訊技術(shù),2013,19(4);130-131.
作者簡介:
王水萍(1980-),女,河南許昌人,鄭州經(jīng)貿(mào)職業(yè)學(xué)院,講師;主要研究方向和關(guān)注領(lǐng)域:數(shù)據(jù)挖掘。
王方(1981-),女,河南安陽人,鄭州經(jīng)貿(mào)職業(yè)學(xué)院,講師;主要研究方向和關(guān)注領(lǐng)域:軟件應(yīng)用。endprint