沈瞳周
一種基于云計(jì)算的數(shù)據(jù)挖掘平臺架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)
沈瞳周
南京中設(shè)航空科技發(fā)展有限公司,江蘇 南京 210000
隨著科學(xué)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)計(jì)算機(jī)技術(shù)日趨成熟。云計(jì)算已成為社會發(fā)展的重要平臺。數(shù)據(jù)挖掘是企業(yè)獲取信息資源的重要途徑,而數(shù)據(jù)挖掘技術(shù)則是完成數(shù)據(jù)挖掘的關(guān)鍵條件,為社會發(fā)展中的各個(gè)領(lǐng)域提供了現(xiàn)代化的服務(wù)。因此,數(shù)據(jù)挖掘平臺架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)必須以云計(jì)算為基礎(chǔ),才能更加科學(xué)和合理。通過對云計(jì)算和數(shù)據(jù)挖掘的含義進(jìn)行分析,闡述了以云計(jì)算為基礎(chǔ)的數(shù)據(jù)挖掘平臺架構(gòu)的設(shè)計(jì)與實(shí)現(xiàn)。
云計(jì)算;數(shù)據(jù)挖掘平臺架構(gòu);設(shè)計(jì)與實(shí)現(xiàn)
云計(jì)算是以網(wǎng)絡(luò)、分布和并行計(jì)算為基礎(chǔ)而實(shí)現(xiàn)的,并對大量的數(shù)據(jù)進(jìn)行整合,然后對所有服務(wù)器的資源進(jìn)行處理的一類計(jì)算平臺。這個(gè)計(jì)算方式已經(jīng)被廣泛應(yīng)用于商業(yè)金融、電子商務(wù)等多個(gè)領(lǐng)域中。云計(jì)算的主要優(yōu)勢是投入成本較低,具有很好的通用性,處理數(shù)據(jù)效率較高,并且數(shù)據(jù)規(guī)模很大,可以根據(jù)客戶的需求對資源進(jìn)行動態(tài)透明的存儲和虛擬化的計(jì)算,也可以將用戶暫時(shí)用不到的資源進(jìn)行動態(tài)回收,然后將其提供給需要使用的客戶。云計(jì)算因?yàn)槠渫ㄓ眯院土畠r(jià)性,可以幫助用戶操作大規(guī)模數(shù)據(jù)。
當(dāng)前,云計(jì)算平臺的發(fā)展日趨成熟,對數(shù)據(jù)資源能夠進(jìn)行科學(xué)的操作和部署。云計(jì)算主要包括以下幾個(gè)特征:第一,通用性。云計(jì)算并沒有針對特定的應(yīng)用而進(jìn)行,都是以云作為基礎(chǔ)來對各種應(yīng)用進(jìn)行支撐,也可以對不同應(yīng)用進(jìn)行構(gòu)建。第二,虛擬化。云計(jì)算所涉及的資源都來自于虛擬的云端,它并不是從固定的實(shí)體而來的。所以,用戶在獲取資源時(shí),不會受到應(yīng)用服務(wù)的終端和位置的限制。第三,超大規(guī)模與高擴(kuò)展性。在云端,可以將數(shù)據(jù)以透明的形式顯示給用戶,并將規(guī)模進(jìn)行無限的動態(tài)擴(kuò)展,在這個(gè)過程中不會對用戶的應(yīng)用和業(yè)務(wù)產(chǎn)生任何影響。第四,成本投入較低。云的一個(gè)特殊的特點(diǎn)就是具有很好的容錯機(jī)制,它可以利用最廉價(jià)的節(jié)點(diǎn)來建立云。同時(shí),它可以對數(shù)據(jù)進(jìn)行自動化的集中,這種方式在很大程度上降低了企業(yè)數(shù)據(jù)的管理成本,也提高了數(shù)據(jù)資源的利用率。
數(shù)據(jù)挖掘是社會和科學(xué)發(fā)展的必然產(chǎn)物,也是知識領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù)。數(shù)據(jù)挖掘技術(shù)會涉及很多領(lǐng)域的應(yīng)用,如機(jī)器學(xué)習(xí)、模式識別和人工智能等,主要包括估計(jì)分類、估計(jì)預(yù)測、相關(guān)性分組和聚類等。
云計(jì)算環(huán)境下的數(shù)據(jù)挖掘平臺設(shè)計(jì)如圖1所示:
圖1 基于云計(jì)算環(huán)境下的數(shù)據(jù)挖掘平臺初步架構(gòu)圖
數(shù)據(jù)挖掘平臺和技術(shù)是當(dāng)前互聯(lián)網(wǎng)云計(jì)算環(huán)境下最常用的技術(shù)之一,在數(shù)據(jù)挖掘系統(tǒng)中發(fā)揮著關(guān)鍵性的作用。如果數(shù)據(jù)挖掘平臺架構(gòu)缺乏一定的科學(xué)性和合理性,就會造成大量的資源浪費(fèi),也會給企業(yè)帶來相應(yīng)的損失。所以,科學(xué)、合理的數(shù)據(jù)挖掘平臺架構(gòu)目標(biāo)系統(tǒng)模型的建立至關(guān)重要。它既可以為云計(jì)算環(huán)境下的各種終端用戶提供高透明的的界面服務(wù),又可以為用戶提供同步的、更加開放式的接口支持。通過這種系統(tǒng)的、較為完善的系統(tǒng)模型建設(shè),一方面能夠滿足云計(jì)算用戶對互聯(lián)網(wǎng)終端訪問系統(tǒng)的性能要求;另一方面,可以綜合利用互聯(lián)網(wǎng)的信息,滿足其他類型端口應(yīng)用程序的需求[1]。
在功能層次模型設(shè)計(jì)的框架結(jié)構(gòu)分類中,可以將其劃分為算法層、應(yīng)用層和用戶層。第一,算法層是模型中的核心。在工作過程中,它主要是與下個(gè)層次中所提供的統(tǒng)一數(shù)據(jù)來源相結(jié)合,并對相關(guān)算法和對接口處的數(shù)據(jù)進(jìn)行處理和管理。在計(jì)算過程中,可以利用多種算法按照相應(yīng)的順序來得到并分析各種不同的結(jié)果。第二,應(yīng)用層具有很強(qiáng)的抽象性,可以對云數(shù)據(jù)挖掘中的海量信息進(jìn)行科學(xué)的規(guī)劃和統(tǒng)計(jì),從而實(shí)現(xiàn)系統(tǒng)的應(yīng)用[1]。同時(shí),應(yīng)用層還可以使用它的調(diào)用系統(tǒng)服務(wù)功能來進(jìn)行數(shù)據(jù)的處理和應(yīng)用。
本文以分布式算法為例進(jìn)行了分析。此方法是當(dāng)前云計(jì)算數(shù)據(jù)挖掘平臺中較為先進(jìn)的一種算法。這種以互聯(lián)網(wǎng)為基礎(chǔ)的新型數(shù)據(jù)挖掘程序的算法,可以將其分為四種:自愿約束型的自適應(yīng)程序算法,以地域性路由優(yōu)化為基礎(chǔ)的程序算法,局部數(shù)據(jù)挖據(jù)算法以及全局挖掘算法。表1是資源約束型自適應(yīng)程序算法的相關(guān)內(nèi)容。
表1 資源約束型自適應(yīng)程序算法相關(guān)符號介紹
在分布式計(jì)算框架中,可以對相關(guān)的細(xì)節(jié)進(jìn)行有效的處理,可以讓用戶進(jìn)行更好的體驗(yàn)和使用,具有很好的運(yùn)行效率,降低了系統(tǒng)的維護(hù)成本。當(dāng)前最常見的分布式計(jì)算框架為MapReduce,它對PC機(jī)的適應(yīng)性很強(qiáng),可以將執(zhí)行的任務(wù)和數(shù)據(jù)分布等多種類型數(shù)據(jù)封裝在一個(gè)庫中,用戶可以直接調(diào)取和使用這些數(shù)據(jù),各個(gè)數(shù)據(jù)間不會產(chǎn)生并聯(lián)。
綜上所述,當(dāng)前社會已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,云計(jì)算技術(shù)已經(jīng)得到了快速的發(fā)展和成熟。在對數(shù)據(jù)進(jìn)行挖掘時(shí),只有采用科學(xué)的數(shù)據(jù)挖掘技術(shù),才能得以實(shí)現(xiàn)。因此,以云計(jì)算為基礎(chǔ),構(gòu)建科學(xué)的數(shù)據(jù)挖掘平臺架構(gòu)設(shè)計(jì),然后使其得以實(shí)現(xiàn),為數(shù)據(jù)信息的獲得提供重要的保障,更好地服務(wù)于各個(gè)領(lǐng)域,使這些數(shù)據(jù)信息發(fā)揮最大的價(jià)值。企業(yè)必須提高對數(shù)據(jù)挖掘平臺架構(gòu)設(shè)計(jì)的重視程度,加大成本投入,建立企業(yè)內(nèi)部數(shù)據(jù)挖掘私有云和公用云,為企業(yè)提供更多的數(shù)據(jù)服務(wù)。
[1]黃鋼勇.基于云計(jì)算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)探討[J].科學(xué)與財(cái)富,2016,8(4):46-49.
Design and Implementation of a Data Mining Platform Architecture Based on Cloud Computing
Shen Tongzhou
Nanjing Central Aeronautical Science and Technology Development Co., Ltd., Jiangsu Nanjing 210000
With the rapid development of science and technology, Internet computer technology is becoming more and more mature. Cloud computing has become an important platform for social development. Data mining is an important way for enterprises to acquire information resources, and data mining technology is the key condition for data mining, providing modern services for all fields in social development. Therefore, the design and implementation of data mining platform architecture must be based on cloud computing in order to be more scientific and reasonable. Through the analysis of the meaning of cloud computing and data mining, the design and implementation of the architecture of the data mining platform based on cloud computing is described.
cloud computing; data mining platform architecture; design and Implementation
TP311.13
A
1009-6434(2017)9-0091-02