黃國慶
摘要:在網(wǎng)絡(luò)技術(shù)不斷發(fā)展過程中,人們在海量的數(shù)據(jù)中如何提取有用的信息是現(xiàn)階段計算機處理信息的研究重點。而通過云計算數(shù)據(jù)挖掘技術(shù)可以有效地實現(xiàn)數(shù)據(jù)的提取。在云計算技術(shù)之下的數(shù)據(jù)挖掘平臺在理論上拓展了數(shù)據(jù)規(guī)約功能,可以解決數(shù)據(jù)訪問以及數(shù)據(jù)類型的難題,此系統(tǒng)在實踐中可以有效地提升數(shù)據(jù)提取的高效性,是一種具有可行性的技術(shù)手段。對此,文章主要對云計算技術(shù)之下數(shù)據(jù)挖掘平臺的設(shè)計以及技術(shù)進行簡單的探究分析。
關(guān)鍵詞:云計算技術(shù);數(shù)據(jù)挖掘平臺設(shè)計;技術(shù)
中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1009-3044(2018)19-0010-02
在信息技術(shù)高速發(fā)展過程中,各種信息數(shù)據(jù)充斥在人們的周圍。這些信息數(shù)據(jù)具有數(shù)量龐大、異構(gòu)以及復(fù)雜等特征,加強對這些數(shù)據(jù)的分析可以及時發(fā)現(xiàn)今后商業(yè)以及科研發(fā)展的趨勢,具有一定的商業(yè)價值。通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用,在海量的數(shù)據(jù)中利用算法尋找隱藏的信息的過程,通過統(tǒng)計學(xué)知識、模式識別以及人工智能技術(shù)、建模技術(shù)以及算法知識的集合可以提升其精準性。在今后的發(fā)展中基于云計算技術(shù)之下的數(shù)據(jù)挖掘平臺的應(yīng)用范圍會更加廣泛,會在各個領(lǐng)域中有效應(yīng)用,這對于社會經(jīng)濟的發(fā)展以及提升有著積極的作用。
1 云計算技術(shù)下數(shù)據(jù)挖掘平臺設(shè)計需求分析
在現(xiàn)階段的發(fā)展中,對于數(shù)據(jù)挖掘技術(shù)人們提出了分布式并行數(shù)據(jù)挖掘平臺的基礎(chǔ)框架,通過對集權(quán)、三層C/S以及Agent框架結(jié)構(gòu)得不同類型的技術(shù),這些框架整體結(jié)構(gòu)相對較為復(fù)雜,且適應(yīng)能力相對較差,在實踐中只能針對單一的應(yīng)用進行系統(tǒng)開發(fā)研究,其成本相對較高無法在實踐中廣泛應(yīng)用。而云計算作為一種網(wǎng)絡(luò)技術(shù)手段的有效升級,在實踐中具有大規(guī)模、虛擬化以及可靠性、拓展性的特征,對于收集挖掘平臺的設(shè)計與構(gòu)建有著積極的作用。
對此,加強對云計算技術(shù)之下大數(shù)據(jù)挖掘平臺的設(shè)計,可以充分地彰顯其網(wǎng)絡(luò)計算作用,可以在集成其固有系統(tǒng)的集成之上完善功能,也可以有效地滿足中小企業(yè)以及科研的單位等中小型系統(tǒng)因為資金等因素影響無法系統(tǒng)研究的弊端與不足,在實踐中應(yīng)用云計算技術(shù)下數(shù)據(jù)挖掘平臺效率也相對較高。
云計算技術(shù)下數(shù)據(jù)挖掘平臺的總體可以分為數(shù)據(jù)準備以及數(shù)據(jù)挖掘兩個階段。其中數(shù)據(jù)挖掘平臺在設(shè)計過程中,必須要基于數(shù)據(jù)特點合理的應(yīng)用云計算機技術(shù)手段,通過對數(shù)據(jù)的過濾、轉(zhuǎn)換等處理,可以提升系統(tǒng)設(shè)計的整體性能,進而滿足系統(tǒng)設(shè)計的實際需求。在云計算技術(shù)下數(shù)據(jù)挖掘平臺設(shè)計過程中,通過對海量數(shù)據(jù)信息的整合,通過數(shù)據(jù)挖掘技術(shù)手段,通過計費數(shù)據(jù)、業(yè)務(wù)訂購信息以及網(wǎng)管理數(shù)據(jù)等方式可以了解其各種內(nèi)在規(guī)律,進而為相關(guān)研究提供信息數(shù)據(jù)支持。而在云計算技術(shù)下數(shù)據(jù)挖掘平臺設(shè)計中,將云計算技術(shù)與數(shù)據(jù)挖掘技術(shù)進行融合,通過分布式計算概念,對各種信息任務(wù)進行系統(tǒng)的挖掘在不同的計算機之上對其進行處理,可以有效地滿足各種信息數(shù)據(jù)挖掘的實際需求。
2 云計算定義及架構(gòu)
2.1 云計算定義
云計算就是一種計算平臺,在此平臺中可以通過服務(wù)器以及一些大規(guī)模的數(shù)據(jù),利用動態(tài)的數(shù)據(jù)流動方式提供各種信息資料。云計算融合了分布式計算以及并行計算、網(wǎng)絡(luò)計算三種計算,可以通過動態(tài)以及透明的方式為用戶提供一些虛擬計算以及信息存儲資源。云計算在實踐中通過模擬計算可以滿足客戶的各種實際需求,也可以將這些資源合理地分配給不同的用戶,其成本相對腳下,具有強大的存儲能力,在實踐中應(yīng)用具有較為顯著的效果。
2.2 基于云計算的數(shù)據(jù)挖掘系統(tǒng)架構(gòu)
云計算框架的優(yōu)點就是硬件資源相對較為簡單,且消耗的成本也相對較低,不同模塊之間通過互相配合,在項目研發(fā)過程中,可以直接利用系統(tǒng)資源進行研究分析。數(shù)據(jù)挖掘技術(shù)的應(yīng)用與實現(xiàn),可以通過算法研究分析,然后在云計算部署各種算法,進而實現(xiàn)其各項功能。其各個模塊之間相互配
2.2.1 目標(biāo)系統(tǒng)模型
目標(biāo)系統(tǒng)模型在實踐中可以為客戶提供各種信息服務(wù),通過在此系統(tǒng)上建立應(yīng)用程序,提供具有開放性特征的接口。同時,在實踐中用戶可以通過終端進行應(yīng)用,也可以利用間接調(diào)用相關(guān)應(yīng)用程序的方式提供各種開放式的接口模式,在研究過程中必須要對其應(yīng)用的算法種類以及數(shù)據(jù)處理方式進行分析,而計算機的存儲能力以及系統(tǒng)自身的實現(xiàn)能力并不在其考量的范圍之內(nèi)。
2.2.2 功能層次框架設(shè)計
功能層次框架系統(tǒng)的層次架構(gòu)主要應(yīng)用一種自下之上的結(jié)構(gòu)形式,其主要氛圍異構(gòu)數(shù)據(jù)集合以及數(shù)據(jù)規(guī)約工具、用戶界面、開放接口以及云計算平臺等相關(guān)模塊,且其每一層都要向上層提供透明的服務(wù)。云計算中的應(yīng)用程序接口主要就是通過底層的云計算平臺提供。用戶以及云計算的交互,主要就是在頂層的開放式接口中進行設(shè)計。而開放接口的功能可以為用戶提供各種信息數(shù)據(jù),獲得數(shù)據(jù)集,也可以為用戶提供各種算法,進而對其進行集成應(yīng)用,實現(xiàn)平臺的開行特征。
3 云計算技術(shù)下數(shù)據(jù)挖掘平臺設(shè)計方案
3.1 系統(tǒng)總體設(shè)計
云計算技術(shù)下設(shè)計數(shù)據(jù)挖掘平臺,主要應(yīng)用的就是三層結(jié)構(gòu)模式,通過數(shù)據(jù)預(yù)處理、云計算以及數(shù)據(jù)挖掘平臺為主要的層次,提升平臺性能,進而實現(xiàn)數(shù)據(jù)挖掘的功能,其主要的系統(tǒng)設(shè)計結(jié)構(gòu)具體如下:
在進行數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)的設(shè)計過程中,數(shù)據(jù)預(yù)處理層可以對分布式數(shù)據(jù)文件進行存儲,進而實現(xiàn)對整個平臺的分布式管理;而云計算層則可以對各個數(shù)據(jù)的挖掘步驟以及模塊進行系統(tǒng)的調(diào)度以及總控,進而實現(xiàn)對原始數(shù)據(jù)的與處理,獲得各種挖掘數(shù)據(jù);數(shù)據(jù)挖掘平臺在實踐中可以有效應(yīng)用,必須要綜合實際需求合理設(shè)計。
3.2 系統(tǒng)功能設(shè)計
在云計算技術(shù)之下的數(shù)據(jù)挖掘平臺其具有不同的數(shù)據(jù)挖掘作用,通過對數(shù)據(jù)收集模塊、數(shù)據(jù)預(yù)處理模塊以及模式跪著選擇模塊、應(yīng)用接口模塊共同構(gòu)成。其中數(shù)據(jù)收集模塊的主要功能就是對在平臺服務(wù)器端口中的數(shù)據(jù)進行收集整理,對客戶的各種信息材料進行梳理,通過文本方式對其進行收集,在返回這些信息數(shù)據(jù)。數(shù)據(jù)預(yù)處理模塊就是通過與處理返回數(shù)據(jù)信息,對信息中一些沒有用的相對較為冗余的信息數(shù)據(jù)進行剔除,進而提升數(shù)據(jù)挖掘系統(tǒng)的挖掘時間。而模式規(guī)則選取模塊可以獲得各個站點中通用的信息模式,這是一種學(xué)習(xí)模式。應(yīng)用接口模塊的主要功能就是實現(xiàn)數(shù)據(jù)以及數(shù)據(jù)挖掘平臺的有效對接處理。
3.3 平臺數(shù)據(jù)庫設(shè)計
數(shù)據(jù)庫設(shè)計在實踐中充分的利用各種數(shù)據(jù)庫特征,可以有效地減少數(shù)據(jù)的冗余性,將數(shù)據(jù)在一個地方進行集中的存儲,利用主鍵以及外鍵可以生產(chǎn)動態(tài)的視圖,進而為程序編寫以及查詢檢索代碼的編寫提供便捷。在此平臺上,Reduce可以接收不同模式的任務(wù)數(shù)據(jù),在不同任務(wù)中傳來的信息數(shù)據(jù)也是有序存在的。在此數(shù)據(jù)挖掘平臺中,如果Reduce端數(shù)據(jù)量接收相對較小,則可以將其在內(nèi)存中直接存儲;如果數(shù)據(jù)量高于緩沖區(qū)的比例,則就可以將各種信息數(shù)據(jù)進行合并處理,在將其寫到磁盤之中。
3.4 算法模塊插件系統(tǒng)
算法模塊包括了數(shù)據(jù)清洗算法方式、數(shù)據(jù)挖掘算法方式、結(jié)果可視化算法等不同的算法。在進行算法模塊插件設(shè)計過程中其包括不同的部分,其具體內(nèi)容如下:
第一,在云技術(shù)中的大數(shù)據(jù)計算都具有不規(guī)則且噪聲嚴重的特征,對此在實踐中要先利用數(shù)據(jù)集清洗算法對其進行處理,將這些原始數(shù)據(jù)變?yōu)橐?guī)則的數(shù)據(jù)集;第二,通過數(shù)據(jù)挖掘算法對其獲得規(guī)則數(shù)據(jù)進行集中處理進而獲得其需求的信息。第三,利用可視化算法對目標(biāo)信息進行傳遞,進而完成操作。在整個數(shù)據(jù)處理過程中數(shù)據(jù)的應(yīng)用主要就是通過REST接口完成的。
第二,數(shù)據(jù)集訪問模塊。數(shù)據(jù)集訪問模塊在實踐中設(shè)計與算法模塊插件系統(tǒng)較為類似,都是通過插件對各種信息數(shù)據(jù)進行調(diào)用處理,在數(shù)據(jù)集的訪問過程中,此訪問模塊文件中一些被檢索的信息也可以被用戶調(diào)用。但是,在數(shù)據(jù)集訪問模塊中系統(tǒng)會將數(shù)據(jù)文件進行分解,形成不同的元數(shù)據(jù)組著以及不同的物理訪問地址,在將這些數(shù)據(jù)組合形成較為經(jīng)典的結(jié)構(gòu)參數(shù),對其傳遞到數(shù)據(jù)機訪問模塊之中。
3.4數(shù)據(jù)挖掘平臺算法實現(xiàn)
把數(shù)據(jù)挖掘技術(shù)與云計算進行有效融合,在無限規(guī)模的機器集群上對計算進行有效的擴展分析。基于Map/Reduce框架中,對每一次的請求進行計算分析,進行處理。在數(shù)據(jù)挖掘中,將具體的數(shù)據(jù)挖掘作業(yè)劃分為不同的任務(wù),在對其進行分配,在不同的機器上進行執(zhí)行,在完成任務(wù)之后就可以進入到下一個數(shù)據(jù)挖掘步驟之中,將這些文件合并并且輸出文件;在數(shù)據(jù)平臺系統(tǒng)中可以將其生成不同的、若干個Reduce任務(wù),在循環(huán)應(yīng)用算法對其進行處理,就可以生成其需要的數(shù)據(jù)挖掘目標(biāo)文件。通過此算法設(shè)計數(shù)據(jù)挖掘平臺,可以有效地提升數(shù)據(jù)的靈活性,進而增強數(shù)據(jù)挖掘的效率與質(zhì)量,加強對數(shù)據(jù)挖掘目標(biāo)的設(shè)置,合理的構(gòu)建挖掘目標(biāo)模型,可以提升工作效率與質(zhì)量。
4 結(jié)束語
在實踐中,通過云計算技術(shù)之下的挖掘平臺的設(shè)計可以有效地緩解傳統(tǒng)數(shù)據(jù)挖掘平臺中框架結(jié)構(gòu)中存在的各種問題,可以避免傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性,適應(yīng)能力差以及成本過高的問題。通過對云計算大數(shù)據(jù)挖掘平臺的設(shè)計,利用數(shù)據(jù)規(guī)約功能可以有效地緩解數(shù)據(jù)異構(gòu)問題,眱解決數(shù)據(jù)分析訪問以及數(shù)據(jù)類型中存在的各種難題,在今后的發(fā)展中,基于云計算技術(shù)之下的數(shù)據(jù)挖掘平臺會不斷地規(guī)范,其應(yīng)用范圍勢必會更加廣闊。
參考文獻:
[1] 包永紅.云計算技術(shù)下數(shù)據(jù)挖掘平臺設(shè)計及技術(shù)[J].現(xiàn)代電子技術(shù),2016,39(16):161-163.
[2] 丁巖,楊慶平,錢煜明.基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013, 19(1):53-56.
[3] 王小燕 基于云計算的大數(shù)據(jù)挖掘平臺設(shè)計[J].電子設(shè)計工程,2017,25(13):25-27.
[4] 石雷.云計算技術(shù)下的數(shù)據(jù)挖掘平臺建構(gòu)探討[J].自動化與儀器儀表,2017(11):159-160.
[5] 馮娜.計算環(huán)境下數(shù)據(jù)挖掘信息平臺架構(gòu)設(shè)計及實現(xiàn)[J].電腦編程技巧與維護,2017(18):163-165.