程劍
摘要:信息時(shí)代,一個(gè)顯著特征是大數(shù)據(jù)時(shí)代的到來。這一特征直接導(dǎo)致大批新技術(shù)與產(chǎn)品的不斷更新?lián)Q代。傳統(tǒng)的數(shù)據(jù)處理技術(shù)往往處理不了關(guān)聯(lián)度高以及結(jié)構(gòu)復(fù)雜的數(shù)據(jù),分析時(shí)間響應(yīng)過長(zhǎng),基于云計(jì)算的大數(shù)據(jù)分析平臺(tái)則能夠有效避免這些缺陷。
關(guān)鍵詞:云計(jì)算;大數(shù)據(jù)分析平臺(tái)構(gòu)建
中圖分類號(hào):TP311.13?文獻(xiàn)標(biāo)識(shí)碼:A?文章編號(hào):1672-9129(2020)10-0022-01
1?基于云計(jì)算的大數(shù)據(jù)分析平臺(tái)概述
平臺(tái)對(duì)數(shù)據(jù)的獲取和記錄通常包括五個(gè)階段,即對(duì)數(shù)據(jù)的抽取、整合、表達(dá)、建模和詮釋。這五點(diǎn)是對(duì)大數(shù)據(jù)處理最基本的過程。但由于大數(shù)據(jù)不同于以往的數(shù)據(jù)庫,其中包含的數(shù)據(jù)量過于龐大,這就導(dǎo)致了傳統(tǒng)的數(shù)據(jù)處理流程不足以滿足對(duì)其中數(shù)據(jù)的獲取和記錄。而在云技術(shù)的普及和應(yīng)用時(shí)代中,云平臺(tái)由于其高算力與拓展性高的兩大優(yōu)勢(shì),用來處理與存儲(chǔ)大信息量再合適不過。而且,云平臺(tái)所擁有的另一大優(yōu)勢(shì),就是這種對(duì)存儲(chǔ)的兼容在半結(jié)構(gòu)和非結(jié)構(gòu)化的數(shù)據(jù)上同樣很實(shí)用。但這些只滿足了數(shù)據(jù)的感知、傳輸和存儲(chǔ)要求,還不足以達(dá)到對(duì)數(shù)據(jù)的認(rèn)知和應(yīng)用的需求。想要把云計(jì)算技術(shù)應(yīng)用真正發(fā)揮出數(shù)據(jù)價(jià)值,還需要提高系統(tǒng)分析數(shù)據(jù)的速度,即在強(qiáng)大云算力的支撐基礎(chǔ)上的先進(jìn)數(shù)據(jù)算法的支持。
2?大數(shù)據(jù)分析平臺(tái)的網(wǎng)絡(luò)數(shù)據(jù)安全與防護(hù)
網(wǎng)絡(luò)數(shù)據(jù)資源在傳輸過程中遭遇到的安全威脅是用戶時(shí)時(shí)刻刻關(guān)注的問題,因此在具體的工作和管理中,需要提高云計(jì)算網(wǎng)絡(luò)安全技術(shù)的應(yīng)用程度,通過不斷創(chuàng)新安全模式,完善相應(yīng)的防護(hù)體系,從而有效消除安全性問題,提升數(shù)據(jù)傳輸?shù)陌踩院头€(wěn)定性。具體在應(yīng)用過程中,可以借助云計(jì)算技術(shù)的優(yōu)勢(shì),對(duì)數(shù)據(jù)傳輸?shù)恼麄€(gè)路徑進(jìn)行監(jiān)控,保證傳輸通道環(huán)境的安全性,一旦出現(xiàn)問題及時(shí)進(jìn)行預(yù)警,有效預(yù)防黑客的攻擊,降低網(wǎng)絡(luò)安全事故發(fā)生的概率。對(duì)此,有關(guān)網(wǎng)絡(luò)安全管理部門應(yīng)該提高重視程度,同時(shí)完善相應(yīng)的監(jiān)督管理制度,采用科學(xué)的管理方式,實(shí)現(xiàn)預(yù)期的監(jiān)測(cè)目標(biāo)。
3?大數(shù)據(jù)分析平臺(tái)存在的重點(diǎn)問題分析
3.1數(shù)據(jù)的管理和儲(chǔ)存問題。對(duì)大數(shù)據(jù)平臺(tái),首先要解決的是儲(chǔ)存數(shù)據(jù)的問題。針對(duì)于大數(shù)據(jù),需要建立分布式系統(tǒng),針對(duì)不同的用戶需求,建立多種庫數(shù)據(jù)和數(shù)據(jù)管理方法。分布式文件系統(tǒng)可以充分利用系統(tǒng)固有資源,也能通過多種方式來檢測(cè)數(shù)據(jù),從而滿足不同需求。針對(duì)這兩種數(shù)據(jù)服務(wù),建立數(shù)據(jù)儲(chǔ)存結(jié)構(gòu)成為了比較困難的問題。因?yàn)榇髷?shù)據(jù)中存在驚人的數(shù)據(jù)量,還有一些文檔、圖表和音視頻文件,以及其他半結(jié)構(gòu)化或是非結(jié)構(gòu)化的數(shù)據(jù),想要更好地處理這些數(shù)據(jù),需要建立高效的儲(chǔ)存模塊。關(guān)于鍵值、圖表等形式的數(shù)據(jù),目前還沒有一個(gè)硬性的規(guī)范來儲(chǔ)存這些數(shù)據(jù),所以,這里可以將這類信息以文檔的格式進(jìn)行儲(chǔ)存,而且以數(shù)據(jù)庫模式來處理這些圖表或是鍵值,比較符合現(xiàn)代的社會(huì)網(wǎng)絡(luò)化管理要求。建立數(shù)據(jù)庫可以減少申請(qǐng)這個(gè)環(huán)節(jié),與傳統(tǒng)方法相比存在很大優(yōu)勢(shì)。
3.2數(shù)據(jù)的收集和儲(chǔ)存效率問題。處于互聯(lián)網(wǎng)模式下,數(shù)據(jù)集會(huì)不斷增多,所以,需要不斷完善數(shù)據(jù)收集和儲(chǔ)存效率。目前使用的數(shù)據(jù)收集技術(shù)完全滿足不了互聯(lián)網(wǎng)用戶的需求,而且這對(duì)內(nèi)存消耗較大。使用基于云計(jì)算的大數(shù)據(jù)分析平臺(tái)可以通過遠(yuǎn)程內(nèi)存訪問協(xié)議提供更加快速的數(shù)據(jù)運(yùn)算服務(wù),同時(shí)也能降低內(nèi)存消耗。對(duì)于大數(shù)據(jù)處理技術(shù)而言,可以采取多種數(shù)據(jù)收集儲(chǔ)存方式,建立一個(gè)數(shù)據(jù)流處理系統(tǒng),這也可以提高數(shù)據(jù)收集的效率,同時(shí)節(jié)省更多的計(jì)算資源成本,而且能夠更加高效的挖掘具有價(jià)值的數(shù)據(jù)信息。
4?大數(shù)據(jù)分析平臺(tái)的基礎(chǔ)架構(gòu)
基于云計(jì)算的大數(shù)據(jù)分析平臺(tái)通過SPARK框架來進(jìn)行架構(gòu),在SPARK框架下,主要是將數(shù)據(jù)以分區(qū)方式存儲(chǔ),即RDD,在數(shù)據(jù)處理中,SPARK需要先對(duì)待處理數(shù)據(jù)創(chuàng)建一個(gè)RDD,然后對(duì)RDD施加轉(zhuǎn)換和行動(dòng)操作。轉(zhuǎn)換的主要目的是促使RDD迭代,即利用某些函數(shù)來促使舊的RDD迭代為新的RDD,然后行動(dòng)操作利用具體的算法來將RDD中的數(shù)據(jù)進(jìn)行計(jì)算,進(jìn)而返回計(jì)算結(jié)果。RDD默認(rèn)情況下是存儲(chǔ)在內(nèi)存當(dāng)中,對(duì)內(nèi)存的要求非常高,當(dāng)然實(shí)際上可以通過調(diào)整設(shè)置,將RDD存儲(chǔ)在存儲(chǔ)器當(dāng)中,但運(yùn)算速度會(huì)比較慢,一些經(jīng)常使用的RDD若存儲(chǔ)在存儲(chǔ)器當(dāng)中,在運(yùn)算時(shí)需要將其調(diào)用至內(nèi)存中,多了一個(gè)過程,導(dǎo)致變慢,所以可以將一些常用的RDD保存在內(nèi)存中?;赟PARK的云計(jì)算平臺(tái)架構(gòu),用戶采取自定義程序的方式,先定義好應(yīng)用程序,然后提交至SPARK集群,主節(jié)點(diǎn)上啟動(dòng)進(jìn)程MASTER,子節(jié)點(diǎn)上則啟動(dòng)進(jìn)程WORKER,主節(jié)點(diǎn)進(jìn)程MASTER會(huì)在子節(jié)點(diǎn)的WORKER上啟動(dòng)一個(gè)任務(wù)管理程序DRIVER。在DRIVER中,任務(wù)的復(fù)雜程度由SPARKCONTEXT進(jìn)行判別并向主節(jié)點(diǎn)申請(qǐng)?zhí)幚砥骱蛢?nèi)存的資源,并對(duì)EXECUTOR進(jìn)行初始化,生成DAG。DAG需要傳遞給TASKSCHEDULER。在TASKSCHEDULER生成TASKSET,并轉(zhuǎn)發(fā)TASK任務(wù)至EXECUTOR執(zhí)行。
5?大數(shù)據(jù)分析平臺(tái)的數(shù)據(jù)脫敏
在大數(shù)據(jù)分析平臺(tái)上的數(shù)據(jù)脫敏的主要方法有:一是加密方法,采用標(biāo)準(zhǔn)的加密算法,加密后完全失去業(yè)務(wù)屬性;二是基于數(shù)據(jù)失真的技術(shù),使用隨機(jī)干擾、“亂序”等方式,不可逆的打亂數(shù)據(jù),通過這種算法可以生成“看起來很真實(shí)的假數(shù)據(jù)”;三是可逆的置換算法,兼具可逆和保證業(yè)務(wù)屬性的特征,可以通過位置變換、表映射、算法映射等方式實(shí)現(xiàn)。脫敏后的數(shù)據(jù),既不影響大數(shù)據(jù)的分析、挖掘,又可有效地保護(hù)數(shù)據(jù)安全。當(dāng)用戶使用大數(shù)據(jù)平臺(tái)中的數(shù)據(jù)時(shí),應(yīng)根據(jù)用戶權(quán)限和數(shù)據(jù)用途等,對(duì)調(diào)用的數(shù)據(jù)進(jìn)行脫敏處理,既可保證大數(shù)據(jù)的充分使用,又可防止敏感數(shù)據(jù)泄漏。
結(jié)語:建立在云計(jì)算技術(shù)上的大數(shù)據(jù)分析平臺(tái),可以對(duì)復(fù)雜的數(shù)據(jù)結(jié)構(gòu)、關(guān)聯(lián)度較高的邏輯數(shù)據(jù)進(jìn)行高運(yùn)算處理,同時(shí)也能及時(shí)響應(yīng)用戶請(qǐng)求迅速調(diào)用并分配計(jì)算資源。云平臺(tái)正在向智能超算集群發(fā)展,可以實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的管理和應(yīng)用,實(shí)現(xiàn)智能、高速的大數(shù)據(jù)分析,為社會(huì)各行業(yè)的發(fā)展提供有力的幫助,運(yùn)用先進(jìn)的云算力作為生產(chǎn)力推動(dòng)數(shù)據(jù)創(chuàng)造價(jià)值,從而進(jìn)一步促進(jìn)人類社會(huì)的進(jìn)步與發(fā)展。
參考文獻(xiàn):
[1]陳敏,肖志強(qiáng).關(guān)于云計(jì)算大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)中分析與應(yīng)用淺析[J].數(shù)字技術(shù)與應(yīng)用,2016(12):250-250.