蔣灝東
(蘇州工業(yè)職業(yè)技術(shù)學(xué)院,江蘇蘇州,215104)
數(shù)據(jù)的采集比如流行的Sqoop和ETL工具[ETL概念是將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端],傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等,都是將數(shù)據(jù)從來(lái)遠(yuǎn)端采集并加載到目標(biāo)端的工具,海量數(shù)據(jù)對(duì)數(shù)據(jù)采集也有極大的壓力。數(shù)據(jù)采集可參考圖1所示。
圖1 數(shù)據(jù)采集
另外,大數(shù)據(jù)背景下,對(duì)數(shù)據(jù)的收錄和存儲(chǔ)也有了更高要求,通過(guò)計(jì)算機(jī)軟硬件技術(shù)的提升來(lái)加強(qiáng)數(shù)據(jù)的存儲(chǔ),通常來(lái)說(shuō),數(shù)據(jù)都存儲(chǔ)在企業(yè)的一個(gè)個(gè)“云”上,如阿里云、AWS(亞馬遜)、AZURE(微軟)、DINDINCLOUD(丁丁云)、KTC、GOOGLE CLOUD(谷歌云)等等,但需要看出,云的作用不僅僅在于存儲(chǔ),也在于對(duì)信息數(shù)據(jù)的處理。
上面提到,高端互聯(lián)網(wǎng)企業(yè)已經(jīng)逐步開發(fā)屬于自己的云計(jì)算,對(duì)于大數(shù)據(jù)的采集、存儲(chǔ)和計(jì)算都非常方便,大數(shù)據(jù)作為基礎(chǔ)提供海量數(shù)據(jù),云計(jì)算則將所有數(shù)據(jù)進(jìn)行分布式處理、分布式數(shù)據(jù)庫(kù),解決目標(biāo)任務(wù)并進(jìn)行計(jì)算結(jié)果的合并,通過(guò)云計(jì)算,可以在短短數(shù)秒鐘時(shí)間內(nèi),處理數(shù)以萬(wàn)計(jì)的數(shù)據(jù),例如串口溫度檢測(cè)(如圖2).通過(guò)計(jì)算與處理的數(shù)據(jù),才真正具有“可視化”的特點(diǎn),為隨后的智能運(yùn)營(yíng)提供基礎(chǔ)。發(fā)展至今,云計(jì)算已經(jīng)越來(lái)越復(fù)雜,如大樹般開枝散葉,逐漸形成了分布式計(jì)算、效用計(jì)算、負(fù)載均衡、并行計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、熱備份冗雜和虛擬化等計(jì)算機(jī)的混合技術(shù)。
圖2 基于串口溫度檢測(cè)流程
除了各家企業(yè)的云計(jì)算之外,Hadoop、Mapreduce、Tensorflow(深度學(xué)習(xí)框架)、Spark、Pentaho BI等開源框架或軟件也符合對(duì)數(shù)據(jù)計(jì)算與處理的需求,要正確看待云計(jì)算和上述開源框架的區(qū)別,如果將云計(jì)算比作大型的、系統(tǒng)工程的藍(lán)圖,那么上述幾個(gè)開源框架就是基礎(chǔ)工具,比如修建一棟別墅,云計(jì)算就是方方面面的設(shè)計(jì)圖,而上述開源框架可能只是水泥、錘子、釘子等工具,這樣的比喻并不完全準(zhǔn)確,需正確看待,如果數(shù)據(jù)量不大,企業(yè)可以選擇上述開源框架,對(duì)大數(shù)據(jù)進(jìn)行集中分布式處理,開發(fā)分布式程序,現(xiàn)在Hadoop已經(jīng)被公認(rèn)為大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件,也已被全球幾大IT公司用作其云計(jì)算環(huán)境中的重要基礎(chǔ)軟件。
通過(guò)上述兩點(diǎn),大數(shù)據(jù)才真正具有可視化的標(biāo)準(zhǔn),讓大數(shù)據(jù)以統(tǒng)計(jì)圖表等形式反映出來(lái),對(duì)所有數(shù)據(jù)進(jìn)行了分割、加工、處理,之后就需要根據(jù)數(shù)據(jù)支持采取行動(dòng),也就是智能運(yùn)營(yíng),分析師通過(guò)對(duì)所有可視化的數(shù)據(jù)進(jìn)行分析,利用機(jī)器學(xué)習(xí)和人工智能構(gòu)建數(shù)據(jù)模型,模擬出用戶的行為習(xí)慣和喜好特點(diǎn),深入挖掘其中的價(jià)值,并進(jìn)行更清晰化、更有目的、更準(zhǔn)確地判斷,最終完成信息推送,推送的內(nèi)容就會(huì)是用戶喜歡或者需求的。
在大數(shù)據(jù)時(shí)代下信息安全技術(shù)也是一項(xiàng)非常關(guān)鍵的內(nèi)容。因?yàn)樘幵谶@樣的時(shí)代下,數(shù)據(jù)之間的關(guān)聯(lián)性是非常明顯的,這相較于任何時(shí)代,都是一個(gè)比較顯著的特點(diǎn)。在運(yùn)行的過(guò)程中,如果某一部分的數(shù)據(jù)出現(xiàn)了安全問(wèn)題,那么就會(huì)對(duì)整體運(yùn)行產(chǎn)生極大的影響,會(huì)對(duì)于其他數(shù)據(jù)產(chǎn)生安全威脅,所以處在大數(shù)據(jù)這一時(shí)代下,在計(jì)算機(jī)信息處理的過(guò)程中不僅要關(guān)注具體的單個(gè)數(shù)據(jù)所涉及的安全問(wèn)題,更需要有整體性思維,對(duì)于問(wèn)題進(jìn)行全面考慮。能正確認(rèn)識(shí)大數(shù)據(jù)這一時(shí)代對(duì)于信息處理技術(shù)所帶來(lái)的機(jī)遇還要明確存在的挑戰(zhàn),這樣才能更好地應(yīng)對(duì)。從當(dāng)前的實(shí)際情況來(lái)看,處于大數(shù)據(jù)這一時(shí)代下,對(duì)于數(shù)據(jù)信息進(jìn)行處理時(shí),并不能脫離具體的硬件,因?yàn)檫@樣會(huì)讓信息安全方面受到極為嚴(yán)重的威脅,所以要對(duì)于線下的技術(shù)不斷完善,這樣才能更好地把握機(jī)遇,應(yīng)對(duì)挑戰(zhàn)。
在對(duì)大數(shù)據(jù)背景下的計(jì)算機(jī)信息處理技術(shù)進(jìn)行研究時(shí),一定要立足時(shí)代發(fā)展的背景,明確這項(xiàng)技術(shù)在當(dāng)前面臨的機(jī)遇與挑戰(zhàn),這樣才能讓其更好的發(fā)展。在當(dāng)前這一時(shí)代下,計(jì)算機(jī)的網(wǎng)絡(luò)部計(jì)劃程度變得越來(lái)越高,大數(shù)據(jù)隨即產(chǎn)生。這期的應(yīng)用可以給企業(yè)的具體工作提供非常大的幫助助力企業(yè)實(shí)現(xiàn)精細(xì)化管理。在教育行業(yè)中,大數(shù)據(jù)也能發(fā)揮極為重要的作用,例如手機(jī)學(xué)生的喜好,這樣能更好地做到因材施教,這是機(jī)遇。
不過(guò),挑戰(zhàn)也是存在的,首先這讓存儲(chǔ)技術(shù)以及存儲(chǔ)空間等面臨著更高的要求,此外,用戶的隱私以及企業(yè)隱私等也面臨著更高的要求,而且網(wǎng)絡(luò)運(yùn)營(yíng)商在硬件方面要能跟上時(shí)代發(fā)展?jié)M足大數(shù)據(jù)技術(shù)的相關(guān)要求,從而能提升自己的信息處理能力,這些問(wèn)題都需要在未來(lái)的發(fā)展過(guò)程中不斷攻破。
在計(jì)算機(jī)信息處理的過(guò)程中,必不可少的就是計(jì)算機(jī)的運(yùn)行,因此也可以非常明確,計(jì)算機(jī)在不斷高速運(yùn)轉(zhuǎn)的狀態(tài)下,就需要依靠自身硬件等設(shè)備的性能,保障好這些方面,才能促使信息處理的速度以及效率更高。不過(guò)當(dāng)前的計(jì)算機(jī)軟硬件設(shè)備發(fā)展還略顯不足,在大數(shù)據(jù)時(shí)代不斷進(jìn)步的前提下,這些技術(shù)越來(lái)越顯得滯后。計(jì)算的概念就是為了解決這個(gè)難題而提出的解除這種技術(shù)能夠?qū)τ诰W(wǎng)絡(luò)上的信息進(jìn)行加工,這一技術(shù)的輔助就不用完全依靠計(jì)算機(jī)的硬件,不過(guò)雖然云計(jì)算在這一問(wèn)題的解決上發(fā)揮著重要作用,但是技術(shù)還不是很成熟,在實(shí)際應(yīng)用時(shí)依然對(duì)于計(jì)算機(jī)的軟硬件依賴性比較大。因此在未來(lái)需要重視云計(jì)算發(fā)展,這是一項(xiàng)艱巨的任務(wù)。
大數(shù)據(jù)技術(shù)不斷發(fā)展,數(shù)據(jù)量是非常大的,他們借助大數(shù)據(jù)技術(shù)聚合在一起,并且有著密不可分的關(guān)系,對(duì)于這些數(shù)據(jù)的分析,能夠明確看出客戶的實(shí)際需求,但是在這些海量的數(shù)據(jù)中,有一些是不需要的屬于冗余數(shù)據(jù)。這次就需要在海量的數(shù)據(jù)信息中找到真正需要的數(shù)據(jù),這是企業(yè)最關(guān)注的一個(gè)要點(diǎn),因此就涉及數(shù)據(jù)挖掘技術(shù)。成像技術(shù)主要是對(duì)具體的數(shù)據(jù)進(jìn)行加工以及整理并且實(shí)時(shí)細(xì)致地分析,這樣能發(fā)現(xiàn)各個(gè)數(shù)據(jù)之間的聯(lián)系,從而對(duì)其進(jìn)行分類篩選,將有用的數(shù)據(jù)提取出來(lái),無(wú)用的數(shù)據(jù)則剔除。
這一算法主要是為了提升數(shù)據(jù)處理效率而出現(xiàn)的,這種智能算法在研發(fā)時(shí)是以自然界的各種自然現(xiàn)象為重要依據(jù)的,在這種智能算法的應(yīng)用中,能夠給各種信息數(shù)據(jù)的處理工作提供極大的幫助,從現(xiàn)代計(jì)算機(jī)智能算法的應(yīng)用情況來(lái)看,發(fā)展是比較快的,比較常用的有遺傳算法、粒子群算法等多種類型。當(dāng)前我們比較多應(yīng)用的是傳統(tǒng)計(jì)算機(jī)算法,其雖然能夠滿足工作的實(shí)際需求,但是工作效率比較低。應(yīng)用智能算法則很好地彌補(bǔ)其存在的不足,從而提高工作效率,讓信息處理結(jié)果能夠達(dá)到理想的程度。因此發(fā)展現(xiàn)代智能算法也是一個(gè)重要的促進(jìn)計(jì)算機(jī)信息處理技術(shù)發(fā)展的策略。