滕長(zhǎng)青
(黑龍江省電信公司,哈爾濱 150000)
目前,大數(shù)據(jù)作為最先進(jìn)的計(jì)算機(jī)應(yīng)用技術(shù)之一,已經(jīng)得到了許多學(xué)者的研究和追蹤,并且在應(yīng)用中引入了很多先進(jìn)技術(shù),比如企業(yè)服務(wù)總線、MapReduce、虛擬化和人工智能等,這些都可以提高大數(shù)據(jù)在能源、金融、工業(yè)、教育、旅游、軍事、航天等領(lǐng)域的普及性,大數(shù)據(jù)已經(jīng)上升到了國(guó)家戰(zhàn)略,也得到了國(guó)家法律政策、經(jīng)濟(jì)政策、人力政策的支撐,因此未來將會(huì)實(shí)現(xiàn)多平臺(tái)建設(shè),進(jìn)一步提高大數(shù)據(jù)服務(wù)能力[1]。
大數(shù)據(jù)平臺(tái)已經(jīng)在許多領(lǐng)域得到廣泛應(yīng)用,取得了顯著的成效。大數(shù)據(jù)平臺(tái)建設(shè)包括以下幾個(gè)關(guān)鍵組成部分,分別是選擇平臺(tái)操作系統(tǒng)、構(gòu)建Hadoop 集群、數(shù)據(jù)整合和預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘和分析,進(jìn)一步提高了大數(shù)據(jù)應(yīng)用效能[2]。
(1)選擇平臺(tái)操作系統(tǒng)。目前常用的操作系統(tǒng)包括RedHat、Centos 或者Debian,這些都可以作為底層平臺(tái)操作工具,具有較強(qiáng)的可擴(kuò)展性,能夠支持?jǐn)?shù)據(jù)處理。
(2)搭建Hadoop 集群。Hadoop 是一個(gè)軟件平臺(tái),其可以運(yùn)行大數(shù)據(jù)處理軟件,最核心的技術(shù)為MapReduce,能夠?qū)⒋罅康挠?jì)算機(jī)組成一個(gè)集群,實(shí)現(xiàn)海量數(shù)據(jù)分布式計(jì)算。Hadoop 吸引了很多商業(yè)公司研發(fā)和設(shè)計(jì),已經(jīng)構(gòu)建了各種開源組件,包括Sqoop、Hbase、和Spark 等。
(3)數(shù)據(jù)整合和預(yù)處理。大數(shù)據(jù)集成的資源非常多,比如文件日志、關(guān)系數(shù)據(jù)、對(duì)象數(shù)據(jù)等,這些有結(jié)構(gòu)性數(shù)據(jù)也有非結(jié)構(gòu)性數(shù)據(jù),因此在把數(shù)據(jù)整合在一起時(shí)需要進(jìn)行預(yù)處理,以便能夠利用企業(yè)服務(wù)總線進(jìn)行通信傳輸,提高數(shù)據(jù)的一致性和可靠性。數(shù)據(jù)預(yù)處理可以利用Impala、SparkSQL 和HiveSQL 等工具[3]。
(4)數(shù)據(jù)存儲(chǔ)。大數(shù)據(jù)平臺(tái)最重要的功能就是存儲(chǔ)。數(shù)據(jù)存儲(chǔ)可利用HBase 和Kudu 等存儲(chǔ)管理工具,建立一個(gè)生態(tài)存儲(chǔ)圈,不斷地提高大數(shù)據(jù)平臺(tái)的存儲(chǔ)和管理水平,還可以降低訪問延遲,提高數(shù)據(jù)分析能力。
(5)數(shù)據(jù)挖掘和分析。大數(shù)據(jù)存儲(chǔ)的資源非常多,這些資源通常是無序的、雜亂的,雖然采取了一定的組織原則,但是人們利用數(shù)據(jù)也非常復(fù)雜,因此引入數(shù)據(jù)挖掘和分析功能,可以提高數(shù)據(jù)利用的時(shí)效,縮短數(shù)據(jù)處理時(shí)間。數(shù)據(jù)挖掘和分析引入了人工智能技術(shù),比如BP 神經(jīng)網(wǎng)絡(luò)、貝葉斯算法、支持向量機(jī)和K-means 算法等。
企業(yè)服務(wù)總線能夠支持大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)對(duì)異構(gòu)系統(tǒng)的兼容,這也是實(shí)現(xiàn)數(shù)據(jù)共享的重要功能。企業(yè)服務(wù)總線支持異構(gòu)環(huán)境中的服務(wù)和消息,基于事件進(jìn)行有效的交互處理,能夠跨系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)集成,利用各種通信傳輸協(xié)議實(shí)現(xiàn)服務(wù)功能。企業(yè)服務(wù)總線也是一個(gè)組件,可以利用可視化裝配技術(shù),實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)的消息加載、傳輸和交互。
MapReduce 是一個(gè)為大數(shù)據(jù)平臺(tái)提供并行處理的計(jì)算模型,更適用于集群平臺(tái)高性能計(jì)算,允許數(shù)以億計(jì)的節(jié)點(diǎn)進(jìn)行分布式集群,可以實(shí)現(xiàn)分布式操作服務(wù)。MapReduce 提供一個(gè)龐大的、設(shè)計(jì)精良的并行計(jì)算軟件,自動(dòng)化地完成計(jì)算任務(wù),分配大數(shù)據(jù)存儲(chǔ)空間資源,實(shí)現(xiàn)數(shù)據(jù)分布存儲(chǔ)、通信和容錯(cuò)處理。MapReduce 能夠提供一個(gè)簡(jiǎn)單的、便捷的程序設(shè)計(jì)方法,更有利于程序員進(jìn)行編程和處理。
虛擬化技術(shù)包括軟件虛擬化和硬件虛擬化。大數(shù)據(jù)平臺(tái)引入的虛擬化技術(shù)多屬于硬件虛擬化技術(shù),能夠引入輪轉(zhuǎn)方法、分片方法和多任務(wù)操作處理方法進(jìn)行操作,實(shí)現(xiàn)對(duì)存儲(chǔ)空間、CPU、通信帶寬的利用,進(jìn)一步提高計(jì)算機(jī)硬件設(shè)備的共享服務(wù)能力。虛擬化可以共享和擴(kuò)展物理存儲(chǔ)空間,確保多用戶共享CPU 或通信帶寬資源,基于按需服務(wù)機(jī)制實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)操作。虛擬化已經(jīng)成為大數(shù)據(jù)平臺(tái)的發(fā)展方向,引入了很多的虛擬化工具,最常用的工具為VirtualBox、XenServer、OpenVZ 和CloudStack 等,提升了大數(shù)據(jù)平臺(tái)的資源利用率。
人工智能可以輔助大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)分析和挖掘功能,也是提升大數(shù)據(jù)利用效率的重要技術(shù)。人工智能可以實(shí)現(xiàn)文本數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù)處理,進(jìn)一步提高數(shù)據(jù)組織和發(fā)現(xiàn)能力,同時(shí)將結(jié)果輸出到顯示器上,實(shí)現(xiàn)可視化的操作服務(wù)。人工智能也是當(dāng)前計(jì)算機(jī)重要技術(shù)之一,提高大數(shù)據(jù)平臺(tái)服務(wù)處理效能,保證大數(shù)據(jù)平臺(tái)的處理速度和自動(dòng)化水平。
大數(shù)據(jù)平臺(tái)作為一種數(shù)據(jù)存儲(chǔ)、管理、共享和服務(wù)場(chǎng)所,未來將會(huì)引入更加先進(jìn)的技術(shù),比如深度學(xué)習(xí)、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等,提高各類型數(shù)據(jù)組織和處理能力,進(jìn)一步改進(jìn)數(shù)據(jù)操作服務(wù)性能,具有重要的作用和意義。