翟順誠 河南大學(xué)(計算機科學(xué)與技術(shù))
大數(shù)據(jù)極大推動了云計算的發(fā)展。印度學(xué)者認(rèn)為,大數(shù)據(jù)將大大促進印度生產(chǎn)率的提高,因為它不僅影響軟件行業(yè),還將影響公共服務(wù)行業(yè),如健康、行政和教育等各行業(yè)。據(jù)麥肯錫全球研究院估計,全球產(chǎn)生的數(shù)據(jù)每年以40%的速率遞增,到2020年,數(shù)據(jù)量將是2009年的44倍。這些數(shù)據(jù)來自于傳感器收集到的天氣數(shù)據(jù)、社交媒體上的各種帖子、數(shù)字照片和視頻、商業(yè)交易記錄、移動電話的GPS信息等。大數(shù)據(jù)超出了傳統(tǒng)數(shù)據(jù)的存儲和計算,必須尋找更新的技術(shù),云計算使得巨大的計算能力變得更加容易獲得。
云端是指服務(wù)不在本地,可以指服務(wù)器,和普通的服務(wù)器不一樣,云端的服務(wù)器的資源是共享的,一旦某個服務(wù)器不能承受,將會把任務(wù)分配給其他服務(wù)器。
云計算網(wǎng)絡(luò)有兩個任務(wù),將資源池變成一個虛擬資源,然后連接所有位置的用戶到這些資源。云計算的服務(wù)平臺包括幾個層次:基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺即服務(wù)(PaaS)和軟件即服務(wù)(SaaS)。IaaS是消費者通過Internet可以從完整的計算機基礎(chǔ)設(shè)施獲得服務(wù)。例如:硬件服務(wù)器租用。
現(xiàn)今商業(yè)化的云計算平臺主要分為幾大類:
(1) 微軟 Windows Azure的主要目標(biāo)是為開發(fā)者提供一個平臺,幫助開發(fā)可運行在云服務(wù)器、數(shù)據(jù)中心、Web和PC上的應(yīng)用程序。技術(shù)特征是整合其所用的軟件及數(shù)據(jù)服務(wù),使用.NET開發(fā)技術(shù),運用大型應(yīng)用軟件技術(shù),以Azure平臺提供服務(wù)。
(2)Google 技術(shù)特征是存儲以及運算水平擴充能力,使用平行分散技術(shù) MapReduce、BigTable、GFS等,提供Google AppEngine和應(yīng)用代管服務(wù),使用Python、java語言進行開發(fā)。
(3) IBM 其技術(shù)特征和微軟相似,核心技術(shù)主要是網(wǎng)絡(luò)技術(shù),分布式存儲,動態(tài)負(fù)載等,該平臺主要提供虛擬資源池,還有企業(yè)云計算服務(wù)整合方案。
(4) Oracle 提供軟硬件彈性虛擬平臺,核心技術(shù)主要以O(shè)racle的數(shù)據(jù)存儲技術(shù),Sun開源技術(shù),提供EC2上的Oracle數(shù)據(jù)庫,Oracle VM等。
(5) Amazon其主要優(yōu)勢之一是能夠以根據(jù)業(yè)務(wù)發(fā)展來擴展的較低可變成本來替代前期資本基礎(chǔ)設(shè)施費用。提供EC2、S3、Simple DB、SQS等服務(wù)。
大數(shù)據(jù)又稱巨量數(shù)據(jù)集合,指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。IBM提出大數(shù)據(jù)具有5V特點:Volume(大量)、Velocity(高速 )、Variety(多樣)、Value(低價值密度 )、Veracity(真實性 )。大數(shù)據(jù)特點:(1)數(shù)據(jù)類型較多,大數(shù)據(jù)有多種數(shù)據(jù)源組成,絕非單純某種數(shù)據(jù),且隨著數(shù)據(jù)格式及來源日漸豐富數(shù)據(jù)類型會進一步膨脹(2)數(shù)據(jù)規(guī)模十分龐大,總體容量至少在10TB左右(3)數(shù)據(jù)真實性十分高,當(dāng)前一些新類型數(shù)據(jù)不斷興起,傳統(tǒng)數(shù)據(jù)源逐漸被取代,數(shù)據(jù)更新速度快,因此必須提升系統(tǒng)安全性,保證數(shù)據(jù)在使用和存儲過程不受影響(4)大數(shù)據(jù)規(guī)模十分龐大,傳統(tǒng)數(shù)據(jù)處理模式已經(jīng)無法滿足時代發(fā)展的需求,需求新的處理系統(tǒng)具有快速高效處理信息,可滿足大數(shù)據(jù)時代信息需求。云計算是是新一代信息技術(shù)的核心所在,云計算作為計算資源的底層,支撐著上層的大數(shù)據(jù)處理,而大數(shù)據(jù)的發(fā)展趨勢是,實時交互式的查詢效率和分析能力,Google有一篇技術(shù)文章中的話:“動一下鼠標(biāo)就可以在妙極操作PB級別的數(shù)據(jù)”,真的是極其高效快速。
分布式數(shù)據(jù)存儲結(jié)構(gòu),由三部分組成:客戶端、元數(shù)據(jù)服務(wù)器和數(shù)據(jù)服務(wù)器??蛻舳擞糜诎l(fā)送請求和存儲數(shù)據(jù),元數(shù)據(jù)服務(wù)器用于處理客戶端請求,數(shù)據(jù)服務(wù)器用于數(shù)據(jù)同步和存儲文件數(shù)據(jù),將數(shù)據(jù)儲存在不同的物理設(shè)備中,擺脫了硬件設(shè)備的現(xiàn)實,同時擴展性更好,能夠更加快速、高效的處理海量數(shù)據(jù),更好的相應(yīng)用戶需求的變化。
大規(guī)模數(shù)據(jù)管理,主要采用的技術(shù)是Dynamo技術(shù),其利用的是DHT的數(shù)據(jù)儲存方式,因此沒有熱點,這樣,各點的數(shù)據(jù)存儲量和訪問壓力就呈現(xiàn)出負(fù)載均衡的優(yōu)勢。另外BigTable技術(shù)是谷歌建立在GFS和MapReduce之上的一個大型分布式數(shù)據(jù)庫,實際上是一個龐大的表,其規(guī)模超過1PB,能夠?qū)⑺袛?shù)據(jù)作為處理對象。
虛擬化技術(shù),核心技術(shù),為云計算提供基礎(chǔ)架構(gòu)層面的支撐。
編程模式,MapReduce技術(shù)是谷歌設(shè)計的一種編程模式,適合應(yīng)用在大規(guī)模數(shù)據(jù)集的并行處理當(dāng)中,一般要求大于1TB云計算MapReduce的編程模式能夠有效地利用云計算的資源。云計算旨在通過網(wǎng)絡(luò)把強大的服務(wù)器計算資源方便地分發(fā)到終端用戶手中,同時保證高效、簡捷、快速的用戶體驗。在這個過程中,編程模式的選擇至關(guān)重要。
云計算平臺管理,需要具有高效調(diào)配大量服務(wù)器資源,使其更好協(xié)同工作的能力,能夠方便地部署和開通新業(yè)務(wù)、快速發(fā)現(xiàn)并且恢復(fù)系統(tǒng)故障、通過自動化、智能化手段實現(xiàn)大規(guī)模系統(tǒng)可靠的運營。現(xiàn)在最流行的基于云計算的大數(shù)據(jù)處理平臺是Hadoop,Hadoop最初只與網(wǎng)頁索引有關(guān),迅速發(fā)展成為分析大數(shù)據(jù)的領(lǐng)先平臺。Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,以一種可靠、高效、可伸縮的方式進行數(shù)據(jù)處理,能夠處理 PB級數(shù)據(jù)。
信息安全,在云計算體系中,涉及到很多安全方面的問題,安全對于云計算下的體系至關(guān)重要,如前不久有家創(chuàng)業(yè)公司存放在騰訊云上的精準(zhǔn)注冊用戶以及內(nèi)容數(shù)據(jù)全部丟失,并且不能恢復(fù),造成公司平臺全部停運的狀態(tài),基于云計算的特性,可靠性達到99.99%,上述事件的發(fā)生概率為十億分之一,但是每年也都有云服務(wù)商出現(xiàn)”宕機”的現(xiàn)象,因此即使云計算有很強大的穩(wěn)定性,也要做好信息安全的保證并進行數(shù)據(jù)備份。