武永成
摘 要:隨著社交媒體、物聯(lián)網(wǎng)和多媒體技術(shù)發(fā)展,人類可以獲得的數(shù)據(jù)呈爆炸式增長。由于數(shù)據(jù)太大,數(shù)據(jù)的處理和轉(zhuǎn)移變得十分困難。云計算能按需分配計算資源,是一種很好的大數(shù)據(jù)解決方案。提出了一種基于云計算平臺方法,以較小的代價對大數(shù)據(jù)進(jìn)行分析和知識發(fā)現(xiàn)。
關(guān)鍵詞:大數(shù)據(jù);云計算;數(shù)據(jù)挖據(jù);分布式計算
DOIDOI:10.11907/rjdk.162111
中圖分類號:TP301
文獻(xiàn)標(biāo)識碼:A文章編號:1672-7800(2016)012-0161-03
0 引言
過去40年,數(shù)據(jù)主要用于記錄商業(yè)活動和進(jìn)行科學(xué)處理。未來40年,數(shù)據(jù)將用來輔助商業(yè)決定和加速科學(xué)發(fā)現(xiàn)。新的社交方式產(chǎn)生,人們獲得的數(shù)據(jù)呈爆炸式增長,人類進(jìn)入大數(shù)據(jù)時代。麥肯錫[1]指出大數(shù)據(jù)是一種很大的數(shù)據(jù)集,這種數(shù)據(jù)集的大小超出了傳統(tǒng)的數(shù)據(jù)庫軟件捕獲、存儲、管理和分析能力。大數(shù)據(jù)的出現(xiàn)推動了大數(shù)據(jù)技術(shù)的發(fā)展。國際數(shù)據(jù)公司(IDC)[2]對大數(shù)據(jù)技術(shù)的定義是:新一代的技術(shù)和體系結(jié)構(gòu),用來處理容量大、種類多的數(shù)據(jù),通過高速捕獲、發(fā)現(xiàn)和分析數(shù)據(jù),獲得有價值的信息。大數(shù)據(jù)知識發(fā)現(xiàn)如圖1所示。
O'Reilly 國際出版公司[3]認(rèn)為,大數(shù)據(jù)是超出了傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的數(shù)據(jù)。為了從大數(shù)據(jù)中挖掘出有價值的信息,必須采取一種與傳統(tǒng)數(shù)據(jù)處理方式不同的方法?!洞髷?shù)據(jù)發(fā)展白皮書》討論了如何將不完整的、復(fù)雜的和非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為可操作的數(shù)據(jù)。這意味著要借助高級計算工具(如機(jī)器學(xué)習(xí)),才能發(fā)現(xiàn)在大數(shù)據(jù)中隱藏的規(guī)律和關(guān)聯(lián)關(guān)系。
大數(shù)據(jù)極大推動了云計算和物聯(lián)網(wǎng)的發(fā)展。印度學(xué)者認(rèn)為,大數(shù)據(jù)將大大促進(jìn)印度生產(chǎn)率的提高,因為它不僅影響軟件行業(yè),還將影響公共服務(wù)行業(yè),如健康、行政和教育等各行業(yè)。據(jù)麥肯錫全球研究院估計,全球產(chǎn)生的數(shù)據(jù)每年以40%的速率遞增,到2020年,數(shù)據(jù)量將是2009年的44倍。這些數(shù)據(jù)來自于傳感器收集到的天氣數(shù)據(jù)、社交媒體上的各種帖子、數(shù)字照片和視頻、商業(yè)交易記錄、移動電話的GPS信息等。大多數(shù)這樣的數(shù)據(jù)處于一種無序狀態(tài)。
大數(shù)據(jù)超出了傳統(tǒng)數(shù)據(jù)存儲與分析系統(tǒng)的容量和能力,必須尋找新的解決方案。綜合利用高性能計算技術(shù)、高級數(shù)據(jù)庫技術(shù)、無線數(shù)據(jù)技術(shù)、移動互聯(lián)技術(shù),為大數(shù)據(jù)提供了一些有益的解決方案。企業(yè)進(jìn)行大數(shù)據(jù)分析,期望從中發(fā)現(xiàn)隱含的商業(yè)價值,以便更好地提高產(chǎn)品和服務(wù)質(zhì)量。數(shù)據(jù)存儲技術(shù)的發(fā)展使得數(shù)據(jù)存儲費用大大降低,云計算使得巨大的計算能力變得更容易獲得,數(shù)據(jù)管理技術(shù)也更加靈活多樣,如 NoSQL、NewSQL、Hadoop、圖形數(shù)據(jù)庫等,這些都為大數(shù)據(jù)分析提供了充分的技術(shù)支持。
最近一份研究表明,非結(jié)構(gòu)化數(shù)據(jù)已占世界數(shù)據(jù)量的80%,但實際情況是許多公司依然只利用那些存儲在關(guān)系數(shù)據(jù)庫中20%的結(jié)構(gòu)化數(shù)據(jù)來進(jìn)行數(shù)據(jù)挖掘和決策支持。
1 大數(shù)據(jù)
大數(shù)據(jù)最重要的價值在于發(fā)現(xiàn)其中隱含的可以重復(fù)利用的商業(yè)模式。
1.1 大數(shù)據(jù)分類
大數(shù)據(jù)通常分為以下3類:
(1)結(jié)構(gòu)化數(shù)據(jù):這種數(shù)據(jù)一般存放在企業(yè)或各種機(jī)構(gòu)的數(shù)據(jù)庫、數(shù)據(jù)倉庫中。
(2)非結(jié)構(gòu)化數(shù)據(jù):這種數(shù)據(jù)一般是從基于Internet的應(yīng)用中抽取出來的數(shù)據(jù),是沒有經(jīng)過處理的原始數(shù)據(jù),沒有統(tǒng)一的數(shù)據(jù)格式。
(3)半結(jié)構(gòu)化數(shù)據(jù):這種數(shù)據(jù)通常出現(xiàn)在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)相遇場合,如社交媒體數(shù)據(jù)、位置數(shù)據(jù)等。
1.2 大數(shù)據(jù)主要特征
大數(shù)據(jù)具4V特性:數(shù)據(jù)體量大(volume)、數(shù)據(jù)的多樣性(variety)、數(shù)據(jù)的速度(velocity)和數(shù)據(jù)的真實性(veracity),如圖2所示。
(1)體量:從各種來源收集的數(shù)據(jù)體量巨大,并且持續(xù)增長。
(2)速度:指數(shù)據(jù)轉(zhuǎn)移的速度。對于時間敏感的數(shù)據(jù)處理,如發(fā)現(xiàn)詐騙,大數(shù)據(jù)必須及時導(dǎo)入到相應(yīng)的企業(yè)和機(jī)構(gòu),以便最大化地發(fā)現(xiàn)其中的規(guī)律。
(3) 多樣性:大數(shù)據(jù)包括各種結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),如文本、傳感器數(shù)據(jù)、音頻、視頻、點擊流和日志數(shù)據(jù)等。
(4)真實性:1/3的商業(yè)領(lǐng)導(dǎo)不相信他們用于決策的數(shù)據(jù)。數(shù)據(jù)的種類和來源增加,使得數(shù)據(jù)的真實性受到懷疑。
2 大數(shù)據(jù)應(yīng)用領(lǐng)域
將傳統(tǒng)的企業(yè)內(nèi)部數(shù)據(jù)和外部收集的大數(shù)據(jù)相結(jié)合進(jìn)行分析和挖掘,能得出對企業(yè)更有價值的商業(yè)信息。
2.1 顧客大數(shù)據(jù)分析
顧客分析是大數(shù)據(jù)應(yīng)用十分流行的領(lǐng)域。顧客分析的數(shù)據(jù)一部分來自外部的社交媒體,如博客、推特、微信等,另一部分來自企業(yè)內(nèi)部業(yè)務(wù)數(shù)據(jù),如顧客和產(chǎn)品數(shù)據(jù)。通過對這些數(shù)據(jù)進(jìn)行分析和處理,能知道企業(yè)的潛在顧客,對公司及產(chǎn)品有怎樣的評論和期待,藉此調(diào)整商業(yè)行為,對產(chǎn)品進(jìn)行修改。例如:通過對最近發(fā)行的產(chǎn)品反饋數(shù)據(jù)進(jìn)行處理和挖掘,能了解顧客反映,發(fā)現(xiàn)產(chǎn)品缺點,及時對市場進(jìn)行調(diào)整,從而使企業(yè)更具競爭力。
2.2 傳感大數(shù)據(jù)分析
在制造類企業(yè)中,傳感器、遙測器和條形碼在生產(chǎn)過程中廣泛應(yīng)用。通過對這些遙測數(shù)據(jù)進(jìn)行分析,能識別出有用的使用模式,從而提高生產(chǎn)效率。例如:通過條形碼,能跟蹤生產(chǎn)過程和顧客訂貨,從中挖掘出相關(guān)信息。衛(wèi)生保健公司通過對病人的一些關(guān)鍵指標(biāo)進(jìn)行監(jiān)控和測量,能減少訪問,提高病人健康水平。與外部社交數(shù)據(jù)不同,來自傳感器的大數(shù)據(jù)公司可直接管理。
2.3 風(fēng)險管理大數(shù)據(jù)分析
將個人的外部數(shù)據(jù)與公司內(nèi)部的詐騙偵查算法相結(jié)合,能偵查出信用風(fēng)險或非法使用顧客賬戶情況,快速處理相關(guān)信息。大數(shù)據(jù)分析在金融領(lǐng)域應(yīng)用,可根據(jù)股票和其它金融產(chǎn)品外在的實時價格,通過內(nèi)部購買算法,作出一個更準(zhǔn)確的購買或拋售決定。
3 基于云計算的大數(shù)據(jù)分析
獲得有價值的數(shù)據(jù)信息費用很高,它需要很大的投資,以便產(chǎn)生高質(zhì)量的數(shù)據(jù)集。有75%的世界500強(qiáng)企業(yè)采用基于云計算的大數(shù)據(jù)解決方案。國際數(shù)據(jù)公司IDC預(yù)測,80%的新增商業(yè)企業(yè)大數(shù)據(jù)APP都將基于云計算平臺[4]。
早期的基于云計算平臺的大數(shù)據(jù),如亞馬遜公司和Rackspace公司,采用Hadoop集群,提供一種高可擴(kuò)展性和靈活性的基礎(chǔ)設(shè)計即服務(wù)IaaS(Infrastructure-as-a-service)。這些云計算公司以一種便宜的方式提供云計算資源,供企業(yè)進(jìn)行大數(shù)據(jù)的存儲和備份。
軟件即服務(wù)SaaS(Software-as-a-Service)提供嵌入式分析引擎,對存儲在云平臺的大數(shù)據(jù)進(jìn)行分析。分析結(jié)果以一種圖形界面形式提供給終端用戶。這種方式的前提條件是能對存儲在云平臺的數(shù)據(jù)源進(jìn)行查詢和整合。
云計算極大支持和促進(jìn)了大數(shù)據(jù)的發(fā)展。但是,在大數(shù)據(jù)中心和云平臺之間進(jìn)行數(shù)據(jù)轉(zhuǎn)移時,網(wǎng)絡(luò)帶寬和數(shù)據(jù)整合是主要瓶頸。
許多工具和平臺能為大數(shù)據(jù)分析提供云基礎(chǔ)設(shè)施,如MapReduce,這個編程模型用來提高云計算平臺上巨大的批處理作業(yè)性能。MapReduce和它的開源版本Hadoop被用在各種作業(yè)類型上。Hadoop集群能被多個用戶共享,這樣的好處是:公平,能增加對資源的利用。例如,亞馬遜的AMS(Amazon Web Services)通過網(wǎng)絡(luò),既提供按存儲容量購買云存儲(元/GB-月),也提供按時間購買云計算(元/CPU-小時)。
基于云計算的大數(shù)據(jù)分析優(yōu)勢有:
(1)減少費用。在投資和操作方面,云計算都能節(jié)省費用。企業(yè)不用單獨建立一個計算中心,只需在云平臺按需購買所需服務(wù),這樣可大大節(jié)省費用。云平臺的所有維護(hù)工作都由云服務(wù)提供商完成,節(jié)省了平臺使用費。
(2)靈活性。云計算的基本原則是云服務(wù)不僅可以自動提供,還可以自動取消,這樣就大大提高了企業(yè)效率。
(3)專注核心業(yè)務(wù)。企業(yè)通過購買云服務(wù),透明地使用云平臺,平臺的運(yùn)行、維護(hù)和升級都由云服務(wù)提供商完成,企業(yè)只需關(guān)注自己的核心操作和核心目標(biāo)。
(4)可持續(xù)性。傳統(tǒng)的企業(yè)數(shù)據(jù)中心由于設(shè)計和資產(chǎn)利用問題,從環(huán)境和經(jīng)濟(jì)角度來說都不具有可持續(xù)性。云計算比傳統(tǒng)的企業(yè)數(shù)據(jù)中心消耗更少的能源和其它資源,經(jīng)濟(jì)性更好。
4 大數(shù)據(jù)面臨的挑戰(zhàn)
4.1 安全和隱私
大數(shù)據(jù)中可能包含許多敏感數(shù)據(jù)和信息。對大數(shù)據(jù)進(jìn)行訪問和分析可能導(dǎo)致非授權(quán)訪問和使用問題。個人隱私保護(hù)是由于數(shù)據(jù)信息流動的低效性。人們在許多地方被攝像頭監(jiān)視,如ATM柜員機(jī)前、便利店內(nèi)、機(jī)場安檢處、城市道路交叉處。一旦這些數(shù)據(jù)源通過網(wǎng)絡(luò)連接,并通過高級的計算技術(shù)對這些數(shù)據(jù)進(jìn)行分析和關(guān)聯(lián),很多個人隱私將被發(fā)現(xiàn),由此導(dǎo)致十分嚴(yán)重的數(shù)據(jù)濫用和隱私侵犯問題。由于云計算平臺能按需提供計算時間,一些不懷好意的用戶就可用比較低廉的價格,發(fā)起僵尸網(wǎng)絡(luò)攻擊(botnet),或者破譯密碼。因此,在發(fā)展大數(shù)據(jù)技術(shù)的同時必須采取措施,防止濫用該技術(shù)[5]。
4.2 技術(shù)推廣
當(dāng)前,大數(shù)據(jù)技術(shù)應(yīng)用主要集中在一些互聯(lián)網(wǎng)企業(yè),如搜索引擎公司(如百度云)、網(wǎng)上零售公司(如阿里云)和社交媒體公司(如騰訊云),其次是大學(xué)和機(jī)構(gòu)。雖然很多機(jī)構(gòu)和組織收集了大量數(shù)據(jù),但只有一小部分能完全為大數(shù)據(jù)所利用。
4.3 機(jī)器學(xué)習(xí)和其它數(shù)據(jù)分析技術(shù)
作為一個獨立的科學(xué)學(xué)科,機(jī)器學(xué)習(xí)還處在早期發(fā)展階段。當(dāng)數(shù)據(jù)元素超過幾百萬時,許多機(jī)器學(xué)習(xí)算法不能適應(yīng),這些算法對現(xiàn)實世界中數(shù)據(jù)的統(tǒng)計噪聲處理也不盡人意。要進(jìn)一步研究和開發(fā)新的機(jī)器學(xué)習(xí)算法,使它們能處理TB級的現(xiàn)實世界數(shù)據(jù)集。所有大數(shù)據(jù)計算應(yīng)用領(lǐng)域,核心目標(biāo)是能自動或半自動處理和分析超大規(guī)模數(shù)據(jù)。
5 結(jié)語
過去10年,大數(shù)據(jù)計算可能是計算科學(xué)領(lǐng)域最大的創(chuàng)新。它對數(shù)據(jù)的收集、組織和處理潛能已被人們認(rèn)可。云計算框架,通過按需付費提供服務(wù),很好地解決了大數(shù)據(jù)處理的相關(guān)問題。根據(jù)實際需求,提供給企業(yè)的云服務(wù)能快速擴(kuò)大或縮小,極大地減少了企業(yè)投資,方便了企業(yè)使用。
參考文獻(xiàn):
[1] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機(jī)研究與發(fā)展,2013(1):146-169.
[2] 馬東梅.基于大數(shù)據(jù)時代的機(jī)遇與挑戰(zhàn)[J].科技展望,2015(16):21-22.
[3] 孫海軍.基于云計算的大數(shù)據(jù)處理技術(shù)[J].信息安全與技術(shù),2014(11):61-63.
[4] 劉潤龍.云計算及關(guān)鍵技術(shù)研究[J].數(shù)字化用戶,2013(6):15-16.
[5] 趙保華.大數(shù)據(jù)面臨的問題和挑戰(zhàn)[J].智能計算機(jī)與應(yīng)用,2016(7):111-112.
(責(zé)任編輯:杜能鋼)