◆李東興
作者:李東興,北京師范大學(xué)全球變化與地球系統(tǒng)科學(xué)研究院助理工程師,研究方向?yàn)楦咝阅苡?jì)算、大數(shù)據(jù)分析與處理(100875)。
李克強(qiáng)總理在2014年國(guó)務(wù)院會(huì)議上曾指出:“積極支持云計(jì)算、物聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)絡(luò)的發(fā)展,催生基于云計(jì)算的在線研發(fā)設(shè)計(jì)、教育醫(yī)療、智能制造等新業(yè)態(tài)。在疾病防治、災(zāi)害預(yù)防、社會(huì)保障、電子政務(wù)等領(lǐng)域開(kāi)展大數(shù)據(jù)應(yīng)用示范?!贝髷?shù)據(jù)洶涌來(lái)襲,同互聯(lián)網(wǎng)的出現(xiàn)一樣,絕不僅僅是信息技術(shù)領(lǐng)域的革命,還是啟動(dòng)透明政府、創(chuàng)造無(wú)限商機(jī)、加快企業(yè)創(chuàng)新、引領(lǐng)社會(huì)變革的利器[1]?;ヂ?lián)網(wǎng)、SNS和傳感器技術(shù)的發(fā)展使得每一個(gè)網(wǎng)民成為大數(shù)據(jù)的貢獻(xiàn)者,當(dāng)然也是大數(shù)據(jù)的消費(fèi)者和受益者。隨著人們對(duì)數(shù)據(jù)重視程度的提升和收集數(shù)據(jù)意識(shí)的增強(qiáng),大數(shù)據(jù)正在不斷改變?nèi)藗兊墓ぷ?、生活和思維方式。
數(shù)據(jù)指客觀事物的符號(hào)表示,包括文字、聲音、圖形圖像等多種表現(xiàn)形式。信息是把數(shù)據(jù)放置到一定的情境中,對(duì)數(shù)字的解釋。與信息不同,數(shù)據(jù)是信息的數(shù)字化記錄,是信息的載體,是與語(yǔ)義不可分隔的。大數(shù)據(jù)(Big Data),指的是數(shù)據(jù)規(guī)模巨大到無(wú)法通過(guò)傳統(tǒng)工具,在合理的時(shí)間內(nèi)達(dá)到收集、存儲(chǔ)、管理、處理、維護(hù)并整理成為服務(wù)于企業(yè)和社會(huì)的更積極的信息[1]。
從大數(shù)據(jù)的定義可以看出,之所以稱為大數(shù)據(jù),其一是數(shù)據(jù)量大到一定程度。但是,具體多大的數(shù)據(jù)才能稱之為“大”,業(yè)界也沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。當(dāng)前,數(shù)據(jù)正在呈指數(shù)級(jí)增長(zhǎng)趨勢(shì),十年之前TB甚至GB級(jí)別的數(shù)據(jù)可能是大數(shù)據(jù),現(xiàn)在達(dá)到PB級(jí)別的數(shù)據(jù)才能稱為大數(shù)據(jù),再過(guò)一段時(shí)間,也許ZB級(jí)別的數(shù)據(jù)方能稱為大數(shù)據(jù)。其二是數(shù)據(jù)價(jià)值大。大數(shù)據(jù)之“大”更多的意義在于人類可以“分析和使用”的數(shù)據(jù)在大量增加,通過(guò)對(duì)這些數(shù)據(jù)本身及它們內(nèi)在聯(lián)系的整合和分析,人類可以發(fā)現(xiàn)新的知識(shí),創(chuàng)造新的價(jià)值,帶來(lái)“大知識(shí)”“大智慧”,更好地服務(wù)全社會(huì),推動(dòng)智慧地球朝著更文明的方向發(fā)展。
大數(shù)據(jù)技術(shù)是指從各種各樣類型的海量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。整個(gè)過(guò)程包括大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)與管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用。其中大數(shù)據(jù)的存儲(chǔ)與管理、大數(shù)據(jù)的分析與挖掘是整個(gè)過(guò)程的核心。
與小數(shù)據(jù)相比,大數(shù)據(jù)有4V特征,即:Volume、Velocity、Variety、Value。
Volume 數(shù)據(jù)量巨大,表現(xiàn)為存儲(chǔ)量和計(jì)算量巨大。目前達(dá)到PB級(jí)容量的大數(shù)據(jù)出現(xiàn)在眾多領(lǐng)域,據(jù)麥肯錫估計(jì),全球企業(yè)2010年硬盤上存儲(chǔ)了超過(guò)7 EB的新數(shù)據(jù),消費(fèi)者在PC等設(shè)備上存儲(chǔ)的新數(shù)據(jù)超過(guò)了6 EB(相當(dāng)于美國(guó)國(guó)會(huì)圖書(shū)館中存儲(chǔ)數(shù)據(jù)的4000多倍[1])。我國(guó)建成的四大超級(jí)計(jì)算機(jī)中心,不僅存儲(chǔ)容量達(dá)到PB級(jí),其浮點(diǎn)計(jì)算能力也達(dá)到億萬(wàn)億次每秒。
Velocity 高速,表現(xiàn)為大數(shù)據(jù)量的增長(zhǎng)速度日新月異;大數(shù)據(jù)的存儲(chǔ)、傳輸、更新、處理等技術(shù)發(fā)展突飛猛進(jìn)。據(jù)Facebook統(tǒng)計(jì),每秒有4.1萬(wàn)張照片上傳,2011年以發(fā)圖1400億張成為世界上最大的照片庫(kù)。
Variety 多樣性,表現(xiàn)為:數(shù)據(jù)來(lái)源增多;數(shù)據(jù)類型繁多;數(shù)據(jù)表現(xiàn)形式不斷擴(kuò)展。從數(shù)據(jù)來(lái)源上看,傳統(tǒng)數(shù)據(jù)以交易事務(wù)型數(shù)據(jù)為主,而互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,則帶來(lái)了微博、社交網(wǎng)絡(luò)、傳感器等多種數(shù)據(jù)來(lái)源;從數(shù)據(jù)類型上看,傳統(tǒng)數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主,互聯(lián)網(wǎng)數(shù)據(jù)以半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)為主,大數(shù)據(jù)的數(shù)據(jù)類型是幾種類型的復(fù)雜組合,其中半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)占80%左右;從數(shù)據(jù)的表現(xiàn)形式上看,從傳統(tǒng)的聲音、文字、圖片不斷擴(kuò)展到網(wǎng)絡(luò)日志、系統(tǒng)日志、視頻、地圖等形式。
Value 價(jià)值,表現(xiàn)為數(shù)據(jù)價(jià)值大和價(jià)值密度低。從數(shù)據(jù)價(jià)值上看,小數(shù)據(jù)的價(jià)值適用于小眾群體和對(duì)小范圍地區(qū)更有實(shí)用意義,大數(shù)據(jù)的價(jià)值不僅具有普及性、普遍性和說(shuō)服力,而且更有個(gè)性化,能說(shuō)明任何實(shí)體之間的相關(guān)性;從價(jià)值密度上看,大數(shù)據(jù)的價(jià)值密度低,假如同種類型的數(shù)據(jù)的潛在價(jià)值是固定的,數(shù)據(jù)量越大,價(jià)值密度必然越小。以機(jī)房網(wǎng)絡(luò)監(jiān)控日志為例,要查看的僅僅是報(bào)警和錯(cuò)誤日志。
大數(shù)據(jù)的核心和本質(zhì)是預(yù)測(cè),通過(guò)分析方法和工具探索隱藏在數(shù)據(jù)表面背后的本質(zhì)和規(guī)律,從而使企業(yè)在未來(lái)的商業(yè)活動(dòng)中更具有主動(dòng)性,政府制定社會(huì)治理決策更準(zhǔn)確、更有針對(duì)性,個(gè)人在未來(lái)的生活和學(xué)習(xí)活動(dòng)中更能找到適合自己的方式方法。這一過(guò)程又稱“知識(shí)發(fā)現(xiàn)”。著名的“啤酒與尿布”理論,沃爾瑪超市利用大數(shù)據(jù)發(fā)現(xiàn)了這一規(guī)律并應(yīng)用到商業(yè)活動(dòng)中,從而使自身的利潤(rùn)獲得質(zhì)的飛躍;美國(guó)管理學(xué)家、統(tǒng)計(jì)學(xué)家愛(ài)德華·戴明所言“除了上帝,任何人都必須用數(shù)據(jù)說(shuō)話”,引領(lǐng)奧巴馬政府上任伊始就樹(shù)立了開(kāi)放型政府的目標(biāo);作為“世界上量化最極致的人”,美國(guó)人克里斯·丹西克里斯利用谷歌眼鏡等無(wú)線傳感設(shè)備每天記錄自己的飲食、情緒變化等,通過(guò)這些數(shù)據(jù),他可以把自己的身體和情緒調(diào)整到最健康的狀態(tài)。
大數(shù)據(jù)分析是一門涉及計(jì)算機(jī)科學(xué)、信息科學(xué)、統(tǒng)計(jì)學(xué)等多門學(xué)科的交叉學(xué)科,大數(shù)據(jù)的應(yīng)用可以擴(kuò)展到與人類相關(guān)的任何領(lǐng)域、任何角落,尤其是社會(huì)學(xué)、新聞學(xué)、教育學(xué)等社會(huì)學(xué)科。隨著計(jì)算機(jī)技術(shù)的進(jìn)步、統(tǒng)計(jì)分析水平的提高,越來(lái)越多的方法和技術(shù)會(huì)應(yīng)用到大數(shù)據(jù)的分析過(guò)程中。以下重點(diǎn)介紹目前大數(shù)據(jù)分析涉及的相關(guān)技術(shù)。
人工智能 人工智能是關(guān)于知識(shí)的一門學(xué)科,是關(guān)于如何表示知識(shí)以及怎樣獲得知識(shí)和使用知識(shí)的學(xué)科[2]。隨著互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)的發(fā)展,大數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了主要地位,如電子郵件、圖形圖像、視頻等數(shù)據(jù)資源。結(jié)構(gòu)化數(shù)據(jù)的管理一般通過(guò)關(guān)系數(shù)據(jù)庫(kù)實(shí)現(xiàn),由SQL進(jìn)行分析;非結(jié)構(gòu)化的數(shù)據(jù)分析需要利用自然語(yǔ)言處理、圖像解析、語(yǔ)音識(shí)別等技術(shù),而這些技術(shù)正是人工智能的研究領(lǐng)域。將大數(shù)據(jù)與人工智能結(jié)合運(yùn)用的經(jīng)典是Google語(yǔ)義搜索和Apple的語(yǔ)音識(shí)別技術(shù)Siri,這些技術(shù)的進(jìn)步,不僅需要理論的支撐,更需要大數(shù)據(jù)作為基礎(chǔ)[3]。大數(shù)據(jù)與人工智能的結(jié)合已經(jīng)給傳統(tǒng)行業(yè)帶來(lái)新的創(chuàng)新模式,其也必將在更廣的領(lǐng)域改變?nèi)祟惖乃季S方式和實(shí)踐能力。
數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù)之父W. H. Inmon認(rèn)為,數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse,DW)是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過(guò)程。從W. H. Inmon對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義可以看出,數(shù)據(jù)倉(cāng)庫(kù)有四方面的特征,即面向主題、數(shù)據(jù)集成、隨時(shí)間而變化、數(shù)據(jù)不易丟失,這也是數(shù)據(jù)倉(cāng)庫(kù)與關(guān)系數(shù)據(jù)庫(kù)的區(qū)別所在。
在大數(shù)據(jù)中,數(shù)據(jù)類型繁多,既有結(jié)構(gòu)化數(shù)據(jù),更存在大量的非結(jié)構(gòu)數(shù)據(jù),針對(duì)異構(gòu)數(shù)據(jù)的存儲(chǔ)和融合,應(yīng)采用混合存儲(chǔ)方式。結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)與處理借助于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),大量的非結(jié)構(gòu)化數(shù)據(jù)則需要借助于NoSQL非關(guān)系型數(shù)據(jù)庫(kù)。當(dāng)前大量的非關(guān)系型新型數(shù)據(jù)庫(kù)應(yīng)用到大數(shù)據(jù)的存儲(chǔ)中,如面向集合模式自由的文檔數(shù)據(jù)庫(kù)MongoDB、基于內(nèi)存的鍵值存儲(chǔ)數(shù)據(jù)庫(kù)Redis、分布式MPP架構(gòu)/列存儲(chǔ)數(shù)據(jù)庫(kù)HBase等。除了基本的存儲(chǔ)功能,數(shù)據(jù)倉(cāng)庫(kù)還可以用來(lái)進(jìn)行信息處理和分析處理,特別是對(duì)大數(shù)據(jù)的聯(lián)機(jī)分析處理是其最重要的用途。
數(shù)據(jù)挖掘 數(shù)據(jù)挖掘是指通過(guò)特定的計(jì)算機(jī)算法對(duì)大數(shù)據(jù)進(jìn)行自動(dòng)分析,從而揭示數(shù)據(jù)的價(jià)值、發(fā)展趨勢(shì)和數(shù)據(jù)之間的相關(guān)關(guān)系,為決策者提供新的依據(jù)。在大數(shù)據(jù)中挖掘知識(shí)就像在礦山中掘金一樣,困難重重,任務(wù)繁重,是一個(gè)長(zhǎng)期的反復(fù)的過(guò)程。大數(shù)據(jù)的積累使得從中提取有用的數(shù)據(jù)成為巨大的挑戰(zhàn)。由于大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比,具有4V特性,無(wú)法使用傳統(tǒng)工具達(dá)到用戶的訴求。數(shù)據(jù)挖掘很好地將傳統(tǒng)的數(shù)據(jù)分析方法和處理大數(shù)據(jù)的復(fù)雜算法相結(jié)合。數(shù)據(jù)挖掘不僅要發(fā)現(xiàn)隱藏在數(shù)據(jù)內(nèi)部的客觀規(guī)律,而且對(duì)相關(guān)領(lǐng)域未來(lái)趨勢(shì)進(jìn)行預(yù)測(cè)。預(yù)測(cè)是大數(shù)據(jù)的核心,預(yù)測(cè)的技術(shù)支撐就是數(shù)據(jù)挖掘,挖掘數(shù)據(jù)的價(jià)值和內(nèi)含的規(guī)律。數(shù)據(jù)挖掘是大數(shù)據(jù)分析的核心技術(shù),只有尋求到更合理的挖掘算法,才能準(zhǔn)確有效地挖掘出大數(shù)據(jù)的真正價(jià)值,而且更能實(shí)現(xiàn)對(duì)動(dòng)態(tài)發(fā)展數(shù)據(jù)的分析。
分布式技術(shù) 分布式技術(shù)是一種基于網(wǎng)絡(luò)的技術(shù),把網(wǎng)絡(luò)上物理位置不同的、分散的、閑置的資源整合起來(lái),完成大型、復(fù)雜、大數(shù)據(jù)的計(jì)算與存儲(chǔ)[4]。該技術(shù)主要是應(yīng)對(duì)傳統(tǒng)集中式技術(shù)存在的缺陷而產(chǎn)生的。它的目標(biāo)是充分利用資源和提高大型任務(wù)的完成效率。所以它主要是針對(duì)那些大型任務(wù),為了縮短時(shí)間,提高效率,通常把任務(wù)按照一定的規(guī)則或算法分配到不同的子節(jié)點(diǎn),由子節(jié)點(diǎn)完成子任務(wù),然后對(duì)每個(gè)子結(jié)果進(jìn)行匯總,各個(gè)子任務(wù)在不同的子節(jié)點(diǎn)上并行執(zhí)行,在充分利用子節(jié)點(diǎn)資源的同時(shí),也降低了單個(gè)節(jié)點(diǎn)的負(fù)載。
分布式技術(shù)從20世紀(jì)80年代至今經(jīng)歷了網(wǎng)格計(jì)算、對(duì)等計(jì)算、并行計(jì)算、云計(jì)算等幾個(gè)階段。進(jìn)入21世紀(jì),Google推出分布式技術(shù)領(lǐng)域的三大典型技術(shù)——GFS、MapReduce、BigTable。當(dāng)前國(guó)內(nèi)外把分布式技術(shù)廣泛應(yīng)用于高性能計(jì)算領(lǐng)域。分布式技術(shù)在國(guó)內(nèi)成功應(yīng)用的案例是我國(guó)四大超算中心的建立,使得分布式技術(shù)廣泛應(yīng)用于氣候、環(huán)境、醫(yī)療衛(wèi)生、經(jīng)濟(jì)等領(lǐng)域。另外,很多NoSQL數(shù)據(jù)庫(kù)也是借助分布式技術(shù)實(shí)現(xiàn)的,如HBase、MogoDB等。
可視化技術(shù) 1983年,耶魯大學(xué)的政治學(xué)教授愛(ài)德華·塔夫特系統(tǒng)地考證了人類用“圖形”表達(dá)“數(shù)據(jù)”和“思想”的淵源,整理了種種歷史古籍中的圖形瑰寶,并結(jié)合計(jì)算機(jī)的發(fā)展給統(tǒng)計(jì)領(lǐng)域帶來(lái)的革命,出版了《定量信息的視覺(jué)展示》一書(shū)[5]。這本書(shū)后來(lái)被公認(rèn)為是“數(shù)據(jù)可視化”作為一門學(xué)科的開(kāi)山之作[5]。
人工智能、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘等大數(shù)據(jù)技術(shù)是面向機(jī)器和數(shù)據(jù)分析專業(yè)人員的,而可視化技術(shù)面向的是最終用戶。不管是數(shù)據(jù)分析專業(yè)人員還是普通的用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析的最終目標(biāo)??梢暬梢灾庇^展示數(shù)據(jù)之間的內(nèi)在聯(lián)系以及可能的潛在趨勢(shì),讓數(shù)據(jù)說(shuō)話,讓觀眾看到更形象的結(jié)果,決策才能更有信服力,目標(biāo)才更能接近成功。
互聯(lián)網(wǎng)、通訊技術(shù)和傳感器技術(shù)的發(fā)展使得全球數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)趨勢(shì)。美國(guó)互聯(lián)網(wǎng)中心和IBM研究中心統(tǒng)計(jì),從2011年開(kāi)始,數(shù)據(jù)每年增長(zhǎng)50%,每?jī)赡攴环?。而大?shù)據(jù)技術(shù)只有飛速發(fā)展方能解決不斷增長(zhǎng)的數(shù)據(jù)分析需求。
人類已經(jīng)進(jìn)入一個(gè)無(wú)時(shí)不網(wǎng)、無(wú)處不網(wǎng)的“智慧世界”時(shí)代,大數(shù)據(jù)將在人們的社交網(wǎng)絡(luò)、電子商務(wù)等互聯(lián)網(wǎng)領(lǐng)域更好地服務(wù)人們的生活。更重要的是,其將在社會(huì)管理、經(jīng)濟(jì)管理、醫(yī)療與健康、數(shù)據(jù)新聞、物聯(lián)網(wǎng)、教育科技等諸多領(lǐng)域有更好的應(yīng)用并推動(dòng)各領(lǐng)域的發(fā)展與進(jìn)步。但大數(shù)據(jù)的發(fā)展也面臨諸多挑戰(zhàn)。大量的數(shù)據(jù)中心每年正在成倍出現(xiàn),1998年,美國(guó)擁有432所數(shù)據(jù)中心,專門負(fù)責(zé)各類數(shù)據(jù)的存儲(chǔ)和維護(hù)工作;2010年,數(shù)據(jù)中心的總數(shù)躍升到2094所,翻了幾倍。就像物流成為電子商務(wù)的發(fā)展瓶頸一樣,制約數(shù)據(jù)中心發(fā)展的核心難題是日益攀升的能耗問(wèn)題。未來(lái)可能通過(guò)收集更多的數(shù)據(jù)中心的能耗數(shù)據(jù)并進(jìn)行大數(shù)據(jù)挖掘技術(shù),破除影響其發(fā)展的屏障。
另外,隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)收集的途徑多種多樣,數(shù)據(jù)門類繁雜,可能會(huì)造成大量私密數(shù)據(jù)泄露和“人肉搜索”等不道德現(xiàn)象。因此,針對(duì)未來(lái)大數(shù)據(jù)運(yùn)動(dòng)的狂潮,應(yīng)該法律法規(guī)先行,并在數(shù)據(jù)收集、管理、處理和共享過(guò)程中建立完善的道德規(guī)范。
數(shù)據(jù)的整理和管理也是大數(shù)據(jù)時(shí)代面臨的重大挑戰(zhàn)。在這個(gè)數(shù)據(jù)爆炸時(shí)代,數(shù)據(jù)的數(shù)量、速度和多樣性都在呈現(xiàn)爆炸式增長(zhǎng),大量數(shù)據(jù)相互聯(lián)系、緊密交織在一起,而且呈螺旋狀發(fā)展,因此,開(kāi)發(fā)高效的工具、方法和規(guī)范以及有效地歸類、整理、管理這些數(shù)據(jù)是必要的?!?/p>
[1]朱淑華.暨南大學(xué)公開(kāi)課:開(kāi)啟“智慧生活”的大數(shù)據(jù)[EB/OL].http://www.icourses.cn/viewVCourse.action?course Code=10559V003.
[2]張妮,徐文尚,王文文.人工智能技術(shù)發(fā)展及應(yīng)用研究綜述[J].煤礦機(jī)械,2009,30(2):4-7.
[3]王喜文.人工智能與大數(shù)據(jù)怎樣結(jié)合?[N].中國(guó)電子報(bào),2014-7-17(3).
[4]寧葵,嚴(yán)毅.分布式計(jì)算技術(shù)發(fā)展研究[J].微機(jī)發(fā)展,2004,14(8):14-16.
[5]涂子沛.大數(shù)據(jù):正在到來(lái)的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)與我們的生活[M].廣西:廣西師范大學(xué)出版社,2012.