鐘棟棟
(西華大學(xué),四川 成都 610000)
?
大數(shù)據(jù)時(shí)代
鐘棟棟
(西華大學(xué),四川 成都 610000)
隨著網(wǎng)絡(luò)信息化時(shí)代的日益普遍,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)大大拓展了互聯(lián)網(wǎng)的疆界和應(yīng)用領(lǐng)域,我們正處在一個(gè)數(shù)據(jù)爆炸性增長的“大數(shù)據(jù)”時(shí)代,大數(shù)據(jù)在社會(huì)經(jīng)濟(jì)、政治、文化,人們生活等方面產(chǎn)生深遠(yuǎn)的影響,大數(shù)據(jù)時(shí)代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn)與機(jī)遇。
大數(shù)據(jù);云計(jì)算;海量;發(fā)展;影響
進(jìn)入2012年以來,大數(shù)據(jù)(Big Data)一詞越來越多地被提及與使用,人們用它來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù),它已經(jīng)出現(xiàn)過在《紐約時(shí)報(bào)》、《華爾街時(shí)報(bào)》的專欄封面,進(jìn)入美國白宮網(wǎng)的新聞,現(xiàn)身在國內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中,甚至被嗅覺靈敏的國君證劵、國泰君安、銀河證劵等寫進(jìn)了投資推薦報(bào)告,大數(shù)據(jù)時(shí)代來臨據(jù)。
對于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫和云存儲(chǔ)、虛擬化技術(shù)。[2]
隨著云時(shí)代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注。分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Big data)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時(shí)會(huì)花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
要理解大數(shù)據(jù)這一概念,首先要從“大”入手,“大”是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個(gè)V來總結(jié)(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價(jià)值密度低、速度快。
第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別。第二,數(shù)據(jù)類型繁多,如前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息,等等。第三,價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。目前所說的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過解決巨量數(shù)據(jù)處理問題促進(jìn)其突破性發(fā)展。
大數(shù)據(jù),其影響除了經(jīng)濟(jì)方面的,它同時(shí)也能在政治、文化等方面產(chǎn)生深遠(yuǎn)的影響,大數(shù)據(jù)可以幫助人們開啟循“數(shù)”管理的模式,也是我們當(dāng)下“大社會(huì)”的集中體現(xiàn),三分技術(shù),七分?jǐn)?shù)據(jù),得數(shù)據(jù)者得天下。
“大數(shù)據(jù)”的影響,增加了對信息管理專家的需求。事實(shí)上,大數(shù)據(jù)的影響并不僅僅限于信息通信產(chǎn)業(yè),而是正在“吞噬”和重構(gòu)很多傳統(tǒng)行業(yè),廣泛運(yùn)用數(shù)據(jù)分析手段管理和優(yōu)化運(yùn)營的公司其實(shí)質(zhì)都是一個(gè)數(shù)據(jù)公司。麥當(dāng)勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數(shù)據(jù)分析基礎(chǔ)之上的精準(zhǔn)選址。而在零售業(yè)中,數(shù)據(jù)分析的技術(shù)與手段更是得到廣泛的應(yīng)用,傳統(tǒng)企業(yè)如沃爾瑪通過數(shù)據(jù)挖掘重塑并優(yōu)化供應(yīng)鏈,新崛起的電商如卓越亞馬遜、淘寶等則通過對海量數(shù)據(jù)的掌握和分析,為用戶提供更加專業(yè)化和個(gè)性化的服務(wù)。
大數(shù)據(jù)在個(gè)人隱私的方面,大量數(shù)據(jù)經(jīng)常含有一些詳細(xì)的潛在的能夠展示有關(guān)我們的信息,逐漸引起了我們對個(gè)人隱私的擔(dān)憂。一些處理大數(shù)據(jù)公司需要認(rèn)真的對待這個(gè)問題。例如美國天睿資訊給人留下比較深刻印象的是他的一個(gè)科學(xué)家提出,我們不應(yīng)該簡單地服從法律方面的隱私保護(hù)問題,這些遠(yuǎn)遠(yuǎn)不夠的,公司都應(yīng)該遵從谷歌不作惡的原則,甚至更應(yīng)該做出更積極的努力。
當(dāng)下我國大數(shù)據(jù)研發(fā)建設(shè)應(yīng)在以下四個(gè)方面著力。第一,建立一套運(yùn)行機(jī)制。大數(shù)據(jù)建設(shè)是一項(xiàng)有序的、動(dòng)態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運(yùn)行機(jī)制,以促進(jìn)建設(shè)過程中各個(gè)環(huán)節(jié)的正規(guī)有序,實(shí)現(xiàn)統(tǒng)合,搞好頂層設(shè)計(jì)。第二,規(guī)范一套建設(shè)標(biāo)準(zhǔn)。沒有標(biāo)準(zhǔn)就沒有系統(tǒng)。應(yīng)建立面向不同主題、覆蓋各個(gè)領(lǐng)域、不斷動(dòng)態(tài)更新的大數(shù)據(jù)建設(shè)標(biāo)準(zhǔn),為實(shí)現(xiàn)各級各類信息系統(tǒng)的網(wǎng)絡(luò)互連、信息互通、資源共享奠定基礎(chǔ)。第三,搭建一個(gè)共享平臺(tái)。數(shù)據(jù)只有不斷流動(dòng)和充分共享,才有生命力。第四,培養(yǎng)一支專業(yè)隊(duì)伍。大數(shù)據(jù)建設(shè)的每個(gè)環(huán)節(jié)都需要依靠專業(yè)人員完成,因此,必須培養(yǎng)和造就一支懂指揮、懂技術(shù)、懂管理的大數(shù)據(jù)建設(shè)專業(yè)隊(duì)伍。
做到上面的幾點(diǎn),當(dāng)大數(shù)據(jù)時(shí)代來臨的時(shí)候,面臨大量數(shù)據(jù)將不是束手無策,而是成竹在胸,而從數(shù)據(jù)中得到的好處也將促進(jìn)國家快速發(fā)展。
[1]李建義.數(shù)據(jù)庫原理及開發(fā).北京:中國水利水電出版社,2005.
[2]維克托·邁爾·舍恩伯格.大數(shù)據(jù)時(shí)代.浙江:浙江人民出版社,2012.
[3]大數(shù)據(jù)時(shí)代降臨 .半月談網(wǎng),2012-09-22.
鐘棟棟(1995.12-),男,漢族,浙江人,西華大學(xué)。
TP391
A
1671-1602(2016)18-0113-01