張開秋 段雪蓮
2012年,Twitter上每天發(fā)布超過4億條微博,F(xiàn)acebook上每天更新的照片超過1000萬張,F(xiàn)arecast公司用將近10萬億條價格記錄來預(yù)測機票價格,準確率高達75%,采用該系統(tǒng)購票,平均每張機票可節(jié)省50美元。2011年,麥肯錫公司對全世界大數(shù)據(jù)的分布作了一個研究和統(tǒng)計,中國2010年新增的數(shù)據(jù)量約為250PB,而歐洲約為2000PB,美國約為3500PB,大數(shù)據(jù)已經(jīng)滲透到了人類經(jīng)濟社會生活的各個方面。如何獲取、聚集、分析大數(shù)據(jù)成為廣泛關(guān)注的熱點問題。
一、大數(shù)據(jù)的概念與特點
大數(shù)據(jù)是一個較為抽象的概念,至今尚無確切、統(tǒng)一的定義。在維基百科中關(guān)于大數(shù)據(jù)的定義為:大數(shù)據(jù)是指利用常用軟件工具來獲取、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。
(一)數(shù)據(jù)量大
數(shù)據(jù)量大是大數(shù)據(jù)的基本屬性。首先,隨著互聯(lián)網(wǎng)的廣泛運用,數(shù)據(jù)獲取、分享變得相對容易。其次,隨著各種傳感器數(shù)據(jù)獲取能力的大幅提高,人們獲取的數(shù)據(jù)越來越接近原始事物本身,描述同一事物的數(shù)據(jù)量激增。此外,數(shù)據(jù)量大還體現(xiàn)在人們處理數(shù)據(jù)的方法和理念發(fā)生了根本的改變。
(二)數(shù)據(jù)類型多樣
數(shù)據(jù)類型繁多,復雜多變是大數(shù)據(jù)的重要特性。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)處理最大的不同就是重點關(guān)注非結(jié)構(gòu)化信息,大數(shù)據(jù)關(guān)注包含大量細節(jié)信息的非結(jié)構(gòu)化數(shù)據(jù),強調(diào)小眾化、體驗化的特性使得傳統(tǒng)的數(shù)據(jù)處理方式面臨巨大的挑戰(zhàn)。
(三)數(shù)據(jù)處理速度快
要求數(shù)據(jù)的快速處理,是大數(shù)據(jù)區(qū)別于傳統(tǒng)海量數(shù)據(jù)處理的重要特性之一??焖僭鲩L的數(shù)據(jù)量要求數(shù)據(jù)處理的速度必須相應(yīng)的提升,才能使得大量的數(shù)據(jù)得到有效的利用,否則不斷激增的數(shù)據(jù)不但不能為解決問題帶來優(yōu)勢,反而成了快速解決問題的負擔。對不斷激增的海量數(shù)據(jù)的實時處理要求,是大數(shù)據(jù)與傳統(tǒng)海量數(shù)據(jù)處理技術(shù)的關(guān)鍵差別之一。
二、大數(shù)據(jù)要解決的核心問題
大數(shù)據(jù)的處理包括:獲取與特定的應(yīng)用相關(guān)的有用數(shù)據(jù),并將數(shù)據(jù)聚合成便于存儲、分析、查詢的形式;分析數(shù)據(jù)的相關(guān)性,得出相關(guān)屬性;采用合適的方式將數(shù)據(jù)分析的結(jié)果展示出來等過程。
(一)獲取有用數(shù)據(jù)
對于實際應(yīng)用來說,并不是數(shù)據(jù)越多越好,獲取大量數(shù)據(jù)的目的是盡可能準確、詳盡的描述事物的屬性,對于特定的應(yīng)用數(shù)據(jù)必須包含有用的信息,擁有包含足夠信息的有效數(shù)據(jù)才是大數(shù)據(jù)的關(guān)鍵。
(二)數(shù)據(jù)分析
數(shù)據(jù)分析是大數(shù)據(jù)處理的關(guān)鍵,大量的數(shù)據(jù)本身并沒有實際意義,只有針對特定的應(yīng)用分析這些數(shù)據(jù),使之轉(zhuǎn)化成有用的結(jié)果,海量的數(shù)據(jù)才能發(fā)揮作用。
(三)數(shù)據(jù)顯示
數(shù)據(jù)顯示是將數(shù)據(jù)經(jīng)過分析得到的結(jié)果以可見或可讀形式輸出,以方便用戶獲取相關(guān)信息。將用戶與數(shù)據(jù)融合在一起,使用戶直接與繪制結(jié)果交互,便于用戶認識、理解數(shù)據(jù)。數(shù)據(jù)顯示以準確、方便地向用戶傳遞有效信息為目標,顯示方法可以根據(jù)具體應(yīng)用需要來選擇。
三、大數(shù)據(jù)面臨的挑戰(zhàn)
實際上,大數(shù)據(jù)是一種新興的理論,大數(shù)據(jù)的概念、技術(shù)、方法還遠不成熟,在其發(fā)展的過程中還將面臨多種挑戰(zhàn),不應(yīng)過分夸大其先進性,我們還應(yīng)看到其存在的不足。
(一)不能完全代替?zhèn)鹘y(tǒng)數(shù)據(jù)
當前大數(shù)據(jù)尚不能完全取代傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù),盡管大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的絕對數(shù)據(jù)量占總數(shù)據(jù)量的75%,但由于非結(jié)構(gòu)化數(shù)據(jù)的價值偏低,有效的非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)相比并不占絕對優(yōu)勢,對于某些特定的應(yīng)用,結(jié)構(gòu)化數(shù)據(jù)仍然占據(jù)主導地位。
(二)數(shù)據(jù)保護
互聯(lián)網(wǎng)的發(fā)展使得獲取數(shù)據(jù)雖然十分便利,但也給信息安全帶來了巨大的挑戰(zhàn)。當前,數(shù)據(jù)安全形勢不容樂觀,需要保護的數(shù)據(jù)量增長已超過了數(shù)據(jù)總量的增長。首先,個人隱私更容易通過網(wǎng)絡(luò)泄露;其次,在國家層面大數(shù)據(jù)可能給國家安全帶來隱患,如果在大數(shù)據(jù)處理方面落后,就可能導致數(shù)據(jù)的單向透明。美國發(fā)布大數(shù)據(jù)研發(fā)計劃,大力發(fā)展大數(shù)據(jù)技術(shù)就有增強國家安全方面的戰(zhàn)略布置。
(三)相關(guān)性預(yù)知
大數(shù)據(jù)時代,數(shù)據(jù)不再是靜止和陳舊的,而是流動的、不斷更新的。大數(shù)據(jù)是人們獲得新的認知、創(chuàng)造新的價值的源泉,通過分析數(shù)據(jù)的相關(guān)性可能預(yù)知事物的發(fā)展方向,但不能希望通過大數(shù)據(jù)可以預(yù)知一切。
四、結(jié)語
隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計算的飛速發(fā)展,大量非結(jié)構(gòu)化數(shù)據(jù)呈指數(shù)級快速增長,數(shù)據(jù)樣式高度復雜,為人類認識世界、改造世界提供了重要資源。然而大數(shù)據(jù)的概念和相關(guān)技術(shù)還遠未成熟,尚存在著一定的爭議,面臨著諸多挑戰(zhàn)。我國是僅次于美國的數(shù)據(jù)大國,而我國大數(shù)據(jù)方面的研究尚處在起步階段,如何開發(fā)、利用保護好大數(shù)據(jù)這一重要的戰(zhàn)略資源,是我國當前亟待解決的問題。
(作者單位:西華大學經(jīng)濟學院)