黃楚鵬
摘要:在互聯(lián)網(wǎng)技術高速發(fā)展的今天,生產生活以及科學研究都會產生大量的數(shù)據(jù),在這樣一個“大數(shù)據(jù)”時代,通過整合、分析、挖掘數(shù)據(jù),將數(shù)據(jù)的內在聯(lián)系和關鍵部位進行提取,展現(xiàn)數(shù)據(jù)體現(xiàn)的現(xiàn)象,為管理者的決策提供依據(jù)是一個重要的趨勢。本文將對大數(shù)據(jù)時代的背景、技術,以及面對的機遇和挑戰(zhàn)進行了闡述。
關鍵詞:大數(shù)據(jù);技術;機遇與挑戰(zhàn)
中圖分類號:TP311.13 文獻識別碼:A 文章編號:1001-828X(2017)001-000-01
一、背景
隨著信息科學和網(wǎng)絡技術的發(fā)展,現(xiàn)代生活中出現(xiàn)了“數(shù)據(jù)化”的思維,數(shù)據(jù)的產生方式由原來的“人機”、“機物”的二元世界向融合了社會資源、信息系統(tǒng)和物理資源的三元世界轉變[1]。數(shù)據(jù)的規(guī)模也呈爆炸式的發(fā)展。大數(shù)據(jù)的挖掘和應用可創(chuàng)造出超萬億美元的價值,將會是未來IT領域最大的市場機遇之一,但由于其數(shù)據(jù)的爆炸式增長,也給前沿科學項目帶來了巨大的挑戰(zhàn)。
二、大數(shù)據(jù)的內涵和關鍵技術
大數(shù)據(jù)提出至今受到廣泛的關注,但其并沒有一個統(tǒng)一的概念,對其定義大都是對大數(shù)據(jù)的定性描述,并未給出定量的指標。我們姑且引用麥肯錫對大數(shù)據(jù)的定義,以方便討論和研究。麥肯錫定義大數(shù)據(jù)為:在一定的時間范圍內,無法用傳統(tǒng)的數(shù)據(jù)庫軟件或工具對其進行抓取、管理和處理的數(shù)據(jù)集合[2]。
大數(shù)據(jù)不是一個新概念或新技術,早在2000年Diebold撰寫的論文第一次使大數(shù)據(jù)出現(xiàn)在學術期刊。大數(shù)據(jù)作為近年來的一個研究的熱點,具有4V[3]特性:(1)Volumes(數(shù)據(jù)量大),數(shù)據(jù)量達到PB級別;(2)Variety(數(shù)據(jù)類別繁多),包括半結構化和非結構化數(shù)據(jù);(3)Value(價值密度低),大量的數(shù)據(jù)只有一小部分有效;(4)Velocity(處理速度快),包含大量在線和實時處理。
隨著互聯(lián)網(wǎng)、云計算等技術的快速發(fā)展,大量的移動設備、無線傳感器每分每秒都在產生新的數(shù)據(jù),數(shù)以億計的互聯(lián)網(wǎng)用戶產生巨大量的數(shù)據(jù)交互。面對如此量級的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理技術已經無法應對,為了解決這些難題,需要突破傳統(tǒng)技術,進行新技術的變革。大數(shù)據(jù)技術是一系列的收集、存儲、管理、分析的技術集合,目前適用于大數(shù)據(jù)的關鍵技術有:遺傳算法,模擬生物進化的規(guī)律的一種隨機化搜索方法,已被廣泛應用在信號處理、自適應控制、機器學習和人工生命等領域;神經網(wǎng)絡,根據(jù)動物的中樞神經系統(tǒng)的結構和運作模式,對數(shù)據(jù)進行分布式并行信息處理的算法;數(shù)據(jù)挖掘,使用數(shù)據(jù)庫技術從大量的數(shù)據(jù)中提取關鍵信息的技術,并根據(jù)關鍵信息預測目標的值;此外,還有網(wǎng)絡分析、空間分析、時間序列分析、分布式數(shù)據(jù)庫、非關系型數(shù)據(jù)庫、可視化技術等多項相關技術。
三、大數(shù)據(jù)的機遇和挑戰(zhàn)
1.大數(shù)據(jù)面臨的機遇
大數(shù)據(jù)在數(shù)據(jù)挖掘和應用方面成為核心,從多個方面創(chuàng)造價值。根據(jù)麥肯錫的測算,大數(shù)據(jù)的應用每年可潛在為美國醫(yī)療健康行業(yè)和歐洲政府分別節(jié)省3000億美元和1000億歐元,利用個人位置信息潛在可創(chuàng)造6000億美元的市場價值,因此大數(shù)據(jù)具有超萬億的大市場。
大數(shù)據(jù)安全問題日益重要,為信息安全領域帶來發(fā)展契機。伴隨移動互聯(lián)網(wǎng)的興起,大數(shù)據(jù)使數(shù)據(jù)價值極大的提高,大量的數(shù)據(jù)也對信息安全提出了更高的要求。信息安全和云計算貫穿于大數(shù)據(jù)的各個環(huán)節(jié),云安全等關鍵技術將為大數(shù)據(jù)提供更好的保護作用。大數(shù)據(jù)對信息安全的要求也將更好的促進和推動信息安全技術的發(fā)展。
大數(shù)據(jù)將全面推動商業(yè)智能的發(fā)展。商業(yè)智能概念在1996年由加特納集團提出,描述了通過應用基于事實的支持系統(tǒng)來輔助商業(yè)決策的制定。商業(yè)智能技術包括收集、管理和分析數(shù)據(jù),將數(shù)據(jù)轉化為有用信息,提供了使企業(yè)迅速分析數(shù)據(jù)的技術和方法。我國的商業(yè)智能市場目前已進入成長期,預計未來3年的復合增長率高達35%,潛在的產值超過300億元。
2.大數(shù)據(jù)面臨的挑戰(zhàn)
數(shù)據(jù)來源錯綜復雜。豐富的數(shù)據(jù)源是大數(shù)據(jù)產業(yè)發(fā)展的前提,而我國數(shù)據(jù)資源總量遠遠低于歐美,特別是政府和制造業(yè)的數(shù)據(jù)資源的積累大幅落后于發(fā)達國家。我們的數(shù)據(jù)資源還存在標準化、準確性、利用價值不高等特點,大大降低了數(shù)據(jù)的價值。大數(shù)據(jù)有著不可估量的商業(yè)價值,但隨著信息采集手段越來越高超,對公眾個人信息的保護也是一個需要解決的問題。
數(shù)據(jù)挖掘分析模型的建立。在人人都討論大數(shù)據(jù)的時代,大數(shù)據(jù)似乎已成為時代的潮流,數(shù)據(jù)比以往任何時候都更深入我們生活的每個角落。然而關于大數(shù)據(jù)的分析,目前還較少實際運用中有效的模型和方法。主要是由于對大數(shù)據(jù)價值邏輯缺乏有效的歸納,以及大數(shù)據(jù)分析中的關鍵部分和技術還未成熟,這也是當前大數(shù)據(jù)時代面臨的挑戰(zhàn)之一。
大數(shù)據(jù)的管理與決策。大數(shù)據(jù)帶來的決策挑戰(zhàn)非常艱巨,其中一個重要的方面就是為管理者提供決策依據(jù)。與以前的決策是靠個人經驗或者直覺的時代相比,依靠大數(shù)據(jù)的分析結果做出決策是非常有價值的,其可以消除由于個人的情感或知識結構差異帶來的決策失誤,但如何根據(jù)大量數(shù)據(jù)抓取到關鍵的決策信息是一個重大的挑戰(zhàn)。
大數(shù)據(jù)人才缺口。大數(shù)據(jù)的采集分析、設計和實施都需要專業(yè)化的工具和技術。大數(shù)據(jù)時代企業(yè)需要大量既能精通業(yè)務又能懂得大數(shù)據(jù)技術的人才,我國目前IT技術人員配備不足的現(xiàn)狀與大數(shù)據(jù)IT人才不斷增加的矛盾日益突出,大數(shù)據(jù)對我國人才培養(yǎng)模式以及現(xiàn)有的人才儲備提出了嚴峻的挑戰(zhàn)。
四、結語
大數(shù)據(jù)作為當下熱門且重要的資源,已經出現(xiàn)在很多領域,并將成為未來市場競爭以及科技創(chuàng)新爭奪的資源。大數(shù)據(jù)時代下,各國在這一領域將展開新一輪的競爭,我們應當與時俱進,克服困難與挑戰(zhàn),抓住大數(shù)據(jù)時代發(fā)展的機遇,創(chuàng)造出巨大價值。
參考文獻:
[1]李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經濟社會發(fā)展的重大戰(zhàn)略領域[J].中國科學院院刊,2012,27(6):647-657.
[2]計算機行業(yè)-大數(shù)據(jù)(BigData)專題報告[R].上海:光大證券股份有限公司研究所,2011.
[3]大數(shù)據(jù)分析技術的發(fā)展[EB/OL].2012-05-16.http://tech.ccident.com/art/32963/20120516/3859799_1.html.