楊靜++許峰
摘要: 大數據應用研究已成為學術界熱點。為更好地收集與存儲大數據,變革對數據的管理以使其在大數據時代更好地服務于企業(yè)、社會與科學研究,探討了目前大數據收集與存儲方式的優(yōu)缺點,提出了大數據挖掘與分析面臨的問題,為下一步研究大數據生物存儲方法奠定基礎。
關鍵詞:大數據;數據收集;數據存儲;數據挖掘;云計算
DOIDOI:10.11907/rjdk.171755
中圖分類號:TP301文獻標識碼:A文章編號:16727800(2017)010000103
英文標題The Analysis and Research of Data Mining Based on the Big Data Collection and the Storage
——副標題
0引言
隨著互聯(lián)網、物聯(lián)網、云計算、三網融合等IT與通信技術迅猛發(fā)展,數據的快速增長給許多行業(yè)帶來了嚴峻挑戰(zhàn)與寶貴機遇,信息社會進入了大數據時代[1]。2011年5月,在“云計算相遇大數據”為主題的“EMC World 2011”會議中,EMC拋出了Big Data概念?!都~約時報》2012年2月一篇專欄稱“大數據”時代已經降臨許多現(xiàn)實世界的領域。哈佛大學社會學教授加里·金說:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程?!贝髷祿挠楷F(xiàn)不僅改變著人們的生活、工作方式與企業(yè)運作模式,甚至還會引起科學研究模式的根本性改變。
大數據是指無法在一定時間內用常規(guī)機器與軟硬件工具對其進行感知、獲取、管理、處理、服務的數據集合[2]。IBM將大數據的特點總結為4個V,即大量化(Volume)、多樣化(Variety)、快速化(Velo- city)與價值密度低(Value)。首先,網絡空間中數據的規(guī)模不斷擴大,已經從GB、TB到PB,有的甚至以EB或ZB等單位來計數,IDC研究報告稱,未來10年全球大數據將增加50倍,管理數據倉庫的服務器數量將增加l0倍以迎合50倍的大數據增長。有專家研究認為,從人類文明誕生到2003年所產生的數據大約為5EB,而2003-2012年產生的數據是2003年以前的500倍之多,達到2.7ZB,2012-2015年所產生的數據又翻了3倍。大數據數據集在以難以想象的速度增長,大數據收集、存儲及挖掘給數據的處理帶來了極大挑戰(zhàn)。
1數據收集
大數據的特點除了數量多以外,還有種類雜、來源廣等,這導致處理數據前的存儲問題變得比以往更為復雜[38]。存儲數據本身不是一項新技術,但舊時存儲技術已無法完全勝任大數據下的要求,因為在海量數據面前,存儲數據已不再是單純的存儲行為,在存儲這些數據前,首先要面對如何提取或收集有用數據。
隨著手機、平板電腦、智能家電、VR等硬件與搭載其上的社交軟件、數據處理工具、編輯器等軟件普及,每天或者說每秒都會產生難以估量的數據。這些數據必須收集起來加以分析,才能使其價值體現(xiàn)出來,而數據收集難點主要有以下幾個方面:
(1) 求真。信息增多,同時也意味著錯誤或虛假情報增多,錯誤的信息不僅增加了工作量,還影響了數據分析的價值。因此,在獲取信息時對信息可信度進行評估是非常重要且必要的。
(2) 及時。大數據下并不一定總需要保障數據的及時性,但也有相當多情況需要保障及時性,如交通出行數據或突發(fā)事件處理等,因此需要兼顧及時性問題。
收集數據在大數據時代下已不再是被動與單一地收集特定數據,而是主動收集需要的數據,隨時隨地進行收集。作為實現(xiàn)數據有效價值的第一步,還有很長一段路要走,這是有意義的一條道路,將會對大數據發(fā)展起到非常重要的作用。
2數據存儲
提取出有用數據后,就應該選擇合適數據庫或其它方式進行存儲,以方便以后的數據分析。基于傳統(tǒng)關系型數據庫的存儲特點,由于大數據結構復雜,且無法在獲取數據前很好地預測大數據結構,目前數據庫還未能滿足大數據時代的數據存儲需求。
大數據中有大量冗余,消除冗余是降低開銷的重要途徑。大數據當前的存儲方式不僅影響效率也影響成本,需要研究高效率低成本數據存儲方式、多源多模態(tài)數據高質量獲取與整合理論技術、錯誤自動檢測與修復理論技術以及低質量數據上的近似計算理論與算法。這些問題對當今數據處理技術提出了巨大挑戰(zhàn)。
目前一些大公司(如Google、Facebook、Microsoft、IBM與Oracle等)都設計了許多專門應對大數據時代的存儲技術,尤其是Google在這一方面取得了非常大的成就。
2013年,Goldman 與Ewan Birney[9]在實驗室實現(xiàn)了DNA存儲技術,成功使用DNA編碼存儲了5個文件。在此之前,哈佛大學生物學家George Church等[10]將一本約有5.34萬個單詞的書籍進行DNA編碼存儲,用了不到1g的DNA微芯片,并實現(xiàn)了利用DNA測序來閱讀。如果信息存儲密度可以像大腸桿菌的基因一樣密集,那么全世界數據只需要1kg的DNA。瑞士Robert Grass等[11]將DNA保存在二氧化硅球體里,模擬在10℃下保存2 000年,數據依然完好無損,這預示著利用DNA存儲數據可以更長久保存數據的完整性。DNA計算機具有4個方面突出優(yōu)點:①高度并行性,整體運算速度快;②海量存儲能力;③能耗低;④資源豐富。其計算原理是利用DNA分子具有的海量存儲能力及生化反應的巨大并行性等特點進行計算,這也正是電子計算機所不具備的。
3數據挖掘與分析
大數據的價值是毫無疑問的,然而與普通數據不同,普通數據的價值在大多數情況下直接體現(xiàn)在數據上,數據價值與數據量基本上成正比,但大數據卻不一定,數據越多并不一定代表價值越大,相反,在有些時候,數據越多對于存儲與分析數據的能力要求會越高,且無法提前確定數據價值。正因為這樣,大數據下分析與挖掘數據價值是一件非常有挑戰(zhàn)性的工作,主要會遇到以下問題[12]:endprint
(1)分析目標對分析方法的影響。大數據下,因為從不同側面分析同一份數據會得到不同的結果,因此需要在確定目標的前提下去分析數據。某些情況下會存在對同一個問題多次分析,因為在分析一些大問題時可能已經分析過其中的小問題,或者說對被分析問題的徹底理解需要借助更多關系,這勢必提高問題難度,因為無法預料到各方面的權重是否合理。
(2)數據量對分析速度的影響。數據量對分析速度的影響除了表現(xiàn)在運算上,還有一個分析系統(tǒng)可承載數據量的問題。因為任何一個系統(tǒng)可以同時運算的數據量都不會無限大,系統(tǒng)存在一個負載問題,大數據下數據量的急劇增加導致了許多問題,很多運算系統(tǒng)必須改進。另一個問題是數據太多,運算時數據傳輸會影響數據運算速度,也許可以考慮改變運算方式,不是把數據輸入到CPU去分析,而是讓CPU去分析數據,但又會出現(xiàn)一些新的問題,需要研究一些新的技術與算法。
(3)隱私權是數據分析必須思考的問題。大數據隱藏著許多信息,簡單幾個數據不會輕易體現(xiàn)一個人的行蹤,但當許多數據集中在一起時,結果可能就不一樣了。因此還必須考慮隱私問題,這同樣提高了數據分析的難度。
Google等一些科技公司為了應對大數據時代的機遇與挑戰(zhàn),研發(fā)了專門的數據庫軟件與新技術,比如Google在2004年提出了Map Reduce,完整流程如圖1所示。
這是一個具有代表意義的批處理模式,從圖1可見,將問題分而治之的思路,好處是顯而易見的,復雜問題變得不那么復雜,且改變了數據與計算的關系?;叵胗嬎銠C發(fā)展史,從最初以運算器為中心的馮·洛依曼機到現(xiàn)在以存儲器為中心的計算機結構,Map Reduce改變了數據必須送到計算中處理的方式,讓計算“跑”到數據中處理數據。關系型數據庫在很長一段時間內都是處理數據的最佳選擇,然而隨著大數據時代對數據處理需求的改變,出現(xiàn)了許多特別應對大數據分析的工具,Hadoop是目前比較流行的平臺,當然也有在Hadoop基礎上改進或完全獨立開發(fā)的工具。
4數據分析結果顯示
為什么數據分析結果不可以使用傳統(tǒng)的方式展示,而要特地設計?先來看一組數據,如圖2所示。
從圖2可以看出原始數據的復雜性,分析結果也是多維度的,無法也不需要列出全部分析結果,這就需要尋求新的方式去展示數據分析結果。分析結果可能牽扯到個人隱私,這也是需要面對的問題。比如在Google里搜索關鍵字,會在無意識情況下將一個人的私人偏好或目前面臨的問題暴露出來(比如Google后臺被入侵或Google出售自己的數據,雖然這二者可能性都很低)。數據分析結果并不簡單,需要兼顧非常多的技術問題與非技術問題。
5結語
如今,數據越來越多,但它本身只是璞玉,需經過精雕細琢才能實現(xiàn)真正的價值。總的來說,大數據研究才剛剛起步,還有許多基礎問題需要解決;大數據與其它計算機技術有什么不同、是否會在根本上導致新的計算機革命,還需要較長時間來驗證。不過,在某種意義上,大數據的魅力正是其未來的無限可能,因為未來無法預測,才令人充滿好奇,停不下探索的腳步。
參考文獻參考文獻:
[1]方巍,鄭玉,徐江.大數據:概念、技術及應用研究綜述[J].南京信息工程大學學報:自然科學版,2014(5):405419.
[2]馬建光,姜巍.大數據的概念、特征及其應用[J].國防科技,2013,34(2):1017.
[3]李學龍,龔海剛.大數據系統(tǒng)綜述[J].中國科學:信息科學,2015,45(1):144.
[4]嚴霄鳳,張德馨.大數據研究[J].計算機技術與發(fā)展,2013(4):168172.
[5]WU X,ZHU X,WU G Q, et al. Data mining with big data[J]. IEEE Transactions on Knowledge & Data Engineering,2014,26(1):97107.
[6]BENSRHIR A. Big data for geopolitical analysis: application on barack obama's remarks and speeches[C]. ACS International Conference on Computer Systems and Applications IEEE Computer Society,2013:14.
[7]ZHENG Z, ZHU J, LYU M R. Servicegenerated big data and big dataasaservice: an overview[C]. IEEE International Congress on Big Data,2013:403410.
[8]ZIN T T, TIN P, TORIU T,et al. A big data application framework for consumer behavior analysis[C]. Consumer Electronics IEEE,2013:245246.
[9]GOLDMAN N, BERTONE P, CHEN S,et al. Toward practical highcapacity lowmaintenance storage of digital information in synthesised DNA[J]. Nature,2013:494.
[10]CHURCH G M,GAO Y,KOSURI S. Supplementary materials for nextgeneration nextgeneration digital information storage in DNA[J]. Science, 2012,337:16281643.
[11]GRASS R N, HECKEL R, PUDDU M,et al. Robust chemical preservation of digital information on DNA in silica with errorcorrecting codes[J]. Angewandte Chemie International Edition,2015,54(8):25522555.
[12]陳鵬.面向大數據應用的異構可重構平臺關鍵技術研究[D].合肥:中國科學技術大學,2015.
責任編輯(責任編輯:何麗)endprint