羅軍鋒+鎖志海
摘 要:目前大數(shù)據(jù)是IT產(chǎn)業(yè)又一次劃時代的技術(shù)發(fā)明。在大數(shù)據(jù)時代,高等教育不可避免地將發(fā)生一次變革。本文介紹了大數(shù)據(jù)的概念及關(guān)鍵技術(shù),描述了大數(shù)據(jù)時代的機遇與挑戰(zhàn),并對大數(shù)據(jù)時代的高等教育信息化進行了初步探討。
關(guān)鍵詞:大數(shù)據(jù);高等教育;信息化
中圖分類號:G434 文獻標志碼:A 文章編號:1673-8454(2014)01-0008-02
一、引言
隨著云計算、物聯(lián)網(wǎng)等技術(shù)的興起與發(fā)展,數(shù)據(jù)正以前所未有的速度飛快增長和累積,大數(shù)據(jù)時代已經(jīng)來臨,整個學(xué)術(shù)界、工業(yè)界、政府都開始關(guān)注大數(shù)據(jù)問題。 2012 年 3 月 29 日 美國政府宣布了“大數(shù)據(jù)研究和發(fā)展倡議(Big Data Research and Development Initiative)”, 正式啟動“大數(shù)據(jù)發(fā)展計劃”,并承諾政府將為此投資超2億美元,許多重要國家機構(gòu)都將參與其中。 2012 年 7 月 10 日 ,聯(lián)合國發(fā)布大數(shù)據(jù)政務(wù)白皮書《大數(shù)據(jù)促發(fā)展: 挑戰(zhàn)與機遇》,指出各國政府應(yīng)當(dāng)使用極豐富的數(shù)據(jù)資源,更好地響應(yīng)社會和經(jīng)濟指標。隨著數(shù)據(jù)的不斷增多,海洋一般浩瀚的數(shù)據(jù)已成為一種戰(zhàn)略資源。大數(shù)據(jù)技術(shù)的目標就是從這些數(shù)據(jù)中挖掘信息、判斷趨勢、 提高效益。大數(shù)據(jù)的挖掘和應(yīng)用可創(chuàng)造出超萬億美元的價值, 將是未來 IT 領(lǐng)域最大的市場機遇之一, 其作用堪稱又一次工業(yè)革命。[1]
二、大數(shù)據(jù)的概念及特點
目前,大數(shù)據(jù)沒有一個公認的定義,不同的定義基本都是從大數(shù)據(jù)的特征出發(fā)給出的。比如國際數(shù)據(jù)公司認為大數(shù)據(jù)應(yīng)當(dāng)具有價值性,大數(shù)據(jù)的價值往往呈現(xiàn)稀疏性的特點。IBM認為大數(shù)據(jù)必然具有真實性。維基百科對大數(shù)據(jù)的定義為:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。大數(shù)據(jù)有四個典型的4V特點,即數(shù)量(Volume)、多樣性(Variety)、速度(Velocity)和價值(Value)。
數(shù)量:是指數(shù)據(jù)規(guī)模超大。數(shù)量級別從TB(1TB=1024GB)級別,躍升到 PB(1PB=1024TB)、EB(1 EB = 1024 PB )乃至 ZB (1 ZB =1024 EB )級別。
多樣性:是指管理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)來自多種數(shù)據(jù)源如傳感器、智能設(shè)備, 數(shù)據(jù)種類和格式?jīng)_破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,包括文本、微博、音頻、視頻等等。
速度:是指處理數(shù)據(jù)快,包含大量或?qū)崟r數(shù)據(jù)分析處理的時間要求非常短,符合1秒定律。速度影響數(shù)據(jù)時延——從數(shù)據(jù)創(chuàng)建或獲取到數(shù)據(jù)可以訪問的時間差。
價值:是指價值密度低,商業(yè)價值高。以視頻為例,連續(xù)不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫也有明顯的區(qū)別,兩者在數(shù)據(jù)來源、數(shù)據(jù)處理方式和數(shù)據(jù)思維等方面都有很大的變化。正像孟小峰[2]所言,兩者的區(qū)別就是“池塘捕魚”和“大海捕魚”的區(qū)別,前者代表著傳統(tǒng)數(shù)據(jù)庫時代的數(shù)據(jù)管理方式,后者則對應(yīng)著大數(shù)據(jù)時代的數(shù)據(jù)管理方式,其在數(shù)據(jù)規(guī)模、數(shù)據(jù)類型、數(shù)據(jù)模式、數(shù)據(jù)對象、處理工具上都有巨大的差異。
三、大數(shù)據(jù)的關(guān)鍵技術(shù)
文件系統(tǒng):該系統(tǒng)提供最底層存儲能力的支持,是支撐上層應(yīng)用的基礎(chǔ)。Google公司最早開發(fā)出了自己的文件系統(tǒng)GFS(Google file system),隨后微軟也開發(fā)了自己的Cosmos,后來開源也有了HDFS。
數(shù)據(jù)庫系統(tǒng):由于關(guān)系模型的分布式數(shù)據(jù)庫不能應(yīng)對大數(shù)據(jù)時代大規(guī)模的壓力,相應(yīng)地提出了許多新型數(shù)據(jù)庫系統(tǒng),如Google的Bigtable、Amazon的Dynamo等等,直到現(xiàn)在形成統(tǒng)一的NoSQL(not only SQL)。雖然NoSQL沒有準確的定義,但一般認為具有模式自由、簡易備份、最終一致性、支持海量數(shù)據(jù)等特征。同時,形成了對應(yīng)的索引與查詢技術(shù)。
數(shù)據(jù)分析:其上最著名的計算模型為Google的MapReduce,目前,Google公司針對MapReduce離線處理模式的不足,提出了基于Web數(shù)據(jù)級別的交互式數(shù)據(jù)分析系統(tǒng)Dremel,能夠?qū)崿F(xiàn)極短時間內(nèi)的海量數(shù)據(jù)分析。在離線與實時處理模式上,已經(jīng)出現(xiàn)了二者融合的趨勢。
大數(shù)據(jù)處理工具:Hadoop是目前最為流行的大數(shù)據(jù)處理平臺,目前,將該平臺進行改進,以便應(yīng)用到各種場景是研究的熱點之一。當(dāng)然,除了Hadoop,還有其他處理工具,這里就不一一提出。
四、大數(shù)據(jù)時代高校信息化面臨的挑戰(zhàn)
高校也是數(shù)據(jù)生產(chǎn)大戶,中國高校規(guī)模一般都比較大,一般萬人以上的大學(xué)非常多,在高校里上學(xué)的學(xué)生從招生、學(xué)籍、選課、成績、飯?zhí)?、活動等會產(chǎn)生大量的數(shù)據(jù);教師的上課音視頻、課件、實驗數(shù)據(jù)等也會有龐大的數(shù)據(jù);校務(wù)系統(tǒng)運行、圖書館、微博、博客等都會產(chǎn)生很大的數(shù)據(jù);尤其重要的是科研和教學(xué)數(shù)據(jù),是高等教育的兩大核心功能的重要數(shù)據(jù)。在這個大數(shù)據(jù)的時代,只有用好這些數(shù)據(jù),才能更好地幫助教學(xué)、科研,做好招生推廣、學(xué)生管理等各個方面的工作,用好這些數(shù)據(jù),毋庸置疑將會大大提高高校的信息化水平。要用好大數(shù)據(jù),至少面臨以下幾個方面的挑戰(zhàn):
大數(shù)據(jù)集成與分析:大數(shù)據(jù)的多樣性特點決定了數(shù)據(jù)來源的廣泛性、復(fù)雜性,這種數(shù)據(jù)環(huán)境給大數(shù)據(jù)的處理帶來了很大的挑戰(zhàn),必須對多種數(shù)據(jù)來源進行抽取集成,先進行數(shù)據(jù)的清洗,經(jīng)過關(guān)聯(lián)和聚合,采用統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)來存儲這些數(shù)據(jù)。大數(shù)據(jù)分析無疑是整個大數(shù)據(jù)時代的核心所在,因為大數(shù)據(jù)的價值就產(chǎn)生于數(shù)據(jù)分析過程中。當(dāng)然,數(shù)據(jù)分析是基于集成處理后的數(shù)據(jù)作為數(shù)據(jù)分析的原始數(shù)據(jù)。數(shù)據(jù)分析一般是根據(jù)不用的應(yīng)用需求從數(shù)據(jù)中的部分或者全部進行分析。傳統(tǒng)的分析技術(shù)如數(shù)據(jù)挖掘、機器學(xué)習(xí)、統(tǒng)計分析在大數(shù)據(jù)時代需要做出調(diào)整,主要原因是大數(shù)據(jù)時代的“大”字,具體的調(diào)整包括分析前數(shù)據(jù)的預(yù)處理、算法、評價質(zhì)量等等。
大數(shù)據(jù)的存儲:需要研究低成本、高效率的數(shù)據(jù)存儲方式,眾所周知,低成本一般意味著低效率,但是在大數(shù)據(jù)時代,如果處理效率低下,則大數(shù)據(jù)毫無意義,因此,必須打破常規(guī),要處理好大數(shù)據(jù)的存儲。另外,還要做好大數(shù)據(jù)時代數(shù)據(jù)存儲的管理問題,因為存儲空間巨大,無疑給存儲硬件帶來壓力,同時,對非結(jié)構(gòu)化數(shù)據(jù)進行有序、高效的存儲管理也是面臨的挑戰(zhàn)。
大數(shù)據(jù)的融合與使用:數(shù)據(jù)不融合就發(fā)揮不出數(shù)據(jù)的大價值,大數(shù)據(jù)面臨的一個非技術(shù)性的重要問題就是數(shù)據(jù)的融合。作為高等院校,大數(shù)據(jù)的融合應(yīng)該走在前列,必須徹底打通數(shù)據(jù)孤島,將各個業(yè)務(wù)充分整合,只有有效融合,才能形成高質(zhì)量的大數(shù)據(jù),才能發(fā)揮大數(shù)據(jù)時代高等教育信息化對學(xué)校發(fā)展的具體推動作用。
五、大數(shù)據(jù)時代的應(yīng)對策略
面對大數(shù)據(jù)時代帶給我們的這些挑戰(zhàn),作為高等教育信息化從業(yè)人員,必須堅持不懈地學(xué)習(xí),具體學(xué)習(xí)或者做好如下關(guān)鍵技術(shù)或工作:
我們要學(xué)習(xí)大數(shù)據(jù)時代的基礎(chǔ)平臺和支撐技術(shù),學(xué)習(xí)大數(shù)據(jù)時代的文件系統(tǒng),如Google的GFS系統(tǒng),開源的HDFS、CloudStore系統(tǒng)等等,了解這些技術(shù),方便我們實現(xiàn)大數(shù)據(jù)低成本、高效率的存儲,也方便我們進行存儲的管理。學(xué)習(xí)這些技術(shù),將掌握大數(shù)據(jù)的基礎(chǔ)平臺與技術(shù)。
我們要學(xué)習(xí)大數(shù)據(jù)時代的數(shù)據(jù)分析技術(shù),前面提過,大數(shù)據(jù)時代,傳統(tǒng)的數(shù)據(jù)分析方式如數(shù)據(jù)挖掘等需要調(diào)整,那么我們就要學(xué)習(xí)傳統(tǒng)的數(shù)據(jù)分析方式的調(diào)整與方法,研究和學(xué)習(xí)大數(shù)據(jù)時代的數(shù)據(jù)分析技術(shù)。
做好大數(shù)據(jù)時代的數(shù)據(jù)管理,大數(shù)據(jù)時代數(shù)據(jù)管理就不是以前傳統(tǒng)的大型關(guān)系型數(shù)據(jù)庫那種管理方式,而是改變成為NoSQL為代表的新型數(shù)據(jù)模型的一類技術(shù)。這種改變是因為關(guān)系型數(shù)據(jù)模型不能應(yīng)對大數(shù)據(jù)時代的種種挑戰(zhàn)。這種新型的數(shù)據(jù)模型就是為了迎合大數(shù)據(jù)時代的多樣性、異構(gòu)性等這些數(shù)據(jù)特征而出現(xiàn)的。當(dāng)然,新的數(shù)據(jù)模型是新的一套理論,是截然不同的理論。這就需要我們數(shù)據(jù)管理者積極學(xué)習(xí),應(yīng)對挑戰(zhàn)。同時,要積極升級、改造相關(guān)存儲設(shè)備,以滿足大數(shù)據(jù)時代的要求。
積極推動業(yè)務(wù)的深入融合,梳理業(yè)務(wù)數(shù)據(jù),形成“大數(shù)據(jù)”,然后利用這些“大數(shù)據(jù)”建設(shè)結(jié)構(gòu)和非結(jié)構(gòu)化的數(shù)據(jù)分析平臺,通過平臺能提供更加深入、更加全面的高質(zhì)量信息,這些信息能為學(xué)校領(lǐng)導(dǎo)進行高質(zhì)量的決策提供依據(jù)。
總之,大數(shù)據(jù)時代的這些挑戰(zhàn),有些需要科研人員進行研究,有些非技術(shù)挑戰(zhàn),需要我們積極努力,有效進行數(shù)據(jù)的整合、業(yè)務(wù)的整合,充分利用科研人員的最新研究成果。?筅
參考文獻:
[1]桑慶兵.大數(shù)據(jù)在高校的應(yīng)用與思考[J].南通紡織職業(yè)技術(shù)學(xué)院學(xué)報,2013(2):84-87.
[2]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.
[3]陳甜遠.大數(shù)據(jù)時代的高校信息管理中心對策[J].無線互聯(lián)科技,2013(5).
(編輯:王天鵬)