朱瀅穎
(廣西南寧市第三中(五象校區(qū)),南寧 530221)
現(xiàn)在的社會(huì)是一個(gè)高速發(fā)展、正在走向全面數(shù)據(jù)化的社會(huì),科技發(fā)達(dá),人們的交流方式多樣化,生活也越來(lái)越方便,隨著社會(huì)的發(fā)展,出現(xiàn)了數(shù)據(jù)龐大且分散的問(wèn)題,為了解決這樣的問(wèn)題,大數(shù)據(jù)出現(xiàn)了。大數(shù)據(jù)就是這個(gè)高科技時(shí)代的產(chǎn)物。大數(shù)據(jù)在社會(huì)分析、科學(xué)發(fā)現(xiàn)、商業(yè)決策中的作用越來(lái)越大。大數(shù)據(jù)已經(jīng)成為各類(lèi)大會(huì)的重要議題,管理人士都希望利用大數(shù)據(jù)技術(shù)進(jìn)行行業(yè)預(yù)測(cè)。
人們對(duì)大數(shù)據(jù)有著各種各樣的理解,理解當(dāng)中存在很多誤解,比如:大數(shù)據(jù)更多的運(yùn)用于存儲(chǔ)方面,大數(shù)據(jù)即為數(shù)據(jù)量十分龐大;大公司或者大企業(yè)才有能力使用大數(shù)據(jù)技術(shù);擁有了大數(shù)據(jù)便可看到想要的趨勢(shì)或結(jié)果;大數(shù)據(jù)的數(shù)據(jù)量大,可以將個(gè)人隱私深藏保護(hù)起來(lái)。[3]其實(shí),大數(shù)據(jù)包括收集、存儲(chǔ)和分析,它需要通過(guò)技術(shù)的支持就可進(jìn)行,即便是小公司,只要有了相關(guān)的技術(shù)支持,如爬蟲(chóng)技術(shù)、云計(jì)算、No-SQL技術(shù),便可使用大數(shù)據(jù)技術(shù)。大數(shù)據(jù)通過(guò)對(duì)大量數(shù)據(jù)的解析才能分析出數(shù)據(jù)中隱藏的規(guī)律,在細(xì)密的分析、挖掘下,個(gè)人隱私更容易遭到暴露。
大數(shù)據(jù)(big data)也稱(chēng)海量資料,指的是所需要處理的資料量十分龐大,一時(shí)無(wú)法通過(guò)現(xiàn)有的主流、常規(guī)的軟件工具在一定的時(shí)間內(nèi)進(jìn)行獲取、整理、處理,再整理得到結(jié)論,引導(dǎo)使用者可以做出較為正確決策的資料。[4]正如大數(shù)據(jù)所具四個(gè)特征(4個(gè)V)。
(1)Volume(數(shù)據(jù)量大),存儲(chǔ)單位從過(guò)去的GB到TB,直至PB、EB。1GB(Gigabyte吉字節(jié))=2^10MB=1024MB=2^30B;1TB(Trillionbyte太字節(jié))=2^10GB=1024GB=2^40B;1PB(Petabyte 拍字節(jié))=2^10TB=1024TB=2^50B;1EB(Exabyte艾字節(jié))=2^10PB=1024PB=2^60B;1ZB(Zettabyte澤字節(jié))=2^10EB=1024EB=2^70B。
我們平常中就產(chǎn)生了不少的數(shù)據(jù),如淘寶網(wǎng)近4億的會(huì)員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB;臉書(shū)約10億的用戶(hù)每天產(chǎn)生的日志數(shù)據(jù)超過(guò)300TB。
(2)Variety(數(shù)據(jù)類(lèi)型多),大數(shù)據(jù)形式的多樣性由廣泛的數(shù)據(jù)來(lái)源決定,但這種類(lèi)型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)。
(3)Value(商業(yè)價(jià)值巨大),這是大數(shù)據(jù)的核心特征,大數(shù)據(jù)最大的價(jià)值在于通過(guò)從大量不相關(guān)的各種類(lèi)型的數(shù)據(jù)中,挖掘出對(duì)未來(lái)趨勢(shì)與模式預(yù)測(cè)分析出有價(jià)值的數(shù)據(jù)。但若只是將一個(gè)文件不斷地復(fù)制,這樣的文件量再多也是沒(méi)有價(jià)值的。
(4)Velocity(處理速度快),這是大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)挖掘的最顯著區(qū)別,與傳統(tǒng)的廣播、報(bào)紙等數(shù)據(jù)載體相比,大數(shù)據(jù)借著互聯(lián)網(wǎng)、云計(jì)算等方式實(shí)現(xiàn),因此數(shù)據(jù)的交換、傳播速度遠(yuǎn)比傳統(tǒng)方式快的多。數(shù)據(jù)的增長(zhǎng)速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。
大數(shù)據(jù)依賴(lài)于獲取數(shù)據(jù)技術(shù)和分析數(shù)據(jù)技術(shù)。大數(shù)據(jù)通過(guò)獲取數(shù)據(jù),才可得到大量信息,進(jìn)而分析數(shù)據(jù)。獲取數(shù)據(jù)的主要方式(渠道):
(1)面向有著足夠人數(shù)使用的服務(wù)器或系統(tǒng)的日志進(jìn)行信息采集。
(2)利用網(wǎng)絡(luò)獲取數(shù)據(jù)技術(shù),如爬蟲(chóng)技術(shù),可對(duì)整個(gè)網(wǎng)頁(yè)頁(yè)面的信息進(jìn)行收集,例百度貼吧當(dāng)中,樓主、貼主發(fā)送貼子的時(shí)間、內(nèi)容截取下來(lái)儲(chǔ)存分析;數(shù)據(jù)庫(kù)采集也是一種方式,比如大公司的數(shù)據(jù)庫(kù)、大眾常用的中國(guó)知網(wǎng)、萬(wàn)方、維普的數(shù)據(jù)庫(kù)。
分析數(shù)據(jù)技術(shù)是大數(shù)據(jù)的核心技術(shù),并且分析技術(shù)是多種多樣的,如:數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘技術(shù)、社交網(wǎng)絡(luò)分析技術(shù)、信息檢索技術(shù)、自然語(yǔ)言處理技術(shù)、云計(jì)算、No-SQL技術(shù)。
現(xiàn)在使用較為普遍的是由Apache基金會(huì)研究開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop,而Hadoop的框架最核心的設(shè)計(jì)就是為海量數(shù)據(jù)提供儲(chǔ)存的HDFS和為海量數(shù)據(jù)提供計(jì)算的谷歌大法寶MapReduce。
2.3.1 存儲(chǔ)原理
HDFS(Hadoop Distributed File System),其設(shè)計(jì)之處就是為了提高超大文件的存取和讀取速度,它的讀取方式是把超大文件分割成多個(gè)block(數(shù)據(jù)庫(kù)中的最小存儲(chǔ)和處理單位)在多個(gè)dataNode(存儲(chǔ)節(jié)點(diǎn),一般有多臺(tái)機(jī)器)備份并存儲(chǔ)的,小文件并不會(huì)因其容量小而得以提高訪(fǎng)問(wèn)和讀取速度,反之可能會(huì)降低。[1]并且HDFS還具有高吞吐量訪(fǎng)問(wèn)、高容錯(cuò)性、容量擴(kuò)充的好處。HDFS由Namenode和Datanode組成。Namenode是管理文件的命名空間,并且能夠記錄節(jié)點(diǎn)的信息,但它不能進(jìn)行永久保存。Datanode是文件系統(tǒng)的工作節(jié)點(diǎn),負(fù)責(zé)存儲(chǔ)和檢索數(shù)據(jù)塊。在HDFS中,Namenode相當(dāng)于一個(gè)管理者Datanode依靠Namenode進(jìn)行節(jié)點(diǎn)內(nèi)文件的重建。因此,Namenode相當(dāng)重要,一旦失去Namenode,HDFS就無(wú)法正常運(yùn)行。為了盡量避免因運(yùn)行Namenode的機(jī)器掛掉而導(dǎo)致系統(tǒng)中文件丟失,Hadoop提供了兩種容錯(cuò)機(jī)制,第一種是將本地硬盤(pán)中的重要文件備份,也就是Hadoop通過(guò)配置讓Namenode將它持久化的文件寫(xiě)錄到不同的文件系統(tǒng)中;第二種是運(yùn)行一個(gè)輔助的Namenode,即第二Namenode,它能保存合并后的命名空間即namespace image(namenode管理文件資源)的一個(gè)備份。
2.3.2 處理原理
MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(>1TB)的并行運(yùn)算。Map(映射)和Reduce(歸納)是其主要思想。[2](腳標(biāo)百度引用)Mapreduce是大數(shù)據(jù)當(dāng)中不可缺失的組成成分,為大數(shù)據(jù)提供分析和計(jì)算處理技術(shù)。Mapreduce在運(yùn)行中主要分為五個(gè)階段:input階段,Hadoop將Mapreduce的輸入數(shù)據(jù)劃分成等長(zhǎng)的小數(shù)據(jù)塊,即輸入分片,Hadoop為每個(gè)分片構(gòu)建一個(gè)map任務(wù);Map階段,運(yùn)行過(guò)程中對(duì)某種輸入格式的一條記錄解析成一條或多條記錄;shuffle階段,對(duì)中間數(shù)據(jù)的控制,作為reduce的輸入;Reduce階段,對(duì)相同key的數(shù)據(jù)進(jìn)行合并;output階段,按照格式輸出到指定目錄。
以汽車(chē)行業(yè)為例子,汽車(chē)本身就是智能化的,各種智能傳感器,信息收集器都能提供大量的數(shù)據(jù)來(lái)源,比如汽車(chē)的使用周期,汽車(chē)行駛的公里數(shù),汽車(chē)的型號(hào);其次汽車(chē)維修中心的數(shù)據(jù)收集能力強(qiáng),包含汽車(chē)零部件的使用年限、汽車(chē)維修保養(yǎng)的頻率等信息都會(huì)成為龐大的數(shù)據(jù)被采集、挖掘而后產(chǎn)生新的商業(yè)價(jià)值。
車(chē)企和車(chē)商可以利用汽車(chē)的大數(shù)據(jù)這一有效資源,打造一個(gè)以汽車(chē)周邊為主的生態(tài)商業(yè)圈,包括汽車(chē)的保險(xiǎn),汽車(chē)的內(nèi)部裝飾,汽車(chē)檢修服務(wù),洗車(chē)服務(wù)等方面。這一商業(yè)生態(tài)網(wǎng)絡(luò)利用大數(shù)據(jù)技術(shù),在獲得諸多數(shù)據(jù)資料的同時(shí),進(jìn)行解析,讓商家得到能夠了解客戶(hù)需求的信息,便于商家對(duì)銷(xiāo)售產(chǎn)品作出相應(yīng)調(diào)整,以及推出新的商業(yè)方案,獲得更大收益。
圖1 大數(shù)據(jù)的運(yùn)行
第一步,將由用戶(hù)所使用的pc端、andorid端、ios端、Web,以及服務(wù)器日志、數(shù)據(jù)庫(kù)得到的數(shù)據(jù)資源上傳至Nginx服務(wù)器。第二步,基礎(chǔ)框架Hadoop提供存儲(chǔ)技術(shù)(HDFS)和數(shù)據(jù)分析處理技術(shù)(Mapreduce),把數(shù)據(jù)分塊存儲(chǔ)后,用Mapreduce進(jìn)行第一輪分流處理,并放入第一個(gè)數(shù)據(jù)庫(kù)中,再用Mapreduce做二次處理,處理后的數(shù)據(jù)放入第二個(gè)數(shù)據(jù)庫(kù)。第三步,經(jīng)數(shù)據(jù)的轉(zhuǎn)換,使通過(guò)大數(shù)據(jù)收集、處理后的信息在發(fā)掘出其更大的價(jià)值之后,得以更加直觀(guān)地以文字的形式展現(xiàn)出來(lái)。
大數(shù)據(jù)是龐大的信息資料,依靠Hadoop中的HDFS的文件分割儲(chǔ)存和Mapreduce的分流式處理對(duì)數(shù)據(jù)采集、解析,得到信息中蘊(yùn)含的更大價(jià)值,這為人們作出決斷提供了可參考的信息,因此大數(shù)據(jù)受到高層管理人士和科學(xué)研究分析領(lǐng)域人士的重視。大數(shù)據(jù)加快社會(huì)的進(jìn)步與發(fā)展,各行各業(yè)與大數(shù)據(jù)相結(jié)合后發(fā)現(xiàn)了新的機(jī)遇,不僅是便利了人們的生活,更是推動(dòng)了科技的進(jìn)步。通過(guò)大數(shù)據(jù),人們獲得了大量數(shù)據(jù)背后所隱藏的規(guī)律,這樣更能讓人們做出更貼合事物客觀(guān)發(fā)展規(guī)律的決定。
[1] 翟永東.Hadoop分布式文件系統(tǒng)(HDFS)可靠性的研究與優(yōu)化[D].華中科技大學(xué),2011.
[2] 李建江,崔健,王聃等.MapReduce并行編程模型研究綜述[J].電子學(xué)報(bào),2011,39(11):2635-2642.
[3] 戴明鋒,劉展.大數(shù)據(jù)理解誤區(qū)解讀[J].中國(guó)衛(wèi)生信息管理雜志,2015,12(1):61-63.
[4] https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356 941?fr=aladdin.