王艷 蔣義然 盧秀麗
摘 要:隨著現(xiàn)代經(jīng)濟社會實力的不斷增加,我國現(xiàn)代化信息技術也在迅速的發(fā)展著,主要的應用是大數(shù)據(jù)分析與計算體系架構。其中可以分為大數(shù)據(jù)分析和大數(shù)據(jù)計算兩大類。大數(shù)據(jù)分析能夠從眾多的數(shù)據(jù)信息中尋找到有用的信息,是挖掘信息的最主要的方式。
關鍵詞:大數(shù)據(jù)分析;大數(shù)據(jù)計算;架構
1 大數(shù)據(jù)分析
1.1 大數(shù)據(jù)分析基本概念
大數(shù)據(jù)分析是指對海量的數(shù)據(jù)進行分析。大數(shù)據(jù)分析是運用云計算等先進網(wǎng)絡和計算設備搜集、記錄、分析和預測超大規(guī)模群集現(xiàn)象的現(xiàn)代統(tǒng)計方法。大數(shù)據(jù)分析主要是通過高效的算法和模式分析大數(shù)據(jù),并挖掘大數(shù)據(jù)潛藏的巨大價值。常見的大數(shù)據(jù)分析方法主要有BloomFilter、Hashing、索引、并行計算和Trie樹等。大數(shù)據(jù)分析的數(shù)據(jù)源除了傳統(tǒng)的結構化數(shù)據(jù),還包括半結構化和非結構化數(shù)據(jù)。針對不同的數(shù)據(jù)源采用數(shù)據(jù)抽取、統(tǒng)計分析及數(shù)據(jù)挖掘等多個步驟進行分析與處理,以快速挖掘出有用信息,洞悉出數(shù)據(jù)價值。
1.2 大數(shù)據(jù)分析的基礎
Hadoop能有效地處理海量的數(shù)據(jù),并具有存儲的能力。同時,它可以整合多臺計算機的資源,提供數(shù)據(jù)分散運算,在極短的時間內完成運算工作,自動保留數(shù)據(jù)副本,提高數(shù)據(jù)的可靠性和延展性。Hadoop分布式文件系統(tǒng)(Hadoopdistributedfifilesystem,HDFS)和Hadoop分布式計算處理架構(MapReduce)為Hadoop架構的兩個核心部分。Hadoop分
布式文件系統(tǒng)可對數(shù)據(jù)進行切割并制作副本備份,然后分散存儲于不同的計算機或服務器上,實現(xiàn)對數(shù)據(jù)的迅速存取。還可備份于不同的硬件,以防止數(shù)據(jù)損壞。Hadoop分布式計算處理架構即MapReduce,由Map和Reduce構成。對數(shù)據(jù)進行分散計算是Map的主要作用。整合Map計算后的結果并提供分布式的數(shù)據(jù)平行處理分析,是Reduce的主要作用。除了兩個核心部分,根據(jù)Hadoop所延伸的其他項目,現(xiàn)已發(fā)展成為一個生態(tài)系統(tǒng)。該部分主要包括Zookeeper、Avro、Hbase、Mapreduce、Sqoop、Pig、Hive、Mahout和Hadoopdistributedfifilesystem等。
2 大數(shù)據(jù)計算平臺現(xiàn)狀及存在的問題
大數(shù)據(jù)產品的主要的運作方式就是建立大數(shù)據(jù)計算平臺,大數(shù)據(jù)計算平臺主要以云計算作為硬件基礎,并將其處理能力作為總體服務框架,并對大數(shù)據(jù)進行實時計算的過程。大數(shù)據(jù)計算平臺能夠對不同種類的數(shù)據(jù)進行收集、分析、計算、存儲、處理等處理,這就使得各大企業(yè)都需要其應用,能夠對企業(yè)的內部產品進行相應的檢驗,并組為技術基礎,能夠處理相關的數(shù)據(jù)處理問題。但是在實際應用中,大數(shù)據(jù)計算平臺還存著較多的問題,主要有以下幾個方面:
2.1 平臺研發(fā)需要交叉學科知識
在進行設計大數(shù)據(jù)計算平臺時,需要參考的知識方面涉及較多。大數(shù)據(jù)計算平臺在實際應用中,所計算的數(shù)據(jù)較多,需要提高大數(shù)據(jù)的處理能力,并降低自身能源的損耗、還需要增加企業(yè)平臺自身的安全性和隱私性。所以在大數(shù)據(jù)計算平臺研發(fā)時,需要交叉學科知識共同應用,進而對其進行創(chuàng)新和發(fā)展。
2.2 平臺研發(fā)人才缺乏
在大數(shù)據(jù)的使用中,但是由于大數(shù)據(jù)是新出的行業(yè),主要的研發(fā)人才還沒有及時的到位,并且相關的企業(yè)也并不重視大數(shù)據(jù)計算平臺研發(fā),這就導致平臺的研發(fā)嚴重的缺乏人才。在
企業(yè)中,實際應用平臺搭建不完善,不能承擔大數(shù)據(jù)計算平臺的使用,所以無法對有關的項目進行處理;大數(shù)據(jù)技術還處在發(fā)展階段,很多軟件都是開源的,所以在進行應用時缺乏相關的安全性。
2.3 技術環(huán)境不統(tǒng)一
目前大數(shù)據(jù)技術開發(fā)的環(huán)境主要集中在GitHub為主的開源社區(qū)內,其余的開發(fā)環(huán)境都是小眾的,所以這就使得大數(shù)據(jù)計算平臺開發(fā)環(huán)境不統(tǒng)一。雖然可以根據(jù)用戶的實際使用情況進行選擇不同的平臺,但是在開發(fā)應用中,卻無形的提升了研發(fā)成本。
3 大數(shù)據(jù)計算體系架構
3.1 大數(shù)據(jù)計算系統(tǒng)大數(shù)據(jù)計算系統(tǒng)主要采用的設計方案較多,其中所涉及的技術有軟件分層化、技術復雜化等,還依賴于較多的實際應用。但是在實際的系統(tǒng)建設中,主要分為三個基礎系統(tǒng),分別是數(shù)據(jù)存儲系統(tǒng)、數(shù)據(jù)分析系統(tǒng)和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)的計算不僅涉及到算法的應用,還應用了較多的數(shù)據(jù)分析技術。
3.2 大數(shù)據(jù)計算采用的方法和技術在大數(shù)據(jù)計算中所采用的方法主要是計算機科學計算法和數(shù)學統(tǒng)計法,在這其中還應用數(shù)據(jù)模型計算法、數(shù)據(jù)處理法、數(shù)據(jù)安全、算法優(yōu)化法、數(shù)據(jù)讀取和數(shù)據(jù)建模等方法。并且在大數(shù)據(jù)計算中采用了智能學習方法,能夠在對數(shù)據(jù)進行處理的過程中,加強對數(shù)據(jù)的處理能力,進而提升數(shù)據(jù)結果的準確性。
3.3 大數(shù)據(jù)計算總體架構在進行鋪設大數(shù)據(jù)計算總體架構時,主要是將數(shù)據(jù)儲存系統(tǒng)、數(shù)據(jù)分析系統(tǒng)和數(shù)據(jù)計算系統(tǒng)集合在一起,然后對數(shù)據(jù)進行整體的處理。數(shù)據(jù)儲存系統(tǒng)主要對數(shù)據(jù)進行收集、分析、和建模,然后對處理的結果進行存儲。而且在數(shù)據(jù)儲存系統(tǒng)中還能對數(shù)據(jù)進行清洗建模、數(shù)據(jù)操作的操作。數(shù)據(jù)分析系統(tǒng)主要包括三維建模、數(shù)據(jù)模型和算法優(yōu)化方式,為大數(shù)據(jù)計算提供了數(shù)據(jù)分析能力和實際使用能力。數(shù)據(jù)計算系統(tǒng)主要能夠對數(shù)據(jù)進行計算,處理和分析,保證處理數(shù)據(jù)準確性。
3.4 大數(shù)據(jù)的采集在構建大數(shù)據(jù)計算體系時,需要對大數(shù)據(jù)進行收集,對數(shù)據(jù)的收集不僅僅是來源于實際的數(shù)據(jù),還包括結構化數(shù)據(jù)和非結構化的數(shù)據(jù)。由于數(shù)據(jù)的具有非結構化的特點,所以在進行處理時,大數(shù)據(jù)的存儲系統(tǒng)比傳統(tǒng)的數(shù)據(jù)存儲要更加的復雜。并且在大數(shù)據(jù)計算體系中,能夠構建大數(shù)據(jù)采集于建模、分布式數(shù)據(jù)庫等方式來提高數(shù)據(jù)處理能力。在進行數(shù)據(jù)處理時,還需要在相關的數(shù)據(jù)庫中添加多余的一項存儲庫,能將處理后的數(shù)據(jù)進行儲存,方便后期對其調用。在構建大數(shù)據(jù)計算體系中,需要按照標準進行搭建系統(tǒng),首先先建立數(shù)據(jù)層,對數(shù)據(jù)進行收集和建模,然后是建立分布式文件處理系統(tǒng)用來處理數(shù)據(jù)的采取,并對數(shù)據(jù)進行轉化,使其被系統(tǒng)所是識別。在最上層需要建立分布式數(shù)據(jù)庫,可以對數(shù)據(jù)記性存儲管理,能夠確保數(shù)據(jù)處理的穩(wěn)定性。
4 結語
大數(shù)據(jù)分析是找出隱藏于數(shù)據(jù)信息中有用信息的主要方式,是挖掘有用價值信息的主要途徑,通過分析挖掘出有用信息,為科學決策提供依據(jù)。當前,大數(shù)據(jù)計算遇到了前所未有的挑戰(zhàn),傳統(tǒng)的計算理論已經(jīng)不再適用于海量數(shù)據(jù)的大入系統(tǒng),政府要投入一定的資金予以支持,以此更好地保障圖書館收支平衡。
參考文獻
[1]陸杉,陳宇斌.供應鏈中大數(shù)據(jù)分析應用研究綜述[J].商業(yè)經(jīng)濟與管理,2018(09):27-35.
[2]拉瑪莫哈那勞·哥達吉利.人工智能=大數(shù)據(jù)分析+機器學習+云計算[J].重慶與世界,2018(18):33-34.
[3]龍虎.大數(shù)據(jù)分析與計算體系架構研究[J].信息與電腦(理論版),2018(18):130-131+138.