羅增榮
[摘 要]現(xiàn)階段大數(shù)據(jù)的發(fā)展呈現(xiàn)出不斷上升的趨勢,國內(nèi)外對于大數(shù)據(jù)的發(fā)展也日益重視。對于大數(shù)據(jù)領(lǐng)域而言,其關(guān)鍵在于對大數(shù)據(jù)實(shí)施科學(xué)有效的分析。研究發(fā)現(xiàn),當(dāng)前大數(shù)據(jù)在發(fā)展的過程中還存在一些問題亟待解決,對其發(fā)展也造成了不利的影響?;诖耍饕骄苛诵聲r(shí)期大數(shù)據(jù)的發(fā)展現(xiàn)狀,找出其在發(fā)展過程中存在的問題,進(jìn)而有針對性地提出了具體的解決對策。
[關(guān)鍵詞]大數(shù)據(jù)現(xiàn)狀;解決對策;探究
一、大數(shù)據(jù)面臨的問題
(一)存儲問題
大數(shù)據(jù)在發(fā)展的過程中最需要解決的就是數(shù)據(jù)的存儲問題。從數(shù)據(jù)的量級角度出發(fā),大數(shù)據(jù)時(shí)代下數(shù)據(jù)量已經(jīng)由原來的TB級實(shí)現(xiàn)了PB級和EB級的提升,這對于數(shù)據(jù)的存儲與分析工作而言有著很好的幫助作用。在對數(shù)據(jù)進(jìn)行分析時(shí)需要頻繁存取與調(diào)度數(shù)據(jù),從而使得數(shù)據(jù)的存儲呈現(xiàn)動態(tài)化特征。從數(shù)據(jù)存儲機(jī)構(gòu)的角度出發(fā),在數(shù)據(jù)發(fā)展的背景下,無法再借助簡單傳統(tǒng)的機(jī)構(gòu)化數(shù)據(jù)庫實(shí)現(xiàn)對大數(shù)量數(shù)據(jù)的存儲,因此現(xiàn)階段人們主要研究的內(nèi)容是與大數(shù)據(jù)特征相吻合的存儲方式。另外,需要認(rèn)識到大數(shù)據(jù)如果處在動態(tài)更新的狀況下,應(yīng)該設(shè)法實(shí)現(xiàn)數(shù)據(jù)儲存以及交換的一致性。在分析大數(shù)據(jù)的過程中,數(shù)據(jù)庫領(lǐng)域需要實(shí)現(xiàn)數(shù)據(jù)倉庫的可擴(kuò)展性、向下兼容性和高度容錯(cuò)性等。由此可見,大數(shù)據(jù)分析的核心問題主要是數(shù)據(jù)的存儲問題。
(二)可用性較弱的問題
實(shí)際上,數(shù)據(jù)所呈現(xiàn)的方式是雜亂無序的,這給大數(shù)據(jù)的分析增加了很大的難度,因此在開展大數(shù)據(jù)分析時(shí)需要將數(shù)據(jù)質(zhì)量因素考慮在內(nèi)。數(shù)據(jù)質(zhì)量本身有著十分廣泛的概念,在本文中主要探究的是數(shù)據(jù)是否具備可用性特征。數(shù)據(jù)的可用性主要由一致性、時(shí)效性、準(zhǔn)確性、實(shí)體性和完整性五部分共同組成。但是在處理之前,存儲和分析大數(shù)據(jù)的首要步驟主要是對數(shù)據(jù)可用性的度量。在對數(shù)據(jù)進(jìn)行采集時(shí)可以使用高效處理過濾數(shù)據(jù)的方法,為大數(shù)據(jù)源質(zhì)量的提升打下堅(jiān)實(shí)的基礎(chǔ)。從大數(shù)據(jù)的完整性角度出發(fā),要想實(shí)現(xiàn)對數(shù)據(jù)正確的描述與評價(jià),需要對數(shù)據(jù)描述的框架加以完善,進(jìn)而為數(shù)據(jù)采集過程中的描述行為提供指導(dǎo)性幫助。從數(shù)據(jù)的時(shí)效性與一致性出發(fā),需要重視數(shù)據(jù)的客觀性與實(shí)踐價(jià)值,必須做到客觀事實(shí)與數(shù)據(jù)描述之間的一致。但是在對大數(shù)據(jù)進(jìn)行分析與研究時(shí),經(jīng)常遇到的重難點(diǎn)問題還是關(guān)于數(shù)據(jù)源的自動檢測與修復(fù)工作。
二、解決大數(shù)據(jù)面臨問題的措施
(一)合理部署云存儲技術(shù)
云存儲主要指的是以互聯(lián)網(wǎng)為基礎(chǔ)向用戶提供的存儲服務(wù),這種存儲的形式其容量、數(shù)據(jù)的可用性以及各種復(fù)雜的基層技術(shù)環(huán)節(jié)不需要用戶過多考慮。只需要付費(fèi)就可以從云存儲供應(yīng)商那里獲取足夠大的存儲空間以及相應(yīng)的存儲服務(wù)。在云計(jì)算環(huán)境下分布式的存儲最基礎(chǔ)的組成部分就是數(shù)據(jù)中心,可以從多種角度出發(fā)對數(shù)據(jù)存儲中心進(jìn)行劃分。從系統(tǒng)建設(shè)的角度出發(fā),云存儲中心架構(gòu)的形態(tài)主要有三種:優(yōu)化的傳統(tǒng)數(shù)據(jù)中心、以云計(jì)算為主的數(shù)據(jù)中心以及二者共存。在提供存儲服務(wù)的過程中,存儲用戶和云計(jì)算用戶是主要的兩種云存儲用戶,這是根據(jù)用戶服務(wù)內(nèi)容的不同劃分的。云存儲服務(wù)的關(guān)鍵主要是以云計(jì)算理論構(gòu)建的數(shù)據(jù)中心,如下圖所示,調(diào)度分割并行編程模型下,存儲結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的目標(biāo)是通過并行數(shù)據(jù)庫和分布式系統(tǒng)來完成的,而云服務(wù)接口價(jià)格計(jì)算資源服務(wù)提供給云用戶的基礎(chǔ)主要是云服務(wù)等級協(xié)議。
(二)提升數(shù)據(jù)的可用性
大數(shù)據(jù)所分析的主要對象就是數(shù)量巨大且復(fù)雜的數(shù)據(jù)。由于數(shù)據(jù)產(chǎn)生的方式不同,因此也會使用到不同形式的信息系統(tǒng)。在對大數(shù)據(jù)項(xiàng)目進(jìn)行分析時(shí),需要搜集相關(guān)的數(shù)據(jù),進(jìn)而為分析奠定基礎(chǔ)。分析的過程比較簡單,重點(diǎn)在于對于數(shù)據(jù)的預(yù)分析。當(dāng)前,大數(shù)據(jù)的主要來源還是以Web數(shù)據(jù)、傳感網(wǎng)數(shù)據(jù)、業(yè)務(wù)系統(tǒng)數(shù)據(jù)和科學(xué)實(shí)驗(yàn)數(shù)據(jù)為主,不同的數(shù)據(jù)源會導(dǎo)致有效預(yù)處理不同的信息系統(tǒng)和信息結(jié)構(gòu)數(shù)據(jù)發(fā)生變化,這是根據(jù)不同類型的數(shù)據(jù)或相同類型的數(shù)據(jù)進(jìn)行的。當(dāng)前獲取和整合高質(zhì)量大數(shù)據(jù)的理論和技術(shù)等五個(gè)挑戰(zhàn)性的研究問題已被提出來,而其將數(shù)據(jù)處理可用性領(lǐng)域的問題從各個(gè)方面進(jìn)行了分析,如基礎(chǔ)理論和工程技術(shù)等,同時(shí)探索了大數(shù)據(jù)可用性的理論和技術(shù)。另外,只有為數(shù)據(jù)的質(zhì)量提供保障,才能更好地進(jìn)行大數(shù)據(jù)分析,所以對大數(shù)據(jù)時(shí)代數(shù)據(jù)質(zhì)量的保障從流程和管理等方面進(jìn)行了研究。
隨著云計(jì)算領(lǐng)域軟件開發(fā)的速度不斷加快,社會上對于大數(shù)據(jù)分析越來越重視,并且逐漸產(chǎn)生了以分析數(shù)據(jù)為主的服務(wù)。但是大數(shù)據(jù)在分析與發(fā)展的過程中還存在很多問題,比如說可用性較低、存儲問題等對于大數(shù)據(jù)的分析與使用造成了極為不利的影響等等,這就需要我們在教學(xué)中采取有效的措施實(shí)現(xiàn)大數(shù)據(jù)的健康快速發(fā)展。
參考文獻(xiàn):
官思發(fā),孟璽,李宗潔,等.大數(shù)據(jù)分析研究現(xiàn)狀、問題與對策[J].情報(bào)雜志,2015,34(5):98-104.
[作者單位]
韶關(guān)市技師學(xué)院
(編輯:薄躍華)