儲心蕓
【摘 要】近幾年,在數據量井噴、各種應用口漸深入的背景下,“大數據”一詞在媒體上的曝光率空前提高。目前,越來越多的領域開始應用大數據創(chuàng)造價值。為了合理有效地挖掘大數據所蘊含的巨大戰(zhàn)略資源,能否用大數據的思維方式解決問題,需要對大數據進行數據質量管理。然而大數據的收集、分析和應用上都還有很多的路要走,如何挖掘出數據價值,已經成為了目前各國必須面對的重大課題。本文在大數據背景下,分析了大數據的特點特征,給出了大數據研究的意義及思想觀念上的轉變,并就大數據質量管理的重要性及面臨的挑戰(zhàn)給出了分析看,最終得出了有關大數據數據質量管理的觀點。
【關鍵詞】大數據;數據質量;管理
一、引言
在人類歷史的長河中,人們探索和發(fā)現未知領域的規(guī)律時,曾經主要依賴經驗、理論和假設等推理的方法,受個人偏見影響較大。在大數據時代,因為技術進步,人們有能力獲得研究對象的全部數據,通過對全部數據的不同維度分析來獲取過去不可能獲取的知識。
目前世界上并沒有機構或組織對大數據下過公認的、權威的定義,不同的個人和機構對大數據有不同的定義。為了合理有效地挖掘大數據所蘊含的巨大戰(zhàn)略資源,需要對大數據進行數據質量管理。然而大數據的收集、分析和應用上都還有很多的路要走,如何挖掘出數據價值,已經成為了目前各國必須面對的重大課題。
二、大數據介紹
(一)大數據特征
根據目前研究所得內容來看,大數據給我們的認識是:一是具有一定級別數量可以進行研究分析;二是難以通過傳統(tǒng)數據分析方式進行分析;三是大數據分析所得的結論與以往小數據存在巨大差距。從這些對大數據的含義分析,可以看出大數據具有數據規(guī)模巨大、種類繁多、數據挖掘難度大的特征。
1.數據規(guī)模巨大
21世紀以來,人類社會步入信息社會時代,據有關資料顯示2012年全世界每天產生27億GB的數據量,幾天產生的數據量是2000年之前全世界所有存儲數據總和。網絡信息社會的到來,使得信息經濟社會的網絡企業(yè)需要處理巨大的數據量。隨著互聯網的不斷發(fā)展,大數據獲取了更大的發(fā)展前景。
2.數據種類繁多
當今,我們生活在一個充滿數據的世界里,各種各樣的數據類型不斷涌現而這些數據絕大部分都不具有我們過往所認識的具有結構性的數據,難以用傳統(tǒng)的技術手段來進行分析。而這種數據處理的困境將會長期存在著,根據IDC預測指出,在可見的未來里,非結構的數據量將占據整個數據量中的90%以上。
3.價值難以挖掘
以上兩個大數據的特征分析可知,社會中會形成海量的數據,存在種類繁多的數據,但對這些數據的使用我們還缺乏有效的挖掘手段,導致許多大數據所蘊含的價值難以被獲取使用。在大數據的挖掘中,需要不斷的進行創(chuàng)新,使我們在使用數據的過程中能夠進行有效分析;還要培養(yǎng)大數據的思維方式,才能真正從大數據中挖掘所需的數據內容,創(chuàng)造出價值。
(二)大數據研究
1.大數據研究的意義
在信息社會時代中,通過不斷創(chuàng)新對大數據進行研究和挖掘,對于社會經濟的發(fā)展將會帶來巨大的現實意義,小到個人、企業(yè),大到國家、世界,能夠把創(chuàng)新出大數據的挖掘技術手段,將會促進人類社會文明的進一步發(fā)展。
2.大數據研究對思想觀念的轉變
在數據的研究發(fā)展過程中,由于過去數據的獲取和分析方式技術比較落后。在大數據時代中,獲取數據的技術手段已經得到有效解決。因此,過去的數據處理方式已經不能適應大數據處理需求,需要進行總體觀念、容錯觀念、相關觀念上的轉變。
三、大數據環(huán)境下數據質量的重要性及挑戰(zhàn)
由以上論述我們知道,大數據所居偶遇的復雜、多樣、多變等特點,要保障所獲取的數據質量變得非常困難。為了對大數據環(huán)境下數據質量的重要性有一個全面的認識,并能夠掌握其中所存在的挑戰(zhàn),下文將從流程、技術、管理三個方面進行論述說明。
(一)流程視角
數據只有經過加工后才能被使用,數據加工的過程也就是數據生成的流程,一般被分為收集、存儲和使用三個過程,而在不同階段中的數據加工水平影響著數據質量。
第一,在大數據時代中,數據來源多樣而復雜給數據收集帶來了極大挑戰(zhàn)。眾多的數據來源需要有相應的數據結構進行相匹配,才能真正將這些不同的數據來源整合在一起。第二,在大數據時代里,由于數據種類多而復雜,需要提供相應的數據結構來進行數據存儲。對于企業(yè)來說,要建立起一套適用于自身的數據庫處理技術和數據存儲技術來存儲公司的數據,使之能夠按照需要進行提取適用。最后,對數據的收集、存儲的最終目的是為了能夠從中分析出有用的信息內容。在大數據時代中,所收集的數據內容并不是靜止不變的,因此在對收集的信息進行分析時,如果不能保證提取、分析、更新和使用的準確性將會最終影響數據分析的質量,使得獲取的結論得到偏差。
(二)技術視角
大數據時代中的數據質量要得到保障,需要有相應的技術手段來支撐,由于技術發(fā)展水平還不能完全滿足現有大數據發(fā)展需求,使大數據質量面臨挑戰(zhàn),更體現了技術水平對大數據質量的重要性。
在大數據時代中,需要處理的數據達到了一個數量級別,數據種類不僅具有線性關系的數據。要對這些數據進行檢查掃描,按照傳統(tǒng)的數據庫存儲技術是難以做到的。所以大數據對傳統(tǒng)數據庫存儲技術提出了新的挑戰(zhàn),需要開發(fā)設計出適用于大數據存儲需求的技術,才能夠保證大數據質量問題的檢測和識別要求。
(三)管理視角
在大數據時代中,數據的管理人員也會對數據的處理質量產生著重要的影響。
首先,在大數據時代中,對于大數據的管理應該上升到一個重要的地位。其次,企業(yè)要獲取有利的發(fā)展環(huán)境,需要應用各種數據發(fā)展所需的信息內容,而這些數據的獲取過程中需要專業(yè)的數據管理人員。因此,企業(yè)應不斷增強數據管理意識,強化大數據質量管理工作,為企業(yè)的發(fā)展帶來更有力的數據支撐依據。
所以,在大數據時代,企業(yè)在經營管理過程中,企業(yè)高層管理者應該加強數據意識,鼓勵企業(yè)進行大數據管理并落實到經營管理中。不僅如此,在數據管理的過程中,需要各種各樣的數據管理人才,實現企業(yè)的數據產生流程得到有效的檢測和控制。
四、結論
大數據時代中的各種數據有著以往傳統(tǒng)數據時代難以形容的特征特點,使用以往的手段已經難以適應數據時代的需要。在數據時代中,應該不斷的進行數據技術上的各種革新發(fā)展,還要提高數據意識,加強數據管理,不斷發(fā)展和儲備各種具有數據分析處理能力和數據管理能力的復合型人才,為今后的數據開放發(fā)展的進一步提升帶來有利的人員保證。
【參考文獻】
[1]覃雄派,王會舉,杜小勇,等.大數據分析——RDBMS 與MapReduce 的競爭與共生[J].軟件學報,2012,23(1):32-45.
[2]宋敏,覃正.國外數據質量管理研究綜述[[J].情報雜志,2007,26(2):7-9.
[3]張?zhí)m廷.大數據的社會價值與戰(zhàn)略選擇[D].導師:馮鵬志.中共中央黨校,2014.
[4]孫妮.B2C購物網站商品評價的效應研究[D]導師:陳進.對外經濟貿易大學,2014.
[5]潘毅.精準營銷在電子商務領域中的應用及策略研究[D].導師:曾劍秋.北京郵電大學,2013.
[6]馬光磊.精準營銷在B2C電子商務中的應用研究[D].導師:王頌.北京郵電大學,2013.
[7]李小龍.基于MapReduce的電子商務個性化推薦研究[[D].導師:張潤彤.北京交通大學,2014.
[8]林榮耀.大數據及在當代互聯網應用中的研究[[D].導師:郭鋒.廈門大學,2014.endprint