黃玲
【摘? 要】在二十一世紀信息化時代飛速發(fā)展的當今,大數(shù)據(jù)吸引了越來越多的關注,成為信息社會的重要財富,同時也給數(shù)據(jù)處理與管理帶來了巨大挑戰(zhàn)。大數(shù)據(jù)本身是沒有任何意義的,它的意義在于我們能夠通過對數(shù)大數(shù)據(jù)的分析與處理,等到具有規(guī)律性的結論知道我們的行為和決策。在國家政策和歷史發(fā)展機遇之下,大數(shù)據(jù)技術的發(fā)展必將一日千里。
【關鍵詞】大數(shù)據(jù);數(shù)據(jù)挖掘;價值密度
在二十一世紀信息化時代飛速發(fā)展的當今,信息技術已經(jīng)深入到了千家萬戶,在不知不覺中潛移默化的改善這我們的生活。最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫。該公司稱:數(shù)據(jù)已經(jīng)滲透到了當今的每一個行業(yè)和業(yè)務領域,成為重要的生產(chǎn)因素。
大數(shù)據(jù)就是我們在使用計算機軟件的時候,在固定時間范圍內所產(chǎn)生的數(shù)據(jù)集合,大數(shù)據(jù)本身是沒有任何意義的,它的意義在于我們能夠通過對數(shù)大數(shù)據(jù)的分析與處理,得到具有規(guī)律性的結論指導我們的行為和決策。在二十一世紀的今天,由于支付寶、微博、微信等APP 的廣泛應用,數(shù)據(jù)正在以前所未見的速度膨脹,大數(shù)據(jù)的時代已經(jīng)到來了。
一、大數(shù)據(jù)的來源。大數(shù)據(jù)分析的數(shù)據(jù)來源有很多種,包括公司或者機構的內部來源和外部來源。分為以下幾類
1)交易數(shù)據(jù)。包括POS機數(shù)據(jù)、信用卡刷卡數(shù)據(jù)、電子商務數(shù)據(jù)、互聯(lián)網(wǎng)點擊數(shù)據(jù)、企業(yè)ERP系統(tǒng)數(shù)據(jù)、銷售系統(tǒng)數(shù)據(jù)、公司的生產(chǎn)數(shù)據(jù)、庫存數(shù)據(jù)、訂單數(shù)據(jù)、供應鏈數(shù)據(jù)等。
2)移動通信數(shù)據(jù)。移動通信設備記錄的數(shù)據(jù)量和數(shù)據(jù)的立體完整度,常常優(yōu)于各家互聯(lián)網(wǎng)公司掌握的數(shù)據(jù)。移動設備上的軟件能夠追蹤和溝通無數(shù)事件,從運用軟件儲存的交易數(shù)據(jù)到個人信息資料或狀態(tài)報告事件等。
3)人為數(shù)據(jù)。人為數(shù)據(jù)包括電子郵件、文檔、圖片、音頻、視頻,以及通過微信、博客、推特、維基、臉書、Linkedin等社交媒體產(chǎn)生的數(shù)據(jù)流。這些數(shù)據(jù)大多數(shù)為非結構性數(shù)據(jù),需要用文本分析功能進行分析。
4)機器和傳感器數(shù)據(jù)。來自感應器、量表和其他設施的數(shù)據(jù)、GPS系統(tǒng)數(shù)據(jù)等。
5)互聯(lián)網(wǎng)上的“開放數(shù)據(jù)”來源,如政府機構,非營利組織和企業(yè)免費提供的數(shù)據(jù)。
二、大數(shù)據(jù)的4大特點與3大特征。
大數(shù)據(jù)4大特點
1)海量性
目前大數(shù)據(jù)的規(guī)模尚是一個不斷變化的指標,單一數(shù)據(jù)集的規(guī)模范圍從幾十TB到數(shù)PB不等。簡而言之,存儲1 PB數(shù)據(jù)將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來源都能產(chǎn)生數(shù)據(jù)。
2)多樣性
數(shù)據(jù)多樣性的增加主要是由于新型多結構數(shù)據(jù),以及包括網(wǎng)絡日志、社交媒體、互聯(lián)網(wǎng)搜索、手機通話記錄及傳感器網(wǎng)絡等數(shù)據(jù)類型造成。
3)高速性
高速描述的是數(shù)據(jù)被創(chuàng)建和移動的速度。在高速網(wǎng)絡時代,通過基于實現(xiàn)軟件性能優(yōu)化的高速電腦處理器和服務器,創(chuàng)建實時數(shù)據(jù)流已成為流行趨勢。企業(yè)不僅需要了解如何快速創(chuàng)建數(shù)據(jù),還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。
4)易變性
大數(shù)據(jù)具有多層結構,這意味著大數(shù)據(jù)會呈現(xiàn)出多變的形式和類型。相較傳統(tǒng)的業(yè)務數(shù)據(jù),大數(shù)據(jù)存在不規(guī)則和模糊不清的特性,造成很難甚至無法使用傳統(tǒng)的應用軟件進行分析。傳統(tǒng)業(yè)務數(shù)據(jù)隨時間演變已擁有標準的格式,能夠被標準的商務智能軟件識別。目前,企業(yè)面臨的挑戰(zhàn)是處理并從各種形式呈現(xiàn)的復雜數(shù)據(jù)中挖掘價值。
大數(shù)據(jù)3大特征
1)數(shù)據(jù)類型繁多。包括網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等等多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。
2)數(shù)據(jù)價值密度相對較低。如隨著物聯(lián)網(wǎng)的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。
3)處理速度快、時效性要求高。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。
三、大數(shù)據(jù)的安全保障。
在如此大量的數(shù)據(jù)資源之下,如何保障數(shù)據(jù)的安全也是我們需要頭等關注的。我們可以通過對硬件設備的物理上進行隔離和軟件設置上對用戶權限進行控制,保證數(shù)據(jù)資源的安全性。還可以通過信息加密技術,對硬件設備上的數(shù)據(jù)資源進行加密處理,進一步加強數(shù)據(jù)的安全性。還可以讓數(shù)據(jù)資源分別存儲在云端與硬盤上,讓數(shù)據(jù)分開保存,合并使用。最后就是法律手段。這樣一來相信數(shù)據(jù)的安全性就能得到全面保障。
四、大數(shù)據(jù)技術的應用。
在現(xiàn)今流行的大數(shù)據(jù)這個概念性的詞語出現(xiàn)之前,廣大網(wǎng)絡個人用戶的數(shù)據(jù)幾乎全部被忽略了,單位和企業(yè)的數(shù)據(jù)資源被談及最多的。一個大型企業(yè)或者單位的內部數(shù)據(jù)資源是有一定的邏輯結構的,這些有結構的數(shù)據(jù)多多少少是被使用著的,也就是火遍整個互聯(lián)網(wǎng)的數(shù)據(jù)挖掘。在互聯(lián)網(wǎng)技術已經(jīng)高速發(fā)展的今天,企業(yè)和個人的數(shù)據(jù)都已經(jīng)多到爆炸。因此,從海量數(shù)據(jù)資源中發(fā)現(xiàn)有價值的信息成為了企業(yè)和個人迫在眉睫的任務。雖然對這些巨大的數(shù)據(jù)資源進行處理和分析提取有價值的核心信息比較困難,但是一旦提取出來,對各行各業(yè)的改革與發(fā)展卻是具有決定性意義的。在公司和單位的管理與經(jīng)營之中,如果使用大數(shù)據(jù)技術分析進行決策指導,能夠將管理中的粗放式慢慢地變?yōu)榫毷焦芾?,大大提高工作的效率,也能夠在?jīng)營銷售中根據(jù)顧客的相關信息盡可能準確地向顧客推薦他所需要的相關物品,在提高顧客滿意度的同時提高自己得銷售業(yè)績。在學校的教學實訓中,如果使用大數(shù)據(jù)分析進行決策指導,將能根據(jù)每一個學生的興趣愛好和特點特長更加有針對性的安排教學資源,真真正正地做到因材施教,物盡其用。在企業(yè)的生產(chǎn)之中,如果使用大數(shù)據(jù)分析進行決策指導,就能夠對生產(chǎn)的各個環(huán)節(jié)進行優(yōu)化改革,大大提高工作的流程的效率,節(jié)省掉在生產(chǎn)環(huán)節(jié)中不必要的成本和支出,增加企業(yè)的核心競爭力。隨著時代的發(fā)展,在不久的將來,大數(shù)據(jù)技術的優(yōu)勢肯定會直接體現(xiàn)在國家的綜合國力,對國家的安全和發(fā)展起到?jīng)Q定性的作用。在這一點,美國已經(jīng)在一二年的時候啟動了規(guī)模巨大的“大數(shù)據(jù)研究與開發(fā)計劃”,走在了世界的前列。在我國,雖然與大數(shù)據(jù)相關聯(lián)的技術與產(chǎn)業(yè)剛剛開始發(fā)展,在國家政策和歷史發(fā)展機遇之下,大數(shù)據(jù)技術必將一日千里,飛速發(fā)展。
參考文獻:
[1]陳明奇,等.大數(shù)據(jù)時代的美國信息網(wǎng)絡安全新戰(zhàn)略分析.第 27 次全國計算機安全學術交流會論文集,2012(8).
[2]陳如明.大數(shù)據(jù)時代的挑戰(zhàn)、價值與應對策略.中國國際信息通 信展專刊,2012.
[3]張光茫.大數(shù)據(jù)時代的思考與啟示———讀涂子沛《大數(shù)據(jù)》[J].水利天地,2012(09).
(作者單位:重慶工程學院)