黃先果(重慶日?qǐng)?bào)報(bào)業(yè)集團(tuán) 技術(shù)設(shè)備中心,重慶. 400010)
利用大數(shù)據(jù)為企業(yè)的發(fā)展服務(wù)
黃先果
(重慶日?qǐng)?bào)報(bào)業(yè)集團(tuán) 技術(shù)設(shè)備中心,重慶. 400010)
摘 要:現(xiàn)代互聯(lián)網(wǎng)的應(yīng)用引發(fā)了對(duì)大規(guī)模數(shù)據(jù)進(jìn)行快速處理的需求。在很多互聯(lián)網(wǎng)應(yīng)用中,數(shù)據(jù)呈現(xiàn)規(guī)律性,這給并行處理技術(shù)提供了機(jī)會(huì)。例如,Web網(wǎng)頁按特性排序;社交網(wǎng)上朋友關(guān)系在網(wǎng)絡(luò)中搜索,這個(gè)網(wǎng)絡(luò)圖結(jié)構(gòu)有上億個(gè)節(jié)點(diǎn)和幾十億條邊,這樣的存儲(chǔ)單位比傳統(tǒng)操作系統(tǒng)中的存儲(chǔ)塊大很多,用傳統(tǒng)的數(shù)據(jù)冗余來防止分布在數(shù)據(jù)上千塊的磁盤上時(shí)頻發(fā)媒介故障,還有云計(jì)算、智能終端、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)等廣泛應(yīng)用,從而產(chǎn)生了大數(shù)據(jù)。
關(guān)鍵詞:互聯(lián)網(wǎng);企業(yè);發(fā)展
什么是大數(shù)據(jù)?我查到的大數(shù)據(jù)就是:數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多樣(Variety)、要求速度快(Velocity)、蘊(yùn)藏的商業(yè)價(jià)值大(Value),也就是大數(shù)據(jù)的4V特性。符合這些特性的,叫大數(shù)據(jù)。
第一是數(shù)據(jù)量大。大致有多大,就是大到PB級(jí)別,1PB等于一百多G,和傳統(tǒng)的單個(gè)網(wǎng)站數(shù)據(jù)庫存儲(chǔ)的數(shù)據(jù)相比,已經(jīng)是它的上百倍還多,而只有數(shù)據(jù)體量達(dá)到了PB級(jí)別以上,才能被稱為大數(shù)據(jù)。
第二是數(shù)據(jù)種類多樣性。如果只有單一的數(shù)據(jù),那么這些數(shù)據(jù)就沒有了價(jià)值,比如只有一個(gè)人數(shù)據(jù),或者一個(gè)客戶提交數(shù)據(jù),這些數(shù)據(jù)就不能稱為大數(shù)據(jù),所以說大數(shù)據(jù)還需要是多樣性的。例如,當(dāng)前的上網(wǎng)用戶中,年齡、學(xué)歷、愛好、需求等等每個(gè)人的特征都不一樣,這就是大數(shù)據(jù)的多樣性,如果擴(kuò)展到全國(guó),那么數(shù)據(jù)的多樣性會(huì)更強(qiáng),每個(gè)地區(qū)、每個(gè)時(shí)間段都會(huì)存在各種各樣的數(shù)據(jù)多樣性。
第三是速度快。就是通過算法對(duì)數(shù)據(jù)的邏輯處理速度非???,以每秒計(jì),可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息,這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
第四是價(jià)值大。如果有1PB以上的全國(guó)所有20~35歲的年輕人的上網(wǎng)數(shù)據(jù),那么它就有了商業(yè)價(jià)值,通過分析這些數(shù)據(jù),我們就知道這些人的需求,進(jìn)而指引產(chǎn)品的發(fā)展方向等等。這就是大數(shù)據(jù)的價(jià)值所在。
為什么要關(guān)注大數(shù)據(jù)?關(guān)注大數(shù)據(jù)的一個(gè)原因就是它的高價(jià)值,目前大數(shù)據(jù)在互聯(lián)網(wǎng)行業(yè)特別是電商應(yīng)用比較深入,也產(chǎn)生了可觀的價(jià)值。如eBay,建立的大數(shù)據(jù)分析平臺(tái)可以準(zhǔn)確分析用戶的購物行為。通過對(duì)顧客的行為進(jìn)行跟蹤、對(duì)搜索關(guān)鍵字廣告的投入產(chǎn)出進(jìn)行衡量,優(yōu)化后,eBay產(chǎn)品銷售的廣告費(fèi)降低了99%,頂級(jí)賣家占總銷售額的百分比卻上升至32%。
對(duì)于現(xiàn)代企業(yè)而言,大數(shù)據(jù)已不是可選項(xiàng),而是必選項(xiàng),誰的數(shù)據(jù)越多,分析結(jié)果越好,誰就越有可能立于不敗之地。例如,重報(bào)集團(tuán)也擁有大量數(shù)據(jù):新聞數(shù)據(jù)、經(jīng)營(yíng)數(shù)據(jù)、發(fā)行數(shù)據(jù)、印刷數(shù)據(jù)等,把它們的價(jià)值鏈數(shù)據(jù)整合起來,精確關(guān)聯(lián),進(jìn)行大數(shù)據(jù)的精準(zhǔn)分析,挖掘出價(jià)值數(shù)據(jù),促進(jìn)集團(tuán)向前發(fā)展。
龐大而復(fù)雜的數(shù)據(jù)給管理帶來困擾,這樣就有了處理大數(shù)據(jù)的一些技術(shù)。例如,Hadoop,Hadoop是一個(gè)開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái),是Apache的一個(gè)用java語言實(shí)現(xiàn)的開源軟件框架,實(shí)現(xiàn)在大量計(jì)算機(jī)組成的集群中對(duì)海量數(shù)據(jù)進(jìn)行分布式計(jì)算。像百度做搜索,就用Hadoop管理數(shù)據(jù)。
大數(shù)據(jù)解決什么問題?其實(shí)大數(shù)據(jù)不解決什么問題,應(yīng)該是處理大數(shù)據(jù)的技術(shù)解決什么問題。管理大規(guī)模的復(fù)雜數(shù)據(jù)需要用到大數(shù)據(jù)的技術(shù),通過大數(shù)據(jù)的技術(shù)把這些大數(shù)據(jù)管理分析好了,可以使企業(yè)領(lǐng)導(dǎo)對(duì)各方面有更明確的認(rèn)識(shí),做出更好的決策。
各行業(yè)的數(shù)據(jù)都越來越多,在大數(shù)據(jù)情況下,如何保障業(yè)務(wù)的順暢,有效地管理分析數(shù)據(jù),能讓領(lǐng)導(dǎo)層做出最有利的決策,這就是要使用大數(shù)據(jù)的原因,也是大數(shù)據(jù)技術(shù)能解決的問題。
最近媒體對(duì)馬航MH370航班的報(bào)道中,我們不難找到新聞大數(shù)據(jù)的影子。其中有兩條報(bào)道很明顯是從大數(shù)據(jù)中挖掘而來。一條是歷年來失聯(lián)航班的新聞,如法航空客A330失事、洛克比空難等。一條是波音777客機(jī)歷年來的故障、遇險(xiǎn)新聞。新浪網(wǎng)甚至挖掘出了“世界近年主要空難”、“空難逃生技術(shù)”、“世界空難史”等素材,這些都體現(xiàn)了大數(shù)據(jù)使用的價(jià)值。
重報(bào)集團(tuán)的大數(shù)據(jù)主要是新聞大數(shù)據(jù)和經(jīng)營(yíng)大數(shù)據(jù)。新聞大數(shù)據(jù)包括60多年來本集團(tuán)見報(bào)和未見報(bào)的所有新聞稿、圖片;包括歷年來沉淀下來的所有新華社圖片、稿件;還包括華龍網(wǎng)成立以來各種發(fā)表或未發(fā)表的文稿、圖片、視頻乃至論壇精華等。如果有條件,還應(yīng)該包括國(guó)內(nèi)外主流媒體以及網(wǎng)站的重要文稿、圖片、音頻、視頻等。
重報(bào)集團(tuán)對(duì)新聞大數(shù)據(jù)的建設(shè),算是剛剛起步。雖然已對(duì)60多年的重慶日?qǐng)?bào)歷史報(bào)紙做了數(shù)字化存儲(chǔ),但各報(bào)各網(wǎng)站的所有數(shù)據(jù)并未有統(tǒng)一的歸檔、備份和檢索,花錢購買的新華社文稿和圖片也沒有很好保存。另外還缺少一套對(duì)所有新聞數(shù)據(jù)進(jìn)行管理、挖掘、檢索的管理系統(tǒng)。這些新聞數(shù)據(jù)光存儲(chǔ)下來是沒有用的,還必須能高效地被檢索、被整理出來才能產(chǎn)生效益。這是一個(gè)龐大的系統(tǒng)工程。這些問題的解決可能更多的是要和方正公司合作,向他們提出我們的需求。
經(jīng)營(yíng)大數(shù)據(jù)則包括集團(tuán)生產(chǎn)經(jīng)營(yíng)的各項(xiàng)數(shù)據(jù),現(xiàn)階段主要有以下幾部分:采編數(shù)據(jù);廣告、發(fā)行的經(jīng)營(yíng)數(shù)據(jù);集團(tuán)財(cái)務(wù)數(shù)據(jù);集團(tuán)人事數(shù)據(jù);EIP辦公數(shù)據(jù)等。這塊大數(shù)據(jù)要產(chǎn)生效益比新聞大數(shù)據(jù)要難得多,必須對(duì)數(shù)據(jù)進(jìn)行深度挖掘、再挖掘。
對(duì)于現(xiàn)階段的重報(bào)集團(tuán)來說,建立經(jīng)營(yíng)大數(shù)據(jù)的工作還沒有開始,各系統(tǒng)現(xiàn)在仍是分割條塊狀態(tài),還未開始融合。
在未來,處理好經(jīng)營(yíng)大數(shù)據(jù),其中一條道路就是建立一套綜合各個(gè)應(yīng)用系統(tǒng)的、供領(lǐng)導(dǎo)查詢分析的決策系統(tǒng)。這是一個(gè)相當(dāng)龐大復(fù)雜的系統(tǒng),涵蓋了報(bào)業(yè)集團(tuán)的所有應(yīng)用。財(cái)務(wù)、人事、發(fā)行、廣告、采編、辦公、出版甚至安保等系統(tǒng)的數(shù)據(jù)庫都是其工作對(duì)象。我們?cè)忍岢龅慕y(tǒng)一編碼,可以成為這一龐大系統(tǒng)的基礎(chǔ)組成部分。我們可以由統(tǒng)一編碼起步,一步步建立起一個(gè)完善的綜合查詢分析決策系統(tǒng)。
這里復(fù)述一下編碼系統(tǒng)的初步需求:首先,我們要先提煉出一些整個(gè)集團(tuán)通用的元素,然后對(duì)這些元素進(jìn)行編碼。我想出來三個(gè):人員、部門、客戶。這些元素是凌駕于各系統(tǒng)之上的,只要有相同的物件存在于不同系統(tǒng)中,我們都可以把它們提煉出來編碼。這樣一來,不同系統(tǒng)中間相同編碼的元素之間就產(chǎn)生了一種聯(lián)系,我們把這種聯(lián)系記錄入單獨(dú)的數(shù)據(jù)庫。這個(gè)數(shù)據(jù)庫不單單記錄這些聯(lián)系,還要記錄這些元素在不同系統(tǒng)數(shù)據(jù)庫當(dāng)中的相關(guān)記錄的信息。當(dāng)我們使用這些通用元素在這個(gè)關(guān)系數(shù)據(jù)庫中查詢時(shí),我們就可以查詢到各系統(tǒng)間相關(guān)聯(lián)的其他元素。舉例來說,我們把張三這個(gè)人編碼以后,就可以查詢到這個(gè)人是發(fā)行的客戶,也是廣告的客戶,或許還是生意伙伴。這是因?yàn)樵诎l(fā)行、廣告等系統(tǒng)中張三的編碼是一樣的。我們還可以通過張三所在系統(tǒng)數(shù)據(jù)的詳細(xì)信息查到其他的元素編碼(例如:合同編號(hào)),從而展開新的查詢。那么如何界定發(fā)行系統(tǒng)中的張三和廣告系統(tǒng)中的張三是同一個(gè)人呢?我想出來的辦法是為每個(gè)通用元素建立一張標(biāo)準(zhǔn)表。第一次錄入數(shù)據(jù)的時(shí)候要首先檢索這張標(biāo)準(zhǔn)表,找到了相同記錄就不用再次錄入,直接選取就可以了(如標(biāo)準(zhǔn)表里面有張三,則不論在哪個(gè)系統(tǒng)錄入張三的時(shí)候,只需要鼠標(biāo)選取標(biāo)準(zhǔn)表中的張三就可以)。如果標(biāo)準(zhǔn)表中沒有相應(yīng)記錄則應(yīng)先錄入標(biāo)準(zhǔn)表,再從標(biāo)準(zhǔn)表選取進(jìn)行錄入。這或許要牽涉修改原系統(tǒng)代碼的問題。如果今后集團(tuán)的應(yīng)用都采取B/S模式,那么修改的難度會(huì)減少很多,只需要修改一個(gè)錄入界面。甚至,在了解整個(gè)系統(tǒng)的數(shù)據(jù)庫結(jié)構(gòu)的基礎(chǔ)上,我們可以重寫一個(gè)錄入頁面來代替原有的頁面,而原系統(tǒng)代碼只需要作很小的修改??傊绻瓿闪诉@個(gè)編碼數(shù)據(jù)庫,就能夠?qū)崿F(xiàn)“找到一個(gè)點(diǎn),帶出一大片”的效果。
因此,要開發(fā)這個(gè)編碼系統(tǒng),首先,要了解原有系統(tǒng)的整個(gè)數(shù)據(jù)庫結(jié)構(gòu)和字段含義。其次,原有應(yīng)用系統(tǒng)必須采用B/S模式。再次,一定要找一家有強(qiáng)大開發(fā)能力的公司合作,這個(gè)系統(tǒng)可不簡(jiǎn)單。
要建好經(jīng)營(yíng)大數(shù)據(jù),另一條道路是和大軟件公司合作。例如,重報(bào)集團(tuán)和Oracle公司合作,利用Oracle公司的各種中間件工具建立一套決策查詢系統(tǒng)。我們所有的應(yīng)用系統(tǒng)都以O(shè)racle數(shù)據(jù)庫為后臺(tái)。同時(shí)我們還要了解所有數(shù)據(jù)庫的詳細(xì)架構(gòu)和字段含義。
綜上所述,我們今后建立新的應(yīng)用系統(tǒng)時(shí),應(yīng)該要注意三點(diǎn):一是要使用Oracle數(shù)據(jù)庫。二是在需要時(shí)向我們提供所需數(shù)據(jù)庫的詳細(xì)架構(gòu)和表的字段含義。三是采用B/S模式。
當(dāng)今的大數(shù)據(jù)時(shí)代,讓商業(yè)生態(tài)環(huán)境發(fā)生了巨大變化,智能終端隨處可見,社交網(wǎng)絡(luò)隨時(shí)在線互動(dòng),讓信息傳播方式發(fā)生了革命性的變化。大數(shù)據(jù)的時(shí)代已經(jīng)到來,讓我們和大數(shù)據(jù)一起發(fā)展!
中圖分類號(hào):G20066..22...........
文獻(xiàn)標(biāo)志碼:AA......
文章編號(hào):11667744--88888833(22001155)1166--00229955--0022