靳繼紅 劉淑芝
摘要:該文詳細(xì)分析了大數(shù)據(jù)技術(shù)在鐵路貨運(yùn)信息系統(tǒng)中的應(yīng)用方向及應(yīng)用層次,提出大數(shù)據(jù)在系統(tǒng)中的應(yīng)用框架及參考性的混搭架構(gòu)模式,以推動鐵路貨運(yùn)對大數(shù)據(jù)技術(shù)的應(yīng)用。
關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)應(yīng)用;鐵路貨運(yùn)
中圖分類號:TP302 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)13-0005-02
1 引言
鐵路貨運(yùn)信息系統(tǒng)的構(gòu)建,從TMIS(中國鐵路運(yùn)輸管理系統(tǒng))到TDCS(調(diào)度指揮信息管理系統(tǒng))及CTC(新一代分散自律調(diào)度集中控制系統(tǒng)),正在實(shí)現(xiàn)由單項(xiàng)管理自動化到綜合管理自動化的過渡。而于2012年9月試運(yùn)行的鐵路電子商務(wù)系統(tǒng)則開啟了一個嶄新的篇章,對外實(shí)現(xiàn)貨運(yùn)需求信息的采集功能,對內(nèi)以既有系統(tǒng)為支撐形成完整的受理業(yè)務(wù)信息鏈[1,2]。大量數(shù)據(jù)(包括實(shí)時(shí)的、結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù))正在產(chǎn)生,增強(qiáng)大數(shù)據(jù)利用意識,借助大數(shù)據(jù)技術(shù),發(fā)現(xiàn)大數(shù)據(jù)的真正價(jià)值,才能在企業(yè)競爭中擺脫被動狀況,重新成為行業(yè)中的“火車頭”。
2 大數(shù)據(jù)技術(shù)
大數(shù)據(jù)是為了更經(jīng)濟(jì)地從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值,而設(shè)計(jì)的新一代架構(gòu)和技術(shù)。大數(shù)據(jù)的4V特點(diǎn):Volume(海量)、Variety(多樣)、Velocity(實(shí)時(shí))、Value(價(jià)值)[1]。
一個大數(shù)據(jù)系統(tǒng)從邏輯上可以分為數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用展現(xiàn)等五個層次[3-5]。其中包含多方面的技術(shù):海量存儲、實(shí)時(shí)流數(shù)據(jù)處理、數(shù)據(jù)挖掘(DW)、數(shù)據(jù)可視化、商業(yè)智能(BI)、聯(lián)機(jī)分析處理(OLAP)、并行計(jì)算、NoSQL(Not only SQL非關(guān)系型數(shù)據(jù)庫)數(shù)據(jù)庫等。
3 大數(shù)據(jù)應(yīng)用框架的探討
3.1 數(shù)據(jù)應(yīng)用的三個層次
大數(shù)據(jù)在鐵路貨運(yùn)信息系統(tǒng)中的應(yīng)用主要分三層:起步階段、發(fā)展階段、運(yùn)營階段。目前國內(nèi)應(yīng)處于大數(shù)據(jù)應(yīng)用的起步階段。
第一層,主要是積累、收集數(shù)據(jù),應(yīng)用大數(shù)據(jù)存儲相關(guān)技術(shù)及數(shù)據(jù)采集工具。已有的和正在擴(kuò)建、補(bǔ)充完善的各項(xiàng)相關(guān)信息系統(tǒng)是大數(shù)據(jù)的各種來源,包括來自日志文件、終端設(shè)備、傳感設(shè)備、視頻設(shè)備、各項(xiàng)運(yùn)營系統(tǒng)、財(cái)務(wù)系統(tǒng)、電子商務(wù)系統(tǒng)、安全監(jiān)測系統(tǒng)等?;趥鹘y(tǒng)關(guān)系型數(shù)據(jù)庫存儲的結(jié)構(gòu)化數(shù)據(jù)仍然占據(jù)目前的主流地位,但大量的,實(shí)時(shí)性要求比較高的非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)正在產(chǎn)生。
數(shù)據(jù)基礎(chǔ):結(jié)構(gòu)化數(shù)據(jù)為主流。
業(yè)務(wù)邏輯:以因果關(guān)系為主線。
挖掘工具:以SAS等統(tǒng)計(jì)分析工具為主,自主研發(fā)為輔。
應(yīng)用目標(biāo):用數(shù)據(jù)促進(jìn)企業(yè)精細(xì)運(yùn)營,整合優(yōu)化資源配置,提高運(yùn)營效率。降低運(yùn)營成本。
實(shí)施運(yùn)作:主要是第三方數(shù)據(jù)挖掘服務(wù)機(jī)構(gòu)。
第二層,是將收集的數(shù)據(jù)進(jìn)行初步的融合、集成、篩選、分析出有用的信息來,這一層次的應(yīng)用是目前發(fā)展的重點(diǎn),其應(yīng)用范圍也較為廣泛。如鐵路運(yùn)輸流量分析、智能布警、鐵路違法與事故模式挖掘。對數(shù)據(jù)的使用方式上,仍然以精確性計(jì)算分析為主,但隨著應(yīng)用層次的提高,趨勢性計(jì)算分析會得到逐步地應(yīng)用和發(fā)展。
數(shù)據(jù)基礎(chǔ):仍然以結(jié)構(gòu)化數(shù)據(jù)為主,進(jìn)一步融合數(shù)據(jù)業(yè)務(wù)平臺,非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)比重增加。
業(yè)務(wù)邏輯:以因果關(guān)系為主線,基于非結(jié)構(gòu)化數(shù)據(jù)的預(yù)測為輔。
挖掘工具:以SAS等統(tǒng)計(jì)分析工具為主,Hadoop/Hbase等技術(shù)為輔。
應(yīng)用目標(biāo):深入洞察客戶需求,助力企業(yè)轉(zhuǎn)型。
實(shí)施運(yùn)作:借助外力輔助建立數(shù)據(jù)運(yùn)營機(jī)構(gòu)。
第三層,大數(shù)據(jù)的價(jià)值最大體現(xiàn):預(yù)測、對數(shù)據(jù)更深度的分析、統(tǒng)計(jì)、挖掘處理,更好地支持日常運(yùn)營、決策、安全管理等方面,甚至可以幫助發(fā)現(xiàn)創(chuàng)造新的價(jià)值,形成新的收入增長點(diǎn)。目前處于規(guī)劃建設(shè)階段。
數(shù)據(jù)基礎(chǔ):視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù)成為核心數(shù)據(jù),更多融合企業(yè)內(nèi)外部數(shù)據(jù),傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)比重減少。
業(yè)務(wù)邏輯:因果關(guān)系變?yōu)閭鹘y(tǒng)業(yè)務(wù)運(yùn)營的基本邏輯,基于非結(jié)構(gòu)化數(shù)據(jù)的預(yù)測成為主流。
挖掘工具:Hadoop/Hbase等新興技術(shù)漸成主流,SAS等統(tǒng)計(jì)分析工具的應(yīng)用退居次要地位。
應(yīng)用目標(biāo):全方位深入洞察客戶需求,探索如何借助大數(shù)據(jù)推動企業(yè)轉(zhuǎn)型。
實(shí)施運(yùn)作:以自身建立的數(shù)據(jù)運(yùn)營機(jī)構(gòu)為主,外力為輔。
3.2 大數(shù)據(jù)應(yīng)用的四個方向
大數(shù)據(jù)在鐵路貨運(yùn)信息系統(tǒng)中的應(yīng)用方向主要有:生產(chǎn)運(yùn)作服務(wù)、安全監(jiān)控服務(wù)、客戶管理與服務(wù)、營銷決策支持。
生產(chǎn)運(yùn)作服務(wù)
利用大數(shù)據(jù)可以為生產(chǎn)運(yùn)作提供支持服務(wù),如貨物的調(diào)撥、路線的安排、在途監(jiān)控等方面活動,有助于優(yōu)化業(yè)務(wù)流程,及時(shí)發(fā)現(xiàn)問題,提高業(yè)務(wù)運(yùn)作效率。
安全監(jiān)控服務(wù)
大數(shù)據(jù)能為鐵路貨運(yùn)的安全監(jiān)控提供服務(wù),幫助實(shí)現(xiàn)實(shí)時(shí)監(jiān)控和安全運(yùn)營。可以分系統(tǒng)的統(tǒng)籌設(shè)置海量的傳感器、視頻監(jiān)測設(shè)備等,將傳感器及相關(guān)設(shè)備的信息匯集到終端,工程師便可實(shí)時(shí)發(fā)現(xiàn)、分析鐵路及貨車存在的安全問題,并及時(shí)下達(dá)指令消除各種安全隱患。
客戶管理與服務(wù)
主要是針對電子商務(wù)平臺客戶提出的管理與服務(wù)形式,通過各種類型數(shù)據(jù)的分析來有效地發(fā)現(xiàn)需求,為客戶提供個性化的服務(wù)。
營銷決策支持
包括產(chǎn)品服務(wù)的推廣、平臺宣傳等,提供營銷方面的決策支持,以更好地的切合市場需求以及吸引潛在客戶的關(guān)注。
利用大數(shù)據(jù)分析將有助于鐵路貨運(yùn)的市場細(xì)分、定向營銷以及物流新產(chǎn)品的推出。充分利用大數(shù)據(jù)可以更好、更全面地掌握客戶的特點(diǎn),及時(shí)得到客戶的需求信息。幫助鐵路實(shí)時(shí)改進(jìn)和創(chuàng)新鐵路物流產(chǎn)品,并根據(jù)客戶的實(shí)時(shí)反饋信息,改進(jìn)服務(wù),研究制定業(yè)務(wù)營銷方案,根據(jù)目的利用合適的處理技術(shù)分析找出最優(yōu)的營銷決策。
3.3 大數(shù)據(jù)的應(yīng)用框架
大數(shù)據(jù)技術(shù)框架在鐵路貨運(yùn)行業(yè)中的應(yīng)用也體現(xiàn)了軟件分層的概念,每個層次包含有不同的組件對應(yīng)于不同的應(yīng)用場景,層次之間相對獨(dú)立:數(shù)據(jù)采集層——負(fù)責(zé)數(shù)據(jù)的積累、整合、抽取,凈化等;數(shù)據(jù)存儲層——負(fù)責(zé)數(shù)據(jù)的存儲和處理;數(shù)據(jù)分析層——對數(shù)據(jù)進(jìn)行深層次的分析和挖掘等處理;數(shù)據(jù)展現(xiàn)層——數(shù)據(jù)價(jià)值最終呈現(xiàn)給用戶的形式化。其中數(shù)據(jù)存儲和分析層所涉及的組件有:關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、分布式文件/對象存儲系統(tǒng)、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、OLAP等。
大數(shù)據(jù)技術(shù)框架在鐵路貨運(yùn)信息系統(tǒng)規(guī)劃實(shí)施中,應(yīng)側(cè)重于具體應(yīng)用,考察各種組件組合的可能性,快速形成原型系統(tǒng),再根據(jù)具體需求,不斷補(bǔ)充完善,直至找到“最適合的”方案。
3.4 大數(shù)據(jù)架構(gòu)的選擇(存儲方案設(shè)計(jì))
大數(shù)據(jù)存儲技術(shù)路線最典型的共有三種。
第一種MPP(massively parallel processing)數(shù)據(jù)庫,是采用MPP架構(gòu)的新型數(shù)據(jù)庫集群。MPP 是將任務(wù)并行的分散到多個服務(wù)器和節(jié)點(diǎn)上,在每個節(jié)點(diǎn)上計(jì)算完成后,將各自部分的結(jié)果匯總在一起得到最終的結(jié)果。相對于傳統(tǒng)的關(guān)系數(shù)據(jù)庫,MPP數(shù)據(jù)庫可以支持PB級的結(jié)構(gòu)化數(shù)據(jù)分析,通過列存儲、粗粒度索引等多項(xiàng)大數(shù)據(jù)處理技術(shù),再結(jié)合MPP架構(gòu)分布式計(jì)算模式,能夠勝任新一代的數(shù)據(jù)庫倉庫和結(jié)構(gòu)化數(shù)據(jù)的分析。運(yùn)行環(huán)境多為普通PC Server,具備高性能、高擴(kuò)展性的特點(diǎn),在分析類應(yīng)用領(lǐng)域獲得較為廣泛的應(yīng)用。
第二種是基于Hadoop的技術(shù)擴(kuò)展和封裝。Hadoop,被稱為Linux以來最成功的開源軟件,是一個基于分布式文件系統(tǒng),能夠存儲和處理非結(jié)構(gòu)化數(shù)據(jù)的大框架。Hadoop旨在通過一個高度可擴(kuò)展的分布式批量處理系統(tǒng),對大型數(shù)據(jù)集進(jìn)行掃描,以產(chǎn)生其結(jié)果。
第三種是大數(shù)據(jù)一體機(jī),這是一種專為大數(shù)據(jù)的分析處理而設(shè)計(jì)的軟、硬件結(jié)合的產(chǎn)品,由一組集成的服務(wù)器、存儲設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)以及為數(shù)據(jù)查詢、處理、分析用途而特別預(yù)先安裝及優(yōu)化的軟件組成,高性能大數(shù)據(jù)一體機(jī)具有良好的穩(wěn)定性和縱向擴(kuò)展性[4]。
在架構(gòu)選擇方面,鐵路貨運(yùn)系統(tǒng)要受到數(shù)據(jù)分布、數(shù)據(jù)源及分析要求等方面的制約,單一的BI技術(shù)、Hadoop技術(shù),MPP技術(shù)無法同時(shí)適應(yīng)鐵路貨運(yùn)系統(tǒng)的大數(shù)據(jù)技術(shù)應(yīng)用,所以鐵路貨運(yùn)的大數(shù)據(jù)架構(gòu)應(yīng)該是一種混合的架構(gòu)模式。要把MPP數(shù)據(jù)庫、Hadoop融合在一起,形成統(tǒng)一的大數(shù)據(jù)應(yīng)用架構(gòu)。用MPP處理PB級別的、高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),同時(shí)為應(yīng)用提供豐富的SQL和事務(wù)支持能力;用Hadoop實(shí)現(xiàn)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理。這樣可同時(shí)滿足結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理需求。
4 結(jié)語
結(jié)合鐵路貨運(yùn)信息系統(tǒng)的發(fā)展現(xiàn)狀,提出了大數(shù)據(jù)技術(shù)在系統(tǒng)中應(yīng)用的三個層次及四個應(yīng)用方向。探討了大數(shù)據(jù)技術(shù)在鐵路貨運(yùn)系統(tǒng)中的應(yīng)用框架,提出了相應(yīng)的大數(shù)據(jù)混搭架構(gòu)模式,為大數(shù)據(jù)技術(shù)的應(yīng)用發(fā)展提供參考。
參考文獻(xiàn):
[1] 王珊,王會舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1741-1752.
[2] 張延松,焦敏,王占偉,等.海量數(shù)據(jù)分析的One-size-fits—OLAP技術(shù)[J1.計(jì)算機(jī)學(xué)報(bào),2011,34(10):1936-1946.
[3] 覃雄派,王會舉,杜小勇,等.大數(shù)據(jù)分析--RDBMS與MapReduce的競爭與共生[J].軟件學(xué)報(bào),2012,23(1):32-34.
[4] 吳廣君,王樹鵬,陳明,等.海量結(jié)構(gòu)化數(shù)據(jù)存儲檢索系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2012,49(1):1-5.
[5] 曾志勇,楊輝,余建坤.基于HMT和哈希樹的Apriori并行算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(1):214-248.