張娟萍
(山西工程科技職業(yè)大學,山西 晉中 030619)
大數(shù)據(jù)是數(shù)字化時代的新型戰(zhàn)略資源,是當今信息化社會最重要的生產(chǎn)力要素。在全國推進“交通強國”和“數(shù)字交通”戰(zhàn)略實施的重要歷史時期,推動我國綜合交通運輸大數(shù)據(jù)體系發(fā)展已成為新時代交通運輸信息化、數(shù)字化發(fā)展的核心內(nèi)容和關(guān)鍵所在。在利用大數(shù)據(jù)技術(shù)促進綜合交通運輸體系發(fā)展方面,一些發(fā)達國家及發(fā)展中國家都已經(jīng)開展了諸多前沿研究和探索應用[1,2]。在當前我國現(xiàn)代綜合交通運輸體系構(gòu)建的關(guān)鍵時期,借鑒已有經(jīng)驗,結(jié)合交通運輸行業(yè)特點,建設(shè)和完善大數(shù)據(jù)體系對促進綜合運輸現(xiàn)代化發(fā)展具有非常積極的作用。
在百度百科中,大數(shù)據(jù)(big data)是IT行業(yè)術(shù)語,是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)[3]。IBM提出了大數(shù)據(jù)“5V”特點[4,5],即Volume(大量),Variety(多樣),Value(價值密度),Velocity(高速)和Veracity(真實性)。
相比于IT領(lǐng)域大數(shù)據(jù)特征,綜合交通運輸行業(yè)大數(shù)據(jù)具有更鮮明的特征。
1) 數(shù)據(jù)量大。各類動靜態(tài)管理對象和管理要素全周期數(shù)字化過程中,各類結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)構(gòu)成了綜合交通運輸行業(yè)的大數(shù)據(jù)。隨著發(fā)展,數(shù)據(jù)量呈現(xiàn)出數(shù)量級式、階躍式增加。
2) 數(shù)據(jù)類型多。綜合交通運輸系統(tǒng)中既有自身產(chǎn)生的數(shù)據(jù),也有外部交換共享所得的數(shù)據(jù);既有靜態(tài)數(shù)據(jù),又有動態(tài)實時數(shù)據(jù);既有字符、數(shù)值等結(jié)構(gòu)化數(shù)據(jù),又有視頻圖像非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)類型多種多樣。
3) 處理速度快。在綜合交通運輸領(lǐng)域,各類數(shù)據(jù)數(shù)量隨時間推移而快速增長。海量、快速的數(shù)據(jù)積累,勢必要求更加高速、更加準確的數(shù)據(jù)分析與應用。只有實現(xiàn)快速化數(shù)據(jù)檢索和分析,才能保證數(shù)據(jù)的生命力。
4) 價值密度低。隨著行業(yè)信息化、網(wǎng)絡(luò)化、數(shù)字化的發(fā)展,交通運輸行業(yè)數(shù)據(jù)在大量積累,與此同時,無效數(shù)據(jù)、冗余數(shù)據(jù)也在大量增加,數(shù)值質(zhì)量問題愈發(fā)突出,數(shù)據(jù)價值密度的高低與數(shù)據(jù)總量呈現(xiàn)出反比關(guān)系。
5) 真實性較差。由于各種原因,綜合交通運輸行業(yè)仍然存在“數(shù)出多源”、“一數(shù)多源”的現(xiàn)象,數(shù)據(jù)的唯一性、準確性、完整性、真實性仍有待提高。數(shù)據(jù)“質(zhì)”與“量”的矛盾仍然存在。
大數(shù)據(jù)是信息技術(shù)發(fā)展的必然產(chǎn)物[6],更是行業(yè)數(shù)字化、信息化發(fā)展不可逾越的新階段。伴隨著數(shù)字化、網(wǎng)絡(luò)化和智能化發(fā)展的新態(tài)勢,綜合交通運輸大數(shù)據(jù)的發(fā)展也體現(xiàn)出了更加豐富的內(nèi)涵。
1) 交通要素數(shù)字化。利用物聯(lián)網(wǎng)感知、數(shù)字建模等技術(shù),推動交通運輸基礎(chǔ)設(shè)施、交通運輸載運裝備、交通運輸管理服務對象與事項的全面數(shù)字化,實現(xiàn)各類交通要素的數(shù)字化構(gòu)建,打造“數(shù)字化交通要素”[7]。
2) 多網(wǎng)融合互聯(lián)化。利用光纖網(wǎng)、移動通信網(wǎng)、無線傳感網(wǎng)、衛(wèi)星通信網(wǎng)等多種信息通信技術(shù),通過“有線+無線”、“公網(wǎng)+專網(wǎng)”等多種模式組合,促進各類交通運輸業(yè)務與信息系統(tǒng)互聯(lián)互通和聯(lián)網(wǎng)運行。
3) 綜合應用智能化。在數(shù)據(jù)開放與應用層面,不同業(yè)務領(lǐng)域?qū)崿F(xiàn)了數(shù)據(jù)的深度挖掘應用,推動了綜合交通運輸行業(yè)管理、公共服務更加精準化、智能化和科學化,支撐了業(yè)務協(xié)同和融合創(chuàng)新應用。
“十三五”時期以來,交通運輸部在大數(shù)據(jù)頂層規(guī)劃與指引方面出臺了多個綱領(lǐng)性文件和相關(guān)政策性文件,為行業(yè)大數(shù)據(jù)發(fā)展指明了發(fā)展方向和路徑,從管理和技術(shù)兩個方面不斷完善制度體系,為綜合交通運輸大數(shù)據(jù)發(fā)展奠定了良好基礎(chǔ)。從體制機制來看,交通運輸部、各省(市)交通運輸主管部門都設(shè)有專職信息中心、職能部門或者委托省級政務信息化主管部門承擔大數(shù)據(jù)發(fā)展規(guī)劃、建設(shè)等相關(guān)職能。在多方有利因素的保障下,交通運輸行業(yè)數(shù)據(jù)建設(shè)取得了理想成果:交通運輸基礎(chǔ)設(shè)施及載運工具數(shù)字化監(jiān)測水平顯著提高,為行業(yè)現(xiàn)代化進程奠定了扎實基礎(chǔ);國家綜合交通運輸信息平臺建設(shè)取得新進展,行業(yè)管理水平和管理效率得到了大幅提高,基于大數(shù)據(jù)的決策和監(jiān)管水平明顯提升;在公共服務領(lǐng)域、物流服務方面,數(shù)字化進程明顯加快,運輸效率和服務水平顯著提升。
經(jīng)過多年的努力,在交通運輸信息化建設(shè)方面,我們?nèi)〉昧溯^為理想的成績,也積累了很多寶貴經(jīng)驗,但在大數(shù)據(jù)建設(shè)、應用管理方面仍存在一些問題。信息系統(tǒng)建設(shè)需求貼合度不高,應用系統(tǒng)與數(shù)據(jù)建設(shè)相對分散,信息孤島仍然存在;數(shù)據(jù)和信息系統(tǒng)建設(shè)中標準采用不夠理想,數(shù)據(jù)共享困難;數(shù)字質(zhì)量不高,缺乏統(tǒng)一的數(shù)據(jù)治理體系,數(shù)字資源未能實現(xiàn)向數(shù)據(jù)資產(chǎn)的良性轉(zhuǎn)化。大數(shù)據(jù)整合、共享、開放、應用,特別是涉及數(shù)據(jù)安全、增值應用等方面相關(guān)標準規(guī)范有待進一步完善;此外,涉及大數(shù)據(jù)全壽命周期的管理體制機制有待完善,亟需建立完善有效的跟蹤監(jiān)督和激勵約束機制。
綜合交通運輸大數(shù)據(jù)體系是復雜系統(tǒng),在具體建設(shè)中涉及到很多問題。主要的建設(shè)內(nèi)容包括大數(shù)據(jù)中心、支撐保障體系和大數(shù)據(jù)支撐技術(shù)平臺建設(shè)。
綜合交通運輸大數(shù)據(jù)體系基于大數(shù)據(jù)標準及規(guī)范體系、運維及安全管理體系兩個保障體系,由數(shù)據(jù)源和數(shù)據(jù)治理及交換共享體系構(gòu)建大數(shù)據(jù)中心,通過大數(shù)據(jù)支撐技術(shù),實現(xiàn)大數(shù)據(jù)應用。
圖1 交通運輸大數(shù)據(jù)體系總體架構(gòu)
3.2.1 大數(shù)據(jù)中心
基于云計算架構(gòu),接入、整合、融合交通運輸行業(yè)內(nèi)外部綜合交通大數(shù)據(jù),并提供數(shù)據(jù)存儲、預處理等服務,建成行業(yè)全要素數(shù)據(jù)的數(shù)據(jù)資源匯聚共享池;梳理行業(yè)內(nèi)外綜合交通大數(shù)據(jù)資源,形成統(tǒng)一的省級綜合交通大數(shù)據(jù)資源目錄;建設(shè)綜合交通大數(shù)據(jù)治理系統(tǒng),實現(xiàn)“交換共享、資源目錄、質(zhì)量管控、平臺監(jiān)控”四位一體的數(shù)據(jù)治理體系,保障數(shù)據(jù)資源可查詢、可追溯、可共享、可管理。
3.2.2 支撐保障體系
1) 在國家、行業(yè)、省級相關(guān)標準規(guī)范體系框架下,建立省級綜合交通運輸信息化建設(shè)標準規(guī)范體系,加強關(guān)鍵標準規(guī)范研究,加大標準規(guī)范宣傳貫徹力度,開展標準規(guī)范符合性檢測和考核評估工作。
2) 在行業(yè)、省級政務信息化運維和安全管理框架體系下,針對行業(yè)信息化運維與安全管理特殊需求,建立運維管理系統(tǒng)及安全監(jiān)測管理工作機制,完善運維及安全管理制度,加強運維及安全管理。
3.2.3 大數(shù)據(jù)支撐技術(shù)平臺
數(shù)據(jù)處理是大數(shù)據(jù)產(chǎn)生價值的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)處理要完成大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲及管理,以及大數(shù)據(jù)分析及挖掘。
1) 大數(shù)據(jù)采集技術(shù),主要有基于開源系統(tǒng)Flume、Scribe的日志采集系統(tǒng);基于Apache Nutch、Crawler4j、Scrapy等框架和MySQL和Oracle數(shù)據(jù)庫技術(shù)的網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)。
2) 大數(shù)據(jù)預處理技術(shù),通過ETL處理,包含抽取Extract、轉(zhuǎn)換Transform、加載load,將采集的各類結(jié)構(gòu)和類型的復雜數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型;對數(shù)據(jù)進行“過濾”和“去噪”,從而高效、快速獲得有效數(shù)據(jù)。
3) 大數(shù)據(jù)存儲及管理技術(shù),可采用Shared Nothing架構(gòu),結(jié)合MPP架構(gòu)的高效數(shù)據(jù)庫集群和基于Hadoop的技術(shù)擴展和封裝來實現(xiàn)對互聯(lián)網(wǎng)大數(shù)據(jù)存儲、分析、調(diào)用和管理的支撐。
4) 大數(shù)據(jù)分析及挖掘技術(shù),基于數(shù)據(jù)挖掘和機器學習技術(shù),采用MapReduce、Hive、Pig、Spark、Flink、Storm、MLlib等大數(shù)據(jù)分析與挖掘技術(shù),從海量數(shù)據(jù)中獲得信息和知識,服務于交通運輸行業(yè),提高行業(yè)運行效率和集約化水平。
綜合交通運輸大數(shù)據(jù)體系在發(fā)揮積極作用的同時,也面臨著一些挑戰(zhàn)。相關(guān)標準規(guī)范、數(shù)據(jù)治理體系、數(shù)據(jù)共享開放應用等都是在建立綜合交通運輸大數(shù)據(jù)體系中需要重點關(guān)注的課題。伴隨著管理和技術(shù)進步,大數(shù)據(jù)在綜合交通運輸中的應用將從根本上緩解傳統(tǒng)交通運輸治理面臨的各種壓力問題,為數(shù)字交通發(fā)展帶來新的機遇。我們相信,隨著新時期“數(shù)字交通”、“新基建”等戰(zhàn)略的推進,交通運輸大數(shù)據(jù)體系發(fā)展必將為現(xiàn)代綜合交通運輸體系的建立提供更多動能。