中國交通通信信息中心 呂浩涵 趙 正
大數(shù)據在交通領域中的應用
中國交通通信信息中心 呂浩涵 趙 正
交通擁堵是世界性的社會問題,尤其在我國,更是亟待解決的問題。為環(huán)節(jié)交通擁堵現(xiàn)象,對交通狀況進行實時地了解,發(fā)展以Hadoop為技術手段的大數(shù)據時代下的智能交通系統(tǒng),可以及時地提供較為準確的數(shù)據信息,為交通領域的管理提供更加可靠的參考。
大數(shù)據;智能交通系統(tǒng);Hadoop技術
汽車產業(yè)伴隨著全世界的社會和經濟的高速發(fā)展,正在成為人們日常生活中不可或缺的部分,汽車數(shù)量的急速增長所帶來的交通堵塞和環(huán)境污染等問題越來越明顯。目前,交通堵塞已經成為我國最為突出的社會問題,不僅影響了人們的生活水平和生活質量,同時還造成了重大的經濟損失。如何處理日趨嚴重的交通堵塞問題,成為了我國乃至全世界都非常重視的焦點問題。伴隨著智能時代的來臨,對于交通堵塞的隨機性強、復雜多變、數(shù)量巨大和周期性等特點,目前多采用智能交通系統(tǒng)來處理交通問題[1-2]。智能交通系統(tǒng)是建立在大數(shù)據基礎上的。大數(shù)據技術不僅可以對龐大的數(shù)據進行存儲,還可以對數(shù)據進行處理和分類,有效地提高和改善了城市交通問題。Hadoop是一個云計算的平臺,可以對數(shù)據進行分布式的存儲和處理,在智能交通系統(tǒng)中較為常用[3]。
1.1 大數(shù)據
大數(shù)據(Big Data,BG)初始時被用于IT行業(yè),是一個海量的數(shù)據集,有著數(shù)據容量大、處理速度快、數(shù)據復雜多樣和數(shù)據可操作性強等特點。大數(shù)據的優(yōu)勢十分明顯,但是如何對如此大量的數(shù)據進行處理就成為了大數(shù)據研究中的重要問題。依托于不同的傳感器,大數(shù)據可以被采集、被存儲,同時還可以被讀取和計算,進行更加專業(yè)的處理和分析,而且應用十分廣泛,包括商業(yè)、地球化學、醫(yī)療、交通、犯罪學和法律等多個社會領域。
1.2 智能交通系統(tǒng)
智能交通系統(tǒng)(Intelligent Transportation System,ITS),是建立在電子信息技術、通信技術、計算機技術以及傳感技術基礎上,被廣泛應用于交通運輸行業(yè)的一個服務性操作系統(tǒng),可以對數(shù)據進行智能化的采集、處理與分析,并可以隨時讀取、利用與預測。ITS系統(tǒng)包括基礎服務、數(shù)據分析和終端發(fā)布三個部分,包含交通監(jiān)控、車輛管理、貨運管理和緊急救援等多個子系統(tǒng),所采集的數(shù)據根據來源與應用分為傳感器數(shù)據、系統(tǒng)數(shù)據、服務數(shù)據和應用數(shù)據等多種類型。
在ITS系統(tǒng)中,數(shù)據分析多采用的是Hadoop技術對采集的數(shù)據進行實時處理與分析。
2.1 Hadoop概述
Hadoop是Apache軟件基金會(Apache Software Foundation,ASF)借鑒于Google云計算系統(tǒng),在2005年引用并研發(fā)的分布式系統(tǒng),用于大數(shù)據的計算與處理,存儲與應用;其結構主要分為:分布式文件系統(tǒng)(Hadoop Distribution File system, HDFS)、映射歸約(MapReduce)編程模型和基于Hbase和Hive的非關系型分布式數(shù)據庫Big Table;具有較強的擴展性、高效性、可伸縮性和可靠性。
2.2 Hadoop框架
Hadoop是將HDFS中存儲的原數(shù)據,利用MapReduce框架中的計算模型進行處理,再將結果存儲到HDFS中,再利用Hive和Hbase進行搜索與調用。
2.2.1 HDFS結構
HDFS采用的是分布式的主從結構,是Hadoop結構數(shù)據存儲的基礎,不僅可以對數(shù)據進行數(shù)據處理,同時還可以對硬件的故障進行檢測,并及時進行反映與處理,完全可以在廉價的機器上實現(xiàn)數(shù)據的存儲與預處理。HDFS是建立在數(shù)據節(jié)點(Datanote)基礎上的,多個Datanote對客戶端輸入、刪除等處理進行響應,并將其反饋到名目節(jié)點(Namenote)后進行持久化的原數(shù)據存儲。
2.2.2 MapReduce結構
MapReduce是Hadoop結構中的數(shù)據計算與處理的框架,原數(shù)據需先后經過Map函數(shù)和Reduce函數(shù)兩個階段:在Map函數(shù)階段在數(shù)據的存儲節(jié)點上對數(shù)據進行格式解析等處理,將得到的鍵值Key/Value,再通過Reduce函數(shù)進行數(shù)據匹配,這兩個階段都是通過框架中計算模型的輸入(input)和輸出(output)來實現(xiàn)數(shù)據的處理的。
2.2.3 Hbase和Hive結構
Hbase是以HDFS為基礎,且在列的模式下構建的開源數(shù)據庫,同時還適用于非結構化的數(shù)據,利用HMaster功能對數(shù)據進行增、刪、改、查,對分區(qū)(Region)進行重新分配,最后再進行數(shù)據的整合與恢復。Hive是以Hadoop為基礎構建的數(shù)據倉庫工具,可以對不同類型的數(shù)據進行存儲,并將其映射為數(shù)據庫表,再利用類SQL的HiveQL語言對Hbase數(shù)據庫進行查詢,整個過程不涉及對數(shù)據的填、改。
Hadoop技術在交通領域中的運行過程為:
(1)利用GPS定位系統(tǒng)實現(xiàn)交通數(shù)據的接收與發(fā)送載體,獲取包含地理位置、時間軸、行駛速度與方向等信息的不同類型的數(shù)據,經過預處理去除異常值,自動生成存儲文件保存在HDFS中;
(2)通過Map函數(shù)和Reduce函數(shù)對交通系統(tǒng)中車輛的地理位置、時間、行駛速度與方向等信息進行讀取與匹配,進行數(shù)據的分析與整理;
(3)以Hbase和Hive為基礎的數(shù)據通過Java程序進行可視化處理,可將不同類型和格式的數(shù)據轉換成圖標結構,同時還可以對數(shù)據庫進行數(shù)據的查詢與調配。
[1]蘇剛,王堅,凌衛(wèi)青?;诖髷?shù)據的智能交通分析系統(tǒng)的設計與實現(xiàn)[J]。電腦知識與技術,2015,11(36):44-46.
[2]王亞洲。基于Hadoop平臺的交通數(shù)據處理系統(tǒng)設計與實現(xiàn)[J]。軟件導刊,2016,15(4):124-126.
[3]樂柏成,賴粵。Hadoop應用基站數(shù)據改善智能交通方法研究[J]。無線互聯(lián)科技,2016,4:121-122,127.
呂浩涵(1983-),女,吉林吉林人,碩士,中國交通通信信息中心工程師,研究方向:交通運輸信息化。
趙正(1988-),男,江蘇人,碩士,中國交通通信信息中心助理工程師,研究方向:寫流式處理、系統(tǒng)集成和大數(shù)據。