• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于交通行業(yè)的大數(shù)據(jù)處理平臺應(yīng)用

      2016-10-17 02:42:55曹星艷
      鐵路通信信號工程技術(shù) 2016年2期
      關(guān)鍵詞:弧段數(shù)據(jù)處理站點(diǎn)

      曹星艷

      (北京全路通信信號研究設(shè)計(jì)院集團(tuán)有限公司,北京 100070)

      ?

      基于交通行業(yè)的大數(shù)據(jù)處理平臺應(yīng)用

      曹星艷

      (北京全路通信信號研究設(shè)計(jì)院集團(tuán)有限公司,北京 100070)

      對交通大數(shù)據(jù)平臺架構(gòu)進(jìn)行研究搭建,可支撐PB級的異構(gòu)數(shù)據(jù)管理及復(fù)雜交通業(yè)務(wù)處理,平臺提供開發(fā)API,實(shí)現(xiàn)對數(shù)據(jù)的存儲、查詢、計(jì)算分析;提供類SQL查詢功能,能夠?qū)A繑?shù)據(jù)進(jìn)行方便的查詢;通過虛擬化資源管理和Hadoop分布式并行計(jì)算,實(shí)現(xiàn)基于Hadoop進(jìn)行原型搭建的交通大數(shù)據(jù)處理平臺。

      交通;大數(shù)據(jù)平臺;系統(tǒng)構(gòu)架;技術(shù)實(shí)現(xiàn)

      1 大數(shù)據(jù)處理平臺系統(tǒng)架構(gòu)

      交通大數(shù)據(jù)處理平臺將基于Hadoop進(jìn)行基礎(chǔ)建模,虛擬化技術(shù)和Hadoop分布式并行計(jì)算是該平臺構(gòu)建的兩大核心。

      虛擬化資源管理平臺是基于XEN虛擬化技術(shù)開發(fā)的一個(gè)平臺,該平臺主要包括系統(tǒng)管理、資源管理、安全機(jī)制、智能調(diào)度、日志查看等幾個(gè)核心模塊。系統(tǒng)管理包括虛擬機(jī)模板管理性能監(jiān)控和遠(yuǎn)程接入管理。虛擬機(jī)模板管理主要用于快速定制和安裝業(yè)務(wù)系統(tǒng),即通過現(xiàn)有物理機(jī)或虛擬機(jī)中存在的生產(chǎn)環(huán)境或試驗(yàn)環(huán)境進(jìn)行智能化的模板備份;資源管理包括虛擬機(jī)生命周期管理、物理機(jī)生命周期管理和云存儲管理等基礎(chǔ)模塊;安全管理包括用戶角色管理、統(tǒng)一授權(quán)管理和安全審計(jì)管理;智能調(diào)度則包含資源均衡遷移、省電模式遷移和彈性擴(kuò)充3個(gè)模塊。

      Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會開發(fā),用戶可以在不了解分布式底層細(xì)節(jié)的情況下開發(fā)分布式程序,充分利用集群的威力高速運(yùn)算和存儲Hadoop,包括多個(gè)子項(xiàng)目,但主要由分布式存儲HDFS、分布式計(jì)算MapReduce兩個(gè)基礎(chǔ)部分組成。其典型基本部署架構(gòu)如圖1所示。

      交通行業(yè)數(shù)據(jù)的功能主要是完成數(shù)據(jù)多元化存儲、可視化管理和運(yùn)行監(jiān)測、對海量數(shù)據(jù)的處理、快速實(shí)現(xiàn)數(shù)據(jù)接入和共享交換的需求以及數(shù)據(jù)安全。

      2 大數(shù)據(jù)處理平臺系統(tǒng)功能

      2.1數(shù)據(jù)存儲

      分布式存儲是目前大數(shù)據(jù)存儲的主流方式,多采用普通硬件設(shè)備作為基礎(chǔ),主要解決數(shù)據(jù)的可擴(kuò)展性、數(shù)據(jù)的一致性、全局命名空間、緩存等技術(shù)問題。分為C/S架構(gòu)和P2P架構(gòu)。海量數(shù)據(jù)分布式存儲可存儲多源異構(gòu)的交通數(shù)據(jù)(包括結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)),支持PB級數(shù)據(jù)規(guī)模,通過簡單增加硬件的條件實(shí)現(xiàn)存儲容量的擴(kuò)展,能方便的刪除、遷移歷史數(shù)據(jù),針對大量小文件例如海量圖片提供優(yōu)化的存儲,能夠?qū)崿F(xiàn)數(shù)據(jù)按照某分類標(biāo)準(zhǔn)進(jìn)行方便的分類存儲,能夠?qū)崿F(xiàn)數(shù)據(jù)的快速查詢讀取,單個(gè)小文件定位應(yīng)在ms級別,讀取在s級。

      2.1.1Hadoop 框架

      Hadoop是由HDFS、Mapreduce、Hbase、Hive和Zookeeper等組成。其中,核心組成部分是HDFS和Mapreduce。一個(gè)是分布式文件系統(tǒng),一個(gè)是分布式處理模式和執(zhí)行環(huán)境。其余的是數(shù)據(jù)庫以及數(shù)據(jù)倉庫等。

      2.1.2HDFS分布式文件系統(tǒng)

      HDFS( Hadoop Distributed File System),是一個(gè)高度容錯(cuò)的分布式系統(tǒng),適合大文件的存儲,交通行業(yè)有很多歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù),這個(gè)分布系統(tǒng)可以滿足PB級的大文件。系統(tǒng)架構(gòu)采用Master/Slave,其中NameNode對內(nèi)可以維護(hù)元數(shù)據(jù),對外可實(shí)現(xiàn)創(chuàng)建、打開、刪除和重命名功能,DateNote可存儲數(shù)據(jù)并負(fù)責(zé)數(shù)據(jù)的讀寫和處理請求。

      2.1.3MapReduce

      MapReduce是一種軟件架構(gòu)及框架計(jì)算,Map主要完成對數(shù)據(jù)的打散,Reduce完成對數(shù)據(jù)的聚集。對交通行業(yè)的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和應(yīng)用分析,用戶只需要實(shí)現(xiàn)Map和Reduce兩個(gè)接口,即可實(shí)現(xiàn)TB級數(shù)據(jù)的計(jì)算。這種架構(gòu)會把輸入的數(shù)據(jù)集切分成若干獨(dú)立的數(shù)據(jù)塊,用并行的方式完成處理,對輸出的先后進(jìn)行排序,并完成結(jié)果的輸入。

      2.1.4去重

      DEDUPE技術(shù)大量用于數(shù)據(jù)備份系統(tǒng)中,有離線和在線兩種。離線在數(shù)據(jù)的上傳過程中,直接寫到存儲設(shè)備中,當(dāng)用戶數(shù)據(jù)上傳結(jié)束后,再進(jìn)行去重處理,這樣對存儲容量需求沒有進(jìn)行改進(jìn)。在線用戶數(shù)據(jù)上傳到備份系統(tǒng)時(shí),數(shù)據(jù)去重就會發(fā)生,用戶的系統(tǒng)會被分成不同部分,每個(gè)部分被視為一個(gè)塊,每個(gè)塊都會保留成一個(gè)相應(yīng)的指紋,然后通過指紋去查找相應(yīng)塊的存在可能性。

      2.1.5分層存儲

      分層存儲能更好發(fā)揮新的存儲介質(zhì)在讀、寫性能上的優(yōu)勢。分層存儲是集成硬盤和SSD于一體,利用分析訪問數(shù)據(jù)的頻度和智能監(jiān)控,將不同頻度的數(shù)據(jù)靈活實(shí)時(shí)的在不同層級存儲介質(zhì)中,進(jìn)行自動(dòng)或手動(dòng)數(shù)據(jù)遷移。使用頻度高的交通數(shù)據(jù)被遷移到讀、寫性能優(yōu)良的SSD卡上,頻度低的數(shù)據(jù)放在價(jià)格低廉的硬盤矩陣上。

      2.2數(shù)據(jù)交換

      實(shí)現(xiàn)大數(shù)據(jù)平臺和關(guān)系數(shù)據(jù)庫之間的數(shù)據(jù)交換、多種數(shù)據(jù)來源導(dǎo)入到大數(shù)據(jù)平臺中,包含且不限于以下種類:本地文件到大數(shù)據(jù)平臺、FTP文件到大數(shù)據(jù)平臺、Oracle數(shù)據(jù)庫到大數(shù)據(jù)平臺。針對不同導(dǎo)入需求通過配置或者少量開發(fā)可以靈活實(shí)現(xiàn),具有定時(shí)任務(wù)的功能,能夠滿足各種定時(shí)導(dǎo)入數(shù)據(jù)的要求,導(dǎo)入過程保證了數(shù)據(jù)的一致性、完整性,對導(dǎo)入失敗的數(shù)據(jù)能夠進(jìn)行方便的重處理。數(shù)據(jù)交換技術(shù)如圖2所示。

      2.2.1數(shù)據(jù)交換流程

      數(shù)據(jù)交換服務(wù)是本平臺的核心業(yè)務(wù),系統(tǒng)管理模塊的一切功能都是為數(shù)據(jù)交換服務(wù)的,數(shù)據(jù)交換服務(wù)長期駐留內(nèi)存并運(yùn)行,實(shí)時(shí)完成網(wǎng)絡(luò)內(nèi)各用戶、各系統(tǒng)之間的信息交換與共享。

      數(shù)據(jù)交換指共享方與訂閱方之間的信息互通和數(shù)據(jù)交換。一個(gè)訂閱方可以訂閱多個(gè)共享方的共享數(shù)據(jù),同理一個(gè)共享方也會受理多個(gè)訂閱方的訂閱請求。實(shí)際上產(chǎn)生數(shù)據(jù)交換的過程就是共享方向訂閱方發(fā)送數(shù)據(jù)的過程。

      數(shù)據(jù)交換流程如圖3所示,當(dāng)訂閱方訂閱了信息后,共享方輪詢讀取數(shù)據(jù),并對數(shù)據(jù)進(jìn)行封裝,然后發(fā)送給訂閱方,訂閱方接到數(shù)據(jù)后,首先對數(shù)據(jù)進(jìn)行驗(yàn)證、解析、整編,最后將合法數(shù)據(jù)保存(如果驗(yàn)證數(shù)據(jù)不合法,則丟棄并發(fā)送錯(cuò)誤信息給共享方,要求重新發(fā)送),并封裝確認(rèn)信息返回給共享方。共享方在接到回復(fù)后,記錄訂閱概要信息(或重新讀取數(shù)據(jù)進(jìn)行發(fā)送),完成數(shù)據(jù)交換過程。

      2.2.2數(shù)據(jù)交換內(nèi)容

      消息管理。本平臺提供消息管理機(jī)制,統(tǒng)一管理經(jīng)過平臺的一切消息。平臺采用特征驗(yàn)證碼的方式為每條消息加注特征碼,同時(shí)總結(jié)各用戶端傳送消息的特性,分析消息的歸屬類別,根據(jù)消息的特點(diǎn)對消息進(jìn)行分類(如發(fā)送、請求、回復(fù)、接收、報(bào)錯(cuò)等)、整理、預(yù)排序,準(zhǔn)備使用各自的通道進(jìn)行傳輸,避免消息混亂的狀態(tài)發(fā)生。消息的歸類規(guī)則及特征碼信息可以在目錄服務(wù)中進(jìn)行維護(hù)。

      隊(duì)列管理。當(dāng)通過本平臺的請求較多時(shí),如果不對各類消息加以控制會產(chǎn)生資源爭用或并發(fā)沖突的現(xiàn)象,并且可能會出現(xiàn)優(yōu)先級較高的請求反而等待時(shí)間過長現(xiàn)象。因此本平臺采用有效的隊(duì)列管理手段,根據(jù)消息本身的特性優(yōu)先級等信息調(diào)動(dòng)、排列各進(jìn)程,使所有請求有序高效的得以執(zhí)行,從而最大程度的優(yōu)化系統(tǒng)。

      發(fā)送管理。本交換平臺在處理各類數(shù)據(jù)交換與共享請求時(shí),會產(chǎn)生各種信息及數(shù)據(jù)的發(fā)送操作,平臺依據(jù)發(fā)送數(shù)據(jù)包的特征標(biāo)識找到接收方,并首先探測網(wǎng)絡(luò)狀況,許可時(shí)即進(jìn)行發(fā)送操作,并自動(dòng)記錄發(fā)送日志(根據(jù)日志記錄設(shè)置情況而定)。

      接收管理。與發(fā)送管理相對應(yīng),本平臺在接收各用戶傳送過來的信息時(shí),首先驗(yàn)證數(shù)據(jù)包的有效性,有效則接收下來進(jìn)入下一步處理;否則,丟棄此包同時(shí)發(fā)送錯(cuò)誤信息給發(fā)送方,并記錄相關(guān)日志(根據(jù)日志定制部分的設(shè)置而定)。

      封裝解析。封裝是指數(shù)據(jù)在發(fā)送之前進(jìn)行的加密、壓縮、封裝過程。平臺對準(zhǔn)備發(fā)送的數(shù)據(jù)按一定規(guī)則加密壓縮后,進(jìn)行封裝,并且一個(gè)數(shù)據(jù)包的大小是固定的(參見其他參數(shù)設(shè)置部分)。當(dāng)欲傳送數(shù)據(jù)大于規(guī)定包的大小時(shí),系統(tǒng)自動(dòng)將數(shù)據(jù)分成多個(gè)包進(jìn)行傳送,并記錄各個(gè)包之間的先后關(guān)系,同時(shí)在包中加入明顯的可供驗(yàn)證的標(biāo)記。

      解析即是接收方在接收到對方傳來的數(shù)據(jù)包后,對數(shù)據(jù)包進(jìn)行規(guī)則解密,驗(yàn)證數(shù)據(jù)的有效性,通過后即可整編保存數(shù)據(jù)。

      2.2.3數(shù)據(jù)整編

      數(shù)據(jù)接收并經(jīng)解析后,要根據(jù)數(shù)據(jù)特性標(biāo)識進(jìn)行整編、再分析、歸類、關(guān)聯(lián)計(jì)算及相關(guān)轉(zhuǎn)換處理,然后準(zhǔn)備保存。數(shù)據(jù)整編主要指對經(jīng)過解析檢驗(yàn)的數(shù)據(jù)進(jìn)行歸類、按數(shù)據(jù)類型對應(yīng)關(guān)系進(jìn)行轉(zhuǎn)換處理的過程。

      2.2.4數(shù)據(jù)保存

      整編無誤的數(shù)據(jù)即可以保存到目的數(shù)據(jù)庫的相關(guān)表內(nèi),完成數(shù)據(jù)交換的整個(gè)流程,并記錄相關(guān)日志(依據(jù)日志設(shè)置而定)。數(shù)據(jù)保存處理流程如圖4所示。

      2.3 數(shù)據(jù)查詢

      基于海量數(shù)據(jù)存儲模型,進(jìn)行二級索引優(yōu)化查詢速度,提供類SQL、API兩種查詢方式,API應(yīng)具有更高的效率、類SQL應(yīng)具有更強(qiáng)的易用性,對類SQL查詢支持對分布式存儲的文件,按照索引鍵值進(jìn)行查詢。

      2.4數(shù)據(jù)計(jì)算

      數(shù)據(jù)計(jì)算完成平臺提供的各種并行處理能力,實(shí)現(xiàn)對海量交通數(shù)據(jù)、多種計(jì)算模型的分析統(tǒng)計(jì)。2.4.1 MapReduce模式

      MapReduce的計(jì)算模式主要有兩個(gè)階段,Map階段和Reduce階段,并定義了相應(yīng)的函數(shù)來處理大數(shù)據(jù)集,這個(gè)計(jì)算過程就是將大數(shù)據(jù)集分解成若干個(gè)小數(shù)據(jù)集,每個(gè)數(shù)據(jù)集分別由集群中的一個(gè)節(jié)點(diǎn)進(jìn)行處理并生成中間結(jié)果,中間結(jié)果又有大量的結(jié)點(diǎn)進(jìn)行合并,形成最終結(jié)果。并行編寫定制數(shù)據(jù)處理功能中的很多問題,如分布式存儲、工作調(diào)度、負(fù)載平衡、網(wǎng)絡(luò)通信等都由MapReduce負(fù)責(zé)處理,非常智能和靈活。

      多個(gè)Reduce任務(wù)的MapReduc數(shù)據(jù)流程如圖5所示。

      計(jì)算模型的核心是Map和Reduce兩個(gè)函數(shù),由程序員負(fù)責(zé)實(shí)現(xiàn),按照一定的影射規(guī)則,將輸入的<key,value>對轉(zhuǎn)換成另一個(gè)<key,value>對輸出。

      2.4.2MapReduce的總體執(zhí)行流程分析

      MapReduce的系統(tǒng)執(zhí)行流程,依次為分割文件、指派任務(wù)、用戶調(diào)用MapReduce的執(zhí)、讀取、本地寫入、遠(yuǎn)程讀寫、寫到輸出文件、返回,如圖6所示。

      3 交通大數(shù)據(jù)處理平臺

      數(shù)據(jù)預(yù)處理是通過交通大數(shù)據(jù)處理平臺從大量的數(shù)據(jù)中提取出對目標(biāo)有重要影響的數(shù)據(jù)以免產(chǎn)生原始數(shù)據(jù)的冗余,或是處理一些無效數(shù)據(jù),從而改善數(shù)據(jù)質(zhì)量和提高數(shù)據(jù)分析的速度,數(shù)據(jù)預(yù)處理的內(nèi)容包括數(shù)據(jù)篩選、數(shù)據(jù)變換和數(shù)據(jù)歸約等,且數(shù)據(jù)預(yù)處理的結(jié)果是由數(shù)據(jù)分析目的決定的。

      數(shù)據(jù)集成主要是通過交通大數(shù)據(jù)處理平臺將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理。該環(huán)節(jié)主要包括數(shù)據(jù)的選擇、數(shù)據(jù)的沖突問題以及數(shù)據(jù)不一致的處理。由于數(shù)據(jù)可能來自多個(gè)系統(tǒng),所以存在異構(gòu)數(shù)據(jù)的轉(zhuǎn)換問題;另外,多個(gè)數(shù)據(jù)源的數(shù)據(jù)之間,還存在許多的不一致,如命名、結(jié)構(gòu)、單位、含義等。因此,數(shù)據(jù)集成并非是簡單的數(shù)據(jù)合并,而是把數(shù)據(jù)進(jìn)行統(tǒng)一化和規(guī)范化處理的復(fù)雜過程。它需要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義、異名同義、單位不統(tǒng)一、字長不一致等,從而把原始數(shù)據(jù)在最低層次上加以轉(zhuǎn)換、提煉和聚集,形成最初始的挖掘數(shù)據(jù)。

      3.1交通行業(yè)數(shù)據(jù)處理的主要功能

      對交通大數(shù)據(jù)處理平臺進(jìn)行架構(gòu),可支撐PB級的異構(gòu)數(shù)據(jù)管理及復(fù)雜交通業(yè)務(wù)處理,平臺提供開發(fā)API,實(shí)現(xiàn)對數(shù)據(jù)的存儲、查詢、計(jì)算分析;提供類SQL查詢功能,能夠?qū)A繑?shù)據(jù)進(jìn)行方便的查詢;通過靈活配置等能夠?qū)崿F(xiàn)不同查詢需求最優(yōu)的查詢速度,精確查詢可達(dá)到ms、s級別。模糊查詢、多條件查詢根據(jù)數(shù)據(jù)量大小、集群規(guī)模等不同,可以達(dá)到s級、min級響應(yīng),大規(guī)模數(shù)據(jù)分析、復(fù)雜模型算法等可以允許更長的響應(yīng)時(shí)間。

      提供對集群最基本的狀態(tài)監(jiān)控功能,能夠滿足日常維護(hù)需求。監(jiān)控內(nèi)容應(yīng)至少包含:整體狀態(tài)、總體數(shù)據(jù)量、存儲空間使用情況、數(shù)據(jù)分布情況、動(dòng)態(tài)的資源使用情況。

      為保證系統(tǒng)的高可靠性,對平臺中的關(guān)鍵節(jié)點(diǎn)提供HA方案,故障切換時(shí)間要控制在min級別,10 min以內(nèi)。自動(dòng)監(jiān)控故障發(fā)生,切換過程要自動(dòng)完成,不需要人工干預(yù)。

      交通行業(yè)數(shù)據(jù)的處理可以解決跨越行政區(qū)域的限制、智能的配置交通資源、提高交通運(yùn)行速率、提高交通預(yù)測水平、提高環(huán)境監(jiān)測水平等。

      3.2公交線網(wǎng)基礎(chǔ)數(shù)據(jù)準(zhǔn)備

      公交站點(diǎn)聚合與線路匹配。把相同站名的站點(diǎn)位置坐標(biāo)統(tǒng)一,每個(gè)獨(dú)立站點(diǎn)單方向有且僅有唯一的坐標(biāo)位置;基于A*搜索算法,檢索公交行駛路徑;對每條公交運(yùn)行線路進(jìn)行校核,以線路實(shí)際運(yùn)行的路徑為參照,確保線路運(yùn)行軌跡正確,運(yùn)行弧段號正確并且連貫,保證線路的完整性;并根據(jù)線路的站點(diǎn)位置與線路運(yùn)行信息,計(jì)算線路相鄰站點(diǎn)間的距離。

      3.3公交定位數(shù)據(jù)預(yù)處理

      1)按照車輛編號、時(shí)間順序提取定位數(shù)據(jù)文件。

      2)車輛定位數(shù)據(jù)轉(zhuǎn)換與坐標(biāo)偏移。將原始定位數(shù)據(jù)的時(shí)間格式由格林威治時(shí)間轉(zhuǎn)換為北京時(shí)間、經(jīng)緯度轉(zhuǎn)換為WGS-84,再將經(jīng)緯度由WGS-84偏移匹配為公用地圖坐標(biāo)。

      3)地圖匹配,并判斷定位數(shù)據(jù)GPS坐標(biāo)是否合法。按照線路、車輛分組,生成每車輛GPS文件,結(jié)合坐標(biāo)位置信息,逐一匹配到地圖,并判斷GPS坐標(biāo)是否合法。

      4)按照GPS坐標(biāo)搜索“最短距離”,定位車輛所在弧段具體位置。假定車輛行駛方向?yàn)?(環(huán)路不需要假定,僅一個(gè)方向),匹配該點(diǎn)所在線路的弧段編號和弧段位置, 按照指定線路方向進(jìn)行全弧段序列匹配,弧段垂直距離最小者為該點(diǎn)所在弧段,如果最小值大于設(shè)定的閾值,則認(rèn)為該數(shù)據(jù)為無效數(shù)據(jù)。

      5)計(jì)算公交車定位數(shù)據(jù)與弧段起始點(diǎn)的距離,計(jì)算位于弧段的百分比位置車輛行駛軌跡。在最小垂直距離的基礎(chǔ)上計(jì)算出公交車定位數(shù)據(jù)與弧段起始點(diǎn)的距離,以及位于弧段的百分比位置,從而將公交車定位數(shù)據(jù)匹配到相應(yīng)弧段上,確定車輛行駛軌跡。如果GPS位置無法匹配成功某個(gè)弧段,則將該點(diǎn)記錄匹配不成功弧段列表,對于非環(huán)路線路,連續(xù)匹配不成功GPS點(diǎn)數(shù)量大于4時(shí),則調(diào)換線路方向,重新匹配所有GPS點(diǎn)序列,以適應(yīng)線路雙向異路的情況。

      6)根據(jù)線路的方向1路徑走向,判斷所經(jīng)過弧段是否連續(xù),進(jìn)行弧段彌補(bǔ)。

      由于公交車運(yùn)行在城市中,而城市高樓的遮擋和反射是造成測量誤差的重要原因之一。同時(shí),在林蔭路、隧道及立交橋下行駛時(shí),很容易發(fā)生數(shù)據(jù)丟失的情況。此外,公交定位數(shù)據(jù)每隔30 s回傳一次,由于采樣頻率設(shè)定的間隔較大,也會發(fā)生匹配弧段不連續(xù)情況。

      因此,如果兩點(diǎn)所在弧段不連續(xù),則進(jìn)行彌補(bǔ),計(jì)算兩點(diǎn)間線路距離,弧段上如有站點(diǎn),則認(rèn)為車輛行駛過一站點(diǎn),確認(rèn)該弧段為站點(diǎn)弧段,并根據(jù)站點(diǎn)位置計(jì)算到站時(shí)間,弧段上沒有站點(diǎn),則計(jì)算進(jìn)入弧段時(shí)間。滿足以下兩個(gè)條件的數(shù)據(jù),不進(jìn)行弧段彌補(bǔ):

      兩點(diǎn)時(shí)間間隔如果超出設(shè)定的閾值,則廢棄該點(diǎn)前所有數(shù)據(jù)。

      計(jì)算兩點(diǎn)間直線距離,如果兩點(diǎn)直線距離行駛速度大于等于設(shè)定的速度值,則廢棄該點(diǎn)數(shù)據(jù),認(rèn)為該點(diǎn)偏移較大,為飛點(diǎn)。

      7)判斷該GPS點(diǎn)所在弧段是否站點(diǎn)弧段。對于首站的GPS點(diǎn)如果離開站點(diǎn)在一定距離內(nèi)時(shí),則認(rèn)為該點(diǎn)弧段仍為首站站點(diǎn)弧段,該點(diǎn)時(shí)間為到站時(shí)間。對于中途的GPS點(diǎn)只有該點(diǎn)在弧段的位置比例大于等于站點(diǎn)位置比例,方可認(rèn)定該點(diǎn)弧段為站點(diǎn)弧段,并根據(jù)線路距離計(jì)算到站時(shí)間。

      8)基于所駛過站點(diǎn)進(jìn)行車輛行駛方向判別,確定是公交行駛方向。若公交車定位數(shù)據(jù)已經(jīng)經(jīng)過的兩個(gè)站點(diǎn)的站點(diǎn)編號是順序排列的,則計(jì)算的公交行駛方向正確;若站點(diǎn)編號是倒序,則公交行駛方向錯(cuò)誤。需要改變匹配線路方向,按照之前的方法重新計(jì)算所有公交車定位數(shù)據(jù),重新進(jìn)行定位,以確定正確的方向。

      9)公交定位數(shù)據(jù)預(yù)處理結(jié)果輸出。以兩相鄰公交站點(diǎn)間路徑為基本處理單位,通過數(shù)據(jù)的預(yù)處理,計(jì)算得到各車輛每個(gè)站點(diǎn)的到站時(shí)間,即每個(gè)站點(diǎn)區(qū)間的起始時(shí)間和結(jié)束時(shí)間,以數(shù)據(jù)表的形式輸出,再導(dǎo)入到數(shù)據(jù)庫中,作為公交運(yùn)送速度計(jì)算或與其他類別公共交通數(shù)據(jù)匹配的基礎(chǔ)。

      4 結(jié)束語

      基于交通行業(yè)的大數(shù)據(jù)處理平臺通過Hadoop基礎(chǔ)架構(gòu),利用交通大數(shù)據(jù)處理驗(yàn)證平臺,實(shí)現(xiàn)交通行業(yè)的數(shù)據(jù)存儲、數(shù)據(jù)交換、數(shù)據(jù)查詢和數(shù)據(jù)計(jì)算的功能。

      [1]周寶曜,劉偉,范承工.大數(shù)據(jù)[M].北京:電子工業(yè)出版社,2013.

      [2]楊正洪.智慧城市—大數(shù)據(jù)、物聯(lián)網(wǎng)和云計(jì)算之應(yīng)用[M].北京:清華大學(xué)出版社,2014.

      The paper introduces how to build a big data platform architecture for traffic industry. The platform can support the PB-level heterogeneous data management and complex transportation business processing, provide API development, and can fulfi ll data storage, query, calculation and analysis. It also can provide SQL-like query function for conveniently query mass data. The Hadoop-based big data processing platform is built through the virtual resource management and Hadoop distributed parallel computing. Keywords: traffi c; big data platform; system architecture; technology

      10.3969/j.issn.1673-4440.2016.02.020

      2014-06-11)

      猜你喜歡
      弧段數(shù)據(jù)處理站點(diǎn)
      一種航天測控冗余跟蹤弧段處理方法
      上海航天(2024年1期)2024-03-08 02:52:28
      基于改進(jìn)弧段切點(diǎn)弦的多橢圓檢測
      認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
      面向工業(yè)復(fù)雜場景的合作靶標(biāo)橢圓特征快速魯棒檢測
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
      基于Web站點(diǎn)的SQL注入分析與防范
      電子制作(2019年14期)2019-08-20 05:43:42
      2017~2018年冬季西北地區(qū)某站點(diǎn)流感流行特征分析
      首屆歐洲自行車共享站點(diǎn)協(xié)商會召開
      中國自行車(2017年1期)2017-04-16 02:53:52
      怕被人認(rèn)出
      故事會(2016年21期)2016-11-10 21:15:15
      基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
      彰武县| 天津市| 墨玉县| 六盘水市| 蒙山县| 电白县| 淮滨县| 东乌珠穆沁旗| 玉屏| 临泽县| 雷州市| 东山县| 西峡县| 明光市| 务川| 高雄县| 上杭县| 马尔康县| 潜江市| 饶阳县| 武隆县| 日照市| 岚皋县| 黄石市| 通海县| 杭州市| 耿马| 元朗区| 营山县| 大邑县| 茂名市| 叶城县| 漳浦县| 龙游县| 仙居县| 宿迁市| 定日县| 习水县| 进贤县| 丽水市| 阿尔山市|