潘 瑩 徐文潔 顏彥文 趙時旻
(1.萬達信息股份有限公司,201103,上海;2.上海久譽軟件系統(tǒng)有限公司,201103,上海;3.上海申通地鐵集團有限公司,201103,上海 ∥ 第一作者,工程師)
城市軌道交通數(shù)據(jù)是交通信息資源的重要組成,蘊含了大量有價值的信息。然而,城市軌道交通經(jīng)過多年的發(fā)展,其數(shù)據(jù)內(nèi)容、形式復(fù)雜多樣,數(shù)據(jù)資源的結(jié)構(gòu)劃分、資源描述以及資源目錄服務(wù)缺乏統(tǒng)一的行業(yè)標準,極大地影響了其數(shù)據(jù)資源的價值利用。因此,建立一套有效、合理的城市軌道交通大數(shù)據(jù)資源目錄,能夠促進數(shù)據(jù)資源的有效組織和準確描述,幫助打破城市軌道交通信息系統(tǒng)建設(shè)中出現(xiàn)的信息孤島現(xiàn)象,促進城市交通大數(shù)據(jù)的業(yè)務(wù)融合,提升智慧交通的服務(wù)水平。
關(guān)于數(shù)據(jù)資源目錄構(gòu)建,我國交通行業(yè)主管部門已頒布過一系列行業(yè)標準和指導(dǎo)意見。2017年交通運輸部辦公廳發(fā)布了《交通運輸政務(wù)信息資源目錄編制指南(試行)》[1](以下簡為《目錄編制指南》),對資源目錄編制進行指導(dǎo);2020年交通運輸部發(fā)布行業(yè)標準JT/T 747.3—2020《 交通運輸信息資源目錄體系 第3部分:核心元數(shù)據(jù)》[2](以下簡為《核心元數(shù)據(jù)》),規(guī)定了核心元數(shù)據(jù)的描述方法、數(shù)據(jù)內(nèi)容、擴展要求及值域代碼。上述標準從元數(shù)據(jù)描述、資源分類方法以及共享機制等層面為資源目錄構(gòu)建提供借鑒和指導(dǎo),但目前針對大數(shù)據(jù)資源以及城市軌道交通細分行業(yè)尚無詳細的標準規(guī)范。因此,需深入探討城市軌道交通大數(shù)據(jù)資源目錄構(gòu)建所面臨的具體問題,研究構(gòu)建方案,并提出解決思路。
城市軌道交通大數(shù)據(jù)具有數(shù)據(jù)量大、種類繁多、各業(yè)務(wù)口徑定義復(fù)雜等特征。因此,大數(shù)據(jù)資源目錄構(gòu)建過程中存在以下問題和難點。
城市軌道交通大數(shù)據(jù)的內(nèi)容復(fù)雜,應(yīng)用場景豐富,不同資源目錄構(gòu)建人員往往僅從各自應(yīng)用的角度對數(shù)據(jù)進行目錄劃分和定義。表1為城市軌道交通大數(shù)據(jù)資源的分類。
表1中的數(shù)據(jù)狀態(tài)、數(shù)據(jù)來源、數(shù)據(jù)格式、數(shù)據(jù)安全、業(yè)務(wù)對象、業(yè)務(wù)領(lǐng)域、管理目標及數(shù)據(jù)服務(wù)等維度對于不同的構(gòu)建人員有著不同的分類和定義側(cè)重。業(yè)務(wù)人員更關(guān)注于快速獲取業(yè)務(wù)領(lǐng)域數(shù)據(jù),信息人員關(guān)注于數(shù)據(jù)質(zhì)量安全分析數(shù)據(jù),而管理人員則關(guān)注管理目標分析預(yù)警數(shù)據(jù)。不同的關(guān)注側(cè)重導(dǎo)致了數(shù)據(jù)分類內(nèi)容的差異性,也造成了同一資源在不同分類中交叉覆蓋、編碼規(guī)范各異等問題。資源目錄分類難以統(tǒng)一,造成用戶的資源視圖不清晰,影響用戶查詢和檢索資源的效率,降低大數(shù)據(jù)資源目錄共享水平。
表1 城市軌道交通大數(shù)據(jù)資源的分類
大數(shù)據(jù)資源特征的描述是資源共享和交互的基礎(chǔ)。在大數(shù)據(jù)時代,借助于元數(shù)據(jù)了解數(shù)據(jù)元素含義和上下文的需求越來越強烈。當前國際通用元數(shù)據(jù)標準主要有美國國家信息標準協(xié)會(NISO)的都柏林核心元素集和W3C(萬維網(wǎng)聯(lián)盟)發(fā)布的DCAT(數(shù)據(jù)目錄詞匯表)正式推薦標準?!赌夸浘幹浦改稀诽岢觯诵脑獢?shù)據(jù)包括必選項、可選項及擴展項等3部分。其中,必選項包括信息資源分類、信息資源名稱、信息資源代碼、信息資源提供方、信息資源提供方代碼、來源系統(tǒng)、信息資源摘要、信息資源格式、信息項信息、共享屬性、共享方式、開放屬性、更新周期及發(fā)布日期;可選項主要包括來源數(shù)據(jù)庫、信息資源格式、信息項信息、開放屬性、關(guān)聯(lián)資源代碼及數(shù)據(jù)元編號;擴展項指根據(jù)目錄編制單位的實際情況和需要添加的元數(shù)據(jù)項。《目錄編制指南》聚焦交通運輸政務(wù)信息資源描述普適性、通用性標準,但無法詳細全面地描述城市軌道交通大數(shù)據(jù)資源及行業(yè)特征,因此,造成了城市軌道交通行業(yè)的數(shù)據(jù)資源無法實現(xiàn)更好地共享和交互。
城市軌道交通大數(shù)據(jù)服務(wù)范圍不僅僅包括企業(yè)用戶、行業(yè)用戶,還涉及公共服務(wù)用戶以及大數(shù)據(jù)研究者等專業(yè)用戶。服務(wù)的內(nèi)容、模式主要歸納為4個層面:
1) 企業(yè)服務(wù)層。企業(yè)服務(wù)層主要面向企業(yè)內(nèi)部用戶。企業(yè)內(nèi)部大數(shù)據(jù)應(yīng)用將依托核心業(yè)務(wù)領(lǐng)域開展,如運營評估與應(yīng)急、客流分析及預(yù)測、資產(chǎn)設(shè)備狀態(tài)與監(jiān)控、乘客行為分析以及線路規(guī)劃等方面。企業(yè)通過大數(shù)據(jù)分析和處理技術(shù),挖掘和使用數(shù)據(jù)資源,精準掌握業(yè)務(wù)狀態(tài)、發(fā)展規(guī)律及趨勢,形成大數(shù)據(jù)驅(qū)動的業(yè)務(wù)創(chuàng)新模式,服務(wù)于安全、效率、服務(wù)等各項關(guān)鍵績效指標。
2) 行業(yè)服務(wù)層。行業(yè)服務(wù)層主要面向政府及行業(yè)主管部門、聯(lián)動單位。主管部門關(guān)注行業(yè)創(chuàng)新、地域規(guī)劃開發(fā)的統(tǒng)籌協(xié)調(diào)、民生關(guān)懷等內(nèi)容。政府及行業(yè)主管單位對城市軌道交通規(guī)劃、建設(shè)、運營等大數(shù)據(jù)進行分析和研究,指導(dǎo)行業(yè)的健康發(fā)展。聯(lián)動單位需要及時共享天氣、客流、輿情、聯(lián)動任務(wù)等公共信息,提升城市整體協(xié)作水平,助力智慧城市建設(shè)。
3) 公共服務(wù)層。公眾服務(wù)層主要面向乘客和供應(yīng)商。乘客需要在出行場景中獲取持續(xù)的大數(shù)據(jù)服務(wù),如線路推薦、候車預(yù)測、LBS(基于位置的服務(wù))、出行建議及安全提示等。供應(yīng)商需要獲取或定制招投標信息、實時動態(tài)資訊服務(wù)。
4) 專業(yè)服務(wù)層。專業(yè)服務(wù)層主要面向?qū)I(yè)的大數(shù)據(jù)研究機構(gòu)或者人員。城市軌道交通大數(shù)據(jù)蘊含極大的價值,需要該產(chǎn)業(yè)鏈上下游單位及專業(yè)研究者的協(xié)作開發(fā)。大數(shù)據(jù)研究機構(gòu)或人員往往關(guān)注如何獲取樣本數(shù)據(jù)、開放算法或者可共享的分析成果及案例等。
綜上所述,大數(shù)據(jù)背景下城市軌道交通大數(shù)據(jù)資源服務(wù)的范圍、內(nèi)容及模式發(fā)生了巨大改變。大數(shù)據(jù)資源目錄服務(wù)體系需進一步完善和深化,從而為用戶提供更加便捷、安全和個性化的服務(wù)。
為解決城市軌道交通大數(shù)據(jù)資源目錄構(gòu)建工作所面臨的一系列難點,本文在借鑒相關(guān)標準的基礎(chǔ)上,從資源分類及編碼定義、核心元數(shù)據(jù)定義及資源目錄服務(wù)定義等方面進行探討。
信息資源分類的方法一般采用混合分類法。如《目錄編制指南》采用混合分類法時,以信息資源涉及的行業(yè)管理及其業(yè)務(wù)范圍作為兩個基本分類依據(jù),并在業(yè)務(wù)范圍內(nèi)從管理對象、行為主題和信息類別等3個不同維度進行信息分類[1]。混合分類有利于數(shù)據(jù)資源按不同維度進行組織,從而提升大數(shù)據(jù)資源的可用性,滿足不同用戶獲得相應(yīng)資源以及應(yīng)用不同場景的需求。
借鑒混合分類框架,結(jié)合城市軌道交通行業(yè)大數(shù)據(jù)資源特征對數(shù)據(jù)進行分類。隨著城市軌道交通的發(fā)展,管理者對地鐵運營安全、運維效率和服務(wù)質(zhì)量越來越重視[3],因此,管理決策者需對資源進行跨行業(yè)整合,以便從大數(shù)據(jù)資源中挖掘有價值的信息,賦能企業(yè)發(fā)展。城市軌道交通大數(shù)據(jù)資源,不僅匯聚融合行業(yè)及關(guān)聯(lián)數(shù)據(jù)本身,還包括支撐大數(shù)據(jù)常用工具、算法以及分析成果和知識供不同的用戶使用。該類資源無法簡單地用現(xiàn)有信息類別中的“統(tǒng)計信息”來描述。因此,大數(shù)據(jù)資源目錄分類需在《目錄編制指南》行業(yè)管理及業(yè)務(wù)范圍兩個基本分類依據(jù)上進行完善,通過增加大數(shù)據(jù)資源服務(wù)類維度來擴展原有信息分類的范圍(見圖1)。
圖1 城市軌道大數(shù)據(jù)資源分類維度
如圖1所示,行業(yè)管理維度中城市軌道交通大數(shù)據(jù)資源屬于城市交通行業(yè)中的城市軌道交通管理分類;業(yè)務(wù)管理維度中建議增加綜合監(jiān)管分類,用于描述管理者關(guān)注的企業(yè)綜合運行信息;而大數(shù)據(jù)資源服務(wù)維度則是對大數(shù)據(jù)的各類成果工具、算法、成果及知識等進行標識,從而促進大數(shù)據(jù)向業(yè)務(wù)驅(qū)動轉(zhuǎn)化?;诖朔诸愃悸?,本文設(shè)計的城市軌道交通大數(shù)據(jù)資源可按照類-項-目-細目進行細化(見圖2)。
圖2 城市軌道大數(shù)據(jù)資源分類模型
城市軌道交通行業(yè)資源分類編碼是數(shù)據(jù)資源共享的基礎(chǔ),采用現(xiàn)有交通行業(yè)的資源分類標準編碼有利于提升城市軌道交通大數(shù)據(jù)資源的辨識度,從而解決跨行業(yè)高效共享的問題,因此,行業(yè)分類、管理對象、業(yè)務(wù)主題的編碼采用《目錄編制指南》中規(guī)定的標準編碼,大數(shù)據(jù)服務(wù)資源類采用自定義編碼。為了解決分類編碼不同但資源相同的問題,在元數(shù)據(jù)描述中增加“關(guān)聯(lián)資源代碼”,建立不同編碼間的關(guān)聯(lián)鏈接。
為了使大數(shù)據(jù)資源的描述更加全面準確,建議從現(xiàn)有的《核心元數(shù)據(jù)》標準及擴展原則出發(fā),圍繞城市軌道交通大數(shù)據(jù)關(guān)鍵特征,以能準確而全面地描述城市軌道交通大數(shù)據(jù)資源為目標,來彌補核心元數(shù)據(jù)中大數(shù)據(jù)及城市軌道交通特征描述的不足。
在大數(shù)據(jù)特征上,城市軌道交通大數(shù)據(jù)具備典型的4V特點:①數(shù)量巨大(Volume),如客流、列車運營等動態(tài)實時類數(shù)據(jù)數(shù)量巨大;②數(shù)據(jù)復(fù)雜多樣(Variety),如數(shù)據(jù)格式多樣、結(jié)構(gòu)不一、存儲分散;③對數(shù)據(jù)實時性(Velocity)要求較高,如設(shè)備異常狀態(tài)需及時反饋至指揮人員;④城市軌道交通的價值密度低但價值高(Value),決策人員需要從海量數(shù)據(jù)中獲取分析或進行預(yù)測。
隨著大數(shù)據(jù)的廣泛應(yīng)用,數(shù)據(jù)的擁有者和管理者分離,其生命周期變?yōu)楫a(chǎn)生、傳輸、存儲及使用[4],因此,城市軌道交通大數(shù)據(jù)在質(zhì)量、安全、隱私及服務(wù)等方面的描述需求變得日益突出。在原有核心元數(shù)據(jù)描述中的“來源系統(tǒng)”中定義了數(shù)據(jù)源的定義,大數(shù)據(jù)的資源有可能是多源系統(tǒng)匯聚后的成果,所以需要標識是否為多源數(shù)據(jù)、數(shù)據(jù)來源的標簽等。針對數(shù)據(jù)的質(zhì)量,大數(shù)據(jù)資源目錄描述一般為清洗后的數(shù)據(jù),對于數(shù)據(jù)質(zhì)量本身的描述較少,資源使用人員對獲取數(shù)據(jù)的質(zhì)量無從了解,影響數(shù)據(jù)使用的效果,建議增加精確性、完整性、有效性及清洗的程度等類別來描述數(shù)據(jù)的質(zhì)量;針對隱私安全信息,《核心元數(shù)據(jù)》通過“共享屬性”、“共享方式”、“開放屬性”等進行描述,但是上述信息還不夠完善,建議增加隱私的條例、加密等具體描述,確保數(shù)據(jù)資源的安全性描述更加精細。在數(shù)據(jù)服務(wù)屬性方面,隨著未來大數(shù)據(jù)服務(wù)更加深入和廣泛的應(yīng)用,該項服務(wù)將被不確定的用戶進行封裝和調(diào)用,數(shù)據(jù)服務(wù)的屬性需要確保唯一的標志,同時其服務(wù)內(nèi)容、服務(wù)許可、服務(wù)質(zhì)量等信息需進一步描述。
在行業(yè)特征上,城市軌道交通大數(shù)據(jù)具備復(fù)雜的時空屬性、動態(tài)性、周期性等特征[5]。例如,若空間參照系不同,地鐵車站、線網(wǎng)、列車動態(tài)運營等數(shù)據(jù)資源將無法有效疊加應(yīng)用,因此,可以沿用《核心元數(shù)據(jù)》中的“時間范圍信息”并擴展“坐標系信息"等空間屬性對城市軌道交通基礎(chǔ)空間對象進行描述。屬性對城市軌道交通基礎(chǔ)空間對象進行描述。此外,城市軌道交通大數(shù)據(jù)和外部多源異構(gòu)數(shù)據(jù)相關(guān)性較大,如地鐵客流預(yù)測服務(wù)需要考慮和天氣、節(jié)假日、時段、站點位置、外部重大活動等外部多源異構(gòu)數(shù)據(jù)的相關(guān)性。與客流預(yù)測相關(guān)的大數(shù)據(jù)資源服務(wù)進行描述時需要描述關(guān)聯(lián)主題,以便資源使用者可以清晰地了解和預(yù)測模型的運行影響參數(shù)。因此,本文融合大數(shù)據(jù)和城市軌道交通行業(yè)數(shù)據(jù)資源特征對核心元數(shù)據(jù)進行擴展,確保用戶在利用大數(shù)據(jù)資源時,能夠清晰地了解數(shù)據(jù)資源的細節(jié)(見表2)。
表2 城市軌道大數(shù)據(jù)核心元數(shù)據(jù)擴展屬性
大數(shù)據(jù)背景下,數(shù)據(jù)服務(wù)模式已經(jīng)發(fā)生了改變,原始數(shù)據(jù)查看和下載以及基礎(chǔ)性服務(wù)接口,已經(jīng)無法滿足未來大數(shù)據(jù)的應(yīng)用場景,因此,需要定義一套有效、合理的資源目錄服務(wù)以支撐大數(shù)據(jù)服務(wù)模式。對于資源目錄服務(wù),一方面,各類用戶需要定制化、專業(yè)化及方便靈活的數(shù)據(jù)資源服務(wù);另一方面,管理者需要應(yīng)對大數(shù)據(jù)帶來的安全、隱私等問題帶來的挑戰(zhàn),制定管理制度確保資源目錄體系持續(xù)、有效、規(guī)范地運行。
大數(shù)據(jù)服務(wù)是一種數(shù)據(jù)使用模式,是在對大數(shù)據(jù)統(tǒng)一建模的基礎(chǔ)上,將各類數(shù)據(jù)操作進行封裝,對外提供無所不在的、標準化的、隨需的檢索、分析或者可視化的服務(wù)交付。大數(shù)據(jù)服務(wù)不僅僅是一種新技術(shù),也是一種新的數(shù)據(jù)資源使用模式和服務(wù)經(jīng)濟模式[6]。大數(shù)據(jù)資源目錄服務(wù)建設(shè)借鑒了大數(shù)據(jù)服務(wù)理念,首先完成城市軌道交通大數(shù)據(jù)資源目錄樹的構(gòu)建,然后結(jié)合業(yè)務(wù)需求,將數(shù)據(jù)資源組合封裝成個性化服務(wù),如主數(shù)據(jù)服務(wù)、基礎(chǔ)報表服務(wù)、風(fēng)險預(yù)警服務(wù)、關(guān)鍵績效指標服務(wù)、開放性研究樣本服務(wù)及共享算法服務(wù)等。
用戶可以依據(jù)關(guān)鍵字來檢索數(shù)據(jù)目錄資源,也可以按照不同的管理對象、業(yè)務(wù)主題、資源服務(wù)方式等維度瀏覽、查看、下載資源。大數(shù)據(jù)資源廣泛且數(shù)據(jù)結(jié)構(gòu)復(fù)雜,為保證對超大量索引數(shù)據(jù)的快速搜索支持,本文設(shè)計分布式的存儲方式對元數(shù)據(jù)的目錄進行部署,采用索引文件分塊技術(shù),并支持批量索引和復(fù)合搜索。非結(jié)構(gòu)化文件的檢索設(shè)計有兩種方式,一種是進行全文快速檢索,支持用戶使用布爾邏輯運算、部分匹配、通配符、輸入內(nèi)容自動補全等功能進行模糊查詢,分析文本文件內(nèi)的具體內(nèi)容,并且支持在查詢的結(jié)果中進一步分析篩選。另一種方式是高級搜索,即通過非結(jié)構(gòu)化數(shù)據(jù)資源的屬性對非結(jié)構(gòu)化文件進行搜索服務(wù)。該搜索方式包括基本搜索、文件夾和元數(shù)據(jù)搜索、混合搜索等,搜索條件豐富,同時能夠滿足主要搜索需要。
為了確保搜索的安全性,對大數(shù)據(jù)資源的安全級別與系統(tǒng)設(shè)置,用戶依據(jù)權(quán)限通過對大數(shù)據(jù)資源進行訪問、調(diào)閱、申請、利用等操作進行鑒權(quán)管理。在非授權(quán)的情況下,數(shù)據(jù)資源將不會被搜索到或者無法預(yù)覽細節(jié),搜索的范圍與結(jié)果會被系統(tǒng)安全權(quán)限控制,保障了大數(shù)據(jù)的出口安全。
本文結(jié)合上海申通地鐵集團有限公司的大數(shù)據(jù)項目建設(shè),分析了與大數(shù)據(jù)資源目錄構(gòu)建密切相關(guān)的大數(shù)據(jù)內(nèi)容、特征及應(yīng)用等問題,深入探討了城市軌道交通大數(shù)據(jù)資源目錄構(gòu)建中的資源分類及編碼定義、核心元數(shù)據(jù)定義、資源目錄服務(wù)模式定義等核心問題。本文提出的大數(shù)據(jù)資源目錄構(gòu)建方法及思路,可為上海申通地鐵集團有限公司的大數(shù)據(jù)中心數(shù)據(jù)規(guī)劃提供基礎(chǔ)參照,對城市軌道交通大數(shù)據(jù)資產(chǎn)管理及未來經(jīng)營模式具有借鑒意義。