胡建 黃海峰 曹揚(yáng) 胥月 唐春生 姜鑫
摘? 要: 為了規(guī)范物聯(lián)網(wǎng)數(shù)據(jù)的管理,實(shí)現(xiàn)物聯(lián)網(wǎng)數(shù)據(jù)的聚、通、用,通過重點(diǎn)討論物聯(lián)網(wǎng)數(shù)據(jù)管理的數(shù)據(jù)流向、核心架構(gòu)設(shè)計(jì),提出了一種基于數(shù)據(jù)倉庫、感知數(shù)據(jù)庫、時序數(shù)據(jù)庫且具備流批一體數(shù)據(jù)處理框架的物聯(lián)網(wǎng)數(shù)據(jù)管理方法,并通過平臺化來實(shí)現(xiàn)物聯(lián)網(wǎng)數(shù)據(jù)的管理。該平臺先后在雄安、上海示范應(yīng)用,不僅統(tǒng)一了數(shù)據(jù)采集、傳輸、存儲的標(biāo)準(zhǔn),而且明顯減少了數(shù)據(jù)遺漏的情況,提高了物聯(lián)網(wǎng)數(shù)據(jù)管理的效率。
關(guān)鍵詞: 物聯(lián)網(wǎng); 數(shù)據(jù)管理; 平臺化; 流批一體
中圖分類號:TP319? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? 文章編號:1006-8228(2023)05-127-04
Design and research of IoT data management platform
Hu Jian1, Huang Haifeng1, Cao Yang1, Xu Yue1, Tang Chunsheng1, Jiang Xin2
(1. CETC Big Data Research Institute Co., Ltd, Guiyang, Guizhou 550081, China; 2. CETC Digital Intelligence Technology Co., Ltd)
Abstract: In order to standardize the management of IoT data and realize the aggregation, communication and use of IoT data, by focusing on the data flow and core architecture design of IoT data management, an IoT data management method based on data warehouse, perceptual database, temporal database and with a stream batch integrated data processing framework is proposed. The IoT data management is realized through platform, which has been demonstrated and applied in Xiong'an and Shanghai successively. It not only unifies the standard of data collection, transmission and storage, but also significantly reduces the data omission and improves the efficiency of IoT data management.
Key words: Internet of things (IoT); data management; platform; stream batch integration
0 引言
近年來,隨著相關(guān)產(chǎn)業(yè)政策和法律法規(guī)的發(fā)布,我國物聯(lián)網(wǎng)技術(shù)不斷的發(fā)展并趨于成熟[1],如國務(wù)院發(fā)布的《關(guān)于推進(jìn)物聯(lián)網(wǎng)有序健康發(fā)展的指導(dǎo)意見》、工信部發(fā)布的《工業(yè)和信息化部辦公廳關(guān)于推動工業(yè)互聯(lián)網(wǎng)加快發(fā)展的通知》等,特別是2021年,我國的八個部委聯(lián)合印發(fā)的《物聯(lián)網(wǎng)新型基礎(chǔ)設(shè)施建設(shè)三年行動計(jì)劃(2021-2023年)》[2]提到,物聯(lián)網(wǎng)是以感知技術(shù)和網(wǎng)絡(luò)通信技術(shù)為主要手段[3],實(shí)現(xiàn)人、機(jī)、物的泛在連接,提供信息感知、信息傳輸、信息處理等服務(wù)的基礎(chǔ)設(shè)施[4]。
隨著經(jīng)濟(jì)社會數(shù)字化轉(zhuǎn)型和智能升級步伐加快,物聯(lián)網(wǎng)已經(jīng)成為新型基礎(chǔ)設(shè)施的重要組成部分,物聯(lián)網(wǎng)數(shù)據(jù)的管理成為了突出問題[5]。數(shù)據(jù)顯示,2018年我國數(shù)據(jù)治理市場規(guī)模為30.52億元,行業(yè)整體在未來近幾年中將保持高速發(fā)展趨勢,預(yù)計(jì)到2023年我國數(shù)據(jù)治理市場規(guī)模將增長至186.50億元,期間年復(fù)合增長率為43.62%如圖1所示。
因此,我們有必要開展物聯(lián)網(wǎng)數(shù)據(jù)管理平臺及方法論的研究,孵化物聯(lián)網(wǎng)領(lǐng)域數(shù)據(jù)管理的新模式。
1 平臺設(shè)計(jì)
1.1 平臺數(shù)據(jù)流向設(shè)計(jì)
物聯(lián)網(wǎng)數(shù)據(jù)管理平臺的輸入為外部數(shù)據(jù)庫、外部系統(tǒng),經(jīng)過平臺處理后,數(shù)據(jù)以API的方式對外提供服務(wù)。整個平臺有三種類型的數(shù)據(jù)庫,分別是數(shù)據(jù)倉庫、時序數(shù)據(jù)庫、感知數(shù)據(jù)庫。數(shù)據(jù)倉庫采用PostgreSQL、Hive,主要用于存儲離線數(shù)據(jù),例如積累的歷史數(shù)據(jù);時序數(shù)據(jù)庫采用InfluxDB、OpentsDB,主要用于存儲熱數(shù)據(jù),例如設(shè)備采集的及時數(shù)據(jù);感知數(shù)據(jù)庫采用MongoDB、Hbase,主要用于存儲冷數(shù)據(jù),例如設(shè)備采集的歷史數(shù)據(jù)以及設(shè)備的元數(shù)據(jù)。
物聯(lián)網(wǎng)數(shù)據(jù)管理平臺整體的數(shù)據(jù)流向如圖2所示。
⑴ 外部數(shù)據(jù)庫通過數(shù)據(jù)源接入的方式接入到平臺的數(shù)據(jù)源中,平臺對數(shù)據(jù)源進(jìn)行數(shù)據(jù)采集,將數(shù)據(jù)采集到數(shù)據(jù)倉庫和時序數(shù)據(jù)庫中;
⑵ 外部系統(tǒng)通過消息推送的方式將數(shù)據(jù)推送到平臺的Kafka中,平臺將kafka的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉庫和時序數(shù)據(jù)庫中;
⑶ 時序數(shù)據(jù)庫的數(shù)據(jù)可以通過數(shù)據(jù)集成的方式導(dǎo)入到感知數(shù)據(jù)庫中;
⑷ 數(shù)據(jù)倉庫、時序數(shù)據(jù)庫、感知數(shù)據(jù)庫可以通過注冊數(shù)據(jù)資源的方式將數(shù)據(jù)注冊成數(shù)據(jù)資源,數(shù)據(jù)資源可以注冊成API對外提供數(shù)據(jù)服務(wù);
⑸ 數(shù)據(jù)倉庫注冊的數(shù)據(jù)資源平臺提供數(shù)據(jù)質(zhì)量管理的功能,對數(shù)據(jù)的質(zhì)量進(jìn)行監(jiān)控。
1.2 平臺架構(gòu)設(shè)計(jì)
物聯(lián)網(wǎng)數(shù)據(jù)管理平臺的架構(gòu)主要包括四層、三體系,如圖3所示。
四層分別是數(shù)據(jù)接入層、數(shù)據(jù)采集層、數(shù)據(jù)資源層、數(shù)據(jù)服務(wù)層。①數(shù)據(jù)接入層主要目的是將外部數(shù)據(jù)作為數(shù)據(jù)源接入到平臺中,作為平臺的輸入數(shù)據(jù)?,F(xiàn)階段支持MySQL、PostgreSQL、MongoDB、Kafka、文件數(shù)據(jù)源、API類型的數(shù)據(jù)接入。②數(shù)據(jù)采集層的目的是將數(shù)據(jù)接入層的接入數(shù)據(jù)采集到數(shù)據(jù)資源層中的數(shù)據(jù)資源池。數(shù)據(jù)采集層支持?jǐn)?shù)據(jù)遷移配置、立即執(zhí)行、任務(wù)調(diào)度、運(yùn)行監(jiān)控等功能。③數(shù)據(jù)資源層包括數(shù)據(jù)資源池、數(shù)據(jù)處理、元數(shù)據(jù)管理、運(yùn)營調(diào)度四個部分。數(shù)據(jù)資源池模塊主要用于存儲數(shù)據(jù),由時序數(shù)據(jù)庫、感知數(shù)據(jù)庫、數(shù)據(jù)倉庫構(gòu)成。④數(shù)據(jù)服務(wù)層將經(jīng)過數(shù)據(jù)資源層處理的數(shù)據(jù)以API的方式對外提供服務(wù),數(shù)據(jù)服務(wù)層包括API創(chuàng)建、API權(quán)限校驗(yàn)、API維護(hù)等功能。
對于數(shù)據(jù)資源池模塊,劃分為專題區(qū)、主題區(qū)、標(biāo)準(zhǔn)區(qū)、原始區(qū)。數(shù)據(jù)處理模塊將數(shù)據(jù)資源池中原始區(qū)、標(biāo)準(zhǔn)區(qū)的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,并存儲到主題區(qū)、專題區(qū)。數(shù)據(jù)處理包括批量數(shù)據(jù)處理和實(shí)時數(shù)據(jù)處理,批量數(shù)據(jù)處理采用PostgreSQL、Hive作為處理引擎,實(shí)時數(shù)據(jù)處理采用KSQL、Flink作為處理引擎。數(shù)據(jù)質(zhì)量模塊對數(shù)據(jù)資源池原始區(qū)數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量提升并存儲到標(biāo)準(zhǔn)區(qū),數(shù)據(jù)質(zhì)量包含敏感詞檢查、日期校驗(yàn)、數(shù)值檢驗(yàn)、字符串校驗(yàn)、空值校驗(yàn)、重復(fù)統(tǒng)計(jì)等功能。元數(shù)據(jù)管理模塊對數(shù)據(jù)資源池中的數(shù)據(jù)庫進(jìn)行管理,包括元數(shù)據(jù)定義、元數(shù)據(jù)創(chuàng)建、元數(shù)據(jù)維護(hù)、元數(shù)據(jù)檢索等功能。運(yùn)營調(diào)度對整個數(shù)據(jù)資源層的整體管控,包含任務(wù)調(diào)度、數(shù)據(jù)質(zhì)量監(jiān)控、作業(yè)監(jiān)控、審計(jì)通知等功能。
三體系分別是安全體系、運(yùn)行保障體系、標(biāo)準(zhǔn)體系。
安全體系包括應(yīng)用安全、數(shù)據(jù)安全、租戶安全等;運(yùn)行保障體系包括組織保障、制度保障等;標(biāo)準(zhǔn)體系包括數(shù)據(jù)標(biāo)準(zhǔn)、技術(shù)標(biāo)準(zhǔn)、安全標(biāo)準(zhǔn)等。
1.3 平臺功能設(shè)計(jì)
物聯(lián)網(wǎng)數(shù)據(jù)管理系統(tǒng)以“整合資源,共享數(shù)據(jù),提供服務(wù)”為指導(dǎo)思想,構(gòu)建滿足于數(shù)據(jù)資源信息化建設(shè)的需要。系統(tǒng)分為五個部分:數(shù)據(jù)源管理、數(shù)據(jù)處理、數(shù)據(jù)治理、數(shù)據(jù)資源池、數(shù)據(jù)服務(wù)。其功能概述如下。
⑴ 數(shù)據(jù)源管理
將需進(jìn)行數(shù)據(jù)采集的外部數(shù)據(jù)源進(jìn)行統(tǒng)一接入和管理,通過樹狀目錄將外部數(shù)據(jù)源進(jìn)行分門別類,方便進(jìn)行查詢和檢索。數(shù)據(jù)源類型支持關(guān)系型數(shù)據(jù)庫(MySQL、PostgreSQL)、非關(guān)系型數(shù)據(jù)庫MongoDB、消息中間件Kafka、文件數(shù)據(jù)、API等數(shù)據(jù)源的接入。所有外部數(shù)據(jù)源的密碼需進(jìn)行加密存儲,保證數(shù)據(jù)安全。數(shù)據(jù)源管理功能如表1所示。
⑵ 數(shù)據(jù)資源池
數(shù)據(jù)資源池是指外部數(shù)據(jù)源采集匯聚后存儲到本系統(tǒng)而形成的由多種數(shù)據(jù)存儲介質(zhì)組成的數(shù)據(jù)湖(時序數(shù)據(jù)庫、感知數(shù)據(jù)庫、數(shù)據(jù)倉庫)。數(shù)據(jù)資源池管理是對匯聚后的數(shù)據(jù)實(shí)例、不同數(shù)據(jù)存儲介質(zhì)間的數(shù)據(jù)調(diào)度進(jìn)行管理和監(jiān)控,功能包括數(shù)據(jù)資源管理,數(shù)據(jù)存儲管理,元數(shù)據(jù)管理,批數(shù)據(jù)調(diào)度管理,實(shí)時數(shù)據(jù)調(diào)度管理,熱數(shù)據(jù)區(qū)管理,如表2所示。
⑶ 數(shù)據(jù)處理
數(shù)據(jù)處理是數(shù)據(jù)管理系統(tǒng)的核心功能。物聯(lián)感知數(shù)據(jù)具有規(guī)模大、時效性強(qiáng)、結(jié)構(gòu)復(fù)雜、實(shí)時產(chǎn)生等特點(diǎn),為滿足物聯(lián)感知數(shù)據(jù)的處理要求,數(shù)據(jù)管理系統(tǒng)需要具備實(shí)時計(jì)算和批計(jì)算兩種功能,具體功能如表3所示。
⑷ 數(shù)據(jù)治理
數(shù)據(jù)質(zhì)量管理是感知數(shù)據(jù)資源開發(fā)工作的基礎(chǔ),建立綜合的、全面的、基于全局視角的數(shù)據(jù)質(zhì)量管理體系,可以確保數(shù)據(jù)的共享開放、研究分析和應(yīng)用服務(wù)數(shù)據(jù)的高品質(zhì),實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)價值最大化。常見的數(shù)據(jù)質(zhì)量問題包括:數(shù)據(jù)無法匹配、數(shù)據(jù)不可識別、數(shù)據(jù)不一致、數(shù)據(jù)沉余重復(fù)、實(shí)效性不強(qiáng)、精度不夠等,針對這些問題,需要從完整性、規(guī)范性、一致性、準(zhǔn)確性、唯一性、關(guān)聯(lián)性等方面對數(shù)據(jù)質(zhì)量展開評估。數(shù)據(jù)質(zhì)量管理功能如表4所示。
⑸ 數(shù)據(jù)服務(wù)
數(shù)據(jù)管理和治理的目的是數(shù)據(jù)被其他應(yīng)用更好的使用,但是業(yè)務(wù)應(yīng)用直接使用數(shù)據(jù)資源池中的數(shù)據(jù)存在很大的安全隱患,也不利于系統(tǒng)間的快速集成。因此需要將數(shù)據(jù)進(jìn)行服務(wù)化,以服務(wù)的形式為業(yè)務(wù)應(yīng)用提供數(shù)據(jù),數(shù)據(jù)服務(wù)功能如表5所示。
2 平臺應(yīng)用
平臺部分截圖如圖4所示。
平臺現(xiàn)已應(yīng)用于雄安新區(qū)物聯(lián)網(wǎng)統(tǒng)一開放平臺、上海市域物聯(lián)網(wǎng)運(yùn)營開放平臺中。
⑴ 雄安新區(qū)物聯(lián)網(wǎng)統(tǒng)一開放平臺
雄安新區(qū)物聯(lián)網(wǎng)統(tǒng)一開放平臺(XAIoT平臺),定位全國首個城市級IoT平臺,是雄安新區(qū)數(shù)字孿生城市的基礎(chǔ),是城市超腦運(yùn)行的底座,通過實(shí)現(xiàn)多維感知數(shù)據(jù)的融合匯聚,形成全域、全時、互聯(lián)互通的感知體系,有效支撐城市生命線、城市部件、公共安全、生態(tài)環(huán)境、民生服務(wù)等重點(diǎn)領(lǐng)域,實(shí)現(xiàn)數(shù)字孿生智能新區(qū)的基礎(chǔ)支撐平臺。
該物聯(lián)網(wǎng)數(shù)據(jù)管理平臺為IoT平臺上的感知數(shù)據(jù)、設(shè)備信息等數(shù)據(jù)的統(tǒng)一管理提供基礎(chǔ)設(shè)施,提供輕量級的數(shù)據(jù)治理能力。同時也提供輕量級的數(shù)據(jù)分析工具,多種數(shù)據(jù)采集及數(shù)據(jù)轉(zhuǎn)發(fā)接口,能便捷的支撐物聯(lián)網(wǎng)應(yīng)用。
⑵ 上海市域物聯(lián)網(wǎng)運(yùn)營開放平臺
中國電科聯(lián)合東方明珠建設(shè)的上海市域物聯(lián)網(wǎng)運(yùn)營開放平臺,該物聯(lián)網(wǎng)數(shù)據(jù)管理平臺推動物聯(lián)數(shù)據(jù)與公共數(shù)據(jù)、社會數(shù)據(jù)的融合,豐富城市運(yùn)行管理的神經(jīng)元體系,更好地支撐“一網(wǎng)統(tǒng)管”、賦能城市運(yùn)行管理。
3 結(jié)束語
本文針對物聯(lián)網(wǎng)數(shù)據(jù)具有海量、多源異構(gòu)、時序性高等特性,設(shè)計(jì)了一種物聯(lián)網(wǎng)數(shù)據(jù)管理的方法,并通過平臺化實(shí)現(xiàn)物聯(lián)網(wǎng)數(shù)據(jù)的管理。該平臺先后在雄安、上海示范應(yīng)用,應(yīng)用表明平臺不僅統(tǒng)一了數(shù)據(jù)采集、傳輸、存儲的標(biāo)準(zhǔn),而且明顯減少了數(shù)據(jù)遺漏的情況,提高了物聯(lián)網(wǎng)數(shù)據(jù)管理的效率。下一步工作將突破批數(shù)據(jù)和流數(shù)據(jù)的統(tǒng)一表達(dá)和查詢關(guān)鍵技術(shù),研制流批一體數(shù)據(jù)處理核心模塊,性能與成熟度達(dá)到國內(nèi)先進(jìn)水平。
參考文獻(xiàn)(References):
[1] 李杺恬.物聯(lián)網(wǎng)政策形勢和安全保障實(shí)踐[J].網(wǎng)絡(luò)安全和信息化,2021(2):24-28
[2] 物聯(lián)網(wǎng)新型基礎(chǔ)設(shè)施建設(shè)三年行動計(jì)劃(2021-2023年)[J].市政技術(shù),2021,39(11):1-3
[3] 馬文瑤.物聯(lián)網(wǎng)信息感知與交互技術(shù)[J].信息記錄材料,2021,22(11):150-151
[4] 鄭春梅.城市管網(wǎng)空間信息共享與服務(wù)平臺關(guān)鍵技術(shù)研究[D].博士,中國地質(zhì)大學(xué)(北京),2014
[5] 向嵐,師會欽,廖慧婷.基于大數(shù)據(jù)的物聯(lián)網(wǎng)技術(shù)應(yīng)用探討[J].計(jì)算機(jī)產(chǎn)品與流通,2020(8):66