【摘要】數(shù)據(jù)作為核心資產(chǎn)已達成共識,在大量工程設計驗證環(huán)節(jié)中存在實驗數(shù)據(jù)來源多、格式差異大等多源異構的特點,同時這類多源異構的實驗驗證數(shù)據(jù)在數(shù)據(jù)應用方面也有越來越迫切的現(xiàn)實需求,為解決多源異構數(shù)據(jù)的實時采集和再利用問題,本文設計了面向多源異構實驗數(shù)據(jù)的邊緣數(shù)據(jù)系統(tǒng)架構,并通過建設對系統(tǒng)支持專業(yè)實驗類型、業(yè)務類型、設備協(xié)議、分析需求和數(shù)據(jù)再利用情況進行驗證實際,驗證面向多源異構實驗數(shù)據(jù)的邊緣數(shù)據(jù)系統(tǒng)具有高可行性、與業(yè)務之間具有高適應性的特點,最后根據(jù)實際情況對面向多源異構數(shù)據(jù)的邊緣數(shù)據(jù)系統(tǒng)架構發(fā)展進行展望。
【關鍵詞】多源異構|數(shù)據(jù)采集|數(shù)據(jù)分析|邊緣數(shù)據(jù)系統(tǒng)|數(shù)據(jù)架構設計
一、現(xiàn)狀與需求分析
(一)現(xiàn)狀
實驗數(shù)據(jù)分為實驗過程數(shù)據(jù)和實驗結果數(shù)據(jù)兩個部分,規(guī)模龐大的實驗過程數(shù)據(jù)是優(yōu)化設計方案、迭代實驗進程的重要參考,需要對其進行高效率、高質量的采集和分析,有利于設計參數(shù)優(yōu)化、測控系統(tǒng)改進以及異常預警等領域工作開展[1-2]。當前,工程實驗中的大部分數(shù)據(jù)采集需要通過跨域傳輸?shù)姆绞綄⑸a(chǎn)試驗環(huán)境中工控設備產(chǎn)生的實驗數(shù)據(jù)遷移到業(yè)務網(wǎng)域服務器進行分析處理[3]。實驗任務的設備來自不同的廠家,采用不同的采集標準和存儲方式,原始數(shù)據(jù)直接傳輸?shù)綐I(yè)務網(wǎng)域服務器難度大,并且未經(jīng)標準化導致實驗數(shù)據(jù)難以直接應用。同時,海量數(shù)據(jù)直接上傳云端會給網(wǎng)絡造成巨大的沖擊,造成網(wǎng)絡資源和存儲資源的浪費[4]。基于此,在工控網(wǎng)域建立邊緣數(shù)據(jù)系統(tǒng)可以是對集中的業(yè)務網(wǎng)絡數(shù)據(jù)中心的有效補充,也是工業(yè)發(fā)展的必然趨勢[5]。對比大型傳統(tǒng)數(shù)據(jù)中心,邊緣數(shù)據(jù)中心的優(yōu)勢是數(shù)據(jù)實時性強、網(wǎng)絡波動少,且分散、數(shù)量較多,但功能較少、與業(yè)務強綁定[6]。
(二)面向多源異構實驗數(shù)據(jù)的邊緣數(shù)據(jù)系統(tǒng)的特點
面向多源異構實驗數(shù)據(jù)的邊緣數(shù)據(jù)系統(tǒng)在系統(tǒng)工程中具有專業(yè)領域多、涉及多種數(shù)據(jù)源、格式差異大的特點,并且在規(guī)范化實驗數(shù)據(jù)采集、實驗數(shù)據(jù)存儲和實驗數(shù)據(jù)分析應用方面都有“短、平、快”的實時變化的需求[7],這類邊緣數(shù)據(jù)系統(tǒng)主要具備以下四個特點:
1.業(yè)務多樣性:工程實驗涉及產(chǎn)品研發(fā)的多個業(yè)務階段,從產(chǎn)品原型開發(fā)、產(chǎn)品驗證、小規(guī)模生產(chǎn)到成品運行維護等多個方面都有相關的數(shù)據(jù)產(chǎn)生[8]。
2.專業(yè)多樣性:實驗數(shù)據(jù)對應的專業(yè)領域包括熱工、流體、水力、物理、儀控、水化學等[9],需要采集與溫度、壓力、液位、電壓、流速等多個專業(yè)相關的實驗數(shù)據(jù)。
3.設備多樣性:實驗裝置包括本體、管道、閥門、容器、交換器、裝配體等系統(tǒng)部件組成,不同廠家、不同類別的傳感器需要不同的協(xié)議去采集和解析,而主流的工業(yè)設備對應的協(xié)議達到150種以上,多樣化的設備使得數(shù)采難度加大。
4.分析多樣性:針對不同的試驗任務,試驗數(shù)據(jù)的處理方式差異很大。在穩(wěn)態(tài)實驗中,重點關注設備的長期狀態(tài),主要采集時序數(shù)據(jù)為主,并需要及時壓縮處理源數(shù)據(jù);而在原型開發(fā)中,涉及設計與驗證的快速迭代,為提高效率,會引入仿真系統(tǒng)進行伴隨計算與驗證,涉及較多仿真分析與結果比對。
二、面向多源異構實驗數(shù)據(jù)的邊緣數(shù)據(jù)系統(tǒng)設計思路
為解決實驗數(shù)據(jù)格式復雜、來源廣泛、跨域傳輸難、存儲量大、分析復雜的問題,本文提出一種模塊化的邊緣數(shù)據(jù)系統(tǒng)方案,解決多源異構數(shù)據(jù)的實時采集和再利用問題,協(xié)助數(shù)據(jù)中心增強數(shù)據(jù)治理能力。此系統(tǒng)在設計原則上遵循模塊化思路,模塊化設計使得龐大的信息系統(tǒng)各個子系統(tǒng)之間解耦,增強系統(tǒng)的可行性和迭代能力,便于開發(fā)和維護,標準化的方案可以應用到類似的場景下,將數(shù)據(jù)進行標準化處理,增強對數(shù)據(jù)的儲存分析能力。
三、系統(tǒng)設計與關鍵技術
(一)系統(tǒng)架構
面向多源異構實驗數(shù)據(jù)的邊緣數(shù)據(jù)系統(tǒng)的設計是模塊化的,數(shù)據(jù)通過離線采集、批量采集、實時采集等方式集合到數(shù)據(jù)集成平臺,包括工程數(shù)據(jù)、各類傳感器數(shù)據(jù)、現(xiàn)場監(jiān)控視頻等運行情況數(shù)據(jù),這些結構化和非結構化的數(shù)據(jù)通過規(guī)范化的處理后存儲到邊緣數(shù)據(jù)系統(tǒng)中,同時邊緣數(shù)據(jù)系統(tǒng)還為數(shù)據(jù)提供了數(shù)據(jù)目錄、數(shù)據(jù)質量、數(shù)據(jù)權限及全生命周期管理等一系列服務,如圖1所示。
邊緣數(shù)據(jù)系統(tǒng)所接收的數(shù)據(jù)包括高算中心數(shù)據(jù)、工況數(shù)據(jù)、實驗數(shù)據(jù)等,具有業(yè)務多樣性的特征,針對這個問題,本系統(tǒng)采用標準化采集的方式減小不同類型的數(shù)據(jù)在采集傳輸存儲的過程中造成的存儲困難,不同類型格式的數(shù)據(jù)通過不同的采集工具采集到系統(tǒng)內(nèi)后,其元數(shù)據(jù)與主數(shù)據(jù)以提前設計好的方式進行清洗存儲,將結構化和非結構化的內(nèi)容分開存放到系統(tǒng)中。同時,采集這些多源數(shù)據(jù)的專業(yè)軟件也產(chǎn)自不同的廠家,針對這些產(chǎn)品不同的存儲格式和傳輸協(xié)議,本系統(tǒng)在采集過程中對其進行整合統(tǒng)一,提高存儲效率。
(二)面向多源異構的數(shù)據(jù)采集規(guī)范化技術
數(shù)據(jù)采集規(guī)范化是數(shù)據(jù)存儲和處理的重要基礎,旨在將數(shù)據(jù)的格式、內(nèi)容、數(shù)值等轉化為統(tǒng)一形式,通過數(shù)據(jù)容的一致性和完整性保證數(shù)據(jù)的復用和分析,本文所提出的系統(tǒng)數(shù)據(jù)采集規(guī)范過程主要包括三個部分。
1.數(shù)據(jù)格式規(guī)范化
采集到的實驗數(shù)據(jù)通常以文件的形式存儲在計算機中,不同的文件格式具有不同的解析規(guī)則,并具有對應的解析軟件,且部分格式非常封閉,只能使用特定的軟件才能打開。因此有必要統(tǒng)一實驗數(shù)據(jù)文件格式,本系統(tǒng)將所有文件格式統(tǒng)一整形為一種格式。
2.數(shù)據(jù)內(nèi)容規(guī)范化
實驗數(shù)據(jù)信息由數(shù)據(jù)數(shù)值信息(例如采集參數(shù)的時序數(shù)值),以及數(shù)據(jù)背景信息(實驗背景、數(shù)采信息、測點信息等)兩部分構成,且都可以抽象為“參數(shù)名-參數(shù)值”的形式。
數(shù)據(jù)內(nèi)容標準化即對參數(shù)名進行標準化,首先需要確保數(shù)據(jù)信息中包含了必要參數(shù)信息,以確保數(shù)據(jù)信息完整性;在此基礎上,需要確保參數(shù)名為標準參數(shù)名,這樣可以在數(shù)據(jù)分析時自動匹配參數(shù)名,降低因參數(shù)名對齊帶來的額外時間開銷。一類試驗需要包含某些必要的屬性,比如,閥門性能試驗,需要包含熱工參數(shù)(溫度、流量、壓力)、電氣參數(shù)(電流、電壓、功率、表面溫度、振動參數(shù)、絕緣電阻)、動作次數(shù)、開閥時間、氣動參數(shù)等。
針對數(shù)據(jù)格式多樣化的問題,本系統(tǒng)結合詞向量技術和元數(shù)據(jù)技術來實現(xiàn)不同格式數(shù)據(jù)內(nèi)容的高效解析歸類。詞向量將每個詞表示為一個N維空間中的點,將語言處理轉化為向量計算,元數(shù)據(jù)描述數(shù)據(jù)的參數(shù)和屬性,將兩者結合可以提高數(shù)據(jù)理解效率。
3.數(shù)據(jù)數(shù)值規(guī)范化
數(shù)值標準化是將參數(shù)值轉換為統(tǒng)一尺度,以消除不同特征之間的量綱差異,使得數(shù)據(jù)能在同一尺度上進行比較和分析,是提高數(shù)據(jù)質量和易用性的重要方法。本系統(tǒng)采用的數(shù)值標準化方法包括z-score標準化,Min-Max標準化,均值方差歸一化等。
(三)面向多專業(yè)耦合分析需求的數(shù)據(jù)服務技術
本系統(tǒng)面向多源異構實驗數(shù)據(jù)的存儲和復用進行設計,系統(tǒng)應當具備多專業(yè)耦合分析能力。多專業(yè)耦合分析的需求重點體現(xiàn)在對各專業(yè)數(shù)據(jù)的存儲能力和數(shù)據(jù)應用能力上。
在實驗數(shù)據(jù)存儲方面,系統(tǒng)設計了面向二維、三維設計數(shù)據(jù)、仿真數(shù)據(jù)存儲能力,同時設計了面向數(shù)據(jù)流的實時數(shù)據(jù)的存儲能力,也設計了面向表結構的數(shù)據(jù)庫存儲能力,此三類數(shù)據(jù)存儲能力可覆蓋各專業(yè)的結構化數(shù)據(jù)。
在實驗數(shù)據(jù)應用方面,重點體現(xiàn)為數(shù)據(jù)檢索提供數(shù)據(jù)服務和基于數(shù)據(jù)服務的數(shù)據(jù)應用服務。數(shù)據(jù)檢索采用ELK技術棧,提供近實時的速度存儲、搜索和分析引擎,加快了實驗數(shù)據(jù)的檢索速度。數(shù)據(jù)分析包括離線分析引擎和實時分析引擎兩部分,針對時間敏感與否兩種場景提供服務。
四、實現(xiàn)與驗證
以核工程實驗為具體場景,本文所提出的面向多源異構實驗數(shù)據(jù)的邊緣數(shù)據(jù)系統(tǒng)已完成建設,實現(xiàn)了實驗數(shù)據(jù)在邊緣端的存儲,實現(xiàn)了數(shù)據(jù)標準化采集與存儲、數(shù)據(jù)文件導航、實驗裝置在線管理以及數(shù)據(jù)在線分析處理等能力,有效提高了數(shù)據(jù)存儲和復用的能力。
(一)系統(tǒng)實現(xiàn)
本系統(tǒng)通過增加對實驗數(shù)據(jù)的規(guī)范采集和清洗,存儲系統(tǒng)可以按照類別對多種專業(yè)的數(shù)據(jù)進行存儲和分析,對于后續(xù)實驗過程會新增的專業(yè)也具備擴展能力,解決了專業(yè)種類繁雜的問題。同時,系統(tǒng)可以為多專業(yè)的實驗數(shù)據(jù)管理提供全生命周期的服務,從產(chǎn)品原型開發(fā)、產(chǎn)品驗證、小規(guī)模生產(chǎn)到成品運行維護等多個方面持續(xù)為實驗數(shù)據(jù)管理提供支持,解決了原存儲系統(tǒng)只能為數(shù)據(jù)提供單一存儲服務,無法在科研生產(chǎn)過程中對數(shù)據(jù)進行全生命周期管理的問題。由于傳感器品類多,本系統(tǒng)通過協(xié)議解析模塊能夠兼容當前流行的設備協(xié)議,有效解決了設備多樣性問題。原存儲系統(tǒng)只能以原數(shù)據(jù)格式存儲實驗數(shù)據(jù),本系統(tǒng)對實驗數(shù)據(jù)進行清洗整理,
以統(tǒng)一的標準對數(shù)據(jù)進行存儲,并且可以提供數(shù)據(jù)檢索和分析模塊對數(shù)據(jù)進行處理,能夠滿足實時分析處理等多種分析需求,解決分析需求多樣性的問題,原存儲系統(tǒng)與面向多源異構實驗數(shù)據(jù)的邊緣數(shù)據(jù)系統(tǒng)對比如表1。
由表1可知,與系統(tǒng)設計前對比,系統(tǒng)支持的工科專業(yè)接近95%,系統(tǒng)工程過程擴張150%達到全過程,設備兼容協(xié)議增加573%,面向多源異構實驗數(shù)據(jù)的邊緣數(shù)據(jù)系統(tǒng)具有極大的普適性,可支持大多數(shù)類型的專業(yè),同時兼容前流行的設備協(xié)議,具備面向系統(tǒng)工程的全過程進行數(shù)據(jù)管理與數(shù)據(jù)分析的能力。
(二)數(shù)據(jù)分析與再利用
在數(shù)據(jù)的分析算法方面,面向多源異構實驗數(shù)據(jù)的邊緣數(shù)據(jù)系統(tǒng)為數(shù)據(jù)提供了快速驗證和分析能力,智能分析算法組件能夠從數(shù)據(jù)中臺提取數(shù)據(jù),支持數(shù)據(jù)建模,提供各類算法庫,包含數(shù)據(jù)中臺中的算法開發(fā)組件,任務調度算法,邊緣計算,統(tǒng)計分析,圖像識別算法等智能分析算法,當前支持的部分機器學習算法,總計50余種,除此之外,還包括30余種時頻域分析組件和8種深度學習算法組件。實驗數(shù)據(jù)分析需求主要集中在實驗結果分析和伴隨計算,本系統(tǒng)通過高效的分布式存儲和邊緣端的數(shù)據(jù)分析能力為多樣化的數(shù)據(jù)分析需求奠定基礎。
此系統(tǒng)將人工數(shù)據(jù)分析活動建模流程化,搭建了一系列常見的數(shù)據(jù)分析流程,通常包括數(shù)據(jù)劃分、數(shù)據(jù)預處理、數(shù)據(jù)分類與回歸預測等模塊,當前已經(jīng)投入使用的流程約20種,能滿足基本的異常檢測、實驗值預測等功能,流程平均復用頻率達7.3次/月,解決了對實驗數(shù)據(jù)有關的知識顯性化和復用的問題。
五、結語
面向多源異構實驗數(shù)據(jù)的邊緣數(shù)據(jù)系統(tǒng)的建設將部分數(shù)據(jù)處理工作轉移到邊緣端處理,減小了數(shù)據(jù)從工控網(wǎng)到業(yè)務網(wǎng)的資源開銷。數(shù)據(jù)采集存儲標準化將多源異構的數(shù)據(jù)通過不同的采集組件進行標準化,使得業(yè)務多樣性和專業(yè)多樣性帶來的問題得到改善。實驗設備分區(qū)存儲管理和設備協(xié)議兼容使得設備多樣性的問題得到改善,數(shù)據(jù)在線分析能力的建設解決了分析多樣性帶來的問題,邊緣系統(tǒng)的建設有效解決了當前實驗環(huán)境無法有效處理和分析多源異構海量數(shù)據(jù)的現(xiàn)實問題。未來,將繼續(xù)聚焦于數(shù)據(jù)分析知識的顯性化與相關知識的復用研究,為數(shù)據(jù)資產(chǎn)高效利用和研發(fā)能力提升提供堅實基座。中國軍轉民
參考文獻
[1]傅慧芳,黃海萍,程立.基于邊緣計算的環(huán)境在線監(jiān)測系統(tǒng)數(shù)據(jù)采集與分析[J].電子技術與軟件工程,2020(22):190-192.
[2]唐麒麟.面向織造車間的數(shù)據(jù)采集與處理應用技術[D].浙江理工大學,2022.
[3]杜小勇,李彤,盧衛(wèi)等.跨域數(shù)據(jù)管理[J].計算機科學,2024,51(01):4-12.
[4]郭亮.邊緣數(shù)據(jù)中心關鍵技術和發(fā)展趨勢[J].信息通信技術與政策,2019(12):55-58.
[5]李輝.工業(yè)邊緣數(shù)據(jù)采集器設計[D].大連理工大學,2021.
[6]吳美希,蘆帥.邊緣數(shù)據(jù)中心分級及總體要求分析[J].中國電信業(yè),2021(S1):88-91.
[7]靳小龍,王元卓,程學旗.大數(shù)據(jù)的研究體系與現(xiàn)狀[J].信息通信技術,2013,7(06):35-43.
[8]陳洪軍,葉麗珠,陳其龍,等.產(chǎn)品全生命周期工業(yè)大數(shù)據(jù)采集與管理范式探究[J].機電工程技術,2024,53(03):72-77.
[9]曾聿赟,劉井泉,楊春振等.基于機器學習的小型核反應堆系統(tǒng)狀態(tài)預測方法[J].核動力工程,2018,39(1):117-121.
(作者單位:中國核動力研究設計院反應堆工程研究所)