韓 超,羅釗航
(中國核動力研究設(shè)計院,四川 成都 610213)
多源異構(gòu)數(shù)據(jù)是大數(shù)據(jù)時代的產(chǎn)物,有著多元化、非結(jié)構(gòu)化的特點,大數(shù)據(jù)應(yīng)用的基礎(chǔ)是多源異構(gòu)數(shù)據(jù)管理。目前,多源異構(gòu)數(shù)據(jù)管理在網(wǎng)絡(luò)安全[2]、氣象系統(tǒng)[3]、電網(wǎng)工程[4]等眾多領(lǐng)域有廣泛應(yīng)用。核電數(shù)據(jù)具有數(shù)據(jù)來源多方面、數(shù)據(jù)類型、特征多樣的特點,是典型的多源異構(gòu)數(shù)據(jù)[1]。
目前,針對核電數(shù)據(jù)多源異構(gòu)的特點,為解決核電數(shù)據(jù)的數(shù)據(jù)規(guī)范、數(shù)據(jù)采集、數(shù)據(jù)融合、數(shù)據(jù)存儲和數(shù)據(jù)分析應(yīng)用等多方面問題,提出多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)。系統(tǒng)主要功能有:原始數(shù)據(jù)管理、數(shù)據(jù)采集、數(shù)據(jù)互聯(lián)互通、數(shù)據(jù)存儲、數(shù)據(jù)服務(wù)和數(shù)據(jù)挖掘。
核電站產(chǎn)生的各專業(yè)數(shù)據(jù)來源廣泛,結(jié)構(gòu)不同,為多源異構(gòu)數(shù)據(jù),擬提出多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)建設(shè)方案,解決多源異構(gòu)反應(yīng)堆數(shù)據(jù)的原始數(shù)據(jù)管理、數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)服務(wù)和數(shù)據(jù)挖掘問題,實現(xiàn)滿足統(tǒng)一平臺、容災(zāi)備份、安全控制、接口調(diào)用的專業(yè)平臺。
圖1 展示了多源異構(gòu)核電實驗數(shù)據(jù)管理系統(tǒng)建設(shè)的總體技術(shù)路線和總體框架,關(guān)鍵技術(shù)主要包括:
(1)制定原始數(shù)據(jù)產(chǎn)生規(guī)范,設(shè)計實驗裝備接口管理方案,設(shè)計原始實驗數(shù)據(jù)的不同粒度的編碼規(guī)則,設(shè)計數(shù)據(jù)全生命周期管理系統(tǒng),設(shè)計適應(yīng)于數(shù)據(jù)采集組件和數(shù)據(jù)存儲組件的多源核電數(shù)據(jù)融合機制和方案。
(2)從原始數(shù)據(jù)產(chǎn)生設(shè)備中采集不同專業(yè)類型,不同平臺來源的多專業(yè)、多平臺的多源實驗數(shù)據(jù),提供設(shè)備數(shù)據(jù)庫采集組件,工控機網(wǎng)絡(luò)接口采集組件、實時數(shù)據(jù)采集組件和文件數(shù)據(jù)采集組件。
(3)在高性能存儲集群上設(shè)計多專業(yè)、多平臺實驗數(shù)據(jù)的多源異構(gòu)數(shù)據(jù)庫,滿足核電各個專業(yè)數(shù)據(jù)庫的數(shù)據(jù)共享和數(shù)據(jù)融合,滿足各專業(yè)數(shù)據(jù)庫模式多樣化,支持靜態(tài)數(shù)據(jù)存儲和實時數(shù)據(jù)存儲。
(4)在多源異構(gòu)數(shù)據(jù)庫基礎(chǔ)上,提供數(shù)據(jù)索引、數(shù)據(jù)治理、數(shù)據(jù)建模、數(shù)據(jù)查詢、數(shù)據(jù)計算和數(shù)據(jù)可視化功能,為數(shù)據(jù)分析和數(shù)據(jù)挖掘提供數(shù)據(jù)支撐。
(5)結(jié)合多源異構(gòu)數(shù)據(jù)庫和數(shù)據(jù)服務(wù)內(nèi)容,提供專業(yè)領(lǐng)域知識下的關(guān)聯(lián)分析、時序分析、文本挖掘、表征學(xué)習(xí)、機器學(xué)習(xí)和深度學(xué)習(xí),為實驗人員提供實驗決策支持。
自從我國經(jīng)濟進入“新常態(tài)”時期以后,企業(yè)更加注重可持續(xù)化的發(fā)展和持續(xù)的經(jīng)濟增長,很多程度上推動了財務(wù)公司的快速發(fā)展。產(chǎn)業(yè)鏈金融作為財務(wù)公司現(xiàn)階段重要的金融服務(wù),能夠?qū)ζ髽I(yè)集團的資源進行科學(xué)地整合與配置,同時還能夠根據(jù)企業(yè)集團的運營特點來拓展運營的業(yè)務(wù)范圍,進一步延長和拓寬企業(yè)集團運營相關(guān)的產(chǎn)業(yè)鏈,有利于企業(yè)集團提高整體的競爭能力同時為集團企業(yè)戰(zhàn)略發(fā)展提供條件。財務(wù)公司應(yīng)當(dāng)加強對產(chǎn)業(yè)鏈金融的研究并明確產(chǎn)業(yè)鏈金融的服務(wù)定位和細節(jié),通過科學(xué)的產(chǎn)業(yè)鏈金融服務(wù)來幫助企業(yè)集團和上下游企業(yè)的完成融資和適當(dāng)?shù)陌l(fā)展計劃制定,提高企業(yè)集團的資源利用效率并推動企業(yè)集團更高水平地發(fā)展。
在多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)中,利用數(shù)據(jù)采集組件獲取實驗臺架等數(shù)據(jù)產(chǎn)生裝備的多源數(shù)據(jù),利用多源數(shù)據(jù)進行數(shù)據(jù)服務(wù),利用數(shù)據(jù)融合技術(shù)進行數(shù)據(jù)挖掘。其次,多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)具有容災(zāi)備份、安全控制和接口調(diào)用的能力(如圖1)。在第2 節(jié),將重點介紹各個功能的設(shè)計思路和設(shè)計方案。
圖1 多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)技術(shù)路線
根據(jù)實驗數(shù)據(jù)多專業(yè)、多平臺的特點,數(shù)據(jù)采集擬采用數(shù)據(jù)庫采集、工控接口采集、實驗數(shù)據(jù)采集和文件數(shù)據(jù)采集多種采集方式融合的方案,采集具體過程如下:
(1)數(shù)據(jù)庫采集
若各個實驗裝備系統(tǒng)有各自數(shù)據(jù)庫,可考慮進行數(shù)據(jù)庫采集,根據(jù)數(shù)據(jù)庫是否在同一服務(wù)器上可分為直接融合和鏈接融合。在同一服務(wù)器上的數(shù)據(jù)庫,配置其訪問權(quán)限,直接進行數(shù)據(jù)融合;在不同服務(wù)器上的數(shù)據(jù)庫,利用外圍數(shù)據(jù)庫進行鏈接,配置其訪問權(quán)限進行數(shù)據(jù)融合,從而獲取完整的實驗數(shù)據(jù)。數(shù)據(jù)庫采集流程如圖2 所示。
(2)工控接口采集
若各個實驗裝備系統(tǒng)有各自數(shù)據(jù)接口,可考慮進行工控接口采集。如圖2 所示,根據(jù)各個數(shù)據(jù)庫接口的協(xié)議和模式設(shè)計,確定接口對接和數(shù)據(jù)融合方案,并進行測試和驗證數(shù)據(jù)的正確性。
(3)實時數(shù)據(jù)采集
圖2 數(shù)據(jù)采集流程
針對實驗臺架實時數(shù)據(jù)傳輸?shù)奶攸c,考慮采用基于專用緩存的實時數(shù)據(jù)采集方案。引入專用緩存的目的是為了避免并發(fā)存儲大導(dǎo)致服務(wù)器崩潰,因此專用緩存的設(shè)計是實時數(shù)據(jù)采集的重點。擬計劃采用增量采集的專用緩存方案,關(guān)鍵步驟有:首先實時數(shù)據(jù)形成消息隊列,每次以增量形式進入緩存區(qū);其次當(dāng)緩存區(qū)存滿后,向數(shù)據(jù)庫寫入數(shù)據(jù);當(dāng)緩存區(qū)有空閑容量時,實時數(shù)據(jù)繼續(xù)存儲,直到存儲完畢。具體流程如圖3 所示。
(4)文件數(shù)據(jù)采集
實驗數(shù)據(jù)包括大量的設(shè)計系統(tǒng)和仿真系統(tǒng)產(chǎn)生的測試數(shù)據(jù)和仿真運算數(shù)據(jù),通過常用的PDF、圖片等電子文檔格式保存,因此考慮基于OCR 識別及機器學(xué)習(xí)技術(shù),定制開發(fā)OCR 文件采集功能,針對文件數(shù)據(jù)的收、管、存、用等管理操作,完成文件掃描檔案的文本信息識別、特征提取、數(shù)據(jù)檢索與應(yīng)用,達到真正的數(shù)字化檔案應(yīng)用。利用OCR 識別技術(shù)自動判斷、拆分、識別和還原各種通用型印刷體表格,自動分析文稿的版面布局,識別結(jié)果還原成掃描文稿,支持文檔轉(zhuǎn)換,使得文件非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)庫可存儲、存儲節(jié)點可計算的結(jié)構(gòu)化數(shù)據(jù)。
圖3 實時數(shù)據(jù)采集流程
(1)數(shù)據(jù)索引
在多源異構(gòu)數(shù)據(jù)庫基礎(chǔ)上,建立專業(yè)領(lǐng)域知識下的數(shù)據(jù)索引,如建立各專業(yè)知識下的核電數(shù)據(jù)概念層次網(wǎng)絡(luò)HNNE(Hierarchical Network of Concepts on Nuclear Reactor Experimental Data),進而可以保障數(shù)據(jù)查詢、數(shù)據(jù)分析的效率。在核電數(shù)據(jù)中,按照學(xué)科類型和實驗類型進行第一層劃分,得到第一層層次節(jié)點;在第一層的層次節(jié)點上,按照設(shè)備、實驗工控等進行第二層劃分,得到第二層層次節(jié)點,根據(jù)需要可拓展更多層的層次節(jié)點。
(2)數(shù)據(jù)治理
在多源異構(gòu)數(shù)據(jù)庫基礎(chǔ)上,為實現(xiàn)核電數(shù)據(jù)治理和核電數(shù)據(jù)質(zhì)量評價,建立數(shù)據(jù)生命周期管理體系,主要包含:數(shù)據(jù)質(zhì)量評價模型,數(shù)據(jù)風(fēng)險分析模型,數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范模型。數(shù)據(jù)質(zhì)量評價模型主要對于實驗序列數(shù)據(jù)和實驗非序列數(shù)據(jù)進行評價。利用Markov 等機器學(xué)習(xí)模型對實驗序列數(shù)據(jù)異常點、孤立點進行質(zhì)量評價,利用深度神經(jīng)網(wǎng)絡(luò)對實驗非序列模型進行數(shù)據(jù)相似匹配。結(jié)合設(shè)備、工況等,建立數(shù)據(jù)風(fēng)險分析模型,滿足實驗數(shù)據(jù)偏離預(yù)警、實驗數(shù)據(jù)存儲優(yōu)化等。數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范模型是元數(shù)據(jù)規(guī)范、數(shù)據(jù)融合規(guī)范、數(shù)據(jù)字典等內(nèi)容,支持粗粒度和細粒度的數(shù)據(jù)清洗和預(yù)處理。
(3)數(shù)據(jù)查詢
多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)一方面提供數(shù)據(jù)庫查詢中的精準(zhǔn)查詢、模糊查詢功能。另一方面,利用推薦系統(tǒng)算法進行用戶畫像,提供相似查詢,如一用戶持續(xù)關(guān)注熱工水力方面的實驗數(shù)據(jù),則利用Doc2Vec 等模型對核電數(shù)據(jù)表征學(xué)習(xí),利用相似度計算在數(shù)據(jù)庫中找出相似的實驗數(shù)據(jù),然后給用戶推薦合法合規(guī)的相似數(shù)據(jù)。需要指出的是,相似查詢和精準(zhǔn)查詢、模糊查詢不同,相似查詢依賴于用戶操作數(shù)據(jù)庫的記錄,推薦結(jié)果因不同興趣的用戶也不同,有著較強的專業(yè)性、安全性。
結(jié)合多源異構(gòu)數(shù)據(jù)庫和數(shù)據(jù)服務(wù)內(nèi)容,提供專業(yè)領(lǐng)域知識下的數(shù)據(jù)挖掘,設(shè)計實驗序列數(shù)據(jù)中頻繁模式挖掘、周期模式挖掘、對比模式挖掘、閉合模式挖掘的關(guān)聯(lián)分析組件,設(shè)計時序數(shù)據(jù)中的時序關(guān)系挖掘、時序預(yù)測等的時序分析組件,設(shè)計文本數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)處理、文本語義分析等的文本挖掘組件,設(shè)計多專業(yè)、多平臺實驗數(shù)據(jù)的特征提取、特征學(xué)習(xí)、高維特征降維等的表征學(xué)習(xí)組件,設(shè)計多專業(yè)、多平臺的回歸模型、分類模型、聚類模型等機器學(xué)習(xí)方案,設(shè)計實驗圖像分析、實驗音頻處理等多場景的深度學(xué)習(xí)模型。
為解決多源異構(gòu)核電數(shù)據(jù)的數(shù)據(jù)規(guī)范、數(shù)據(jù)采集、數(shù)據(jù)融合、數(shù)據(jù)存儲和數(shù)據(jù)分析應(yīng)用等多方面問題,本文提出多源異構(gòu)核電管理系統(tǒng),并對各個模塊功能進行設(shè)計。在未來,將結(jié)合實際核電實驗對多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)進行實施和廣泛驗證。