楊治安,韓 勇,宋雨奇
(科技部科技評估中心, 北京 100081)
“十三五”國家科技創(chuàng)新規(guī)劃,提出深入實施創(chuàng)新驅動發(fā)展戰(zhàn)略,大力推進以科技創(chuàng)新為核心的全面創(chuàng)新,確保如期進入創(chuàng)新型國家行列??萍疾靠萍荚u估中心圍繞科技改革發(fā)展中心工作,加強專業(yè)建設和信息化支撐能力,積極推動科技評估體系建設,充分發(fā)揮評估工作的決策支撐、管理服務和監(jiān)督保障作用。
對比傳統(tǒng)互聯(lián)網(wǎng)數(shù)據(jù),科技評估數(shù)據(jù)主要是面向科技活動評價所需要收集整理的數(shù)據(jù),包括科技管理活動中產(chǎn)生的數(shù)據(jù),如科技規(guī)劃、科技計劃管理、科技獎勵等,也包括科技活動實際開展中所產(chǎn)生的研究數(shù)據(jù),如科技論文、科研專利、科研成果等。
科技評估數(shù)據(jù)的特征如下:
一是數(shù)據(jù)量大??蒲谢顒又挟a(chǎn)生的數(shù)據(jù)較多,包含科研實踐的原始數(shù)據(jù)、中間過程數(shù)據(jù)以及結果數(shù)據(jù)。部分研究領域,如原子對撞、天體探測、分子生物等,一次實驗產(chǎn)生的原始數(shù)據(jù)及其衍生數(shù)據(jù)最高可達TB級,具有顯著的海量特征。
二是數(shù)據(jù)類型多。科技評估面向不同的科技領域做出評價,而不同科研領域的數(shù)據(jù)類型多樣,在數(shù)據(jù)格式、數(shù)據(jù)處理、數(shù)據(jù)應用、數(shù)據(jù)表現(xiàn)方面千差萬別。
三是數(shù)據(jù)價值密度低??萍荚u估需要對各種科研活動及成果進行深入采集分析,才能形成全面客觀的結論。而這樣大規(guī)模的數(shù)據(jù)體量中往往混雜有大量無效的低質數(shù)據(jù)。
四是數(shù)據(jù)處理效率要求高??萍荚u估工作具有時效性,對于作為評估依據(jù)的數(shù)據(jù)支撐在時效上提出了更高的要求。
五是數(shù)據(jù)真實性要求高。
科技評估數(shù)據(jù)的特點,對處理數(shù)據(jù)的信息平臺[1-4]提出了新的要求。
面向科技評估數(shù)據(jù)的信息平臺,技術架構設計需要滿足高可用、易擴展、低成本、安全、高效的業(yè)務需求。使用分布式加速、緩存加速、數(shù)據(jù)庫分庫分表、高效編碼的方式提高系統(tǒng)速度,使用負載均衡、自動容錯的方式保障系統(tǒng)穩(wěn)定運行,使用降低耦合度、彈性擴展的方式增強系統(tǒng)的擴展性,使用自動化部署、自動化測試的方式達到高效開發(fā)部署的目的,使用數(shù)字加密、數(shù)據(jù)加密、入侵監(jiān)控、HTTPS等的方式提高系統(tǒng)的安全性。從而使系統(tǒng)在速度、擴展、穩(wěn)定、高效、安全等方面達到最優(yōu),形成最佳平衡。
圖1 平臺技術需求平衡圖
根據(jù)科技評估數(shù)據(jù)的特點,本文設計提出一種面向評估數(shù)據(jù)處理需求的信息平臺,平臺邏輯總體上劃分為三層:業(yè)務應用層、大數(shù)據(jù)分析服務層、基礎設施層。
(1)業(yè)務應用層
業(yè)務應用層,是信息平臺規(guī)劃建設最重要的部分,是面向評估的業(yè)務需求,為其直接提供科技評估業(yè)務支撐系統(tǒng),解決業(yè)務部門評估業(yè)務管理的軟件應用系統(tǒng)。業(yè)務部門在規(guī)劃建設符合自身業(yè)務模式和需求的業(yè)務系統(tǒng),需按照根據(jù)統(tǒng)一規(guī)劃、統(tǒng)一標準進行建設。
業(yè)務應用層的建設需要遵從信息化建設的客觀次序,先建基礎的優(yōu)先級高的業(yè)務應用系統(tǒng),進而逐漸增加和擴建新的業(yè)務系統(tǒng)。
首先,需要建設基礎的數(shù)據(jù)共享開放平臺、科技項目評估系統(tǒng)、科技成果評價系統(tǒng)、和視頻會議系統(tǒng),提供科技評估的專有的分析軟件、評估方法和工具。其次,需要建立第三方(外部系統(tǒng))數(shù)據(jù)采集服務,能夠接入權威機構統(tǒng)計數(shù)據(jù)、文獻和年鑒等數(shù)據(jù)等。通過持續(xù)的迭代升級,建立符合評估中心每個業(yè)務部門所需要的業(yè)務系統(tǒng)、應用軟件、以及相關工具等。
(2)大數(shù)據(jù)分析服務層
大數(shù)據(jù)分析服務層作為數(shù)據(jù)資產(chǎn)最為核心的部分,劃分成邏輯關聯(lián)緊密的三個層次或部分:數(shù)據(jù)服務資源層、業(yè)務數(shù)據(jù)資產(chǎn)層、數(shù)據(jù)分析服務層。
數(shù)據(jù)服務資源層,規(guī)劃設計了兩種類型的數(shù)據(jù)存儲的技術產(chǎn)品系,這些數(shù)據(jù)服務產(chǎn)品為上層應用提供最為便捷和有效的數(shù)據(jù)存儲服務,是業(yè)務系統(tǒng)管理數(shù)據(jù)資產(chǎn)最佳的數(shù)據(jù)資源服務。第一類是結構化的數(shù)據(jù),屬于傳統(tǒng)數(shù)據(jù)存儲服務;第二類是以非結構化數(shù)據(jù)和非關系型數(shù)據(jù)為主的新型數(shù)據(jù)存儲服務。數(shù)據(jù)服務資源可選擇的產(chǎn)品非常多,上圖中列舉了當前主流的傳統(tǒng)數(shù)據(jù)庫產(chǎn)品、新型數(shù)據(jù)庫產(chǎn)品,包括諸多國產(chǎn)數(shù)據(jù)庫系列。
圖2 信息平臺體系邏輯架構圖
業(yè)務數(shù)據(jù)資產(chǎn)層,業(yè)務系統(tǒng)的處理的數(shù)據(jù)資產(chǎn),尤其是科技與創(chuàng)新項目的評估數(shù)據(jù),主要以非結構化數(shù)據(jù)為主,如:各類參與評審的項目資料、文檔、文獻等,評估過程的音視頻數(shù)據(jù)檔案資料等。所有這些數(shù)據(jù)會占據(jù)海量的存儲空間,同時具有極為重要的價值和重要性。數(shù)據(jù)往往依靠數(shù)據(jù)庫產(chǎn)品管理和存儲數(shù)據(jù),而數(shù)據(jù)本身是評估中心重要的資產(chǎn)。這些資產(chǎn)的價值,需要分析挖掘才能發(fā)揮更大的作用。
數(shù)據(jù)分析服務層,為業(yè)務應用取得數(shù)據(jù)分析提供了基礎的計算框架,成為海量數(shù)據(jù)分布式的、并行計算、數(shù)據(jù)挖掘分析的最有效的技術方案。大數(shù)據(jù)分析層,滿足了評估中心對數(shù)據(jù)挖掘分析的基本需求,同時滿足業(yè)務智能化建設的總體規(guī)劃的要求。
目前,數(shù)據(jù)分析服務層,提供新的大數(shù)據(jù)并行計算分析框架,包括經(jīng)典的數(shù)據(jù)挖掘分析服務、商業(yè)智能分析服務、以及數(shù)據(jù)倉庫服務等。大數(shù)據(jù)分析根據(jù)其特點可以選擇不同的技術框架,對于海量的分布式的結構化數(shù)據(jù),選擇MPP技術框架進行分析處理;對于海量的分布式的非結構化數(shù)據(jù),優(yōu)先選擇Hadoop技術框架進行分析處理。事實上,大數(shù)據(jù)分析與業(yè)務系統(tǒng)應用場景是深度融合的,大數(shù)據(jù)分析都需要深入到業(yè)務應用場景中心,方可顯示出其價值。
根據(jù)信息平臺發(fā)展規(guī)劃要求,會在大數(shù)據(jù)分析的基礎上,持續(xù)新增智能分析的理論方法和技術方案,如:深度學習、機器學習、數(shù)據(jù)挖掘、預測分析等技術;同時,在特定領域數(shù)據(jù)分析引進專有數(shù)據(jù)分析處理方法和應用軟件,例如:音視頻的數(shù)據(jù)分析處理軟件,包含音頻、圖像、視頻等的模式識別技術等。
(3)基礎設施層
包含評估演示中心和數(shù)據(jù)中心,視頻會議設備(包括LED大屏)、服務器設備、網(wǎng)絡設備、存儲設備等。為了更好的實現(xiàn)統(tǒng)一管理硬件設備,建立了虛擬化資源層,實現(xiàn)對計算資源、網(wǎng)絡資源、存儲資源的統(tǒng)一管理,為上層中間件或系統(tǒng)提供服務。
在本文提出的面向科技評估數(shù)據(jù)的信息平臺體系規(guī)范基礎上,我們設計了面向科技評估數(shù)據(jù)特點的基于平臺的業(yè)務流程引擎,如圖3。
圖3 業(yè)務流程引擎架構圖
業(yè)務流程引擎采用開源的輕量工作流引擎ACT開發(fā)。基于國際通用的工作流規(guī)范,支持拖拽式的流程調度設計,并通過API進行流程調度。有較好的易用性、可嵌入性和可擴展性,同時更加強調面向業(yè)務人員。
業(yè)務流程引擎核心組件圖如圖4所示。
圖4 業(yè)務流程引擎核心組件圖
架構特點:
(1)數(shù)據(jù)持久化
流程引擎的設計思想是簡潔、快速。使用MyBatis,解決了應用和數(shù)據(jù)庫交換數(shù)據(jù)的瓶頸,從而可以應用通過最優(yōu)的SQL語句執(zhí)行命令,這樣就能讓引擎在速度上保持最高的性能。
(2)流程設計器
流程引擎具有基于Web的ACT Modeler可視化流程設計器,可以讓業(yè)務人員把需求轉換為規(guī)范流程定義,支持拖拽,同時還可以將設計的流程定義文件導入到ACT Designer,將其進一步加工成為可以運行的流程定義。
(3)原生支持Spring
基于ACT設計的流程引擎原生就可以支持Spring,通過集成,進行事物和解析的表達。
(4)松耦運行和歷史數(shù)據(jù)
這種流程引擎設計繼承了BPM一貫的設計習慣。表結構設計的思想,也體現(xiàn)在松耦合運行狀態(tài)下,應用運行時,不與歷史數(shù)據(jù)做緊耦合。只在需要的時候,才會去歷史數(shù)據(jù)表中讀取。這樣以來,運行時讀取數(shù)據(jù)的速度更快,而且當數(shù)據(jù)隨應用運行而進行大量累積的時候也不會影響應用本身的運行效率。
建立一個全局統(tǒng)一的評估業(yè)務管理和運行信息資源庫,還需要建立規(guī)范化、標準化、制度化的集中管理的運行維護體系,對整個信息系統(tǒng)的運行進行全面監(jiān)控,對系統(tǒng)運行中出現(xiàn)的問題及時響應,保障應用系統(tǒng)的安全持續(xù)運行,并且維持穩(wěn)定和高效。
全局統(tǒng)一的運維監(jiān)控管理系統(tǒng)、運維監(jiān)控管理制度以及運維監(jiān)控技術支持隊伍的建設,實現(xiàn)運行維護工作的智能化和高效率,提高整體的運行維護水平,培養(yǎng)一批業(yè)務精通、作風優(yōu)良的運行維護管理人才。
基于信息平臺構建的運維體系,需要具備以下特性:
(1)統(tǒng)一性
本文設計的運維監(jiān)控管理系統(tǒng)基于Browser/Server架構,實現(xiàn)對信息系統(tǒng)軟硬件資源的全面管理與監(jiān)控。硬件資源不僅包括數(shù)據(jù)中心的服務器、交換機、安全設備、環(huán)境監(jiān)測設備,還包括操作與運行信息系統(tǒng)的業(yè)務終端;軟件資源不僅包含業(yè)務應用、數(shù)據(jù)庫,還包含數(shù)據(jù)調用與處理的中間態(tài)以及信息系統(tǒng)運行的全流程日志。
(2)開放性
全局統(tǒng)一的運維監(jiān)控管理系統(tǒng),面向全局業(yè)務資源提供統(tǒng)一的標準管理接口用以集成。在底層數(shù)據(jù)與基礎資源之上,建立統(tǒng)一的http開放接口,不僅屏蔽了應用對數(shù)據(jù)的直接接觸,API的方式也通過標準格式方便了其他應用與管理系統(tǒng)的接入。
(3)安全性
管理系統(tǒng)自身的安全性是保證管理工作正常進行的關鍵因素,因此在搭建運維服務管理平臺時,也要充分考慮管理自身系統(tǒng)的安全,如:
(a)登錄安全認證和登錄及權限限制。
(b)登錄所需關鍵信息密文另機存取。
(c)設立用戶、角色、權限三級分離措施,根據(jù)管理制度及系統(tǒng)管理方式的變更,定期重更。
(4)擴展性
隨著信息平臺的持續(xù)建設,運維管理規(guī)模會隨著應用的不斷擴展而擴展,因此管理平臺的擴展性對保護投資至關重要。統(tǒng)一運維監(jiān)控系統(tǒng)的擴展性包括如下:
(a)管理資源可擴展。統(tǒng)一的運維監(jiān)控系統(tǒng)支持軟硬件資源的新增,包括硬件基礎設施和軟件應用系統(tǒng)。
(b)管理范圍可擴展。統(tǒng)一的運維監(jiān)控系統(tǒng)支持新平臺集成和加入,支持分布式部署和管理。
(c)管理功能可擴展。統(tǒng)一的運維監(jiān)控系統(tǒng)支持新的管理功能和模塊以標準格式接入系統(tǒng),納入管理系統(tǒng)統(tǒng)一運行與調度。
圖5 平臺運維管理體系架構圖
運維管理體系的架構包含以下各層:
(1)數(shù)據(jù)源層:數(shù)據(jù)源層位于整個統(tǒng)一運維系統(tǒng)的底層,覆蓋了評估中所有被管對象,包括評估業(yè)務現(xiàn)有的常規(guī)網(wǎng)絡資源和虛擬化環(huán)境、機房設備、云設備等。
(2)數(shù)據(jù)采集層:數(shù)據(jù)采集層負責對評估業(yè)務所有資源的數(shù)據(jù)采集,同時根據(jù)下發(fā)的告警策略進行指標數(shù)據(jù)的匹配。數(shù)據(jù)采集到平臺后,進行匯總和分類,形成告警數(shù)據(jù)、性能數(shù)據(jù)、配置數(shù)據(jù)等。
(3)功能層:系統(tǒng)對數(shù)據(jù)庫的不同數(shù)據(jù)進行調用、整合,形成監(jiān)控數(shù)據(jù)、服務管理數(shù)據(jù)、業(yè)務服務數(shù)據(jù)。同時不同評估業(yè)務視圖中也能看到屬于自己管轄范圍內(nèi)的運維數(shù)據(jù)。
(4)展現(xiàn)層:統(tǒng)一運維平臺將處理后的數(shù)據(jù)從數(shù)據(jù)庫中進行調用,展現(xiàn)到門戶網(wǎng)站模塊中。同時根據(jù)人員權限不同,評估人員可通過門戶網(wǎng)站看到不同的運維數(shù)據(jù)、業(yè)務數(shù)據(jù)和應用系統(tǒng)等數(shù)據(jù)。系統(tǒng)可針對不同的角色比如工程師、部門管理者、高層領導,設置不同的頁面展現(xiàn)。個人也可以根據(jù)喜好設置不同的個人門戶頁面。
本文針對科技評估數(shù)據(jù)的特點,提出了一種面向科技評估數(shù)據(jù)的信息平臺架構設計,建立一套信息平臺體系規(guī)劃,在此基礎上,設計了信息平臺的業(yè)務流程引擎和平臺的統(tǒng)一運維體系。
在下一步的研究中,我們將繼續(xù)平臺體系研究進行深化,并針對不同類型的科技評估數(shù)據(jù),對平臺處理數(shù)據(jù)的時效性進行比對,根據(jù)平臺對不同數(shù)據(jù)的適應性進行相應的優(yōu)化設計。