孫 歆,卓榮慶
(浙江傳媒學(xué)院網(wǎng)絡(luò)數(shù)據(jù)中心,杭州 310018)
儀器設(shè)備是高校開展教學(xué)和科研的物質(zhì)基礎(chǔ),隨著近年來中央、省市加大經(jīng)費投入,高校大型儀器設(shè)備數(shù)量呈逐年上升趨勢。2015 年教育部辦公廳發(fā)布了《關(guān)于加強高等學(xué)??蒲谢A(chǔ)設(shè)施和科研儀器開放共享的指導(dǎo)意見》[1],在意見中明確指出,單臺50 萬元以上設(shè)備列入大型儀器管理辦法,建設(shè)科研設(shè)施與儀器開放共享在線服務(wù)平臺,將符合開放條件的科研設(shè)施與儀器的有關(guān)信息按照統(tǒng)一標(biāo)準(zhǔn)及要求報送至國家網(wǎng)絡(luò)管理平臺,對擬新建設(shè)施和新購置儀器開展查重評議工作,避免資源重復(fù)建設(shè)。建立大型儀器設(shè)備共享平臺可以讓設(shè)備管理者的管理工作從粗放式向精細(xì)化、安全化、智能化管理轉(zhuǎn)變[2],從而提高整個儀器設(shè)備的管理水平。但是平臺在實際使用中經(jīng)常會存在以下問題:①平臺基礎(chǔ)數(shù)據(jù)需要人工進行導(dǎo)入導(dǎo)出,造成設(shè)備儀器管理平臺數(shù)據(jù)與科研、財務(wù)、資產(chǎn)等業(yè)務(wù)系統(tǒng)經(jīng)常無法準(zhǔn)確對應(yīng)。如新建或報廢的設(shè)備信息在資產(chǎn)系統(tǒng)中維護,而大型儀器設(shè)備平臺中的數(shù)據(jù)無法及時更新,可能會出現(xiàn)設(shè)備已報廢但系統(tǒng)中還是可預(yù)約狀態(tài)的情況。②隨著設(shè)備數(shù)量的增加和用戶使用頻率的加深,系統(tǒng)報表分析處理速度大大減慢,傳統(tǒng)的系統(tǒng)架構(gòu)已逐漸不能滿足用戶需求。③平臺只是單單從設(shè)備使用角度來進行建設(shè),無法對后續(xù)設(shè)備采購及決策提供數(shù)據(jù)支撐。
本文從統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)整合的角度出發(fā),運用當(dāng)前先進的大數(shù)據(jù)技術(shù),探索基于大數(shù)據(jù)技術(shù)的大型儀器共享決策平臺建設(shè),對于提高師生滿意度,增強實驗室服務(wù)人員的管理壓力和降低管理人員的決策難度具有較為重要的意義。
ETL(Extract Transform Load)從字面上看就是將業(yè)務(wù)系統(tǒng)數(shù)據(jù)經(jīng)過抽取、清洗、轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫的過程。將ETL技術(shù)運用于高校的信息系統(tǒng)中,其主要目的是將校內(nèi)分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合為統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)平臺。大數(shù)據(jù)技術(shù)中最為經(jīng)典的是其4 V特征,即數(shù)據(jù)巨大(Huge Volume)、數(shù)據(jù)類型繁多(Variety)、信息處理速度快(Velocity)、價值密度低(Value),4 V特征很好地描述了整個大數(shù)據(jù)的數(shù)據(jù)層次特征。本文認(rèn)為這兩種技術(shù)對于高校的真正價值在于其促進了信息技術(shù)產(chǎn)業(yè)與高校業(yè)務(wù)的深度融合,有利于打破部門之間的“信息孤島”,實現(xiàn)全校部門信息的數(shù)據(jù)鏈共享,為各個部門的規(guī)劃、協(xié)同發(fā)展提供數(shù)據(jù)上的支持和前瞻性的預(yù)測[3]。
圍繞儀器設(shè)備系統(tǒng)以及大數(shù)據(jù)技術(shù)應(yīng)用,國內(nèi)外研究人員做了一系列的相關(guān)研究。在儀器設(shè)備系統(tǒng)建設(shè)方面,賀錦等[4]設(shè)計了一套B/S 架構(gòu)的大型儀器管理系統(tǒng);王文君等[5]對大型儀器設(shè)備共享平臺使用現(xiàn)狀進行了分析;胡鵬飛等[6]設(shè)計了高校分析測試中心的大型儀器共享平臺。在大數(shù)據(jù)應(yīng)用方面,Gu等[7]提出了以物聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)實現(xiàn)廢舊電氣設(shè)備管理的技術(shù)框架;陸琳睿等[8]分析了運用大數(shù)據(jù)思維對高校設(shè)備儀器創(chuàng)新管理的支持;Lu等[9]提出了基于云的大數(shù)據(jù)分析制造設(shè)備通用系統(tǒng)架構(gòu);陳京[10]提出用大數(shù)據(jù)技術(shù)來促進教育裝備信息化建設(shè)。
上述研究人員主要是從系統(tǒng)平臺的功能或技術(shù)角度闡述如何構(gòu)建大型儀器設(shè)備平臺,而對大型儀器共享平臺中的業(yè)務(wù)數(shù)據(jù)如何與其他系統(tǒng)整合共享,以此來提高儀器設(shè)備使用效率提及較少。而大型儀器共享平臺建設(shè)應(yīng)該是整個校園信息化建設(shè)的重要一環(huán),大型儀器共享平臺與其他部門的業(yè)務(wù)系統(tǒng)之間應(yīng)該是緊密聯(lián)系,數(shù)據(jù)應(yīng)該是互聯(lián)互通。所以,從實際的數(shù)據(jù)處理角度出發(fā),提出了大型儀器共享平臺數(shù)據(jù)處理模型,以此來提高整個平臺的使用效率。
為了解決上述提出的問題,本文從數(shù)據(jù)共享融合的角度出發(fā),提出了基于大數(shù)據(jù)技術(shù)的大型儀器設(shè)備共享平臺數(shù)據(jù)處理模型。如圖1 所示,整個數(shù)據(jù)處理過程可以分為數(shù)據(jù)整合、數(shù)據(jù)標(biāo)準(zhǔn)化管理、數(shù)據(jù)存儲與調(diào)取3 個部分。
圖1 大型儀器設(shè)備共享平臺數(shù)據(jù)處理模型
我院從2007 起開始進行校內(nèi)數(shù)據(jù)中心建設(shè),2012年起,根據(jù)教育部發(fā)布的高校管理信息標(biāo)準(zhǔn)[11],結(jié)合學(xué)校的自身情況,形成了一套自主的校內(nèi)數(shù)據(jù)標(biāo)準(zhǔn)。在進行數(shù)據(jù)整合時,首先從制度上遵循“誰生產(chǎn)數(shù)據(jù),誰負(fù)責(zé)數(shù)據(jù)”的原則,對大型儀器共享平臺中用到的數(shù)據(jù)進行權(quán)威源界定,比如平臺中的實驗室管理人員工號、姓名字段在人事、教務(wù)、科研、財務(wù)、一卡通系統(tǒng)中都會存在,但人事系統(tǒng)是全校教職工的源頭系統(tǒng),所以工號、姓名數(shù)據(jù)的唯一來源應(yīng)由人事系統(tǒng)產(chǎn)生,權(quán)威源的界定保證了數(shù)據(jù)的唯一性。將數(shù)據(jù)字段定義完成以后,使用ETL工具(如ODI,KETTLE等)將數(shù)據(jù)抽取到標(biāo)準(zhǔn)庫中,準(zhǔn)備進行數(shù)據(jù)的預(yù)處理[12]。
源數(shù)據(jù)抽取到標(biāo)準(zhǔn)庫以后,首先將數(shù)據(jù)進行質(zhì)量檢查,檢查的內(nèi)容主要包括:①數(shù)據(jù)的完整性。數(shù)據(jù)屬性完整性、數(shù)量完整性、字段完整性。②數(shù)據(jù)的準(zhǔn)確性。枚舉正確性、格式準(zhǔn)確性、取值范圍準(zhǔn)確性。③數(shù)據(jù)的唯一性。主鍵唯一性、其他屬性字段唯一性。④數(shù)據(jù)的一致性。數(shù)據(jù)類別一致性、數(shù)據(jù)標(biāo)識一致性、內(nèi)容描述一致性。⑤數(shù)據(jù)的及時性。數(shù)據(jù)插入及時性、數(shù)據(jù)更新及時性、數(shù)據(jù)刪除及時性。對源數(shù)據(jù)質(zhì)量檢查無誤以后,將源頭數(shù)據(jù)字段與標(biāo)準(zhǔn)庫表中的字段進行標(biāo)準(zhǔn)化映射,形成標(biāo)準(zhǔn)表,這些標(biāo)準(zhǔn)表構(gòu)成了數(shù)據(jù)中心標(biāo)準(zhǔn)庫。以大型儀器設(shè)備共享平臺中的資產(chǎn)設(shè)備數(shù)據(jù)為例:相關(guān)的標(biāo)準(zhǔn)表包括GXZC0501(儀器設(shè)備基本數(shù)據(jù)子類)、GXZC0502(儀器設(shè)備附件子類)、GXZC0503(儀器設(shè)備管理子類)、GXZC0504(精密貴重儀器設(shè)備使用子類)、GXZC0505(儀器設(shè)備維修子類)、GXZC0506(儀器設(shè)備報損、報廢子類)。
在模型存儲結(jié)構(gòu)方面,采用了Hadoop 技術(shù)的HDFS分布式文件系統(tǒng)[13],該系統(tǒng)采用典型的主/從系統(tǒng)架構(gòu),HDFS服務(wù)器集群架構(gòu)中包含名稱節(jié)點(Name Node)和多個數(shù)據(jù)節(jié)點(Name Node)[14]。名稱節(jié)點作為核心處理服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的命名空間以及客戶端對文件的訪問,服務(wù)器集群中的數(shù)據(jù)節(jié)點負(fù)責(zé)處理客戶端的讀/寫請求以及數(shù)據(jù)塊的創(chuàng)建、刪除等操作,HDFS架構(gòu)在設(shè)計時充分考慮了數(shù)據(jù)的可靠性和安全性以及高可用性。當(dāng)數(shù)據(jù)源生成標(biāo)準(zhǔn)化數(shù)據(jù)以后,就被復(fù)制分發(fā)到不同的存儲節(jié)點中。模型中采用了Apache 的Sqoop 來進行傳統(tǒng)關(guān)系型數(shù)據(jù)庫和Hadoop之間的數(shù)據(jù)傳輸工作,其可以將關(guān)系型數(shù)據(jù)庫如(Mysql,Oracle等)導(dǎo)入Hadoop 的HDFS 中,也可以將HDFS數(shù)據(jù)導(dǎo)回關(guān)系型數(shù)據(jù)庫。Apache Flume同樣是一個分布式、可靠和高可用性的海量日志采集、聚合和傳輸系統(tǒng),其可以采集文件,socket 數(shù)據(jù)包等各種形式源數(shù)據(jù),又可以將采集到的數(shù)據(jù)輸出到HDFS、HBASE、HIVE、KAFKA等眾多外部存儲系統(tǒng)中。在該模型中通過Hadoop 的API 和Flume 將非結(jié)構(gòu)化數(shù)據(jù)(如視頻、音頻、圖像、網(wǎng)絡(luò)日志等)傳輸?shù)紿DFS 中存儲,大型儀器設(shè)備共享平臺可直接接入大數(shù)據(jù)存儲平臺對平臺基礎(chǔ)數(shù)據(jù)進行調(diào)取。依托大數(shù)據(jù)Hadoop 的海量數(shù)據(jù)存儲和快速計算能力,在數(shù)據(jù)呈現(xiàn)方面,實驗設(shè)備管理人員可以快速查看儀器設(shè)備使用及預(yù)約情況,實現(xiàn)儀器設(shè)備的集中管理。除此之外,還可以對平臺產(chǎn)生的儀器管理數(shù)據(jù)進行科學(xué)分析,對重復(fù)購置的儀器設(shè)備以及設(shè)備利用率低下的設(shè)備實現(xiàn)預(yù)警,推送給管理層相關(guān)人員,為今后的設(shè)備采購提供數(shù)據(jù)決策依據(jù)。大型儀器設(shè)備共享平臺還可以根據(jù)用戶的使用偏好和行為習(xí)慣,基于聚類算法或者主題模型[15]等,形成相同類型的用戶畫像,為使用平臺的教師學(xué)生進行個性化推薦服務(wù)。
大型儀器共享平臺在建設(shè)時,應(yīng)該遵循以下原則:①解決獨立分散的儀器共享的難題,改善當(dāng)前儀器利用率低的情況。②設(shè)備平臺基礎(chǔ)數(shù)據(jù)自動從其他相關(guān)業(yè)務(wù)系統(tǒng)同步,減輕高校實驗管理人員的工作量,避免手工導(dǎo)入導(dǎo)出而產(chǎn)生的誤操作。③最大程度滿足實驗室使用者和管理者的需求,實現(xiàn)實驗室相關(guān)工作的全過程管理,實時監(jiān)控儀器運行狀態(tài)和生成統(tǒng)計信息,并將儀器設(shè)備信息定期上報國家網(wǎng)絡(luò)平臺。
如圖2 所示,平臺系統(tǒng)整個功能模塊分為數(shù)據(jù)中心對接、大型儀器管理、數(shù)據(jù)分析統(tǒng)計、國家網(wǎng)絡(luò)平臺上報4 個部分。
圖2 大型儀器設(shè)備共享平臺功能模塊圖
3.2.1 數(shù)據(jù)中心對接模塊
系統(tǒng)平臺必須遵循校內(nèi)統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),開發(fā)統(tǒng)一的數(shù)據(jù)接口,實現(xiàn)數(shù)據(jù)的交換與共享,同步資產(chǎn)設(shè)備、一卡通、科研、財務(wù)、教職工以及學(xué)生基本數(shù)據(jù)信息,以保證數(shù)據(jù)的權(quán)威性和準(zhǔn)確性?;拘畔⒃谄脚_中無需再次注冊,以降低實驗室系統(tǒng)管理人員的維護復(fù)雜度。平臺系統(tǒng)還接入統(tǒng)一身份認(rèn)證服務(wù),認(rèn)證服務(wù)采用OAuth2.0、CAS、RestFul API 等多種認(rèn)證方式以提高應(yīng)用系統(tǒng)的安全性。
3.2.2 大型儀器管理模塊
(1)人員授權(quán)管理。人員管理符合高??蒲泄芾硖攸c,同步科研系統(tǒng)中的科研人員數(shù)據(jù)到大型儀器管理平臺,人員授權(quán)與科研經(jīng)費、培訓(xùn)、預(yù)約信息等多方面進行關(guān)聯(lián),對不滿足條件的人員進行權(quán)限控制。
(2)儀器設(shè)備管理。從國有資產(chǎn)系統(tǒng)中同步儀器設(shè)備的基本信息,避免二次人工錄入,同時進行數(shù)據(jù)的聯(lián)動,當(dāng)設(shè)備儀器狀態(tài)發(fā)生改變時(如新建、位置變更、維修、報廢等),系統(tǒng)進行同步更新。系統(tǒng)還應(yīng)支持按照功能、學(xué)院歸屬等多種分類標(biāo)簽查看,以滿足使用者的多樣化需求。
(3)預(yù)約管理。預(yù)約管理包括自主預(yù)約和送樣預(yù)約管理[16]。自主預(yù)約可以讓用戶方便快捷了解當(dāng)前儀器的預(yù)約狀態(tài),合理選擇空閑時間進行設(shè)備預(yù)約。送樣預(yù)約是根據(jù)每臺儀器設(shè)備技術(shù)特點,根據(jù)不同用戶設(shè)定不同的送樣時間,并且用戶可以實時了解自己的樣品測試狀態(tài)進度,測試結(jié)果可通過在線傳輸方式,師生不必再次線下取樣。用戶在預(yù)約使用儀器設(shè)備時,可選擇應(yīng)用于哪一類項目,方便后期對實驗成果和儀器設(shè)備運行狀態(tài)進行整體的分析和匯總。
(4)財務(wù)報銷管理。報銷管理與數(shù)據(jù)中心財務(wù)標(biāo)準(zhǔn)庫數(shù)據(jù)進行對接,儀器使用完成產(chǎn)生收費數(shù)據(jù)以后,儀器負(fù)責(zé)人通過經(jīng)費代碼對收費信息進行確認(rèn)和鎖定,系統(tǒng)自動生成對應(yīng)的報銷信息并推送至財務(wù)系統(tǒng),財務(wù)系統(tǒng)定期處理完成后向儀器管理系統(tǒng)返回成功狀態(tài),即可完成整個報銷工作。該流程實現(xiàn)了在儀器管理平臺中自動完成儀器設(shè)備使用的報銷工作,大大簡化線下報銷單報銷的方式,也減輕了實驗人員與財務(wù)人員的工作量。
(5)服務(wù)評價管理。系統(tǒng)提供用戶對設(shè)備及管理人員進行打分評價的功能,用戶可直接對管理人員的綜合服務(wù)、儀器狀態(tài)等多方面進行打分評價,打分評價也是后期進行用戶數(shù)據(jù)挖掘的重要數(shù)據(jù)來源之一。
(6)門禁管理。系統(tǒng)與校數(shù)據(jù)中心一卡通標(biāo)準(zhǔn)庫進行數(shù)據(jù)整合,數(shù)據(jù)對接后可以將用戶進入實驗室的權(quán)限與一卡通狀態(tài)以及儀器預(yù)約情況進行關(guān)聯(lián),實現(xiàn)了只有預(yù)約或者授權(quán)的用戶才可通過門禁進入所在實驗室,以此來保護貴重儀器的正常運轉(zhuǎn)。
(7)視頻監(jiān)控管理。系統(tǒng)與校數(shù)據(jù)中心視頻監(jiān)控數(shù)據(jù)進行對接,可實時查看實驗室內(nèi)的視頻監(jiān)控信息,系統(tǒng)管理人員可以掌握實驗室動態(tài),管控實驗全過程,保障儀器設(shè)備開放安全性。
3.2.3 數(shù)據(jù)分析統(tǒng)計模塊
為讓實驗設(shè)備管理人員直觀方便了解儀器設(shè)備使用情況,系統(tǒng)生成折線圖,柱狀圖和餅狀圖等多種表現(xiàn)類型,用戶可根據(jù)儀器設(shè)備的使用機時、次數(shù)、測樣數(shù)、使用收費等多指標(biāo)多時段進行統(tǒng)計查詢分析比對,為績效考核提供數(shù)據(jù)基礎(chǔ)。此外,系統(tǒng)還增加設(shè)備使用分析指標(biāo),與資產(chǎn)、采購系統(tǒng)進行整合,為科學(xué)購買儀器設(shè)備,避免設(shè)備的重復(fù)購置提供數(shù)據(jù)參考。
3.2.4 國家網(wǎng)絡(luò)平臺對接
系統(tǒng)還與國家科技部網(wǎng)絡(luò)管理平臺和省大型儀器管理平臺進行對接,根據(jù)其數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,開發(fā)相應(yīng)的對接接口,獲取國家平臺的用戶注冊、預(yù)約請求信息,并向其推送儀器的服務(wù)成效等數(shù)據(jù)。
本文運用大數(shù)據(jù)技術(shù)設(shè)計的大型儀器設(shè)備共享平臺在校內(nèi)進行了應(yīng)用實踐。實踐證明該系統(tǒng)可以最大限度滿足實驗室使用者和管理者的需求,實現(xiàn)儀器設(shè)備數(shù)據(jù)的全生命周期管理,提高設(shè)備儀器的共享效率,讓管理工作從粗放式向精準(zhǔn)化、安全化、智能化轉(zhuǎn)變,為領(lǐng)導(dǎo)管理者提供數(shù)據(jù)決策服務(wù),平臺的建設(shè)為學(xué)校建設(shè)國內(nèi)一流、國際知名高水平傳媒大學(xué)目標(biāo)提供有力的技術(shù)支撐。