摘? 要:檔案信息大數(shù)據平臺在實際的應用過程中,會產生大量的價值數(shù)據包括用戶行為特征數(shù)據,合理開發(fā)利用現(xiàn)有的數(shù)據,可以更加精準提升平臺服務體驗。本文利用大數(shù)據分析相關技術,對平臺數(shù)據維度進行深入分析,利用ABP技術對平臺進行搭建,設計出可以提供多維度、多指標的交叉分析能力的智能可視化分析系統(tǒng)。智慧檔案信息服務平臺利用該智能分析系統(tǒng),可以滿足用戶個性化數(shù)據分析的需求,從而提升了平臺用戶的滿意度,進而為平臺服務效率的提升提供了依據。
關鍵詞:檔案數(shù)據;檔案信息資源;共享平臺;智能分析;系統(tǒng)設計
Abstract:? In the actual application process of the archival information big data platform, a large amount of valuable data will be generated, including user behavior characteristic data. Rational development and utilization of the existing data can more accurately improve the platform service experience. This paper uses big data analysis related technologies to conduct in-depth analysis of the platform data dimensions, using ABP technology to build the platform, and design an intelligent visual analysis system that can provide multi-dimensional and multi-index cross-analysis capabilities. The intelligent archives information service platform utilizes the intelligent analysis system to meet the needs of users for personalized data analysis, thereby improving the satisfaction of platform users, and thus providing a basis for the improvement of platform service efficiency.
Keywords:? Archive data; Archive information resources; Sharing platform; Intelligent analysis; System design
大數(shù)據時代,物聯(lián)網、大數(shù)據、移動通訊、云計算等新一代信息技術在各個領域得到了廣泛的應用,催生了更多的數(shù)字化信息。智慧檔案信息服務平臺的構建就是以“用戶為本,利用至上”為宗旨,以“智能管理”為手段,以“智慧服務”為目標,通過研究基于微服務架構的新一代檔案信息服務管理平臺為核心,構建大數(shù)據時代智慧檔案信息服務平臺,實現(xiàn)檔案線上線下服務的全網絡、全終端、全資源的深度融合,實現(xiàn)檔案信息資源的共享共用,推進檔案信息化建設的進程。設計智慧檔案信息服務平臺的智能分析系統(tǒng),能夠合理配置檔案資源,全面實現(xiàn)個性化、精準化的智慧服務,提高檔案信息資源的利用率。通過對檔案信息資源數(shù)據深度分析,挖掘數(shù)據之間的關聯(lián)關系,利用數(shù)據之間的關系得出合理的推論。對于用戶而言,可視化的圖表操作,可以幫助其挖掘更多的價值信息,通過圖表化的分析,讓數(shù)據朝著用戶設定的方向進行。檔案信息資源數(shù)據不同于一般的移動互聯(lián)網社交信息數(shù)據,在數(shù)據分析的過程中要加強信息的保護,數(shù)據的可視化訪問權限需要提前做好策略管理。[1]設計平臺的智能分析系統(tǒng),能夠實現(xiàn)個性化數(shù)據分析可視化展示,[2]及時調整平臺服務的相關舉措,使平臺在大數(shù)據時代得到充分的應用。
1 智能分析系統(tǒng)概述
智慧檔案信息服務平臺智能分析系統(tǒng)主要利用平臺中不斷增加的檔案信息資源數(shù)據,對數(shù)據使用的用戶行為進行挖掘并做關聯(lián)分析,進而分析平臺運行狀態(tài)與檔案服務質量,提供面向用戶和面向檔案管理者的數(shù)據決策支持。為了更好地利用檔案信息資源數(shù)據,在數(shù)據處理過程中需要重視待分析數(shù)據的清洗工作,以確保待分析數(shù)據的正確性,[3]在智能分析系統(tǒng)實際使用過程中,由于移動互聯(lián)網技術的成熟,移動智能設備的普及,除了可以在傳統(tǒng)的PC端進行數(shù)據分析,還可以在移動端,如手機、pad端進行查看,讓最終用戶可以不通過PC就方便地用手指觸摸的方式查看各種可視化報告。移動智能設備的利用,還可以挖掘出更多的用戶特性,進而為平臺的優(yōu)化提供客觀的數(shù)據參考。
在系統(tǒng)的實現(xiàn)過程中,對數(shù)據的描述性分析、線性回歸分析、方差分析、主成分分析等數(shù)據分析方法進行了綜合研究,按照需求分析、概念結構分析、邏輯結構分析、物理結構分析等步驟建立了數(shù)據分析模型,系統(tǒng)主要提供如下幾方面的分析功能[4]:(1)建立面向檔案管理人員的分析模式;(2)建立面向檔案業(yè)務的分析模式;(3)建立面向檔案管理系統(tǒng)的分析模式。
2 智能分析系統(tǒng)設計
在前期數(shù)據調研的基礎上,從系統(tǒng)的設計目標、系統(tǒng)的總體架構、系統(tǒng)實現(xiàn)的關鍵技術以及系統(tǒng)功能幾個方面對智能分析系統(tǒng)進行設計。[5]
2.1 系統(tǒng)總體設計目標。智能分析系統(tǒng)最終目的是滿足不同類型用戶對智慧檔案信息服務平臺進行數(shù)據分析,系統(tǒng)無法從現(xiàn)有的平臺中分析出高價值信息,可以通過合并不同領域不同年份的平臺數(shù)據。大體量的信息分析出來的報告更具有參考價值,最終形成個性化的圖表可視化界面。[6]在具體實現(xiàn)過程中,需要綜合考慮平臺用戶群體的特性,考慮在用戶角色、角色權限管理方面具有友好的設置頁面,在用戶進入平臺進行數(shù)據分析時,需要做好不同類型數(shù)據進入系統(tǒng)進行綜合分析,選擇不同的模板與不同的外觀進行展示。在移動互聯(lián)網技術不斷發(fā)展的背景下,平臺的設計需要考慮智能終端移動設備的兼容,由于用戶來源的多樣性,在系統(tǒng)安全性方面需要加強配置控制。具體的目標主要體現(xiàn)在以下幾方面。
2.1.1 安全認證。檔案具有私密屬性,安全認證是保障檔案文件不被泄露、竊取、盜用的首要保護機制。在檔案智能分析系統(tǒng)安全風險防護設計中,既要科學設置服務器規(guī)則、路由協(xié)議、防火墻安全參數(shù),也要注重軟件層面的安全防護,配置系統(tǒng)文件加密機制、管理員賬戶加密機制、用戶檔案加密機制,詳細記錄管理員權限設置、檔案修改、檔案上傳、檔案刪除、檔案審核、檔案檢索,用戶上傳檔案、用戶檢索檔案、用戶瀏覽檔案,系統(tǒng)自動編輯修改檔案與文件的日期、時間、操作員工號等信息。
2.1.2 檔案信息的存儲。針對檔案信息存儲制定規(guī)范的制度和標準有助于提高檔案信息資源存儲質量。在該方面,構建快捷高效的檔案上傳接口,設置檔案批量高速上傳、檔案資源外部導入、元數(shù)據導入、數(shù)字檔案與文字檔案轉換、多類型檔案批量載入、檔案資源安全性鑒別、檔案使用權屬管理等功能能夠大幅提升檔案存儲管理的便捷性,加強檔案信息存儲安全。
2.1.3 檔案信息的組織。檔案信息組織的目的主要是編排資源庫中的檔案序列,根據不同檔案的邏輯關系構建一個層次分明、關系邏輯清晰的系統(tǒng)知識體系。智能分析系統(tǒng)在信息資源組織方面需要針對不同部門、主體、領域、責任者的關聯(lián)檔案進行分類,用關聯(lián)詞組描述不同檔案的上下位類聯(lián)系、語義聯(lián)系,為同類型檔案的聚類組織管理創(chuàng)造便利條件。
2.1.4 檔案信息的檢索與傳播。關鍵詞檢索與分類檢索在多系統(tǒng)資源檢索中的應用非常廣泛,檢索中得到的檔案資源信息具有一定的內在關聯(lián),能夠使用戶更加高效地查找與自身需求相符的檔案信息。為確保檔案信息的安全性,有必要在為各類系統(tǒng)檔案設置專用權限字段的基礎上,通過針對性開放模式使不同機構的保密檔案在特定時段內有限制地開放,以提高針對性信息與共享性信息的可用性。
2.1.5 用戶評介與互操作服務。智慧檔案管理系統(tǒng)配置用戶評價功能與互操作功能的目的主要是為了給用戶之間、不同系統(tǒng)之間、用戶與系統(tǒng)之間的信息共享交互提供一個高效的互動平臺。其中,用戶在與系統(tǒng)交互的過程中的身份為系統(tǒng)幫助者,可提出系統(tǒng)操作問題、運行問題、使用感受,或對各種系統(tǒng)問題進行解答,而系統(tǒng)會自動收納相關問題和答案,并生成系統(tǒng)問題解決提示,使用戶在遇到系統(tǒng)問題時可通過檢索的形式快速找到解決方法。此外,用戶評價功能與互操作服務功能還能幫助檔案信息平臺更加及時準確地掌握檔案信息使用情況,并根據用戶的檔案信息檢索偏好生成快捷檢索詞,使用戶在無需輸入所有檔案信息的情況下,僅需要通過特定詞匯即可查找目標檔案,但該程序的實現(xiàn)以多系統(tǒng)互聯(lián)為前提。
2.2 系統(tǒng)總體架構。智能分析系統(tǒng)在總體架構設計上,考慮了檔案管理人員、平臺用戶、平臺系統(tǒng)管理員等角色,同時需要考慮移動智能設備的數(shù)據分析功能的兼容性,在數(shù)據庫兼容性上需要考慮關系型數(shù)據庫,非關系型數(shù)據庫也需要做到兼容,平臺最終呈現(xiàn)給用戶豐富的可視化界面應用。分析系統(tǒng)是屬于智慧檔案信息服務平臺的數(shù)據分析模塊,需要實現(xiàn)平臺之間數(shù)據集成,這方面采用單點登錄的方式實現(xiàn)平臺之間的身份驗證互通,對于用戶角色權限方面,需要建立統(tǒng)一管理中心,系統(tǒng)總體架構如圖1所示。
2.3 系統(tǒng)實現(xiàn)關鍵技術。智能分析系統(tǒng)關鍵技術主要體現(xiàn)在數(shù)據采集、數(shù)據預處理、數(shù)據分析挖掘以及數(shù)據分析結果預測。[7]技術維度方面需要采用知識獲取技術、知識表示與組織技術、自然語言處理技術、人機交互技術、新型計算機技術與深度學習技術。[8]在系統(tǒng)實現(xiàn)過程中,商業(yè)智能技術勢必不可缺少,商業(yè)智能技術通常被理解為將現(xiàn)有的數(shù)據預處理為知識,對檔案信息資源數(shù)據預處理后得到的倒排索引文件進行特征選擇,實現(xiàn)特征降維,[9]得到的數(shù)據特征集合為輔助決策者做出決定的依據。
2.4 系統(tǒng)功能設計。從功能結構上分為數(shù)據服務層、應用層、展示層。
數(shù)據服務層主要用于檔案信息資源數(shù)據的讀取、操作及統(tǒng)計匯總;檔案信息資源數(shù)據的數(shù)據層面的應用均通過API進行,應用層實現(xiàn)管理用戶配置和權限體系,同時將系統(tǒng)的角色權限、訪問控制、運行監(jiān)控的服務放在這一層進行處理;個性化可視報告的展示,包括頁面展示、圖表及數(shù)據導出等功能在展示層得到處理,展示層作為對外服務的核心應用,主要用于檔案信息資源數(shù)據在前端展示。系統(tǒng)功能結構如圖2所示。
3 智能分析系統(tǒng)實現(xiàn)
3.1 系統(tǒng)實現(xiàn)過程。系統(tǒng)實現(xiàn)包括兩個部分,第一部分是智能分析系統(tǒng)自身的構建,系統(tǒng)將采用ASP.NET Core技術構建,ASP.NET Core是一個跨平臺,高性能,開放源代碼框架,用于構建現(xiàn)代的,支持云的、互聯(lián)網連接的應用程序,在前端展示方面,將采用HTML5與CSS3技術,結合Bootstrap框架技術,[10]這樣可以兼容傳統(tǒng)的PC和移動智能設備,后端數(shù)據庫支持將采用SQL Server 2016,該數(shù)據庫將提供更好的數(shù)據安全性能,事務性能方面有較大的提升,分析系統(tǒng)數(shù)據操作采用存儲過程以確保性能與數(shù)據安全性。[11]第二部分是系統(tǒng)模型框架的構建,為了支持系統(tǒng)靈活配置數(shù)據分析條件及展示數(shù)據,需要對后端數(shù)據分析進行合理的監(jiān)控,包括服務器自身的硬件狀態(tài),如內存、CPU等,個性化的應用越強,對不同的配置信息進行備份還原操作也需要支持頁面層級的維護,另外對日志相關的數(shù)據也需要進行完善,如用戶訪問平臺數(shù)據、用戶行為數(shù)據、性能監(jiān)控數(shù)據、系統(tǒng)出錯數(shù)據等都需要納入系統(tǒng)的實現(xiàn)當中。
3.2 數(shù)據分析系統(tǒng)技術實現(xiàn)。數(shù)據分析系統(tǒng)在技術框架上采用ABP,它是“ASP.NET Boilerplate Project(ASP.NET樣板項目)”的簡稱,該框架是一個開源應用程序框架,[12]專注于基于ASP.NET Core的Web應用程序開發(fā),使用該框架可以便捷地架構智慧檔案信息服務平臺智能分析系統(tǒng),基礎框架通過在程序包管理控制臺輸入ABP提供的創(chuàng)建項目命令,即可自動生成智能分析系統(tǒng)的解決方案,生成的解決方案已為系統(tǒng)構建了展現(xiàn)層、應用層、領域層、基礎設施層、分布式服務層,其中展現(xiàn)層主要用來提供用戶界面,實現(xiàn)用戶交互操作,應用層主要是進行展現(xiàn)層與領域層之間的協(xié)調,該層不包含具體的業(yè)務邏輯,領域層包括業(yè)務對象和業(yè)務規(guī)則,這是分析系統(tǒng)程序的核心層,基礎設施層主要用來提供通用技術來支持更高的層,例如數(shù)據倉儲可通過 ORM 來實現(xiàn)數(shù)據庫交互,為了使系統(tǒng)的實現(xiàn)更具有靈活性,該解決方案提供了分布式服務層,它用于公開應用程序接口供遠程客戶端調用,采用 ASP.NET Web API 來實現(xiàn),這樣確保每一次服務調用都是統(tǒng)一的,保證數(shù)據分析操作的一致性。[13]ABP框架技術支持Redis選項,可以利用緩存技術來提升數(shù)據分析效率,[14]因為該框架采用了領域驅動設計的思想,在此基礎上可以快速地根據用戶進行個性化定制數(shù)據分析報告。圖表分析功能展示借助了Highcharts相關圖表功能,它是一個用純JavaScript編寫的圖表庫,能夠很簡單便捷地在智慧檔案信息服務平臺的智能分析模塊添加有交互性功能的圖表。
3.3 數(shù)據分析模型構建。在進行檔案信息數(shù)據智能分析之前,需要先準備好數(shù)據,就數(shù)據本身而言,除了現(xiàn)有內容本身,還有數(shù)據的擴展標簽,以便于后續(xù)實現(xiàn)數(shù)據可視化分析的選項更加豐富,[15][16]這項工作一般由檔案管理人員提出要求,由系統(tǒng)管理員進行創(chuàng)建,需要在智慧檔案信息服務平臺與智能分析系統(tǒng)之間創(chuàng)建數(shù)據連接橋梁,以便于對平臺數(shù)據做數(shù)據分析,這相當于平臺數(shù)據映射,智能分析系統(tǒng)智能利用智慧檔案信息服務平臺的現(xiàn)有數(shù)據而不能修改其中的信息。在數(shù)據準備好之后,需要對數(shù)據進行權限分配,主要包括目錄權限、數(shù)據權限、分級權限、管理系統(tǒng)權限、人員權限等。為檔案管理人員以及用戶分配好權限后,平臺用戶可以創(chuàng)建數(shù)據權限分配范圍內的數(shù)據集,根據業(yè)務需求對原數(shù)據進行再加工處理,再處理的操作包括選擇指定字段、過濾指定條件數(shù)據、分組匯總、新增邏輯列、字段名稱設置、排序等。在用戶數(shù)據集創(chuàng)建以后,平臺用戶就可以利用數(shù)據進行可視化分析了,數(shù)據可視化包含了數(shù)據創(chuàng)建表格組件、圖表組件、過濾組件等等,有了這些待分析的檔案信息資源數(shù)據之后,在此業(yè)務基礎之上建立分析模型,并結合模型采用多種分析手段對數(shù)據進行分析,[17]還可以對數(shù)據分析結構展示一系列的設計優(yōu)化,使之更美觀。
3.4 數(shù)據分析效果展示。智能分析系統(tǒng)可以根據用戶的需求,配置出各種可視化圖表信息與個性化儀表面板,圖3以某智慧檔案信息服務平臺2021年的用戶行為數(shù)據作為源頭數(shù)據,來設計可視化的看板信息。源頭數(shù)據中包含如下信息:用戶訪問地點、訪問時間、訪問時長、訪問頁面、頁面停留時長等平臺使用信息,同時可以監(jiān)控平臺當前使用的客戶端樣本信息,最終可以設計成首頁大數(shù)據分析看板頁面。
4 數(shù)據分析系統(tǒng)測試
4.1 測試環(huán)境準備。為了更好地模擬檔案信息資源數(shù)據分析效果,需要準備兩臺服務器,一臺用戶存放檔案信息資源數(shù)據以及源頭數(shù)據檢索用戶行為數(shù)據,服務器硬件采用華為(HUAWEI)2288H V5 服務器主機,操作系統(tǒng)采用Windows Server2016,智能分析系統(tǒng)數(shù)據庫采用SQL Server 2016,另一臺用于共享平臺智能分析系統(tǒng)的應用程序的部署,硬件服務器同數(shù)據庫服務配置,需要安裝Microsoft Visual Studio 2019,并配置好IIS(Internet Information Services 互聯(lián)網信息服務)信息。
4.2 數(shù)據準備。智能分析系統(tǒng)待分析的數(shù)據包含的信息如表1所示。
以上信息將根據用戶的個性化要求配置。系統(tǒng)可以根據用戶的需求,配置出各種可視化圖表信息與個性化儀表面板,通過智能分析系統(tǒng)WebAPI自動拉取到可視化分析平臺中,利用某智慧檔案信息服務平臺2021年的用戶行為數(shù)據作為源頭數(shù)據,形成用戶易于理解的各種圖表分析報告,相關效果如圖4、圖5所示。
4.3 數(shù)據測試結果。通過數(shù)據智能分析系統(tǒng)的部署以及系統(tǒng)自定義分析需求的構建,可以順利拉取出動態(tài)可視化圖表分析報告。在分析用戶信息訪問行為方面,通過統(tǒng)計分析模塊可以了解到平臺頁面的使用頻率,有助于智慧檔案信息服務平臺研究方向和科研需求,更好地開展檔案信息知識化服務工作。另一方面,通過訪問地域信息的統(tǒng)計,可以發(fā)現(xiàn)平臺用戶群體的區(qū)域信息,這樣便于制定針對性用戶服務需求。[18]通過效果展示,分析系統(tǒng)在實際的易用性、可靠性與可維護性方面具有較高的質量。
*本文系2017年國家社科基金年度項目《大數(shù)據時代智慧檔案信息服務平臺構建與創(chuàng)新研究》(項目批準號:17BTQ074)研究成果之一。
參考文獻:
[1]Cheung Ming,James She.An analytic system for user gender identification through user shared images.ACM Transactions on Multimedia Computing,Communications,and Applications,2017,13(03):30.
[2]冉波.大數(shù)據下視頻智能分析系統(tǒng)的應用[J].通訊世界,2019(09):173-174.
[3]卞咸杰.智慧檔案信息服務平臺數(shù)據處理流程研究[J].檔案管理,2018(06):33-35.
[4]郭孔梁.網絡智能分析系統(tǒng)的設計與實現(xiàn)[J].電信工程技術與標準化,2013(04):29-32.
[5]王智鵬.基于移動教學APP的學習狀態(tài)預警系統(tǒng)的研究與實現(xiàn)[D].沈陽:遼寧大學,2019.
[6]Tom Krenzke,Jane F.Gentleman,Jianzhu Li,and Chris Moriarity.Addressing Disclosure Concerns and Analysis Demands in a Real-Time Online Analytic System[J].Journal of Offcial Statistics,2013,29(01):99-124.
[7]翁俊河,李湘麗,林燕斌等.基于大數(shù)據挖掘的網絡輿情智能分析系統(tǒng)關鍵技術研究[J].通訊世界,2019(09):116-118.
[8]化柏林,李廣建.智能情報分析系統(tǒng)的架構設計與關鍵技術研究[J].圖書與情報,2017(06):74-83.
[9]馬梅,劉東蘇,李慧.基于大數(shù)據的網絡輿情分析系統(tǒng)模型研究[J].情報科學,2016,34(03):25-28+33.
[10]卞咸杰.大數(shù)據時代智慧檔案信息服務平臺前端框架的構建[J].檔案與建設,2017(10):11-15.
[11]卞咸杰.大數(shù)據時代智慧檔案信息服務平臺性能優(yōu)化的研究[J].檔案管理,2016(06):18-20.
[12]金秀鳳.基于ABP框架的智慧檔案信息服務平臺模型構建[J].檔案管理,2020(04):64-65.
[13]卞咸杰.大數(shù)據時代智慧檔案信息服務平臺數(shù)據交互服務的研究[J].浙江檔案,2018(11):15-17.
[14]金秀鳳.大數(shù)據時代智慧檔案信息服務平臺數(shù)據處理的優(yōu)化[J].檔案管理,2018(06):29-32.
[15]Richard Gruss,Alan S.Abrahams,Weiguo Fan,G.Alan Wang.By the numbers:The magic of numerical intelligence in text analytic systems.Decision Support Systems,2018,113:86-98.
[16]James S.Walker,Mark W.Jones,Robert S.Laramee,Owen R.Bidder,Hannah J.Williams,Rebecca Scott,Emily L.C.Shepard,Rory P.Wilson.TimeClassifier:a visual analytic system for the classification of multi-dimensional time series data.The Visual Computer,2015,31:1067-1078.
[17]王衛(wèi)鋒,楊林.基于Hadoop的郵政寄遞大數(shù)據分析系統(tǒng)設計與實現(xiàn)[J].中國科學院大學學報,2017,34(03):395-400.
[18]陳廣.基于Fiddler代理程序的電子資源使用統(tǒng)計分析系統(tǒng)的設計與應用[J].圖書情報工作,2018,62(13):30-36.