楊金峰 侯景嚴(yán) 王松
摘 要:隨著互聯(lián)網(wǎng)的飛速發(fā)展,企業(yè)建立了諸多信息管理系統(tǒng),其數(shù)據(jù)產(chǎn)生量也爆炸式增長。合理利用各類系統(tǒng)的異構(gòu)數(shù)據(jù)挖掘潛在信息,對助力企業(yè)決策者確立企業(yè)發(fā)展方向及計(jì)劃具有重要意義。為此,文章針對企業(yè)內(nèi)部已有信息系統(tǒng)數(shù)據(jù)分散、基本結(jié)構(gòu)不一致的異構(gòu)狀態(tài),依托“態(tài)勢感知”思想,借助數(shù)據(jù)可視化分析方法和圖形化展示手段建立面向異構(gòu)數(shù)據(jù)的態(tài)勢感知系統(tǒng),有助于挖掘歷史數(shù)據(jù)的價值以及提升企業(yè)決策者態(tài)勢感知的支持度。
關(guān)鍵詞:異構(gòu)數(shù)據(jù),大數(shù)據(jù),決策支持
中圖法分類號:TP311文獻(xiàn)標(biāo)識碼:A
1 引言
隨著時間的推移,計(jì)算機(jī)科學(xué)與技術(shù)發(fā)展日新月異,許多科研企業(yè)搭上了數(shù)字化、智能化的快車,構(gòu)建了一連串輔助辦公的核心業(yè)務(wù)軟件系統(tǒng),如人力資源管理軟件、固定資產(chǎn)管理軟件、供應(yīng)商管理軟件、測試管理軟件等。經(jīng)過時間的積累,諸多系統(tǒng)產(chǎn)生了大量的應(yīng)用數(shù)據(jù),企業(yè)逐漸進(jìn)入大數(shù)據(jù)時代。數(shù)據(jù)的積累可以通過數(shù)據(jù)本身為系統(tǒng)提供反查依據(jù),也可以通過數(shù)據(jù)挖掘、數(shù)據(jù)分析等信息化手段得到潛在的數(shù)據(jù)或關(guān)聯(lián)關(guān)系,為企業(yè)中、高領(lǐng)導(dǎo)層提供做出決策的態(tài)勢感知支持,進(jìn)而對系統(tǒng)的建設(shè)和使用做出正相關(guān)反饋[1] 。但企業(yè)內(nèi)部建立的系統(tǒng)不是一天、一次性建成的,導(dǎo)致在企業(yè)辦公應(yīng)用系統(tǒng)中形成了不同編程語言、不同操作系統(tǒng)、不同硬件架構(gòu),不同數(shù)據(jù)庫的系統(tǒng)集群[2] 。不同的系統(tǒng)產(chǎn)生了大量的密集型多來源異構(gòu)數(shù)據(jù),影響了企業(yè)統(tǒng)一視圖的建設(shè),將此類異構(gòu)的數(shù)據(jù)進(jìn)行整合并建設(shè)精細(xì)化、集成化的態(tài)勢感知系統(tǒng)顯得尤為重要。
本文針對多來源的異構(gòu)數(shù)據(jù)在企業(yè)態(tài)勢感知系統(tǒng)中的應(yīng)用,提出通過異構(gòu)數(shù)據(jù)的整合,將其應(yīng)用于態(tài)勢感知系統(tǒng),并建立一系列指標(biāo)供決策者在決策前感知發(fā)展態(tài)勢。
2 相關(guān)理論
2.1 異構(gòu)數(shù)據(jù)整合
異構(gòu)數(shù)據(jù)顧名思義是指基本結(jié)構(gòu)不同的數(shù)據(jù)庫數(shù)據(jù),是由多個擁有獨(dú)立、完整的DBMS 數(shù)據(jù)庫數(shù)據(jù)組成的集合。異構(gòu)數(shù)據(jù)的異構(gòu)性主要體現(xiàn)在異構(gòu)的計(jì)算機(jī)體系結(jié)構(gòu)、異構(gòu)的操作系統(tǒng)、異構(gòu)的數(shù)據(jù)格式、異構(gòu)的數(shù)據(jù)存儲地點(diǎn)以及異構(gòu)的數(shù)據(jù)存儲邏輯模型。本文的數(shù)據(jù)整合主要由異構(gòu)的數(shù)據(jù)格式和異構(gòu)的存儲邏輯模型構(gòu)成。數(shù)據(jù)格式存在多樣性,包括關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫;存儲邏輯模型主要在不同業(yè)務(wù)邏輯中存儲和維護(hù)相同意義的數(shù)據(jù)。異構(gòu)數(shù)據(jù)整合的目的是實(shí)現(xiàn)不同層次結(jié)構(gòu)的數(shù)據(jù)庫數(shù)據(jù)資源的共享和集成。其關(guān)鍵在于組織基礎(chǔ)數(shù)據(jù),并借助不同的工具和簡單的邏輯整合,生成具有統(tǒng)一對外接口的數(shù)據(jù)倉庫資源。數(shù)據(jù)整合的步驟如圖1 所示,包括數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等步驟,最終形成數(shù)據(jù)倉庫,為后續(xù)環(huán)節(jié)提供統(tǒng)一化的數(shù)據(jù)支撐。
數(shù)據(jù)抽取的概念是將上層需要的數(shù)據(jù)從下層源中按照一定規(guī)則進(jìn)行提取。當(dāng)前現(xiàn)有數(shù)據(jù)抽取的技術(shù)手段有全量和增量2 種抽取方式。第一種全量的方式類似于數(shù)據(jù)的遷移和復(fù)制,它對下層源中所有數(shù)據(jù)進(jìn)行原封不動的抽取。而第二種增量的方式則是對比上次抽取時的狀態(tài),只抽取有變化的部分。這種方式最重要的環(huán)節(jié)是如何捕捉源的變化。在確保結(jié)果準(zhǔn)確率和性能最優(yōu)化的前提下,其主要方法有觸發(fā)器方式、時間戳方式、日志記錄方式等。
異構(gòu)數(shù)據(jù)最終生成數(shù)據(jù)倉庫并對外提供統(tǒng)一化接口的關(guān)鍵一步是數(shù)據(jù)清洗和轉(zhuǎn)換,具體操作為通過檢查數(shù)據(jù)有效性和一致性,對缺失值進(jìn)行處理。其主要處理方法有部分?jǐn)?shù)據(jù)丟棄法、缺失數(shù)據(jù)補(bǔ)全法、真值轉(zhuǎn)換法、不處理等。可根據(jù)源頭數(shù)據(jù)庫表以及字段的特性來選擇方法對其進(jìn)行處理。而數(shù)據(jù)轉(zhuǎn)換則是因?yàn)楫悩?gòu)的原因而引入,主要解決各源頭系統(tǒng)中對某一特定事物表述方式不同的問題。如A 系統(tǒng)將性別表示為男、女,而B 系統(tǒng)則表示為F,M,此時應(yīng)根據(jù)數(shù)據(jù)倉庫的標(biāo)準(zhǔn)對源頭系統(tǒng)的數(shù)據(jù)做轉(zhuǎn)換,達(dá)到最終一致的效果。
2.2 態(tài)勢感知與決策
態(tài)勢感知是指能全局地發(fā)現(xiàn)周圍的發(fā)展?fàn)顟B(tài)和趨勢,它是基于環(huán)境且動態(tài)的。此概念最早出現(xiàn)在軍事研究中,包含感知、理解和預(yù)測3 個方面。態(tài)勢感知數(shù)據(jù)系統(tǒng)則以大數(shù)據(jù)為基礎(chǔ),從全局視角出發(fā),發(fā)現(xiàn)潛在問題,監(jiān)測業(yè)務(wù)發(fā)展,反饋決策效果。態(tài)勢感知數(shù)據(jù)系統(tǒng)所處地位高于綜合信息管理系統(tǒng)。它融合多種處理方法和分析算法,對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析處理,并充分利用多樣的可視化組件圖形對處理的結(jié)果進(jìn)行展示,最終為企業(yè)決策者態(tài)勢感知提供有力支持。系統(tǒng)對應(yīng)態(tài)勢感知概念中的3 個層次為:數(shù)據(jù)管理層、數(shù)據(jù)分析層、數(shù)據(jù)展示層。具體態(tài)勢感知系統(tǒng)結(jié)構(gòu)如圖2 所示。數(shù)據(jù)管理層是該系統(tǒng)的基礎(chǔ)模塊,主要功能是對異構(gòu)數(shù)據(jù)進(jìn)行整合,完成異構(gòu)數(shù)據(jù)的抽取、清洗和轉(zhuǎn)換,最終形成可對上層模塊提供統(tǒng)一化接口的存儲管理倉庫。數(shù)據(jù)分析層是態(tài)勢感知系統(tǒng)的關(guān)鍵,主要通過各類數(shù)據(jù)處理方法和數(shù)據(jù)分析算法對業(yè)務(wù)數(shù)據(jù)進(jìn)行全方位的統(tǒng)計(jì)分析,得到可供展示的半成品態(tài)勢感知數(shù)據(jù)。展示層對態(tài)勢感知數(shù)據(jù)進(jìn)行多維度的展示,通過多樣化的圖表(如柱形圖、環(huán)圖、雷達(dá)圖等)準(zhǔn)確清晰地表示數(shù)據(jù),并依靠各業(yè)務(wù)系統(tǒng)設(shè)立的角色對展示權(quán)限進(jìn)行約束。
態(tài)勢感知數(shù)據(jù)系統(tǒng)可以快速連接現(xiàn)有系統(tǒng)數(shù)據(jù),有效分析數(shù)據(jù)潛在問題與趨勢,幫助各角色人員對企業(yè)發(fā)展態(tài)勢進(jìn)行準(zhǔn)確感知,并在此基礎(chǔ)上做出決策,以供執(zhí)行層業(yè)務(wù)人員修正業(yè)務(wù)內(nèi)存在的問題。
3 系統(tǒng)設(shè)計(jì)
3.1 系統(tǒng)頂層架構(gòu)
本系統(tǒng)通過對企業(yè)決策支持的現(xiàn)狀和業(yè)務(wù)需求進(jìn)行分析,并結(jié)合企業(yè)內(nèi)部在用的信息化綜合管理系統(tǒng),采用自底向上的模式,其具體分為3 個層次,包括數(shù)據(jù)管理層、數(shù)據(jù)分析層和數(shù)據(jù)展示層。實(shí)現(xiàn)態(tài)勢感知數(shù)據(jù)系統(tǒng)的思路為:首先在數(shù)據(jù)管理層對企業(yè)內(nèi)部建立的大量業(yè)務(wù)系統(tǒng)產(chǎn)生的異構(gòu)數(shù)據(jù)進(jìn)行整合,經(jīng)過一系列的清洗及轉(zhuǎn)換,形成可供分析使用的數(shù)據(jù)倉庫;然后分析企業(yè)內(nèi)態(tài)勢感知指標(biāo)體系,并提出供決策使用的指標(biāo)以及結(jié)合數(shù)據(jù)處理方法和數(shù)據(jù)分析算法得到的待展示數(shù)據(jù);最后選擇適用于展示數(shù)據(jù)的可視化組件并形成圖形化界面,給予各層次決策者不同的數(shù)據(jù)權(quán)限、展示權(quán)限,從而為其決策提供充分依據(jù)。面向異構(gòu)數(shù)據(jù)的態(tài)勢感知系統(tǒng)架構(gòu)如圖3 所示。
3.2 數(shù)據(jù)管理模塊
數(shù)據(jù)管理模塊主要管理來自各獨(dú)立系統(tǒng)的異構(gòu)數(shù)據(jù),并對數(shù)據(jù)分析模塊提供輸出。其主要處理同構(gòu)化的異構(gòu)數(shù)據(jù)并對中間結(jié)果進(jìn)行抽取清洗和轉(zhuǎn)換,最終生成可供上級分析模塊使用的數(shù)據(jù)倉庫。數(shù)據(jù)抽取主要針對當(dāng)前已經(jīng)建立的一系列應(yīng)用系統(tǒng),目前企業(yè)內(nèi)系統(tǒng)數(shù)據(jù)庫均為諸如MySQL,Oracle,SQL Server的關(guān)系型數(shù)據(jù)庫,直接通過JDBC 接口連接即可。各數(shù)據(jù)庫數(shù)據(jù)鏈接后,還需要對管理的數(shù)據(jù)做進(jìn)一步的清洗和轉(zhuǎn)換。具體操作包括數(shù)據(jù)庫數(shù)據(jù)列命名、數(shù)據(jù)行重復(fù)值刪除、缺失值處理、異常值處理,也包括數(shù)據(jù)重排序和數(shù)據(jù)的一致化處理。該模塊是態(tài)勢感知數(shù)據(jù)系統(tǒng)的基礎(chǔ),因此對數(shù)據(jù)的安全性和保密性提出高要求尤為重要。數(shù)據(jù)安全性主要參考源系統(tǒng)的業(yè)務(wù)權(quán)限,對用戶建立角色并保證對特定用戶角色開放特定數(shù)據(jù)權(quán)限。
3.3 數(shù)據(jù)分析模塊
數(shù)據(jù)分析模塊主要分為2 部分:一是按照業(yè)務(wù)需求確立態(tài)勢感知的指標(biāo)體系,二是根據(jù)確立的指標(biāo)體系并結(jié)合數(shù)據(jù)處理方法和數(shù)據(jù)分析算法對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行分析處理得到的待展示結(jié)果。指標(biāo)體系需求確立數(shù)據(jù)領(lǐng)域與用戶,數(shù)據(jù)領(lǐng)域劃分為戰(zhàn)略規(guī)劃、科研管理、生產(chǎn)管理、人力管理、財(cái)務(wù)管理、采購管理、質(zhì)量管理等。用戶分為決策層(高層)、管理層(中層)、執(zhí)行層(基層)。其中,決策層指標(biāo)體系關(guān)注戰(zhàn)略目標(biāo)、監(jiān)控運(yùn)營盈虧等綜合性指標(biāo);管理層指標(biāo)體系關(guān)注目標(biāo)計(jì)劃完成狀況、分析發(fā)現(xiàn)的問題;執(zhí)行層主要細(xì)化到各自負(fù)責(zé)的業(yè)務(wù)執(zhí)行狀況,關(guān)注具體業(yè)務(wù)指標(biāo)。數(shù)據(jù)處理方法主要涵蓋數(shù)據(jù)關(guān)聯(lián)、匯總和合并,而數(shù)據(jù)分析算法則比較多樣,包含回歸、分類、聚類等,最終得到以領(lǐng)域劃分,以角色控制的待展示數(shù)據(jù)。
3.4 可視化模塊
可視化模塊輸入為數(shù)據(jù)分析的結(jié)果,選擇適用于該數(shù)據(jù)結(jié)構(gòu)的可視化圖形進(jìn)行繪制,得到最終結(jié)果并與門戶系統(tǒng)集成,供用戶使用。可視化需求可分為以下3 個方面:數(shù)據(jù)變化趨勢、數(shù)據(jù)統(tǒng)計(jì)分布、潛在數(shù)據(jù)分析。而開發(fā)平臺上對應(yīng)可視化前端組件非常豐富,具體有:柱線組合圖、環(huán)圖、矩形樹圖、漏斗圖、氣泡圖。因此可根據(jù)展示數(shù)據(jù)類型按需選擇可視化圖表設(shè)計(jì)成果,最終發(fā)布成果到企業(yè)門戶系統(tǒng)供各層人員查看并感知發(fā)展態(tài)勢。
4 系統(tǒng)實(shí)現(xiàn)
基于上文中態(tài)勢數(shù)據(jù)感知系統(tǒng)的理論模型和企業(yè)現(xiàn)有信息管理,結(jié)合系統(tǒng)頂層設(shè)計(jì)和模塊詳細(xì)設(shè)計(jì),構(gòu)建了面向異構(gòu)數(shù)據(jù)的態(tài)勢感知系統(tǒng)。首先整理企業(yè)現(xiàn)有綜合管理系統(tǒng),包括人力管理、生產(chǎn)及科研管理、財(cái)務(wù)與薪酬管理等系統(tǒng),并統(tǒng)一管理和標(biāo)準(zhǔn)化各系統(tǒng)數(shù)據(jù)源,而后對這些異構(gòu)數(shù)據(jù)進(jìn)行整合。其次進(jìn)行業(yè)務(wù)調(diào)研、需求梳理,形成業(yè)務(wù)板塊并建立一套符合單位現(xiàn)狀和業(yè)務(wù)現(xiàn)狀的態(tài)勢感知指標(biāo)體系,覆蓋戰(zhàn)略規(guī)劃、科研管理、生產(chǎn)管理、人力管理、財(cái)務(wù)管理、采購管理等10 余個模塊,建立100 余個需求指標(biāo)。最終使用以折線圖、柱形圖、環(huán)形圖為代表的可視化圖形進(jìn)行繪制,綜合生成態(tài)勢感知結(jié)果。如圖4 所示,針對企業(yè)內(nèi)部全年計(jì)劃完成情況分布,提取綜合計(jì)劃管理系統(tǒng)數(shù)據(jù)并生成環(huán)形圖,以展示相關(guān)業(yè)務(wù)的態(tài)勢,點(diǎn)擊環(huán)形圖也可展示各部分組成數(shù)據(jù)全貌,給予決策者詳細(xì)的參考。如圖5 所示,針對企業(yè)內(nèi)部員工基本信息,提取人力資源管理系統(tǒng)數(shù)據(jù)并生成員工年齡分布柱狀圖,以展示員工各年齡階段分布。決策者可以由此了解企業(yè)員工整體年齡分布是否符合正態(tài)分布,并據(jù)此對新員工招聘年齡和企業(yè)崗位任職等抉擇性信息作出調(diào)整。
5 結(jié)束語
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)增長飛速。合理利用數(shù)據(jù)已成為日常業(yè)務(wù)的重要工作。態(tài)勢感知系統(tǒng)可以將業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行整合,挖掘潛在數(shù)據(jù)并利用可視化工具對其進(jìn)行更加直觀、美化的展示。因此,本文基于企業(yè)內(nèi)各業(yè)務(wù)系統(tǒng),并面向異構(gòu)數(shù)據(jù)研究建立本地化的態(tài)勢感知數(shù)據(jù)系統(tǒng),以豐富的圖表形式展現(xiàn)了企業(yè)內(nèi)部業(yè)務(wù)現(xiàn)狀和發(fā)展趨勢;利用大量隱藏、有價值的業(yè)務(wù)數(shù)據(jù)整合異構(gòu)信息系統(tǒng)數(shù)據(jù),以豐富的圖表直觀表達(dá)了數(shù)據(jù)分布和企業(yè)重要發(fā)展態(tài)勢,從而為各層員工傳遞信息并為其作出有效決策提供數(shù)據(jù)支持。
參考文獻(xiàn):
[1] 程龍軍.面向大數(shù)據(jù)的指揮決策系統(tǒng)模型研究[J].山西電子技術(shù),2015(1):85?87.
[2] 楊明亮.基于數(shù)據(jù)抽取的決策支持系統(tǒng)研究與實(shí)現(xiàn)[J].?dāng)?shù)字技術(shù)與應(yīng)用,2018,36(3):47?48.
作者簡介:
楊金峰(1996—),碩士,助理工程師,研究方向:軟件設(shè)計(jì)開發(fā)及數(shù)據(jù)庫應(yīng)用。
王松(1989—),碩士,高級工程師,研究方向:軟件開發(fā)及數(shù)據(jù)分析(通信作者)。