徐剛強(qiáng)
(湖南工程職業(yè)技術(shù)學(xué)院 信息工程系,長沙 410151)
基于數(shù)據(jù)挖掘的企業(yè)決策支持系統(tǒng)的設(shè)計
徐剛強(qiáng)
(湖南工程職業(yè)技術(shù)學(xué)院 信息工程系,長沙 410151)
隨著自動化技術(shù)及信息技術(shù)的迅猛發(fā)展,企業(yè)的信息化已成為衡量企業(yè)先進(jìn)水平的重要標(biāo)。生產(chǎn)數(shù)據(jù)一直是工廠最關(guān)心的信息。過去,這些數(shù)據(jù)信息只能記錄和顯示在車間控制室。隨著網(wǎng)絡(luò)的普及和發(fā)展,各企業(yè)都擁有自己的局域網(wǎng),這為發(fā)展工業(yè)生產(chǎn)數(shù)據(jù)監(jiān)測系統(tǒng)提供了基本的硬件環(huán)境。如何把這些數(shù)據(jù)信息上網(wǎng)和職能部門的管理信息進(jìn)行整合,作為廠領(lǐng)導(dǎo)和有關(guān)管理部門直接地、實(shí)時地監(jiān)測現(xiàn)場的工藝運(yùn)行狀況。為了適應(yīng)現(xiàn)代化生產(chǎn)管理的需要,有必要設(shè)計并開發(fā)一套生產(chǎn)智能控制和管理決策,使生產(chǎn)調(diào)度、生產(chǎn)管理部門及時、準(zhǔn)確、全面地把握過程工業(yè)的生產(chǎn)過程、生產(chǎn)狀況。為企業(yè)更科學(xué)合理的生產(chǎn)決策提供數(shù)據(jù)依據(jù)。
數(shù)據(jù)挖掘,是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們不知道的、但又是潛在有用的信息和知識的過程。一般由數(shù)據(jù)準(zhǔn)備、挖掘操作、結(jié)果表達(dá)和解釋三個主要階段組成。在數(shù)據(jù)準(zhǔn)備階段應(yīng)集成多個運(yùn)作數(shù)據(jù)源中的數(shù)據(jù),解決語義模糊性、處理遺漏數(shù)據(jù)、清洗臟數(shù)據(jù)。挖掘階段是一個假設(shè)產(chǎn)生、合成、修正和驗(yàn)證傳播的過程,也是上述三個階段的核心。結(jié)果表達(dá)和解釋階段根據(jù)最終用戶的決策目的把提取的有用信息正確地表達(dá)出來。
數(shù)據(jù)挖掘的方法和技術(shù)可大致劃分為三類:統(tǒng)計分析、知識發(fā)現(xiàn)、可視化技術(shù)等。統(tǒng)計分析用于檢查異常形式的數(shù)據(jù),然后利用統(tǒng)計模型和數(shù)學(xué)模型來解釋這些數(shù)據(jù),統(tǒng)計分析方法是目前最成熟的數(shù)據(jù)挖掘工具。而知識發(fā)現(xiàn)則著眼于發(fā)現(xiàn)大量數(shù)據(jù)記錄中潛在的有用信息或新的知識,屬于所謂“發(fā)現(xiàn)驅(qū)動”的數(shù)據(jù)挖掘技術(shù)途經(jīng)??梢暬夹g(shù)則采用直觀的圖形方式將信息模式、數(shù)據(jù)的關(guān)聯(lián)或趨勢呈現(xiàn)給決策者,決策者可以通過可視化技術(shù)交互式地分析數(shù)據(jù)關(guān)系。
生產(chǎn)智能控制和管理決策系統(tǒng)采用數(shù)據(jù)倉庫技術(shù),并使用當(dāng)前比較先進(jìn)的.NET技術(shù)架構(gòu),旨在建立一個集實(shí)時數(shù)據(jù)采集、生產(chǎn)數(shù)據(jù)實(shí)時監(jiān)測和生產(chǎn)數(shù)據(jù)智能分析與管理一體化的生產(chǎn)智能控制和管理決策系統(tǒng)。系統(tǒng)主要由如下各子系統(tǒng)構(gòu)成:生產(chǎn)車間及空壓站的數(shù)據(jù)采集和監(jiān)測子系統(tǒng),生產(chǎn)調(diào)度子系統(tǒng),班組核算子系統(tǒng)。
數(shù)據(jù)采集是生產(chǎn)智能控制和管理決策系統(tǒng)的基礎(chǔ),石化企業(yè)大量采用DCS(Distributed Control System,集散控制系統(tǒng))、PLC(Programmable Logic Controller,可編程控制器)等自動化儀表及控制設(shè)備進(jìn)行生產(chǎn)過程、公用工程、罐區(qū)等的自動化控制。數(shù)據(jù)采集包含生產(chǎn)裝置、油品罐區(qū)、計量系統(tǒng)、公用工程的數(shù)據(jù)采集幾個部分,涉及絕大部分生產(chǎn)數(shù)據(jù),實(shí)現(xiàn)全廠范圍內(nèi)數(shù)據(jù)的集成。
生產(chǎn)實(shí)時監(jiān)測管理子系統(tǒng)主要功能如下:流程圖顯示,按設(shè)備以分頁方式顯示帶有實(shí)時工況參數(shù)的工藝圖;儀表指示棒圖顯示,棒上可顯示該位號儀表的量程,正常范圍,測量值和超限值;歷史趨勢圖,以曲線方式顯示指定時間范圍內(nèi)的工況參數(shù)記錄數(shù)據(jù);報警功能,可隨時顯示關(guān)鍵數(shù)據(jù)點(diǎn)的運(yùn)行狀態(tài)(正常/低限/高限),指定人員可任意修改報警點(diǎn)及其上下限數(shù)據(jù);遠(yuǎn)程監(jiān)測功能,系統(tǒng)支持通過電話撥號或Internet網(wǎng)進(jìn)行生產(chǎn)過程的遠(yuǎn)程監(jiān)測。
石化企業(yè)生產(chǎn)部總調(diào)度室是石化企業(yè)和生產(chǎn)部門聯(lián)系最頻繁的一個處室,是企業(yè)有關(guān)領(lǐng)導(dǎo)及時了解企業(yè)生產(chǎn)情況和指揮企業(yè)生產(chǎn)的窗口。為了實(shí)現(xiàn)調(diào)度處的信息化管理,需要建立一個集業(yè)務(wù)處理、數(shù)據(jù)分析、 Web查詢于一體,同時易于實(shí)現(xiàn)數(shù)據(jù)共享且保障數(shù)據(jù)高度安全的、上下一致的、易于使用和管理的生產(chǎn)調(diào)度子系統(tǒng)。
班組核算子系統(tǒng)是以班組經(jīng)濟(jì)核算為起點(diǎn),包括班組、車間、總廠三級成本核算系統(tǒng)。通過每天對生產(chǎn)成本進(jìn)行核算,并通過與計劃對比,班與班之間的對比,與本車間曾經(jīng)達(dá)到的先進(jìn)指標(biāo)對比,一天中零點(diǎn)班、四點(diǎn)班、白班之間的對比,以利于班組、車間、總廠管理人員加強(qiáng)對成本的日常監(jiān)控,及時掌握成本信息和發(fā)現(xiàn)存在的差距和問題,采取對策,防止成本超支。
班組核算軟件包括五大功能模塊,系統(tǒng)維護(hù)模塊、數(shù)據(jù)錄入模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)查詢模塊和報表處理模塊。
本系統(tǒng)采用微軟Microsoft SQL Server提供可擴(kuò)充的基于COM的OLAP接口。它通過一系列服務(wù)程序支持?jǐn)?shù)據(jù)倉庫應(yīng)用。數(shù)據(jù)傳輸服務(wù)DTS(Data Transformation Services)提供數(shù)據(jù)輸入/輸出和自動調(diào)度功能,在數(shù)據(jù)傳輸過程中可以完成數(shù)據(jù)的驗(yàn)證、清洗和轉(zhuǎn)換等操作,通過與Microsoft Repository集成,共享有關(guān)的元數(shù)據(jù);Microsoft Repository存儲包括元數(shù)據(jù)在內(nèi)的所有中間數(shù)據(jù);SQL Server OLAP Services支持在線分析處理;PivotTable Services提供客戶端OLAP數(shù)據(jù)訪問功能。
數(shù)據(jù)倉庫在構(gòu)建之初應(yīng)明確其主題,主題是一個在較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個主題對應(yīng)一個宏觀的分析領(lǐng)域,針對具體決策需求可細(xì)化為多個主題表,具體來說就是確定決策涉及的范圍和所要解決的問題。建立一個數(shù)據(jù)倉庫需要經(jīng)過以下幾個處理過程:數(shù)據(jù)倉庫設(shè)計;數(shù)據(jù)抽??;數(shù)據(jù)管理。
3.1.1 數(shù)據(jù)倉庫設(shè)計
根據(jù)決策主題設(shè)計數(shù)據(jù)倉庫結(jié)構(gòu),一般采用星型模型和雪花模型設(shè)計其數(shù)據(jù)模型,在設(shè)計過程中應(yīng)保證數(shù)據(jù)倉庫的規(guī)范化和體系各元素的必要聯(lián)系。主要有以下3個步驟:a. 定義該主題所需各數(shù)據(jù)源的詳細(xì)情況,包括所在計算機(jī)平臺、擁有者、數(shù)據(jù)結(jié)構(gòu)、使用該數(shù)據(jù)源的處理過程、倉庫更新計劃等。b. 定義數(shù)據(jù)抽取原則,以便從每個數(shù)據(jù)源中抽取所需數(shù)據(jù);定義數(shù)據(jù)如何轉(zhuǎn)換、裝載到主題的哪個數(shù)據(jù)表中。c. 將一個主題細(xì)化為多個業(yè)務(wù)主題,形成主題表,據(jù)此從數(shù)據(jù)倉庫中選出多個數(shù)據(jù)子集,即數(shù)據(jù)集市(DataMart)。
3.1.2 數(shù)據(jù)抽取模塊
該模塊是根據(jù)元數(shù)據(jù)庫中的主題表定義、數(shù)據(jù)源定義、數(shù)據(jù)抽取規(guī)則定義對異地異構(gòu)數(shù)據(jù)源(包括各平臺的數(shù)據(jù)庫、文本文件、XML文件、)進(jìn)行清理、轉(zhuǎn)換,對數(shù)據(jù)進(jìn)行重新組織和加工,裝載到數(shù)據(jù)倉庫的目標(biāo)庫中。
本模塊實(shí)現(xiàn)計劃處及各車間的原始數(shù)據(jù)到OLAP數(shù)據(jù)的轉(zhuǎn)換以及Cube 數(shù)據(jù)本身的Processing更新, 具體完成3 個方面的任務(wù):1)使用數(shù)據(jù)轉(zhuǎn)換系統(tǒng)(Data Transact System)將原始數(shù)據(jù)轉(zhuǎn)移到OLAP 所需要的數(shù)據(jù)庫表中。即將多張原始表結(jié)合成OLAP 的目標(biāo)表;2)運(yùn)行Marking Procedure 進(jìn)行業(yè)務(wù)分類;3)在數(shù)據(jù)移入完成后, 對Cube 中的數(shù)據(jù)進(jìn)行Processing 更新。
3.1.3 數(shù)據(jù)維護(hù)模塊
該模塊分為目標(biāo)數(shù)據(jù)維護(hù)和元數(shù)據(jù)維護(hù)兩方面。目標(biāo)數(shù)據(jù)維護(hù)是根據(jù)元數(shù)據(jù)庫所定義的更新頻率、更新數(shù)據(jù)項(xiàng)等更新計劃任務(wù)來刷新數(shù)據(jù)倉庫,以反映數(shù)據(jù)源的變化,且對時間相關(guān)性進(jìn)行處理。元數(shù)據(jù)是數(shù)據(jù)倉庫的重要組成部分,元數(shù)據(jù)的質(zhì)量決定整個數(shù)據(jù)倉庫的質(zhì)量。
MDX提供了強(qiáng)有力的功能幫助我們來處理Analysis服務(wù)器多維數(shù)據(jù)集中的多維數(shù)據(jù)。下面以生產(chǎn)完成情況分析多維數(shù)據(jù)集為例來說明:
軸線維:季度、產(chǎn)量類別
切片維:度量、年、產(chǎn)品、車間
X-軸:車間和產(chǎn)量類別維,內(nèi)容包括:(產(chǎn)量,計劃),(產(chǎn)量,實(shí)際完成),(質(zhì)量優(yōu)級品率,計劃),(質(zhì)量優(yōu)級品率,實(shí)際完成)
Y-軸:季度維,內(nèi)容包括:一月,二月,三月,二季度,三季度,十月,十一月,十二月
MDX語句如下:
SELECT CROSSJOIN({產(chǎn)量,質(zhì)量優(yōu)級品率},{計劃,實(shí)際完成})ON COLUMNS,{一季度.CHILDREN, 二季度,三季度,四季度.CHILEREN} ON ROWS FROM ProductAchieve WHERE(Achieve,[2002],Products.ALL, Plant.ALL)
多維數(shù)據(jù)集構(gòu)建完成后必須要能夠顯示給用戶看,Microsoft SQL Server提供的客戶端組件——數(shù)據(jù)透視表服務(wù)(PivotTable Services),它是一個讓客戶端應(yīng)用程序連接到OLAP的組件,用戶可以通過它來取還多維數(shù)據(jù)。
總之,在充滿了劇烈竟?fàn)幍漠?dāng)今世界,正確及時的決策是企業(yè)生存和發(fā)展的最重要環(huán)節(jié)。只有利用計算機(jī)和網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)倉庫技術(shù)深層次地挖掘分析當(dāng)前和歷史的生產(chǎn)業(yè)務(wù)數(shù)據(jù)及各種有用數(shù)據(jù),對企業(yè)生產(chǎn)和計劃的完成情況及相關(guān)環(huán)境數(shù)據(jù)進(jìn)行多角度多層次的分析,才能使企業(yè)的決策者及時掌握企業(yè)的運(yùn)行情況和發(fā)展趨勢,并對制定生產(chǎn)計劃和長遠(yuǎn)規(guī)劃提供理論指導(dǎo),提高企業(yè)的管理水平和竟?fàn)巸?yōu)勢。
[1]Harjinder S.Gill,王中謀,劉書.數(shù)據(jù)倉庫—客戶服務(wù)器計算指南[M].清華大學(xué)出版社.
[2]W.H.Inmon著.王志海,等譯.數(shù)據(jù)倉庫[M].機(jī)械工業(yè)出版社.
[3]飛思科技產(chǎn)品研發(fā)中心.SQL Server 2000 OLAP服務(wù)設(shè)計與應(yīng)用[M].電子工業(yè)出版社.
Enterprise decision support system design based on data mining
XU Gang-qiang
本文主要講述了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在一個企業(yè)信息化實(shí)際項(xiàng)目中的應(yīng)用,提出了從數(shù)據(jù)倉庫的建立、數(shù)據(jù)的抽取到數(shù)據(jù)多維分析并通過數(shù)據(jù)透視表顯示的一個構(gòu)想。
數(shù)據(jù)倉庫;數(shù)據(jù)抽?。籓LAP;數(shù)據(jù)透視表;智能決策
徐剛強(qiáng)(1964 -),男,湖南長沙人,碩士研究生,研究方向?yàn)槠髽I(yè)信息化、智能化輔助決策。
TP311.52
A
1009-0134(2011)4(上)-0128-02
10.3969/j.issn.1009-0134.2011.4(上).40
2010-11-27
國家科技支撐計劃項(xiàng)目:基于制造業(yè)信息化公共服務(wù)平臺的網(wǎng)絡(luò)化制造業(yè)系統(tǒng)研究與應(yīng)用(2006BAF01A13)