溫炎耿 王保民
摘要決策能力是現(xiàn)代企業(yè)的核心競(jìng)爭(zhēng)力。我國(guó)企業(yè)在數(shù)據(jù)信息化和流程信息化建設(shè)方面發(fā)展迅速,但在決策支持層面上則相對(duì)滯后。本文從決策需求變化和信息資源利用兩方面進(jìn)行分析,提出構(gòu)建決策支持平臺(tái)的企業(yè)信息化建設(shè)新思路。
關(guān)鍵詞決策企業(yè)信息化數(shù)據(jù)SSIS
從管理角度看,企業(yè)信息化是對(duì)企業(yè)中的信息進(jìn)行自動(dòng)化、系統(tǒng)化、集成化以及深度挖掘的過程,是對(duì)企業(yè)信息系統(tǒng)的規(guī)劃、實(shí)施、運(yùn)行和管理的過程。
我國(guó)企業(yè)信息化現(xiàn)狀
根據(jù)企業(yè)不同的發(fā)展階段,企業(yè)信息化主要集中在以下三個(gè)層面:數(shù)據(jù)信息化、流程信息化和管理決策信息化。數(shù)據(jù)信息化即把客戶信息、產(chǎn)品庫(kù)存、銷售金額等各種固定數(shù)據(jù)以一定的數(shù)據(jù)庫(kù)格式錄入到計(jì)算機(jī)里,以數(shù)字的形式保存管理,這是企業(yè)信息化的初級(jí)階段。流程信息化是利用信息技術(shù)將企業(yè)的運(yùn)營(yíng)流程規(guī)范化和科學(xué)化,這是在數(shù)據(jù)信息化的基礎(chǔ)上對(duì)企業(yè)更深層次的信息化改造。通過流程改造,去掉企業(yè)運(yùn)行中的不合理環(huán)節(jié),把更加科學(xué)、高效的運(yùn)營(yíng)流程以信息系統(tǒng)的方式固化下來,進(jìn)一步提升企業(yè)的整體運(yùn)行狀況。管理決策信息化是通過對(duì)已有信息資源的搜集、整理,以及通過一定的算法或工具對(duì)其進(jìn)行深層次加工處理,從而得到有效數(shù)據(jù),能夠?qū)芾頉Q策起到重要的支持作用。
由于信息技術(shù)的日漸成熟和企業(yè)對(duì)信息化建設(shè)觀念的轉(zhuǎn)變及投入的增加,當(dāng)前我國(guó)大多數(shù)企業(yè)已實(shí)現(xiàn)第一層面和第二層面的信息化應(yīng)用,即面向事務(wù)的信息化建設(shè),但在管理決策層的應(yīng)用上,則還有很長(zhǎng)的路要走。
影響決策信息化的問題分析
我國(guó)企業(yè)整體決策能力不強(qiáng),決策支持信息化發(fā)展緩慢,究其原因,主要有以下幾點(diǎn):
首先,企業(yè)外部環(huán)境變化致使決策需求發(fā)生變化。在現(xiàn)代網(wǎng)絡(luò)環(huán)境下,企業(yè)需要的是更加全面、及時(shí)、完整的數(shù)據(jù)情報(bào)。隨著企業(yè)信息化的建設(shè),信息獲取、傳遞、存儲(chǔ)已不再成為問題,影響企業(yè)決策的不再是信息的匱乏,而是信息的過于龐雜,如何在海量信息中提取有效數(shù)據(jù)成為支持決策的關(guān)鍵。
其次,企業(yè)信息化建設(shè)的階段性致使信息資源的利用率不高。在企業(yè)發(fā)展的不同階段,各種信息系統(tǒng)得以實(shí)現(xiàn)和應(yīng)用。例如最初可能使用的庫(kù)存管理系統(tǒng),而后增加了財(cái)務(wù)管理,后面又有了CRM、ERP等,由于企業(yè)在不同階段其經(jīng)濟(jì)、人員、技術(shù)等情況并不相同,使得這些系統(tǒng)的數(shù)據(jù)內(nèi)容、定義、結(jié)構(gòu)、質(zhì)量互不相同?,F(xiàn)代企業(yè)需要的是準(zhǔn)確、全面、完整的數(shù)據(jù)支持,包括各部門以及外部環(huán)境甚至競(jìng)爭(zhēng)對(duì)手的相關(guān)資料,以及對(duì)這些數(shù)據(jù)內(nèi)在聯(lián)系的進(jìn)一步挖掘分析。
構(gòu)建企業(yè)決策支持平臺(tái)
由于企業(yè)的數(shù)據(jù)和流程相對(duì)固定,因此我國(guó)企業(yè)在實(shí)現(xiàn)這兩個(gè)層次的信息化方面發(fā)展較快。而決策行為本身具有不確定性,故而圍繞決策支持的信息化建設(shè)的難度也較大。企業(yè)信息化建設(shè)無(wú)法替代人類做出決策,但可以幫助企業(yè)提高決策效率??茖W(xué)決策的基礎(chǔ)是數(shù)據(jù),企業(yè)應(yīng)該建立一個(gè)結(jié)構(gòu)統(tǒng)一、數(shù)據(jù)完整的數(shù)據(jù)平臺(tái),決策者可以依據(jù)此平臺(tái)快捷、方便地得到自己所需要的資料,做出最準(zhǔn)確的判斷。
通用數(shù)據(jù)平臺(tái)建設(shè)的關(guān)鍵問題不是信息資源匱乏,而是怎樣解決“信息孤島”,怎樣對(duì)大量分布、異構(gòu)的數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換,最終整合在一起構(gòu)成企業(yè)通用的數(shù)據(jù)倉(cāng)庫(kù),即決策支持平臺(tái)。該平臺(tái)是根據(jù)各種需求進(jìn)行分析處理和數(shù)據(jù)挖掘的基礎(chǔ),是為管理者提供決策支持的數(shù)據(jù)保障,是企業(yè)信息化發(fā)展的需要,也是企業(yè)增強(qiáng)自身競(jìng)爭(zhēng)力的需要。
決策支持平臺(tái)的具體實(shí)現(xiàn)
許多公司提供了實(shí)現(xiàn)數(shù)據(jù)抽取、清洗轉(zhuǎn)換、集成裝載,即ETL的商業(yè)智能工具,例如IBM的Warehouse Manag-er、Oracle的Oracle ETL Server等。微軟公司的SOL Server 2005提供了完整的數(shù)據(jù)整合服務(wù)Integration Set-vices(SSIS),使構(gòu)建企業(yè)的決策支持平臺(tái)變得簡(jiǎn)單高效?;赟SIS的完備高效,企業(yè)可以通過SSIS將企業(yè)的各種異構(gòu)數(shù)據(jù)轉(zhuǎn)換、整合、裝載,構(gòu)建決策支持平臺(tái),為企業(yè)決策提供服務(wù)。
一、SSIS的工作原理。SSIS基于工作流環(huán)境,提供了數(shù)據(jù)流和控制流兩種工作流,“包”是SSIS項(xiàng)目中最基本的部署和執(zhí)行單位,其裝載了SSIS工作流,一個(gè)SSIS項(xiàng)目能夠包含多個(gè)包,每個(gè)包只能有一個(gè)控制流,但可以包含多個(gè)數(shù)據(jù)流。SSIS通過控制流、數(shù)據(jù)流、事件處理程序等組件來處理數(shù)據(jù)整合任務(wù)??刂屏饕步腥蝿?wù)流,由容器、任務(wù)和優(yōu)先約束等控制流元素構(gòu)造而成。容器提供包中的結(jié)構(gòu)并給任務(wù)提供服務(wù),任務(wù)在包中提供功能,優(yōu)先約束將容器和任務(wù)連接成一個(gè)控制流??刂屏髦忻總€(gè)節(jié)點(diǎn)就是一個(gè)任務(wù),這些任務(wù)按照事先定義的順序執(zhí)行,可以根據(jù)執(zhí)行結(jié)果的不同而有不同的分支。數(shù)據(jù)流由提取數(shù)據(jù)的源、修改和聚合數(shù)據(jù)的轉(zhuǎn)換、加載數(shù)據(jù)的目標(biāo)、將數(shù)據(jù)流組件的輸出和輸入連接為數(shù)據(jù)流的路徑等元素組成,是專門針對(duì)數(shù)據(jù)操作的工作流,數(shù)據(jù)的提取、轉(zhuǎn)換和加載主要通過數(shù)據(jù)流完成。
二、數(shù)據(jù)提取。數(shù)據(jù)提取前,首先要清楚數(shù)據(jù)來自于哪幾個(gè)信息系統(tǒng),各自運(yùn)行的是哪些數(shù)據(jù)庫(kù)管理系統(tǒng),其數(shù)據(jù)結(jié)構(gòu)是怎樣的,有沒有手工數(shù)據(jù),是否存在非結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)有多少等問題,當(dāng)收集完這些信息之后才可以進(jìn)行數(shù)據(jù)抽取設(shè)計(jì)。
SSIS中,源是使數(shù)據(jù)流中的其它組件可以訪問來自不同外部數(shù)據(jù)源數(shù)據(jù)的數(shù)據(jù)流組件,包括Data Reader源、Excel源、平面文件源、XML源、OLE DB源、原始文件源和腳本組件,通過源組件,SSIS可以連接到各種各樣的數(shù)據(jù)源,進(jìn)而從中提取數(shù)據(jù)。
三、數(shù)據(jù)的清洗轉(zhuǎn)換。在集成各數(shù)據(jù)源數(shù)據(jù)構(gòu)建通用數(shù)據(jù)倉(cāng)庫(kù)時(shí),最大的困難是數(shù)據(jù)類型的轉(zhuǎn)換。數(shù)據(jù)來自不同的數(shù)據(jù)源,包括企業(yè)內(nèi)部的各部門以及企業(yè)外部的一些系統(tǒng),因此這些數(shù)據(jù)的格式以及使用標(biāo)準(zhǔn)各不相同。這就需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理,然后才能夠使用。例如性別可以表示為“1”和“0”,也可以表示為“男”和“女”,這些都需要轉(zhuǎn)換統(tǒng)一。另外,數(shù)據(jù)的質(zhì)量也會(huì)有較大差別,數(shù)據(jù)的遺漏、亂序甚至錯(cuò)誤在所難免,數(shù)據(jù)清洗成為建設(shè)過程中必不可少的一個(gè)環(huán)節(jié)。
1、數(shù)據(jù)清洗。數(shù)據(jù)清洗是指將那些沒用的、不完整的和錯(cuò)誤的數(shù)據(jù)過濾掉,然后才能對(duì)這些數(shù)據(jù)進(jìn)一步轉(zhuǎn)換。不符合要求的數(shù)據(jù)主要是有以下四種:1)數(shù)據(jù)不完整。此情況主要指應(yīng)有數(shù)據(jù)的缺失,例如主要客戶聯(lián)系方式、代理商區(qū)域信息、供應(yīng)商地址等。2)數(shù)據(jù)格式錯(cuò)誤。例如數(shù)據(jù)格式非法、數(shù)據(jù)值超出規(guī)定范圍等。3)數(shù)據(jù)不一致。由于考慮性能或其他方面的原因,有些數(shù)據(jù)源可能會(huì)舍棄外鍵約束,從而導(dǎo)致數(shù)據(jù)不一致。例如在某個(gè)庫(kù)中出現(xiàn)了一個(gè)客戶表中沒有的客戶編號(hào)。4)重復(fù)錯(cuò)誤。由于員疏忽或其它原因,有可能出現(xiàn)數(shù)據(jù)重復(fù)。
2、數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的任務(wù)主要是將各數(shù)據(jù)源的數(shù)據(jù)標(biāo)準(zhǔn)化以及統(tǒng)一商務(wù)規(guī)則,其主要包括以下幾個(gè)方面。1)多值數(shù)據(jù)的統(tǒng)一。即將不同業(yè)務(wù)系統(tǒng)中相同類型的數(shù)
據(jù)進(jìn)行統(tǒng)一,例如某客戶在終端系統(tǒng)的編碼是AA1000,而在客戶管理系統(tǒng)中是BB1000,則要將其轉(zhuǎn)換成同一編碼。2)統(tǒng)一商務(wù)規(guī)則。不同企業(yè)其業(yè)務(wù)規(guī)則和相應(yīng)的數(shù)據(jù)指標(biāo)不盡相同,這些指標(biāo)的轉(zhuǎn)換有時(shí)也很復(fù)雜,這就需要將這些指標(biāo)轉(zhuǎn)換為統(tǒng)一標(biāo)準(zhǔn),然后將其存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中供分析使用。3)字符串操作。一些特定信息如身份證號(hào)等??梢詮臄?shù)據(jù)源的某個(gè)字符串字段中獲得,并且,常會(huì)有數(shù)值型的值用字符串的形式來表現(xiàn),因而對(duì)字符串常有字符串截取、類型轉(zhuǎn)換等操作,由于字符型字段的隨意性常會(huì)造成臟數(shù)據(jù),因此通常要加上異常處理。4)日期轉(zhuǎn)換。在數(shù)據(jù)倉(cāng)庫(kù)中日期一般都有不同于日期類型、特定的表示方式,而在數(shù)據(jù)源中,這種字段一般都是日期型的,因而要處理轉(zhuǎn)換。
3、SSIS的數(shù)據(jù)清理轉(zhuǎn)換機(jī)制。SQL Server 2005的SSIS主要提供了三種機(jī)制實(shí)現(xiàn)數(shù)據(jù)的清理轉(zhuǎn)換。1)SSIS包含一些內(nèi)置轉(zhuǎn)換,將其添加到包中能夠?qū)崿F(xiàn)數(shù)據(jù)清理、標(biāo)準(zhǔn)化數(shù)據(jù)、將數(shù)據(jù)的大小寫進(jìn)行更改、轉(zhuǎn)換數(shù)據(jù)類型或格式以及根據(jù)表達(dá)式創(chuàng)建新列值。此機(jī)制適合應(yīng)用于多數(shù)據(jù)源的數(shù)據(jù)不一致,從而需對(duì)數(shù)據(jù)進(jìn)行不同的格式處理的情況。2)將數(shù)據(jù)集中類似的值分組在一起來進(jìn)行數(shù)據(jù)清理,有可能部分記錄有重復(fù),因而不應(yīng)該未經(jīng)過進(jìn)一步的計(jì)算就將這些數(shù)據(jù)插入到數(shù)據(jù)庫(kù)中。此轉(zhuǎn)換適用于這種情況。例如,可以通過比對(duì)用戶記錄中的姓名信息而識(shí)別出重復(fù)的客戶。3)SSIS可以使用精確查找或模糊查找來清理數(shù)據(jù),其查找到引用表中的值并用其替換列中的值。此情況多用于購(gòu)買或租用的數(shù)據(jù),確保其滿足業(yè)務(wù)標(biāo)準(zhǔn)。
四、數(shù)據(jù)加載。目標(biāo)是將數(shù)據(jù)流中的數(shù)據(jù)寫入特定數(shù)據(jù)存儲(chǔ)區(qū)或創(chuàng)建內(nèi)存中數(shù)據(jù)集的數(shù)據(jù)流組件。數(shù)據(jù)清洗轉(zhuǎn)換完成后,即可裝載到企業(yè)通用數(shù)據(jù)倉(cāng)庫(kù),構(gòu)成企業(yè)決策支持平臺(tái)。但由于企業(yè)各系統(tǒng)的數(shù)據(jù)不斷變化,這就要求通用數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)也應(yīng)及時(shí)更新。為確保數(shù)據(jù)的一致性,可以建立一個(gè)Job每天執(zhí)行ETL包。
注釋
①郭朝彬,張?zhí)鞓颍骸盎赟QL SERVER 2005的第三代數(shù)據(jù)挖掘系統(tǒng)構(gòu)建分析”,《電腦開發(fā)與應(yīng)用》,2008,21(8),34頁(yè)。
②王亮,葛瑋:“ETL過程的思考”,《計(jì)算機(jī)技術(shù)與發(fā)展》,2008,18(10),131-132頁(yè)
③朱德利:《SQL Server 2005數(shù)據(jù)挖掘與商業(yè)智能》,北京:電子工業(yè)出版社,2007年。