熊勝利 廣東大鵬液化天然氣有限公司 廣東省深圳市 518000
隨著公司各類(lèi)應(yīng)用系統(tǒng)的建成和完善,存儲(chǔ)在系統(tǒng)中的數(shù)據(jù)日積月累,逐漸增多。如果這些數(shù)據(jù)不加以利用和分析,那么它們始終只是數(shù)據(jù)。如果能通過(guò)商業(yè)智能,對(duì)數(shù)據(jù)進(jìn)行分析和挖掘,發(fā)現(xiàn)企業(yè)運(yùn)營(yíng)中存在的問(wèn)題和不足,并提供趨勢(shì)預(yù)測(cè),則可以提高企業(yè)的競(jìng)爭(zhēng)力,將數(shù)據(jù)轉(zhuǎn)化為財(cái)富。
根據(jù)對(duì)文獻(xiàn)的統(tǒng)計(jì),從1996年至2001年國(guó)內(nèi)的商業(yè)智能應(yīng)用開(kāi)始起步,這一段時(shí)間多數(shù)是關(guān)于一些商業(yè)智能軟件以及在國(guó)外的研究情況。在2002年至2005年開(kāi)始進(jìn)入增長(zhǎng)階段,研究文章大量增長(zhǎng),但是大多數(shù)還是對(duì)功能的介紹以及簡(jiǎn)訊等。商業(yè)智能的研究是以數(shù)據(jù)的積累為基礎(chǔ)的,因此與國(guó)內(nèi)的信息化程度密切相關(guān)。在近年來(lái),商業(yè)智能分析軟件開(kāi)始逐漸輕量化,例如Tableau等重在可視化分析的輕量級(jí)數(shù)據(jù)分析應(yīng)用得到人們的親睞。而原來(lái)的SAP BusinessObjects等重量級(jí)產(chǎn)品,反而更多地應(yīng)用于較固定的報(bào)表分析。以帆軟為代表的國(guó)產(chǎn)BI軟件逐漸顯露頭角。
a)數(shù)據(jù)分析目標(biāo)
在業(yè)務(wù)系統(tǒng)中的報(bào)表通常僅限于常用的固定格式報(bào)表,如果需要對(duì)這些報(bào)表進(jìn)行修改,往往需要專(zhuān)業(yè)的IT工程師進(jìn)行代碼調(diào)整。而用戶(hù)對(duì)數(shù)據(jù)分析的需求往往是多變的,如果能快速響應(yīng)這些需求,甚至能讓用戶(hù)快捷地制作自己的報(bào)表,進(jìn)行數(shù)據(jù)分析,將大大地提高數(shù)據(jù)分析的速度和質(zhì)量。商業(yè)智能系統(tǒng)的重點(diǎn)在于通過(guò)結(jié)合關(guān)系數(shù)據(jù)庫(kù)與多維數(shù)據(jù)集技術(shù),將各業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)進(jìn)行抽取和整理后,設(shè)計(jì)成不同的分析模型,使得用戶(hù)可以通過(guò)這些模型,進(jìn)行業(yè)務(wù)分析。同時(shí),將此數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)模式進(jìn)行歸納總結(jié)后,可應(yīng)用于企業(yè)的不同業(yè)務(wù),例如合同采辦、財(cái)務(wù)、銷(xiāo)售等,為公司管理提供更及時(shí)、準(zhǔn)確的數(shù)據(jù)。
b)用戶(hù)需求分析
需求是貫穿整個(gè)軟件設(shè)計(jì)、實(shí)現(xiàn)和測(cè)試的依據(jù)。在需求分析方法中,采用三步法,即分為“訪談”階段、“誘導(dǎo)”階段、“確認(rèn)”階段等三個(gè)階段。分別對(duì)數(shù)據(jù)采集需求、數(shù)據(jù)分析需求、前端查詢(xún)需求等進(jìn)行了調(diào)研和分析。
例如,采購(gòu)業(yè)務(wù)流程包括制定采購(gòu)計(jì)劃、采購(gòu)申請(qǐng)、采購(gòu)尋源、合同訂單管理、收發(fā)貨、發(fā)票、支付等環(huán)節(jié)。以采購(gòu)數(shù)據(jù)分析的難點(diǎn)為入口進(jìn)行需求分析,將與采購(gòu)相關(guān)的信息包括采購(gòu)申請(qǐng)、合同、供應(yīng)商、審批流程、預(yù)算、支付、收發(fā)貨等各個(gè)環(huán)節(jié)的數(shù)據(jù)進(jìn)行分析,然后運(yùn)用商業(yè)智能的方法,將存在于各異構(gòu)系統(tǒng)中的數(shù)據(jù)通過(guò)ETL抽取、轉(zhuǎn)換并加載至數(shù)據(jù)倉(cāng)庫(kù),解決了數(shù)據(jù)來(lái)源多樣化的問(wèn)題。同時(shí),在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上,運(yùn)用SAP BusinessObject構(gòu)建不同的數(shù)據(jù)分析模型,滿(mǎn)足各種分析需求。在前端分析和查詢(xún)時(shí),用戶(hù)可以通過(guò)拖拽分析模型中的維度和量度直接生成需要的查詢(xún)和報(bào)表,而不用關(guān)心數(shù)據(jù)存在于何種業(yè)務(wù)系統(tǒng)中,也不用局限于開(kāi)發(fā)人員制作好的固定報(bào)表,真正實(shí)現(xiàn)了面向業(yè)務(wù)的數(shù)據(jù)分析。
c)系統(tǒng)設(shè)計(jì)
數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的目標(biāo)是逐步建設(shè)成為整個(gè)公司的業(yè)務(wù)和分析數(shù)據(jù)的“集散地”。為保證系統(tǒng)數(shù)據(jù)結(jié)構(gòu)的長(zhǎng)期穩(wěn)定性,必須設(shè)計(jì)獨(dú)立于各個(gè)現(xiàn)有業(yè)務(wù)系統(tǒng)現(xiàn)有數(shù)據(jù)結(jié)構(gòu)的、依據(jù)現(xiàn)有和將來(lái)的業(yè)務(wù)流和數(shù)據(jù)流邏輯的標(biāo)準(zhǔn)數(shù)據(jù)模型,以便實(shí)現(xiàn)對(duì)源系統(tǒng)、源數(shù)據(jù)的獨(dú)立性。為達(dá)到以上目標(biāo),一般將數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)分為三層,分別是DW層、ODS層和STG層,分別用于存儲(chǔ)維度表和量度表的數(shù)據(jù)、經(jīng)過(guò)清理的數(shù)據(jù)和歷史數(shù)據(jù)、以及源數(shù)據(jù)。
在多維模型設(shè)計(jì)方面,以SAP BO為例,使用Universe Designer工具,將DW層定義好的維度表和事實(shí)表進(jìn)行關(guān)聯(lián)。建立模型時(shí)可以直接使用DW層的事實(shí)表和維表,也可以在其基礎(chǔ)上進(jìn)行處理后產(chǎn)生衍生表,作為建立分析模型的基礎(chǔ)。在數(shù)據(jù)分析模型這一層采用的是ROLAP技術(shù),并不實(shí)際存儲(chǔ)數(shù)據(jù),所以從前端傳來(lái)的請(qǐng)求都將經(jīng)過(guò)數(shù)據(jù)模型后直接從DW層讀取。
d)系統(tǒng)實(shí)現(xiàn)
在系統(tǒng)實(shí)現(xiàn)方面,商業(yè)智能的常用關(guān)鍵技術(shù)包括ETL、數(shù)據(jù)倉(cāng)庫(kù)和多維分析模型。
ETL是Extract、Transform和Load的簡(jiǎn)稱(chēng)。是數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)的重要組成部分,也是商業(yè)智能研究的重點(diǎn)。為了管理這一“抽取”過(guò)程,市場(chǎng)上出現(xiàn)了ETL工具。隨著商業(yè)智能的廣泛應(yīng)用,很多廠商推出了ETL產(chǎn)品套件。當(dāng)前國(guó)外的主要ETL商業(yè)工具包括微軟的SSIS、Informatica公司的Informatica、IBM的Data Stage等。對(duì)于數(shù)據(jù)倉(cāng)庫(kù)而言,數(shù)據(jù)的正確性非常重要,因此ETL過(guò)程中對(duì)錯(cuò)誤的處理、清洗和轉(zhuǎn)換以及加載過(guò)程都要求ETL工具有錯(cuò)誤恢復(fù)的能力,以及對(duì)日志的記錄。
數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的方法通??梢苑譃閮深?lèi)。一種是數(shù)據(jù)驅(qū)動(dòng)的方法,一種是需求驅(qū)動(dòng)的方法。數(shù)據(jù)驅(qū)動(dòng)的方法是通過(guò)對(duì)數(shù)據(jù)源進(jìn)行詳細(xì)地分析,用戶(hù)需求對(duì)設(shè)計(jì)的影響在于允許設(shè)計(jì)人員選擇哪些數(shù)據(jù)是相關(guān)的,并根據(jù)多維模型來(lái)決定數(shù)據(jù)結(jié)構(gòu)。需求驅(qū)動(dòng)的方法是從識(shí)別最終用戶(hù)的需求開(kāi)始,將這些需求與數(shù)據(jù)源進(jìn)行匹配。需求分析在任何一個(gè)軟件項(xiàng)目中都起到關(guān)鍵作用。但是對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的需求分析往往未得到重視。原因可能有兩方面,一方面是數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目一般周期較長(zhǎng),有些需求在項(xiàng)目初期無(wú)法確定,另一方面組織內(nèi)部的需求沒(méi)有得到及時(shí)地共享和理解。在產(chǎn)品方面,主流的軟件廠商等公司都擁有獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品。通常數(shù)據(jù)倉(cāng)庫(kù)有幾個(gè)特點(diǎn),包括面向主題的、管理大量信息、跨越數(shù)據(jù)庫(kù)模式的多個(gè)版本、信息概括和聚集、多數(shù)據(jù)來(lái)源等。
數(shù)據(jù)倉(cāng)庫(kù)的OLAP工具都是基于多維數(shù)據(jù)模型的。模型將數(shù)據(jù)看作是一個(gè)一個(gè)的數(shù)據(jù)立方體,從多維對(duì)數(shù)據(jù)建模和觀察?,F(xiàn)在流行的模型包括星形模型、雪花形模型或事實(shí)星座形模型。星形模型以一個(gè)大的量度表為核心,同時(shí)包含一組小的附屬表(維表),維表圍繞中心量度表顯示在射線上。雪花形模型可以看到是一種特殊的星形,有一部分維度表是范式化的,從而分為了多層的維表,使得結(jié)構(gòu)看上去象雪花。復(fù)雜的應(yīng)用可能會(huì)形成維表共用的模式,類(lèi)似于多個(gè)星形模型的關(guān)聯(lián)。
在商業(yè)智能建模之前,必須對(duì)分析業(yè)務(wù)對(duì)象和流程進(jìn)行梳理。以采辦業(yè)務(wù)分析為例,將業(yè)務(wù)分為了采購(gòu)申請(qǐng)、合同、交貨付款、資金預(yù)測(cè)、流程審批等幾個(gè)功能模塊,各業(yè)務(wù)之間又相互關(guān)聯(lián)。在對(duì)合同進(jìn)行統(tǒng)計(jì)分析的時(shí)候,采辦人員希望看到相關(guān)聯(lián)的采購(gòu)申請(qǐng)、供應(yīng)商、交貨和付款進(jìn)度,財(cái)務(wù)人員希望能對(duì)資金的安排做出預(yù)測(cè)。在對(duì)這些業(yè)務(wù)進(jìn)行梳理的同時(shí),用戶(hù)發(fā)現(xiàn),同一個(gè)指標(biāo),可以從多個(gè)角度來(lái)看,有些角度可能是他們之前沒(méi)有使用過(guò)的,我們將這些分析角度和分析指標(biāo)進(jìn)行組合,貫穿整個(gè)業(yè)務(wù)流程,構(gòu)建出多種分析模型,對(duì)流程的前因、后果進(jìn)行分析??偠灾虡I(yè)智能建模的過(guò)程也是對(duì)業(yè)務(wù)功能和流程的梳理過(guò)程。
商業(yè)智能分析的最終目標(biāo)是進(jìn)行數(shù)據(jù)挖掘和趨勢(shì)分析,而這兩點(diǎn)有助于提升公司的核心競(jìng)爭(zhēng)力。一般來(lái)說(shuō),核心競(jìng)爭(zhēng)力是涵蓋企業(yè)產(chǎn)品、知識(shí)、服務(wù)和技術(shù)的總集。
信息技術(shù)的不斷發(fā)展為提高企業(yè)管理水平、應(yīng)對(duì)不斷激化的市場(chǎng)競(jìng)爭(zhēng)提供了新的途徑。同時(shí),新的需求又促進(jìn)了新技術(shù)和新方法的產(chǎn)生。企業(yè)通過(guò)數(shù)據(jù)分析 和數(shù)據(jù)挖掘,對(duì)應(yīng)用系統(tǒng)中收集的企業(yè)運(yùn)營(yíng)相關(guān)數(shù)據(jù)進(jìn)行充分的利用,獲取有效的信息,從而制定合適的策略進(jìn)行應(yīng)對(duì)。商業(yè)智能分析的意義是在收集到的大量業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,進(jìn)行建模處理、分析,從數(shù)據(jù)中發(fā)現(xiàn)隱藏的知識(shí)、規(guī)律和趨勢(shì),讓數(shù)據(jù)中蘊(yùn)藏的價(jià)值為企業(yè)管理和經(jīng)營(yíng)決策所用,進(jìn)而提升管理水平,創(chuàng)造效益。