方靜
檔案是一種重要的信息資源,由于目前我國(guó)的檔案資源具比較分散,數(shù)據(jù)的量也和大,檔案的保存形式多種多樣,這樣我國(guó)的目前的檔案信息管理的一指比較落后。目前的的數(shù)據(jù)倉(cāng)庫(kù)技術(shù),可以實(shí)對(duì)大量的數(shù)據(jù)驚醒有效的管理和保存,并對(duì)數(shù)據(jù)進(jìn)行綜合分析管理,挖掘信息的潛在的巨大價(jià)值,本文以學(xué)生檔案黨員管理為例,詳解如何運(yùn)用數(shù)據(jù)挖掘技術(shù)來(lái)建立數(shù)據(jù)倉(cāng)庫(kù),研究并且制定了數(shù)據(jù)倉(cāng)庫(kù)模型,通過(guò)Microsoft SQL Server Integration Services 完成ETL過(guò)程并建立數(shù)據(jù)倉(cāng)庫(kù)。
【關(guān)鍵詞】檔安 管理系統(tǒng) 數(shù)據(jù)倉(cāng)庫(kù)
在現(xiàn)階段,各種檔案管理系統(tǒng)主要是采取交易的方式,主要功能是檢索和統(tǒng)計(jì)。后期的數(shù)據(jù)是沒(méi)有任何進(jìn)一步的開(kāi)發(fā)和利用,隨著數(shù)據(jù)的積累,數(shù)據(jù)的的丟失情況會(huì)越來(lái)越嚴(yán)重,而且產(chǎn)生了巨額的維護(hù)和維修費(fèi)用,而且容易造成數(shù)據(jù)丟失更嚴(yán)重。為了更好地利用現(xiàn)有的信息和數(shù)據(jù)檔案,充分反映這些數(shù)據(jù)的價(jià)值,這些數(shù)據(jù)被充分挖掘隱性知識(shí),并進(jìn)一步利用已迫在眉睫。數(shù)據(jù)庫(kù)技術(shù)現(xiàn)在已經(jīng)無(wú)法達(dá)到完成這個(gè)任務(wù),要想對(duì)數(shù)據(jù)進(jìn)行深入分析,充分發(fā)揮技術(shù)資料的作用,就要建立數(shù)據(jù)倉(cāng)庫(kù),來(lái)對(duì)數(shù)據(jù)進(jìn)行深入的挖掘和處理。采用數(shù)據(jù)挖掘技術(shù)技術(shù),不僅能大大的提高檔案的安全性,而且也使檔案保存更加方便快捷。隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)存儲(chǔ)量也快速增長(zhǎng),如何才能從這些隨機(jī)的,不完整的,模糊的數(shù)據(jù)中提取隱含的數(shù)據(jù)的,數(shù)據(jù)挖掘技術(shù)就能做到。
現(xiàn)以學(xué)生黨員檔案管理系統(tǒng)為例,建立數(shù)據(jù)倉(cāng)庫(kù),來(lái)詳細(xì)講解應(yīng)用數(shù)據(jù)挖掘技術(shù),如何來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)。
1 學(xué)生黨員的管理系統(tǒng),主要是從以下幾個(gè)方面逐步實(shí)現(xiàn)
首先,由學(xué)校組織,進(jìn)行基層組織調(diào)研,分析學(xué)生黨員的基本情況,然后取得的一部分的實(shí)際數(shù)據(jù),對(duì)現(xiàn)有的數(shù)據(jù)庫(kù)表進(jìn)行分析,以了解該每個(gè)字段的意義和作用,進(jìn)行需求分析和專題設(shè)計(jì)。接下來(lái)從數(shù)據(jù)庫(kù)表結(jié)構(gòu)有用的字段中,選擇合理的事字段信息和三維數(shù)據(jù)。最后通過(guò)數(shù)據(jù)轉(zhuǎn)換服務(wù)來(lái)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),通過(guò)SQL Server2005中分析服務(wù)器配置工具來(lái)配置基于多維的數(shù)據(jù)集,在這個(gè)過(guò)程中,數(shù)據(jù)處理的過(guò)程主要是通過(guò)微軟的OLAP功能,通過(guò)SQL Server7.0中將數(shù)據(jù)整合進(jìn)去,接口的可以選擇OLAP的COM的接口,并通過(guò)一系列的服務(wù)給數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用提供程序支持,開(kāi)發(fā)人員可以使用Vc或其他語(yǔ)言開(kāi)發(fā)用戶前端客戶端,數(shù)據(jù)透視表服務(wù)還允許在客戶在本地上傳地存儲(chǔ)的數(shù)據(jù)。MMC提供調(diào)度、存儲(chǔ)管理、監(jiān)控、報(bào)警和核心管理服務(wù)的功能。在本設(shè)計(jì)中,我們使用SQL Server 2010作為數(shù)據(jù)倉(cāng)庫(kù),可以采用Access和Excel可以作為數(shù)據(jù)展現(xiàn)工具,除了SQL Server還支持第三方數(shù)據(jù)展現(xiàn)工具。
2 在數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)階段,我們從以下幾個(gè)方面來(lái)入手
2.1 確定事實(shí)表
事實(shí)表分為學(xué)生黨員目錄信息表,黨員情況登記表,黨員接收情況登記表表,學(xué)生黨員注銷登記表等內(nèi)容,其中黨員的目錄表根據(jù)類別,時(shí)間等其他情況又可以具體的細(xì)分為若干個(gè)表格。
2.2 明確事實(shí)表的分割方法
我們的檔案資料,例如,最常見(jiàn)的方式是采用全宗劃分,這樣首先將全年的檔案按年度來(lái)劃分,一年內(nèi)的檔案按檔案形成的部門或檔案使用的單位來(lái)進(jìn)行劃分,在這種劃分條件下,檔案庫(kù)中的檔案是按以年度的方式的存放的,一般情況下一個(gè)單位的檔案文檔有幾十到幾百卷,一年中卷的文件目錄的記錄條數(shù)大概有幾千到幾萬(wàn)條,這樣我們?cè)跀?shù)據(jù)倉(cāng)庫(kù)中儲(chǔ)存這些數(shù)據(jù)時(shí),就可以以年度的方式來(lái)存儲(chǔ),在對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí),就可以只通過(guò)年度來(lái)進(jìn)行處理,這樣就提高了處理數(shù)據(jù)的濕度,對(duì)數(shù)據(jù)在進(jìn)行更新,添加或刪除等操作時(shí),可以更加方便快捷。
2.3 事實(shí)表數(shù)據(jù)的添加、修改和刪除
事實(shí)表里面的數(shù)據(jù)還應(yīng)該具備追加、刪除、修改等綜合處理功能,在對(duì)數(shù)據(jù)倉(cāng)庫(kù)更新操作中,添加和刪除數(shù)據(jù)是一個(gè)經(jīng)常性的工作,這些操作使數(shù)據(jù)倉(cāng)庫(kù)的質(zhì)量得到可靠地保證。在進(jìn)行添加操作時(shí),首先要確保數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)那些是新的,一般情況下可使用通過(guò)時(shí)間來(lái)進(jìn)行判斷。刪除操作相對(duì)簡(jiǎn)單,使用起來(lái)也更加普遍,只要通過(guò)一些搜索語(yǔ)句就可以實(shí)現(xiàn)。數(shù)據(jù)倉(cāng)庫(kù)中的操作做中,修改數(shù)據(jù)的功能用的比較少,在修改過(guò)程中,應(yīng)當(dāng)注意表和其他數(shù)據(jù)之間的關(guān)聯(lián)性,保證數(shù)據(jù)的完整性,注意處理表和表之間的關(guān)系。在數(shù)據(jù)倉(cāng)庫(kù),在基礎(chǔ)數(shù)據(jù)的上會(huì)形成一些綜合性的數(shù)據(jù),在對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行操作之后,綜合數(shù)據(jù)也會(huì)產(chǎn)生變化,所以對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行添加、修改和刪除等操作之后,對(duì)響應(yīng)的綜合數(shù)據(jù)也要進(jìn)行對(duì)應(yīng)的修改,以維持綜合數(shù)據(jù)的準(zhǔn)確性和一致性。
2.4 數(shù)據(jù)倉(cāng)庫(kù)中維的確定及建立,維是同類數(shù)據(jù)的集合
維的層次結(jié)構(gòu)很清晰,我們可以很容易地指定規(guī)則對(duì)數(shù)據(jù)進(jìn)行運(yùn)算,在維內(nèi),它的層次結(jié)構(gòu)也是很有順序的,利用維的這種特點(diǎn),我們?cè)趯?duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行數(shù)據(jù)挖掘的時(shí)候,可以很明顯的提高數(shù)據(jù)挖掘的速度,質(zhì)量也能得到大大的提高。以檔案數(shù)據(jù)倉(cāng)庫(kù)為例,我們可以以文件編號(hào),借閱單位,檔案的文類號(hào)這三者建立一個(gè)三維立方體,要改變?nèi)S立體方的大小,就可以通過(guò)上卷或者是下鉆的方式,要顯示三維立體方的一面,就可以通過(guò)切邊操作來(lái)進(jìn)行。
完成了以上步驟,就可以著手構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),收集和分析有關(guān)具體操作的基礎(chǔ)上來(lái)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的模型,基于該模型的試運(yùn)行情況,來(lái)完善設(shè)計(jì)方案,然后進(jìn)入到數(shù)據(jù)倉(cāng)庫(kù)的物理設(shè)計(jì)階段,在進(jìn)行物理設(shè)計(jì)的時(shí)候,要注意選擇安全可靠的硬件平臺(tái)環(huán)境。
參 考 文 獻(xiàn)
[1]S.Sarawagi,M.Stonebraker.Effieient Organization of Large.
Multidimensional In Proc.of ICDE[J].ACM Record,1994(5):207-208.
[2]http://baike.baidu.com/view/69207.html.
[3]中科永聯(lián)高級(jí)技術(shù)培訓(xùn)中心,www.itisedu.com.
[4]Oracle.Oracle Warehouse Builder Transformation Guidel0g(10.2)[M].oracle,2005(08).
[5]數(shù)據(jù)倉(cāng)庫(kù)之路,http://www.dwway.com/html/06/n-4006.html.
[6]Oracle.Oracle 9i/SQL Reference(9.2)[M].Oracle,2002(03).
作者單位
長(zhǎng)江大學(xué)工程技術(shù)學(xué)院 實(shí)驗(yàn)實(shí)訓(xùn)中心 湖北省荊州市 434020endprint