摘要:該文主要通過研究社保系統(tǒng)數(shù)據(jù)集成中使用的ETL方法,并結(jié)合嶗山區(qū)社會(huì)保險(xiǎn)管理系統(tǒng)的現(xiàn)狀,提出了采用數(shù)據(jù)倉(cāng)庫(kù)法實(shí)現(xiàn)嶗山區(qū)社保系統(tǒng)的數(shù)據(jù)集成。重點(diǎn)介紹了社保系統(tǒng)數(shù)據(jù)集成中ETL的開發(fā)。經(jīng)過驗(yàn)證能夠建立統(tǒng)一的、完整的、高質(zhì)量的社保系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)。
關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)集成;ETL;社會(huì)保險(xiǎn)
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)03-0506-02
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是將來自于異地的數(shù)據(jù)源的數(shù)據(jù)加工(ETL)后在數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)、提取和維護(hù),以支持高級(jí)決策[1]。
社會(huì)保險(xiǎn)行業(yè)經(jīng)過多年的信息化發(fā)展,凌亂、重復(fù)、歧義的數(shù)據(jù)接踵而至,數(shù)據(jù)集成需求日漸迫切。現(xiàn)有的青島嶗山區(qū)社會(huì)保險(xiǎn)管理系統(tǒng)由于有不同的數(shù)據(jù)項(xiàng)命名規(guī)則、不同的代碼標(biāo)準(zhǔn)、不完全相同的關(guān)鍵碼,使得各處理系統(tǒng),如關(guān)系密切的社保、就業(yè)和勞動(dòng)合同備案間公共數(shù)據(jù)信息冗余度很高,難以集成和共享,給統(tǒng)計(jì)和決策分析工作造成很大的障礙。
根據(jù)嶗山社保存在的問題,本文擬構(gòu)建跨平臺(tái)的ETL工具,以解決異構(gòu)數(shù)據(jù)源數(shù)據(jù)集成問題,實(shí)現(xiàn)嶗山區(qū)社保數(shù)據(jù)庫(kù)、就業(yè)數(shù)據(jù)庫(kù)和勞動(dòng)合同備案數(shù)據(jù)庫(kù)的數(shù)據(jù)集成,形成有效的數(shù)據(jù)倉(cāng)庫(kù),供以后進(jìn)行數(shù)據(jù)挖掘和OLAP分析做準(zhǔn)備。
1 ETL研究與設(shè)計(jì)
1.1 ETL相關(guān)技術(shù)
ETL是英文Extract、Transform、Load的縮寫,是指從各種異構(gòu)應(yīng)用系統(tǒng)中抽取數(shù)據(jù),并對(duì)抽到的數(shù)據(jù)進(jìn)行加工轉(zhuǎn)換處理,最后加載到數(shù)據(jù)倉(cāng)庫(kù)DW(DataWarehouse)的過程。它是保證數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)正確性和有效性重要過程,也是決策支持項(xiàng)目實(shí)施成敗的關(guān)鍵因素[2]。
1.2 ETL模型建立[3]
1.2.1系統(tǒng)簡(jiǎn)介
本模型主要完成社保數(shù)據(jù)倉(cāng)庫(kù)的建立,用到了web services技術(shù)和XML技術(shù),此兩項(xiàng)技術(shù)主要完成數(shù)據(jù)的抽取和清理轉(zhuǎn)換,清理數(shù)據(jù)集中的不一致性、冗余和多余字段,最終建立嶗山區(qū)社保系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)。系統(tǒng)框架圖如下圖所示。
圖1 1.2.2核心的WEB服務(wù)介紹
底層的數(shù)據(jù)源各自有不同的數(shù)據(jù)結(jié)構(gòu),要有效地把不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)結(jié)合起來,就要為每個(gè)數(shù)據(jù)源設(shè)計(jì)相應(yīng)的核心Web服務(wù)。核心的web服務(wù)主要完成的任務(wù)是提供訪問后臺(tái)異構(gòu)數(shù)據(jù)庫(kù)的接口和封裝結(jié)果集等