• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)質(zhì)量分析與整合在高校信息系統(tǒng)的應(yīng)用

      2015-11-13 12:04彭琳李勇軍等
      電腦知識(shí)與技術(shù) 2015年23期
      關(guān)鍵詞:數(shù)據(jù)整合數(shù)據(jù)質(zhì)量信息系統(tǒng)

      彭琳++李勇軍等

      摘要:信息系統(tǒng)的出現(xiàn)為高校管理提供了巨大的便捷,它也是數(shù)字化校園的一部分。隨著時(shí)間的推移和系統(tǒng)之間存在的歷史原因,海量數(shù)據(jù)的涌現(xiàn)引起了人們對數(shù)據(jù)質(zhì)量和數(shù)據(jù)整合的思考。由于信息系統(tǒng)的使用效果直接與數(shù)據(jù)質(zhì)量相關(guān),而且不同的系統(tǒng)之間存在“信息孤島”,導(dǎo)致數(shù)據(jù)不一致,無法達(dá)到信息共享。因此,需要對現(xiàn)有數(shù)據(jù)的質(zhì)量進(jìn)行分析,提出相關(guān)的基本概念;并以上海海洋大學(xué)數(shù)字化校園二期建設(shè)為例,展現(xiàn)高校信息系統(tǒng)的數(shù)據(jù)整合案例的實(shí)際應(yīng)用。

      關(guān)鍵詞: 數(shù)據(jù)質(zhì)量;數(shù)據(jù)整合;信息系統(tǒng)

      中圖分類號:TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:1009-3044(2015)23-0051-02

      1 概述

      在數(shù)字校園的發(fā)展中,由于歷史原因,各個(gè)信息系統(tǒng)之間存在著不同的開發(fā)技術(shù)、系統(tǒng)框架、信息標(biāo)準(zhǔn)。因此,建立一個(gè)高校綜合服務(wù)平臺(tái)尤(以下簡稱為“服務(wù)平臺(tái)”)為重要,它能夠?qū)Ω咝T械男畔⑾到y(tǒng)進(jìn)行充分?jǐn)?shù)據(jù)整合,全方位地實(shí)現(xiàn)數(shù)字化校園建設(shè),保障了高效有序的數(shù)據(jù)、服務(wù)、認(rèn)證等多方面的管理。然而,在建設(shè)服務(wù)平臺(tái)之前,需要對數(shù)據(jù)質(zhì)量進(jìn)行分析,將數(shù)據(jù)質(zhì)量分析與數(shù)據(jù)整合有機(jī)地結(jié)合起來。同時(shí),本文以上海海洋大學(xué)為例提出現(xiàn)有的數(shù)據(jù)整合應(yīng)用方案。

      2 數(shù)據(jù)質(zhì)量分析

      數(shù)據(jù)質(zhì)量分析包括:1)數(shù)據(jù)質(zhì)量的定義;2)域分析與過濾器分析;3)基于數(shù)據(jù)倉庫的ETL分析。

      2.1 數(shù)據(jù)質(zhì)量的定義

      數(shù)據(jù)質(zhì)量在不同行業(yè)與組織中具有不同的定義,但總體可以用以下的6個(gè)性質(zhì)來描述,并結(jié)合相關(guān)例子闡述。

      正確性:反應(yīng)數(shù)據(jù)呈現(xiàn)客觀世界的程度,取值應(yīng)該在對應(yīng)的數(shù)據(jù)域中。例如,有關(guān)博士、碩士學(xué)位專業(yè)代碼必須符合教育部標(biāo)準(zhǔn)代碼子集。

      準(zhǔn)確性:在正確性的基礎(chǔ)上,準(zhǔn)確性反應(yīng)數(shù)據(jù)與客觀世界的匹配程度;需要注意的是,正確的數(shù)據(jù)未必準(zhǔn)確。例如,在教職工聘任職務(wù)標(biāo)準(zhǔn)代碼對應(yīng)字典表中011代表教授,012代表副教授;若將一名副教授對應(yīng)為011就不準(zhǔn)確了,但代碼011本身是正確的。

      完整性:在一定范圍內(nèi),根據(jù)特定的需求和相關(guān)的數(shù)據(jù),保證數(shù)據(jù)集中的數(shù)據(jù)既不缺少應(yīng)有的部分也不增加多余的部分。例如,公共數(shù)據(jù)庫中的數(shù)據(jù)應(yīng)排除非法數(shù)值的存在和盡量減少非空數(shù)值的出現(xiàn)。前者的例子有學(xué)歷信息應(yīng)為本科,而不是大學(xué),后者空值的出現(xiàn)會(huì)帶來統(tǒng)計(jì)與決策支持上的不便。

      及時(shí)性:表示數(shù)據(jù)在一定時(shí)間內(nèi)的時(shí)效性,不同的數(shù)據(jù)有著不同的時(shí)間有效性。例如,一個(gè)系統(tǒng)在長期運(yùn)行下,數(shù)據(jù)庫會(huì)產(chǎn)生廢棄表,留下冗余和無效數(shù)據(jù)。此時(shí),應(yīng)對這些表進(jìn)行連續(xù)監(jiān)測,通過數(shù)據(jù)量的變化來排查,排除變化量小的字典表和變化量大的表,剩余的就是過了時(shí)效性的廢棄表。

      一致性:表示在數(shù)據(jù)集中的特定規(guī)則表達(dá)是否相同的衡量依據(jù)。例如,在數(shù)據(jù)庫中用“M”表示男性、“F”表示女性,在其他表中是否會(huì)以“男”表示男性、“女”表示女性。

      集成性:在傳統(tǒng)的高校信息系統(tǒng)中,早期的數(shù)字化校園在人事、教務(wù)、財(cái)務(wù)、學(xué)生管理等多個(gè)方面建設(shè),但這導(dǎo)致了數(shù)據(jù)分散存儲(chǔ)和處理,使得各個(gè)系統(tǒng)中數(shù)據(jù)庫表的對應(yīng)字段沒有相應(yīng)聯(lián)系,主鍵不匹配甚至沒有鍵碼,這也是后期數(shù)據(jù)整合要解決的問題。

      2.2 域分析與過濾器分析

      域分析和過濾器分析對數(shù)據(jù)質(zhì)量的保證體現(xiàn)在對“臟數(shù)據(jù)”的清洗,數(shù)據(jù)清洗這一環(huán)節(jié)又是屬于數(shù)據(jù)倉庫的ETL技術(shù)。這兩種分析對控制數(shù)據(jù)質(zhì)量起著很大的作用,它們是從數(shù)據(jù)質(zhì)量定義的基礎(chǔ)上,通過對數(shù)據(jù)庫的結(jié)構(gòu)進(jìn)行的另一種數(shù)據(jù)質(zhì)量分析的方法。

      域分析的功能是通過列來分析數(shù)據(jù)庫表,包括:1)數(shù)據(jù)類別分析,涉及標(biāo)示量、枚舉量、時(shí)間、文本等;2)統(tǒng)計(jì)分析,涉及頻率、方差、百分比等針對數(shù)值類型的相關(guān)分析;3)格式分析,主要涉及模式匹配的針對字符類型的相關(guān)分析。域分析可以使數(shù)據(jù)環(huán)境得到充分的了解,以便數(shù)據(jù)質(zhì)量的有效管理與評估。

      過濾器分析主要是通過對不同規(guī)則的組合進(jìn)行分析評價(jià)。過濾器的基本規(guī)則有三類:一是包含規(guī)則(CONTAINS);二是等于規(guī)則(EQUALS);三是存在規(guī)則(EXISTS)。除此之外,過濾器定義的規(guī)則還有范圍規(guī)則、正則表達(dá)式規(guī)則、頻率規(guī)則、類型規(guī)則以及唯一規(guī)則等。分析評價(jià)包括符合規(guī)則的記錄數(shù)、規(guī)則明細(xì)、總記錄數(shù)以及正確率等。

      2.3 基于數(shù)據(jù)倉庫的ETL分析

      在每一個(gè)信息系統(tǒng)的背后都有相應(yīng)的數(shù)據(jù)庫系統(tǒng),另外與數(shù)據(jù)庫系統(tǒng)相關(guān)的一個(gè)概念就是數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是基于數(shù)據(jù)庫技術(shù)的,它是支持管理決策過程的、面向主題的、集成的、隨時(shí)間變化的持久的數(shù)據(jù)集合,它是研究如何將大規(guī)模復(fù)雜的數(shù)據(jù)更有效得組織、用于方便使用的技術(shù)。

      在數(shù)據(jù)裝入數(shù)據(jù)倉庫之前,要進(jìn)行一系列操作來保證數(shù)據(jù)質(zhì)量,這個(gè)操作就稱為ETL,即有關(guān)數(shù)據(jù)的抽?。‥xtract)、轉(zhuǎn)換(Transform)、裝載(Load)。在此之前進(jìn)行數(shù)據(jù)清洗(Data Cleansing),主要是對數(shù)據(jù)中的錯(cuò)誤進(jìn)行自動(dòng)或人工糾正,以提高數(shù)據(jù)質(zhì)量。ETL實(shí)際上是數(shù)據(jù)流動(dòng)的過程,與此同時(shí)ETL的數(shù)據(jù)集成服務(wù)可以提供相應(yīng)的解析功能,實(shí)現(xiàn)對集成規(guī)則的解析。

      ETL往往與大型數(shù)據(jù)倉庫、管理決策系統(tǒng)相配合使用,在信息系統(tǒng)的數(shù)據(jù)整合中也起著重要的作用。

      3 數(shù)據(jù)整合

      數(shù)據(jù)質(zhì)量分析完后,就要對數(shù)據(jù)進(jìn)行整合。以上海海洋大學(xué)為例,為了能給全校師生、教職員工、領(lǐng)導(dǎo)提供全方位的信息化服務(wù)支撐環(huán)境,同時(shí)伴隨以SOA、云計(jì)算、物聯(lián)網(wǎng)、智能決策分析為代表的新一代信息技術(shù),亟需創(chuàng)造一個(gè)信息化、網(wǎng)絡(luò)化、數(shù)字化、服務(wù)化的新型校園環(huán)境,做到統(tǒng)一的業(yè)務(wù)規(guī)劃、消除信息孤島、提高原有系統(tǒng)的開放性與擴(kuò)展性、突破單一的應(yīng)用模式。

      3.1 服務(wù)平臺(tái)數(shù)據(jù)整合內(nèi)容

      上海海洋大學(xué)數(shù)字化校園一期建設(shè)于2003年,一期項(xiàng)目實(shí)現(xiàn)了校內(nèi)外網(wǎng)門戶的統(tǒng)一集成建設(shè),內(nèi)容主要包括服務(wù)門戶平臺(tái)、統(tǒng)一認(rèn)證平臺(tái)、公共數(shù)據(jù)平臺(tái)、相關(guān)業(yè)務(wù)系統(tǒng)等,實(shí)施的是點(diǎn)對點(diǎn)的數(shù)據(jù)交換模式,使得數(shù)據(jù)脈絡(luò)繁雜、不易擴(kuò)展,系統(tǒng)相互耦合,重復(fù)登入導(dǎo)致存在資源浪費(fèi)。

      因此數(shù)據(jù)整合針對高校的應(yīng)用系統(tǒng)進(jìn)行改造升級,包括信息整合、認(rèn)證整合、服務(wù)整合這三個(gè)方面。其中,信息整合將定義數(shù)字校園的信息標(biāo)準(zhǔn)與規(guī)范,通過建立公共數(shù)據(jù)庫來構(gòu)建數(shù)據(jù)交換平臺(tái),做到數(shù)據(jù)共享、數(shù)據(jù)管理與服務(wù)。認(rèn)證整合實(shí)現(xiàn)統(tǒng)一身份認(rèn)證,同時(shí)達(dá)到統(tǒng)一賬戶的管理,尤其是用戶權(quán)限的管理。服務(wù)整合主要是對各系統(tǒng)應(yīng)用服務(wù)、資源整合,能在面向不同角色用戶時(shí)提供主動(dòng)、個(gè)性的一站式服務(wù)窗口。

      3.2 數(shù)據(jù)整合設(shè)計(jì)

      3.2.1 整合體系框架設(shè)計(jì)

      我校原有應(yīng)用系統(tǒng)運(yùn)行情況良好,在此基礎(chǔ)上為了不影響學(xué)校各關(guān)鍵業(yè)務(wù)應(yīng)用的正常運(yùn)行,所以采用面向管理、服務(wù)的架構(gòu),應(yīng)用間是松耦合的。由下至上,數(shù)字化校園基礎(chǔ)平臺(tái)層次架構(gòu)分為IT基礎(chǔ)設(shè)施、共享數(shù)據(jù)層、應(yīng)用支撐層、應(yīng)用服務(wù)層和服務(wù)展現(xiàn)層五個(gè)層次,如圖1所示。

      圖1顯示了服務(wù)平臺(tái)的系統(tǒng)體系框架,全校各業(yè)務(wù)處理和業(yè)務(wù)信息存儲(chǔ)不會(huì)集中在單一的服務(wù)器和數(shù)據(jù)庫上,而是采用分布式層次型的處理和信息結(jié)構(gòu),各應(yīng)用系統(tǒng)擁有其獨(dú)立的業(yè)務(wù)數(shù)據(jù)(資源)庫和業(yè)務(wù)處理,通過數(shù)據(jù)集成平臺(tái)實(shí)現(xiàn)信息共享和交換,采用數(shù)據(jù)交換工具實(shí)現(xiàn)跨部門、跨應(yīng)用的共享互聯(lián)互通,既能保證信息的全校共享,又符合各業(yè)務(wù)系統(tǒng)處理分布、信息分布的特性。

      3.2.2 建立數(shù)據(jù)集成平臺(tái)

      為集成應(yīng)用系統(tǒng),需要通過統(tǒng)一的信息交換標(biāo)準(zhǔn)和數(shù)據(jù)交換接口來構(gòu)建數(shù)據(jù)集成平臺(tái)。通過專業(yè)的ETL工具,對數(shù)據(jù)集成平臺(tái)中的各業(yè)務(wù)數(shù)據(jù)進(jìn)行清洗、抽取、轉(zhuǎn)換、裝載,實(shí)現(xiàn)信息交換和共享。與此同時(shí),該項(xiàng)技術(shù)也將提供數(shù)據(jù)質(zhì)量的管理與監(jiān)控的功能,對數(shù)據(jù)轉(zhuǎn)換與清洗、調(diào)度和監(jiān)控也非常有效。

      信息整合中涉及數(shù)據(jù)交換模式,以往的點(diǎn)對點(diǎn)數(shù)據(jù)交換使得構(gòu)成的應(yīng)用環(huán)境接口復(fù)雜,不利于整個(gè)應(yīng)用系統(tǒng)的擴(kuò)充和數(shù)據(jù)共享。整合后采用總線式數(shù)據(jù)交換,中心的“數(shù)據(jù)集成平臺(tái)”保證了信息整合后的共享,如圖2所示??偩€式集成方法極大降低了數(shù)據(jù)交換、應(yīng)用集成的復(fù)雜度,參與數(shù)據(jù)交換以及被集成的各類異構(gòu)數(shù)據(jù)源僅需實(shí)現(xiàn)與“數(shù)據(jù)集成平臺(tái)”的集成。此方法使得實(shí)現(xiàn)復(fù)雜應(yīng)用系統(tǒng)的集成成為可能,同時(shí)也極大降低了整個(gè)信息系統(tǒng)的實(shí)施及維護(hù)成本。

      3.2.3 信息整合技術(shù)要求

      總體上采用組件化的開發(fā)框架,同時(shí)符合 SOA 架構(gòu)的設(shè)計(jì)理念。采用SOA 架構(gòu)有利于項(xiàng)目的建設(shè),它可以根據(jù)需求通過網(wǎng)絡(luò)對松散耦合的粗粒度應(yīng)用組件進(jìn)行分布式部署、組合和使用。服務(wù)層是SOA 的基礎(chǔ),可以直接被應(yīng)用調(diào)用,從而有效控制系統(tǒng)中與軟件代理交互的人為依賴性。技術(shù)體系上選用 J2EE 技術(shù),采用Browser / WebServer / DataBaseServer三層結(jié)構(gòu)進(jìn)行應(yīng)用系統(tǒng)的開發(fā)。數(shù)據(jù)底層采用Oracle 11g數(shù)據(jù)庫系統(tǒng)軟件,并配合RAC組建數(shù)據(jù)庫集群。采用XML 的數(shù)據(jù)交換技術(shù)和基于WEB SERVICES 服務(wù)進(jìn)行業(yè)務(wù)系統(tǒng)整合和集成支持,以其作為系統(tǒng)對外接口的主要實(shí)現(xiàn)方式,此外它也是本系統(tǒng)數(shù)據(jù)交換的輔助實(shí)現(xiàn)方式。

      4 結(jié)論

      本文提出了數(shù)據(jù)質(zhì)量在高校信息系統(tǒng)中的重要性,并從概念定義的角度提出傳統(tǒng)的數(shù)據(jù)質(zhì)量分析以及數(shù)據(jù)的域分析和過濾器分析,通過后者的分析提出ETL技術(shù)和在數(shù)據(jù)整合的綜合應(yīng)用。

      在數(shù)據(jù)整合部分中結(jié)合上海海洋大學(xué)數(shù)字化校園的實(shí)施,闡述了高校信息系統(tǒng)的框架與技術(shù)以及數(shù)據(jù)交換模式的變更,整合過程中的數(shù)據(jù)集成平臺(tái)與數(shù)據(jù)質(zhì)量和ETL分析技術(shù)的聯(lián)系,并實(shí)現(xiàn)認(rèn)證整合、信息整合、服務(wù)整合三方面的數(shù)據(jù)整合,基本消除了信息孤島,實(shí)現(xiàn)了數(shù)據(jù)的共享,實(shí)現(xiàn)有序、穩(wěn)定、高效的管理與應(yīng)用。

      參考文獻(xiàn):

      [1] 王真虎.基于數(shù)據(jù)質(zhì)量分析ETL框架的設(shè)計(jì)及實(shí)現(xiàn)[J].硅谷,2012(15):44-45.

      [2] 李慶陽,彭宏.面向數(shù)據(jù)質(zhì)量的ETL框架的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2010(9):2057-2060.

      [3] 胡逢彬,沈煒.數(shù)據(jù)ETL過程中的數(shù)據(jù)質(zhì)量控制[J].信息技術(shù)術(shù),2010(4):19-21.

      [4] 陳遠(yuǎn),羅琳,沈祥興.信息系統(tǒng)中的數(shù)據(jù)質(zhì)量問題研究[J].中國圖書館學(xué)報(bào):雙月刊,2004(1):48-50.

      [5] 丁海龍,徐宏炳.數(shù)據(jù)質(zhì)量分析及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007(3):236-238.

      [6] 鄧英.數(shù)字化校園建設(shè)中公共數(shù)據(jù)整合方案研究[J].電腦知識(shí)與技術(shù),2008(4):589-591.

      [7] 許鑫,蘇新寧,吳乃岡.高校共享數(shù)據(jù)中心平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2005(6):49-53.

      [8] 秦劍波.高校數(shù)字化校園建設(shè)中數(shù)據(jù)整合的探討[J].科技資訊,2007(19):91.

      [9] 胡光武,王華東,李霞,康國磊.數(shù)字化校園數(shù)據(jù)整合策略研究與實(shí)踐[J].鄭州輕工業(yè)學(xué)院學(xué)報(bào):自然科學(xué)版,2009(3):76-79.

      [10] 呂愛麗,葉小濤.數(shù)字化校園建設(shè)中數(shù)據(jù)整合問題研究[J].北京電子科技學(xué)院學(xué)報(bào),2010(4):71-76.

      [11] 劉晨霞,張明.數(shù)字校園中資源整合的關(guān)鍵技術(shù)研究與應(yīng)用[J].科技資訊,2009(3):12-13.

      猜你喜歡
      數(shù)據(jù)整合數(shù)據(jù)質(zhì)量信息系統(tǒng)
      企業(yè)信息系統(tǒng)安全防護(hù)
      基于區(qū)塊鏈的通航維護(hù)信息系統(tǒng)研究
      信息系統(tǒng)審計(jì)中計(jì)算機(jī)審計(jì)的應(yīng)用
      淺談統(tǒng)計(jì)數(shù)據(jù)質(zhì)量控制
      基于SG-I6000的信息系統(tǒng)運(yùn)檢自動(dòng)化診斷實(shí)踐
      太和县| 荣昌县| 辽中县| 政和县| 抚顺县| 镇坪县| 兴义市| 黎平县| 怀化市| 常宁市| 奈曼旗| 沅江市| 扬中市| 常宁市| 江孜县| 田阳县| 濉溪县| 宜川县| 驻马店市| 象山县| 河间市| 类乌齐县| 云浮市| 东乌珠穆沁旗| 成都市| 金沙县| 新昌县| 罗平县| 新沂市| 桂东县| 连南| 乌审旗| 武定县| 伊金霍洛旗| 烟台市| 宜宾市| 济南市| 黄平县| 盘山县| 常熟市| 南昌市|