黃衛(wèi)
摘 要:數(shù)據(jù)采集是信息系統(tǒng)的重要組成部分,隨著信息技術(shù)工具在各部門的廣泛普及,數(shù)據(jù)采集方式發(fā)生轉(zhuǎn)變。文章提出了基于Web服務(wù)建立可互操作分布式應(yīng)用程序的平臺(tái),其具有獨(dú)立性、自發(fā)性、智能性,能很好地解決應(yīng)用系統(tǒng)集成和跨平臺(tái)問(wèn)題,簡(jiǎn)化了持續(xù)的數(shù)據(jù)采集工作,以較低成本采集不同部門的異構(gòu)數(shù)據(jù),為數(shù)據(jù)分析和決策創(chuàng)造條件。
關(guān)鍵詞:Web服務(wù);XML;數(shù)據(jù)采集;信息系統(tǒng)
隨著信息技術(shù)的廣泛應(yīng)用,各部門積累了豐富的數(shù)據(jù),以提供相關(guān)信息,供決策過(guò)程所使用。這些數(shù)據(jù)存放于多個(gè)異構(gòu)的、自治、分布的信息系統(tǒng)中,各部門數(shù)據(jù)無(wú)法實(shí)現(xiàn)共享和轉(zhuǎn)換,面臨著信息孤島問(wèn)題。數(shù)據(jù)研究機(jī)構(gòu)為方便同平臺(tái)的數(shù)據(jù)采集,往往不愿付出高成本重組現(xiàn)有系統(tǒng)。于是,采集、組織和分析來(lái)自不同部門系統(tǒng)的數(shù)據(jù)是成為管理信息系統(tǒng)(Management Information System,MIS)的設(shè)計(jì)和開(kāi)發(fā)目的之一。在數(shù)據(jù)采集過(guò)程中,一是要關(guān)注數(shù)據(jù)的質(zhì)量、準(zhǔn)確性和異構(gòu)性,將采集后的數(shù)據(jù)存儲(chǔ)在一致的數(shù)據(jù)倉(cāng)庫(kù)中,為數(shù)據(jù)挖掘創(chuàng)造條件;二是采取有效的措施,解決異種數(shù)據(jù)的操作和共享難題?;谝陨弦螅闹姓撌隽藨?yīng)用Web服務(wù)、管理代理(Agent)等技術(shù),以較低成本采集不同部門的異構(gòu)數(shù)據(jù),為數(shù)據(jù)分析和決策創(chuàng)造條件。
1 相關(guān)技術(shù)
1.1 XML規(guī)范
可擴(kuò)展標(biāo)記語(yǔ)言(eXtensible Markup Language,XML)被設(shè)計(jì)用來(lái)傳輸和存儲(chǔ)數(shù)據(jù),是一種數(shù)據(jù)交換的格式,是W3C制定的文本標(biāo)記語(yǔ)言規(guī)范,它利用標(biāo)準(zhǔn)的網(wǎng)絡(luò)協(xié)議進(jìn)行傳輸。XML是Web服務(wù)的基礎(chǔ),基于Web服務(wù)的協(xié)議規(guī)范都是XML來(lái)描述與表達(dá)的。其主要的優(yōu)點(diǎn)在于它既是平臺(tái)無(wú)關(guān)的,又是廠商無(wú)關(guān)的[1]。
1.2 Web服務(wù)
Web服務(wù)是一種松耦合的跨編程語(yǔ)言和跨操作系統(tǒng)平臺(tái)的遠(yuǎn)程調(diào)用技術(shù)。表面上看,Web服務(wù)是一個(gè)應(yīng)用程序可對(duì)外調(diào)用的應(yīng)用程序編程接口(Application Programming Interface,API)。把調(diào)用這個(gè)Web服務(wù)的應(yīng)用程序稱為客戶端,而把提供這個(gè)Web服務(wù)的應(yīng)用程序稱為服務(wù)端。從更深層看,Web服務(wù)建立了可互操作分布式應(yīng)用程序的平臺(tái)。只要可以通過(guò)Web服務(wù)標(biāo)準(zhǔn)對(duì)這些服務(wù)進(jìn)行查詢和訪問(wèn),獨(dú)立于不同的語(yǔ)言和平臺(tái),能很好地解決應(yīng)用系統(tǒng)集成和跨平臺(tái)問(wèn)題[2-3]。
1.3 SOAP協(xié)議
簡(jiǎn)單對(duì)象訪問(wèn)協(xié)議(Simple Object Access Protocol,SOAP)是指定如何通過(guò)HTTP交換XML文檔的協(xié)議規(guī)范,即SOAP協(xié)議= HTTP協(xié)議+ XML數(shù)據(jù)格式。它通過(guò)SOAP編碼規(guī)則可以與現(xiàn)有通信技術(shù)最大限度地兼容[2]。
1.4 UDDI與Agent
通用描述、發(fā)現(xiàn)與集成服務(wù)(Universal Description Discovery and Integration,UDDI)是分布式Web服務(wù)的信息注冊(cè)規(guī)范,用于通過(guò)使用Internet來(lái)描述服務(wù),企業(yè)可以使用它對(duì)Web服務(wù)進(jìn)行注冊(cè)和搜索。UDDI系統(tǒng)引入Agent后,Web服務(wù)查詢變得更智能化,減輕了管理信息系統(tǒng)的負(fù)擔(dān),提高了運(yùn)行效率。當(dāng)搜索服務(wù)時(shí),Agent以SOAP消息格式向UDDI系統(tǒng)提出查詢請(qǐng)求,并生成一個(gè)查詢的Agent,以此來(lái)接收Web服務(wù)需求的SOAP消息。
2 數(shù)據(jù)采集系統(tǒng)的實(shí)現(xiàn)
2.1 數(shù)據(jù)采集系統(tǒng)工作機(jī)制
為解決異構(gòu)數(shù)據(jù)源的數(shù)據(jù)采集,提出以Web服務(wù)作為基礎(chǔ)架構(gòu)的數(shù)據(jù)采集系統(tǒng)。教育系統(tǒng)內(nèi)數(shù)據(jù)采集器如圖1所示,其中包括Web服務(wù)、代理(Agent)系統(tǒng)、UDDI系統(tǒng)及實(shí)現(xiàn)異構(gòu)的、分布式教育管理信息系統(tǒng)[4]。Web服務(wù)屏蔽異構(gòu)系統(tǒng)的差別,外部通過(guò)服務(wù)接口響應(yīng)的來(lái)自Agent的采集請(qǐng)求。UDDI是一種目錄服務(wù),企業(yè)可以使用它對(duì)Web服務(wù)進(jìn)行注冊(cè)和搜索。采集器的功能是各教育信息系統(tǒng)傳遞有用的采集數(shù)據(jù),期間通過(guò)SOAP/HTTP來(lái)進(jìn)行Web服務(wù)調(diào)用,最后采集至主管部門信息系統(tǒng)[5]。
2.2 Web服務(wù)的數(shù)據(jù)采集接口
該系統(tǒng)使用Web服務(wù)作為編程接口(見(jiàn)圖2)來(lái)從異構(gòu)環(huán)境中采集數(shù)據(jù)。它提供了一個(gè)平臺(tái),無(wú)論編程語(yǔ)言和操作系統(tǒng)如何,其中一個(gè)應(yīng)用程序可以與另一個(gè)應(yīng)用程序交換信息,支持不同網(wǎng)絡(luò)文件的互操作性,即松耦合。各層級(jí)不需重組現(xiàn)有系統(tǒng),以XML文件進(jìn)行通信,定時(shí)的數(shù)據(jù)采集工作可以在任何級(jí)別上進(jìn)行。register()方法用于登記不同層級(jí)部門網(wǎng)址;send()方法用于發(fā)送XML文件注冊(cè)賬戶;get()方法用于獲取數(shù)據(jù)。
2.3 數(shù)據(jù)采集系統(tǒng)的優(yōu)越性
一般來(lái)說(shuō),由于聯(lián)機(jī)輸入數(shù)據(jù)量大、易出錯(cuò),增加了聯(lián)機(jī)通信的成本。即使引入傳統(tǒng)計(jì)算機(jī)數(shù)據(jù)的采集方法,也是一個(gè)耗時(shí)的過(guò)程。此外,異構(gòu)系統(tǒng)也不利于實(shí)時(shí)數(shù)據(jù)傳輸。基于Web服務(wù)交換異構(gòu)平臺(tái)數(shù)據(jù)速度快,成本低,不論平臺(tái)和編程語(yǔ)言是什么,不用重新配置操作系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)和應(yīng)用軟件,允許訪問(wèn)不同私有網(wǎng)絡(luò)中的文件,自由地用HTTP協(xié)議進(jìn)行通信。
3 數(shù)據(jù)采集方法
Web服務(wù)的工作模式是各層信息系統(tǒng)從DUUI系統(tǒng)查詢Web服務(wù)接口,然后按要求格式向Web服務(wù)發(fā)送請(qǐng)求,以傳遞相關(guān)數(shù)據(jù)[6]。以教育系統(tǒng)內(nèi)部數(shù)據(jù)采集為例,采集器運(yùn)行大致經(jīng)過(guò)以下幾個(gè)過(guò)程(見(jiàn)圖3)。
教育主管部門首先數(shù)據(jù)采集格式設(shè)計(jì),將采集請(qǐng)求以XML格式向?qū)W校的Web服務(wù)提出服務(wù)請(qǐng)求。各層級(jí)參照?qǐng)?zhí)行該步驟,依次為:主管部門→大學(xué)→院系→班級(jí)。各校通過(guò)Web服務(wù)接口響應(yīng)采集請(qǐng)求,并傳回所采集的數(shù)據(jù)。比如:各大學(xué)提前手動(dòng)采集大量數(shù)據(jù),然后記錄在學(xué)校的管理信息系統(tǒng)(異構(gòu)系統(tǒng))的數(shù)據(jù)庫(kù)中。期間,Web服務(wù)主要負(fù)責(zé)將XML格式不同語(yǔ)義的數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)格式。當(dāng)然,校區(qū)分散或具備軟硬件的學(xué)校,也可建立類似的采集器,更高效、低成本地采集不同部門的異構(gòu)數(shù)據(jù)。
數(shù)據(jù)采集過(guò)程中無(wú)法避免在同一地方可能采集大量表格,存在錯(cuò)誤的條目和費(fèi)時(shí)的糾錯(cuò)過(guò)程等問(wèn)題。所以要對(duì)采集的數(shù)據(jù)進(jìn)行必要的整理,清除無(wú)用數(shù)據(jù)。事實(shí)上,任何層級(jí)都可完成數(shù)據(jù)采集工作,并把這些數(shù)據(jù)作為原始數(shù)據(jù)進(jìn)行進(jìn)一步的分析,為政策制定者所用。
4 結(jié)語(yǔ)
一個(gè)合格的學(xué)校管理信息采集平臺(tái)應(yīng)該具有通用性、可靠性、實(shí)時(shí)性、共享性、能為政策制定者所用,實(shí)踐表明該平臺(tái)具備這些特點(diǎn)。Web服務(wù)使用的標(biāo)準(zhǔn),如XML,SOAP,WSDL,為普遍所接受的,應(yīng)用Web服務(wù)組件無(wú)需重新設(shè)計(jì)當(dāng)前的學(xué)校系統(tǒng),不受特定的物理位置、編程語(yǔ)言、平臺(tái)、數(shù)據(jù)編碼方式的限制,數(shù)據(jù)可在不同部門、不同平臺(tái)之間共享,實(shí)現(xiàn)了低成本、開(kāi)放性與智能性的結(jié)合。
[參考文獻(xiàn)]
[1]SCOTT S. SOAP:XML 跨平臺(tái)Web Service開(kāi)發(fā)技術(shù)[M].北京:機(jī)械工業(yè)出版社,2002.
[2]鄭子彬,呂榮聰.Web服務(wù)質(zhì)量管理[M].杭州:浙江大學(xué)出版社,2013.
[3]BOOTH D,HAAS H. Web Services Architecture,W3C Working Group[J].Concurrency & Computation Practice & Experience,2004(5):72-81.
[4]JACKLE A, ROBERTS C, LYNN P. Assessing the effect of data collection mode on measurement[J].International Statistical Review,2010(1):3-20.
[5]王瑄,李燕.應(yīng)用Web Services構(gòu)建多層架構(gòu)的高效.NET應(yīng)用[M].北京:科學(xué)出版社,2005.
[6]馬曉軒.Web服務(wù)與數(shù)據(jù)交換關(guān)鍵技術(shù)研究[M].北京:中國(guó)環(huán)境出版社,2017.endprint