• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)時(shí)代數(shù)字資源整合方法研究:模型設(shè)計(jì)和實(shí)驗(yàn)分析

      2019-10-06 02:40:31王戰(zhàn)平馮揚(yáng)文朱宸良
      現(xiàn)代情報(bào) 2019年9期
      關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù)運(yùn)價(jià)資源整合

      王戰(zhàn)平 馮揚(yáng)文 朱宸良

      摘 要:[目的/意義]針對(duì)目前大數(shù)據(jù)時(shí)代數(shù)字資源的非結(jié)構(gòu)化、海量、多類型等問(wèn)題,設(shè)計(jì)一套數(shù)字資源整合的模型和方法,以滿足信息用戶的實(shí)際需求。[方法/過(guò)程]以物流行業(yè)中的航運(yùn)信息服務(wù)產(chǎn)品集裝箱運(yùn)價(jià)指數(shù)為例,提出基于大數(shù)據(jù)的指數(shù)編制思路,以數(shù)據(jù)倉(cāng)庫(kù)模型為目標(biāo)數(shù)據(jù)模式,構(gòu)建面向海量多源異構(gòu)信息的數(shù)字資源集成模型,設(shè)計(jì)Web類數(shù)字資源獲取和集成流程以及增量數(shù)據(jù)的處理方法,通過(guò)具體實(shí)證研究檢驗(yàn)?zāi)P秃土鞒痰倪\(yùn)行效果。[結(jié)果/結(jié)論]實(shí)證結(jié)果顯示,本文提出的數(shù)字資源整合模型和處理流程能有效地實(shí)現(xiàn)多源異構(gòu)數(shù)字資源的整合,支持基于海量數(shù)據(jù)對(duì)的指數(shù)編制模式,為全世界各類指數(shù)編制的改變提供理論和技術(shù)方面的探索,也為數(shù)字資源整合在其他領(lǐng)域的應(yīng)用提供有益參考。

      關(guān)鍵詞:數(shù)字資源整合;多源異構(gòu)信息;集裝箱運(yùn)價(jià)指數(shù);數(shù)據(jù)倉(cāng)庫(kù);模型;方法;技術(shù);物流行業(yè)

      DOI:10.3969/j.issn.1008-0821.2019.09.010

      〔中圖分類號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2019)09-0092-09

      Abstract:[Purpose/Significance]Aiming at the unstructured,massive and multi-source of digital resources,a set of digital resource integration models and methods were designed to meet the actual needs of information users.[Method/Process]Taking the shipping information service product - container freight index in the logistics industry as an example,this paper proposed formulation methods of container freight index based on big data,designed a set of oriented container freight index multi-sources heterogeneous information integration model and the Web information gathering and integration process.[Result/Conclusion]The model and process supported multi-sources heterogeneous digital information integration,and index formulation based on massive data.The study presented theoretical and technological exploration on different indexes formulation,and also provided a useful reference for the application of digital resources integration in other fields.

      Key words:digital resources integration;multi-sources heterogeneous digital information;containerized freight index;data warehouse;model;method;technique;the logistics industry

      數(shù)字資源整合是指將原本多元異構(gòu)的、離散的、分布的數(shù)字資源通過(guò)邏輯或者物理的方式[1],依據(jù)不同的模式、策略,對(duì)于數(shù)字資源系統(tǒng)中的數(shù)據(jù)對(duì)象、功能結(jié)構(gòu)及其互動(dòng)關(guān)系進(jìn)行融合、類聚和重組,重新結(jié)合為一個(gè)新的有機(jī)整體,形成一個(gè)效能更好、效率更高的新的數(shù)字資源體系[2]。

      數(shù)字資源整合的起因是由數(shù)字資源的現(xiàn)狀與信息用戶的需求之間的差異造成的。從技術(shù)層面來(lái)看,不同的數(shù)字資源系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)和語(yǔ)義表達(dá)不一樣,不同的系統(tǒng)開(kāi)發(fā)者使用不一樣的數(shù)據(jù)描述和數(shù)據(jù)組織標(biāo)準(zhǔn),數(shù)據(jù)檢索的方式和方法也不同;從數(shù)量上來(lái)看,隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)資源的種類越來(lái)越多,除了電子文檔之外,Web、報(bào)文、視頻、音頻、圖形和圖像等類型的數(shù)字資源隨著互聯(lián)網(wǎng)發(fā)展,數(shù)字資源的數(shù)量呈指數(shù)增加的趨勢(shì);從內(nèi)容上來(lái)看,數(shù)字資源存在大量冗余信息,內(nèi)容交叉重復(fù),數(shù)字資源之間知識(shí)關(guān)聯(lián)程度很低,真正的數(shù)字資源分布在不同的組織等問(wèn)題[3],這些數(shù)字資源的價(jià)值密度較低,需要經(jīng)過(guò)整合和處理之后,方能滿足信息用戶的使用需求。

      1 數(shù)字資源整合研究現(xiàn)狀

      關(guān)于數(shù)字資源整合的研究在國(guó)內(nèi)主要集中在圖書(shū)情報(bào)領(lǐng)域,通常認(rèn)為開(kāi)始于21世紀(jì)初,毛玉萃針對(duì)企業(yè)內(nèi)部信息和企業(yè)電子商務(wù)信息的信息整合揭開(kāi)了數(shù)字資源整合研究的序幕[4],此后該領(lǐng)域的研究持續(xù)升溫,主要集中在五大方面:一是模式研究,如跨庫(kù)檢索[5]、系統(tǒng)和數(shù)據(jù)整合模式比較[6]等;二是方案策略和方法研究,如目標(biāo)研究[7]、原則研究[8]、基于本體[9]、基于知識(shí)鏈[10]等;三是影響因素研究,如政治、經(jīng)濟(jì)、技術(shù)[11]和資源本身的屬性等;四是標(biāo)準(zhǔn)和協(xié)議研究,如Web Service[12]等;五是服務(wù)研究,如數(shù)據(jù)庫(kù)、檢索平臺(tái)[13]等。

      數(shù)字資源整合中的數(shù)據(jù)整合技術(shù)經(jīng)歷了30多年的發(fā)展,不同的階段,針對(duì)的數(shù)據(jù)對(duì)象不同,采用的技術(shù)方法和體系結(jié)構(gòu)也不同,一般來(lái)說(shuō)分為物理整合和邏輯整合。

      1.1 聯(lián)邦數(shù)據(jù)庫(kù)

      20世紀(jì)80年代,數(shù)據(jù)整合的對(duì)象主要是異構(gòu)數(shù)據(jù)庫(kù),多采用聯(lián)邦數(shù)據(jù)庫(kù)集成框架和多數(shù)據(jù)庫(kù)語(yǔ)言方法集成架構(gòu)等技術(shù),聯(lián)邦數(shù)據(jù)庫(kù)管理系統(tǒng)通過(guò)執(zhí)行控制和協(xié)調(diào)來(lái)實(shí)現(xiàn)對(duì)組件數(shù)據(jù)庫(kù)中數(shù)據(jù)的集成[14]。前期采用緊密耦合的方式,但由于這種方式太脆弱,后期漸漸采用松散耦合的方式[15]。

      1.2 數(shù)據(jù)倉(cāng)庫(kù)

      聯(lián)邦數(shù)據(jù)庫(kù)模式對(duì)于數(shù)據(jù)的集成是邏輯上的,隨著信息用戶對(duì)于決策支持的需要,物化方法(Materialized)開(kāi)始出現(xiàn),最常見(jiàn)的就是數(shù)據(jù)倉(cāng)庫(kù)方法,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策[16]。數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)主要體現(xiàn)在以下3個(gè)方面:實(shí)現(xiàn)了分析數(shù)據(jù)與生產(chǎn)線數(shù)據(jù)的分離;實(shí)現(xiàn)多個(gè)異構(gòu)數(shù)據(jù)源的集成;數(shù)據(jù)處理和分析能力強(qiáng)。

      1.3 Wrapper-Mediator方法

      20世紀(jì)90年代,隨著面向?qū)ο蠛头植际骄W(wǎng)絡(luò)技術(shù)的發(fā)展,針對(duì)異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)整合研究主要集中在Wrapper-mediator體系結(jié)構(gòu)方面[17]。Wrapper-Mediator方法又被稱為中間件集成法[18],本質(zhì)上是一種邏輯集成或者模式集成[19]。模式集成方法可以彌補(bǔ)物化方式在數(shù)據(jù)實(shí)時(shí)性上的一些不足,同時(shí)具備在網(wǎng)絡(luò)延時(shí)小和參與運(yùn)算的數(shù)據(jù)規(guī)模小的情況下計(jì)算速度更快、支持應(yīng)用系統(tǒng)的應(yīng)用模式經(jīng)常變化、適用于某些特殊的數(shù)據(jù)源(如保密數(shù)據(jù))等優(yōu)勢(shì)。該方法的弱點(diǎn)一是會(huì)對(duì)數(shù)據(jù)源所在的系統(tǒng)產(chǎn)生負(fù)擔(dān);二是應(yīng)用系統(tǒng)的效率和結(jié)構(gòu)在很大程度上依賴網(wǎng)絡(luò)狀況。

      聯(lián)邦數(shù)據(jù)庫(kù)方法目前已很少被采用,模式集成的方法適用于數(shù)據(jù)源所在的系統(tǒng)龐大、數(shù)據(jù)更新頻率高、目標(biāo)數(shù)據(jù)所服務(wù)的系統(tǒng)要求數(shù)據(jù)實(shí)時(shí)性高且數(shù)據(jù)應(yīng)用模式不固定的情況,數(shù)據(jù)倉(cāng)庫(kù)的方式適用于數(shù)據(jù)源分布廣且網(wǎng)絡(luò)延時(shí)較大、數(shù)據(jù)應(yīng)用模式變化不多、應(yīng)用對(duì)于數(shù)據(jù)的實(shí)時(shí)性要求不高但對(duì)系統(tǒng)響應(yīng)時(shí)間要求短等情況,隨著大數(shù)據(jù)時(shí)代的到來(lái)、硬件成本的不斷下降以及分布式存儲(chǔ)和計(jì)算技術(shù)的發(fā)展,越來(lái)越多的基于大數(shù)據(jù)的應(yīng)用傾向于使用數(shù)據(jù)倉(cāng)庫(kù)的方式;當(dāng)然也有學(xué)者提出了基于上述兩種方法的綜合方案[20]。

      本文綜合比較各種方法,在分析物理整合和邏輯整合的基礎(chǔ)上,結(jié)合數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)價(jià)信息提出了新的方法。

      2 基于數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)價(jià)信息集成模型

      隨著世界貿(mào)易格局的變化和標(biāo)準(zhǔn)化進(jìn)程的加快,集裝箱船運(yùn)輸方式在國(guó)際海運(yùn)中所占的比重在逐漸增加,集裝箱運(yùn)價(jià)的變化也一直受到業(yè)內(nèi)人士的關(guān)注,研究國(guó)際集裝箱運(yùn)價(jià)指數(shù)的科學(xué)編制體系,及時(shí)準(zhǔn)確地反映國(guó)際集裝箱運(yùn)價(jià)波動(dòng)的程度和趨勢(shì),提高集裝箱運(yùn)價(jià)預(yù)測(cè)的能力,成為全球業(yè)內(nèi)人士的共識(shí)。按照目前普遍的模式,運(yùn)價(jià)樣本信息的采集是按照如下準(zhǔn)則來(lái)操作的:由指數(shù)編制機(jī)構(gòu)指定若干企業(yè)或組織作為信息源提供者,提供者根據(jù)指數(shù)編制機(jī)構(gòu)給出的信息標(biāo)準(zhǔn)和要求定期向指數(shù)編制機(jī)構(gòu)單獨(dú)報(bào)送信息,編制機(jī)構(gòu)先對(duì)信息進(jìn)行預(yù)處理,然后按照既定的算法得出某周期的航運(yùn)運(yùn)價(jià)指數(shù)[21];現(xiàn)行編制體系在理論層面具備科學(xué)性,可操作性強(qiáng),所以被世界范圍內(nèi)的航運(yùn)運(yùn)價(jià)指數(shù)包括集裝箱運(yùn)價(jià)指數(shù)廣泛采用,但其缺陷也長(zhǎng)期存在,主要體現(xiàn)在以下兩個(gè)方面:

      1)運(yùn)價(jià)信息的屬性

      目前集裝箱運(yùn)價(jià)指數(shù)編制所用的運(yùn)價(jià)信息采集自班輪公司和代理機(jī)構(gòu),且主要來(lái)自班輪公司的報(bào)送運(yùn)價(jià)信息,該運(yùn)價(jià)信息并非自由競(jìng)爭(zhēng)市場(chǎng)的價(jià)格。這正是包括波羅的海交易所在內(nèi)的諸多航運(yùn)運(yùn)價(jià)指數(shù)編制機(jī)構(gòu)一直致力于找到實(shí)際市場(chǎng)價(jià)格來(lái)編制航運(yùn)運(yùn)價(jià)指數(shù)的原因。

      2)運(yùn)價(jià)信息的及時(shí)性和廣泛性

      班輪公司報(bào)送的運(yùn)價(jià)信息變化周期長(zhǎng),反映集裝箱市場(chǎng)變化的及時(shí)性不夠,在實(shí)際操作中容易受到人為因素而影響運(yùn)價(jià)信息的準(zhǔn)確性;而且運(yùn)價(jià)信息的來(lái)源不夠廣泛[21]。

      互聯(lián)網(wǎng)和電子商務(wù)的浪潮席卷全球,同樣也在深深影響著航運(yùn)業(yè),全世界范圍內(nèi)出現(xiàn)了大量航運(yùn)電子商務(wù)平臺(tái),這些平臺(tái)將航運(yùn)服務(wù)資源如集裝箱船的艙位作為商品,基于互聯(lián)網(wǎng)實(shí)現(xiàn)全流程在線交易;隨著這些平臺(tái)的運(yùn)營(yíng)和發(fā)展,越來(lái)越多的行業(yè)用戶選擇使用在線交易方式代替?zhèn)鹘y(tǒng)的紙面交易模式。這種模式表現(xiàn)出業(yè)務(wù)信息高度集中、實(shí)時(shí)性強(qiáng)、準(zhǔn)確率高以及易于存儲(chǔ)、傳輸和使用等優(yōu)點(diǎn)。本文認(rèn)為,集裝箱運(yùn)價(jià)指數(shù)編制的信息源完全可以從傳統(tǒng)的使用采樣數(shù)據(jù)的方法轉(zhuǎn)變到以從事國(guó)際集裝箱艙位交易電商平臺(tái)和信息化系統(tǒng)上沉淀的運(yùn)價(jià)信息為基礎(chǔ),運(yùn)用信息集成技術(shù)整合多個(gè)平臺(tái)和系統(tǒng)的運(yùn)價(jià)數(shù)據(jù),為集裝箱運(yùn)價(jià)指數(shù)的編制提供實(shí)時(shí)的、海量的、真實(shí)成交的運(yùn)價(jià)信息[23]。

      2.1 運(yùn)價(jià)信息集成模型的基本框架

      集裝箱運(yùn)價(jià)指數(shù)編制的運(yùn)價(jià)數(shù)據(jù)分布在處于異構(gòu)環(huán)境中的不同航運(yùn)電商平臺(tái)或系統(tǒng)上,所以運(yùn)價(jià)數(shù)據(jù)必然是異構(gòu)的,需要找到一種有效的方法,根據(jù)集裝箱運(yùn)價(jià)指數(shù)編制的要求對(duì)運(yùn)價(jià)這些數(shù)字資源進(jìn)行整合,數(shù)據(jù)的整合不但要遵循完整性、針對(duì)性和動(dòng)態(tài)性等原則[24],且整合后的結(jié)果能根據(jù)指數(shù)編制的模型進(jìn)行組織和序化,能夠針對(duì)指數(shù)分析的需求進(jìn)一步進(jìn)行多維度、多粒度融合和分析[25]。編制集裝箱運(yùn)價(jià)指數(shù)所需要的運(yùn)價(jià)信息是歷史數(shù)據(jù),根據(jù)集裝箱海運(yùn)業(yè)務(wù)的慣例,數(shù)據(jù)采集的最高頻率為每日1次即可;為了實(shí)現(xiàn)運(yùn)價(jià)指數(shù)編制的高效,必須實(shí)現(xiàn)對(duì)異構(gòu)數(shù)字資源的物理集成,通過(guò)序化使得結(jié)果數(shù)據(jù)的結(jié)構(gòu)統(tǒng)一,同時(shí)為了保證指數(shù)結(jié)果的可回溯性,必須將運(yùn)價(jià)信息與原業(yè)務(wù)系統(tǒng)分離,本文設(shè)計(jì)的基于數(shù)據(jù)倉(cāng)庫(kù)方法的數(shù)字資源整合模型如圖1所示。

      其基本思想是:按照指數(shù)編制的需求,定義基于數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)數(shù)據(jù)模式,針對(duì)3類異構(gòu)信息,通過(guò)連接或解析或提取等手段操作信息源,再依照規(guī)則庫(kù)和元數(shù)據(jù)模型對(duì)數(shù)據(jù)進(jìn)行映射、抽取、清洗和轉(zhuǎn)換,然后根據(jù)目標(biāo)數(shù)據(jù)模式定義的格式將數(shù)據(jù)裝載到數(shù)據(jù)倉(cāng)庫(kù)中,作為指數(shù)編制和指數(shù)服務(wù)等應(yīng)用程序的信息處理對(duì)象,設(shè)置中間數(shù)據(jù)作為數(shù)據(jù)裝載的寫(xiě)入緩沖。

      2.2 實(shí)現(xiàn)運(yùn)價(jià)信息集成的關(guān)鍵技術(shù)

      根據(jù)圖1,基于數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)價(jià)數(shù)據(jù)整合模型要正常運(yùn)轉(zhuǎn),其實(shí)現(xiàn)的關(guān)鍵技術(shù)有3個(gè)方面。

      1)定義數(shù)據(jù)倉(cāng)庫(kù)模型

      定義多維的、有冗余的數(shù)據(jù)模型,方便使用上卷、下鉆和切片等方法進(jìn)行多層次多角度的分析,集裝箱運(yùn)價(jià)指數(shù)編制和分析的雪花模型如圖2所示,這些信息以事實(shí)表和維表的方式存放在數(shù)據(jù)倉(cāng)庫(kù)中。

      2)整合異構(gòu)數(shù)字資源

      異構(gòu)數(shù)字資源的整合首先要建立元數(shù)據(jù)庫(kù)和規(guī)則庫(kù)。事實(shí)表和維表確定元數(shù)據(jù)庫(kù)的屬性,根據(jù)指數(shù)編制的需求來(lái)確定屬性的值域、格式和描述等內(nèi)容。

      在預(yù)處理環(huán)節(jié),對(duì)于不同來(lái)源的數(shù)字資源采用不同的方法,在本文的研究中,運(yùn)價(jià)數(shù)據(jù)的主要來(lái)源是結(jié)構(gòu)化和半結(jié)構(gòu)化信息,非結(jié)構(gòu)化信息主要用作本體庫(kù)和知識(shí)庫(kù)的完善和擴(kuò)展;本體庫(kù)主要包含與集裝箱海運(yùn)運(yùn)價(jià)相關(guān)的概念以及這些概念之間的關(guān)系,隨著數(shù)據(jù)的不斷增加本體庫(kù)將不斷被完善,為了提高準(zhǔn)確率,本體庫(kù)的更新過(guò)程需要行業(yè)專家的人工介入,本體庫(kù)為知識(shí)庫(kù)的建立和完善提供概念和關(guān)系方面的支持。

      在本文的研究中,知識(shí)庫(kù)采用產(chǎn)生式知識(shí)表示方法,采用三元組或四元組的形式表示,根據(jù)概念、關(guān)系的不同分別采用(關(guān)系、概念1、概念2…)或(對(duì)象、屬性、值)等表示形式,如(相等、起運(yùn)港、裝貨港、POL)、(出錯(cuò)、20GP運(yùn)價(jià)、小于0),知識(shí)庫(kù)中存放的一條一條的規(guī)則,且規(guī)則之間不能相互調(diào)用[26],在本體庫(kù)和知識(shí)庫(kù)的基礎(chǔ)上,建設(shè)和維護(hù)規(guī)則庫(kù),以形成計(jì)算機(jī)可執(zhí)行的指令。

      本文討論的結(jié)構(gòu)化數(shù)據(jù)主要針對(duì)關(guān)系型數(shù)據(jù)庫(kù)。通過(guò)ODBC與原運(yùn)價(jià)數(shù)據(jù)庫(kù)建立數(shù)據(jù)連接,基于運(yùn)價(jià)表或其他相關(guān)數(shù)據(jù)表創(chuàng)建本地?cái)?shù)據(jù)副本;也可采用數(shù)據(jù)庫(kù)工具或編寫(xiě)腳本將運(yùn)價(jià)數(shù)據(jù)轉(zhuǎn)換為易于識(shí)別的數(shù)據(jù)模式(如報(bào)文等),同時(shí)針對(duì)屬性設(shè)計(jì)校驗(yàn),對(duì)存在明顯錯(cuò)誤的運(yùn)價(jià)數(shù)據(jù)記錄實(shí)施過(guò)濾,以提高運(yùn)價(jià)數(shù)據(jù)的使用效率。

      本文討論的半結(jié)構(gòu)化數(shù)據(jù)特指Web信息。因運(yùn)價(jià)信息分布在互聯(lián)網(wǎng)的各個(gè)平臺(tái)和系統(tǒng)上,先確定這些數(shù)字資源的獲取范圍,獲取后將Web信息存儲(chǔ)在臨時(shí)存儲(chǔ)區(qū),然后進(jìn)行解析[27]。對(duì)于以Html、XML、Json等格式存儲(chǔ)在臨時(shí)存儲(chǔ)區(qū)的運(yùn)價(jià)數(shù)據(jù),可采用兩種方式。第一種方式是將文件視為字符流,讀取運(yùn)價(jià)文件的同時(shí)讀取知識(shí)庫(kù),若文件中有字符內(nèi)容與知識(shí)庫(kù)相符,采用堆棧技術(shù),根據(jù)特殊字符判斷屬性和內(nèi)容,并抽取運(yùn)價(jià)內(nèi)容,讀取規(guī)則庫(kù)對(duì)屬性的數(shù)據(jù)實(shí)施轉(zhuǎn)換并插入目標(biāo)數(shù)據(jù)倉(cāng)庫(kù),若不相符,則根據(jù)特殊字符結(jié)合屬性和內(nèi)容推測(cè),并向用戶提示人工介入,判斷抽取或舍棄該部分?jǐn)?shù)據(jù),同時(shí)更新知識(shí)庫(kù);第二種方式是采用文檔對(duì)象模型(DOM),將XML文件中的運(yùn)價(jià)信息內(nèi)容解析為文檔樹(shù),讀取文檔樹(shù)中的子結(jié)點(diǎn)信息即可抽取出運(yùn)價(jià)相關(guān)的屬性和值。這兩種方法在實(shí)際運(yùn)用中都可調(diào)用開(kāi)源的API。前者解析速度快,占用內(nèi)存少,但開(kāi)發(fā)較復(fù)雜,后者易于實(shí)現(xiàn),但不適合大型文件的操作,也可以采用JDOM方法實(shí)現(xiàn)二者的結(jié)合。

      Web信息獲取和集成流程如圖3所示。

      流程簡(jiǎn)要描述如下:

      ①根據(jù)配置好的任務(wù)定向獲取運(yùn)價(jià)Web信息,策略為先廣度再深度,直到指定的Web信息源獲取完成;

      ②以文件形式存儲(chǔ)運(yùn)價(jià)Web信息至臨時(shí)存儲(chǔ)區(qū);

      ③讀取元數(shù)據(jù)庫(kù)、轉(zhuǎn)換規(guī)則庫(kù)和知識(shí)庫(kù);

      ④采用相應(yīng)的方法解析Web信息并抽取需要的運(yùn)價(jià)相關(guān)信息以數(shù)據(jù)倉(cāng)庫(kù)的方式存儲(chǔ);

      ⑤錯(cuò)誤日志在行業(yè)專家的介入下更新知識(shí)庫(kù)和規(guī)則庫(kù)。

      3)處理增量信息

      必須設(shè)置周期性觸發(fā)的定時(shí)任務(wù)以獲取增量運(yùn)價(jià)信息。對(duì)于結(jié)構(gòu)化數(shù)據(jù),定時(shí)任務(wù)自動(dòng)掃描預(yù)定的所有數(shù)據(jù)庫(kù),若運(yùn)價(jià)數(shù)據(jù)庫(kù)中有Creattime屬性,則直接采用時(shí)間戳判斷增量數(shù)據(jù),若無(wú)時(shí)間戳或無(wú)法獲取到時(shí)間戳字段,則利用數(shù)據(jù)庫(kù)主鍵值判斷新增運(yùn)價(jià)信息,對(duì)于分布式數(shù)據(jù)庫(kù)(如RAC),數(shù)據(jù)庫(kù)主鍵可能產(chǎn)生順序混亂而導(dǎo)致增量運(yùn)價(jià)數(shù)據(jù)無(wú)法完整采集的情況,則采取數(shù)據(jù)對(duì)比判斷的方法,根據(jù)數(shù)據(jù)對(duì)比后的結(jié)果調(diào)用任務(wù)(Job),實(shí)施增量更新。

      運(yùn)價(jià)采集程序讀取目標(biāo)URL,對(duì)比URL模式表,如可變化參數(shù)部分的內(nèi)容與目標(biāo)庫(kù)中已有的URL完全一致,則判斷該Web為已存在信息,則放棄,反之則判斷其為增量運(yùn)價(jià)信息;若URL是靜態(tài)的,但運(yùn)價(jià)信息持續(xù)更新,則提取Homepage或者Startpage中輸入下拉菜單列表中的內(nèi)容,針對(duì)這些內(nèi)容進(jìn)行深度和廣度遍歷,獲取所有運(yùn)價(jià)Web,將獲取的信息輸入已定義好的Hash表達(dá)式計(jì)算得新獲取Web信息的Hash值,將結(jié)果與目標(biāo)庫(kù)中已有的URL的Hash值對(duì)比,值相同,則舍棄,反之則判斷其為增量運(yùn)價(jià)信息。

      非結(jié)構(gòu)化信息通常以文件形式存儲(chǔ)在既定的目錄中,定時(shí)任務(wù)掃描文件根目錄,按照文件系統(tǒng)的規(guī)則確定新文件,只讀取和發(fā)送新文件。

      3 實(shí)證研究

      3.1 數(shù)據(jù)來(lái)源與處理

      使用某市集裝箱艙位訂艙平臺(tái)的后臺(tái)運(yùn)價(jià)數(shù)據(jù)庫(kù)信息與某幾個(gè)集裝箱艙位訂艙網(wǎng)站的Web運(yùn)價(jià)信息對(duì)本文提出的數(shù)字資源整合模型進(jìn)行檢驗(yàn)。其中該訂艙平臺(tái)運(yùn)價(jià)數(shù)據(jù)庫(kù)(如圖4所示)共包含379 314條運(yùn)價(jià)信息,包括起運(yùn)港、中轉(zhuǎn)港、目的港、船公司、貨代公司、發(fā)布日期、有效日期(有效期起和有效期止)和各箱型運(yùn)價(jià)(4種箱型:20GP、40GP、40HC和45HQ)等13個(gè)屬性字段;配置Web信息獲取任務(wù),從多個(gè)網(wǎng)站獲取運(yùn)價(jià)信息,各個(gè)網(wǎng)站運(yùn)價(jià)數(shù)據(jù)的屬性都不盡相同,樣例見(jiàn)圖2;在行業(yè)專家的協(xié)助下建立知識(shí)庫(kù)和轉(zhuǎn)換規(guī)則庫(kù),經(jīng)過(guò)數(shù)據(jù)預(yù)處理之后,利用數(shù)字資源整合模型對(duì)這些數(shù)據(jù)實(shí)施抽取、轉(zhuǎn)換,最后將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,整合后的數(shù)據(jù)倉(cāng)庫(kù)樣例見(jiàn)圖6。

      3.2 數(shù)字資源整合的效果

      將結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)按照上述模型進(jìn)行整合,作為集裝箱運(yùn)價(jià)指數(shù)編制的基礎(chǔ)信息,指數(shù)編制系統(tǒng)根據(jù)實(shí)際業(yè)務(wù)情況執(zhí)行數(shù)據(jù)清洗和運(yùn)算之后,得出運(yùn)價(jià)指數(shù)結(jié)果,如圖7所示;指數(shù)分析系統(tǒng)從不同的維度和粒度進(jìn)行數(shù)據(jù)挖掘,以支撐指數(shù)報(bào)告等其他服務(wù)。

      4 結(jié) 語(yǔ)

      在我國(guó),數(shù)字資源整合研究較為關(guān)注醫(yī)學(xué)、圖書(shū)館、檔案和博物館等領(lǐng)域[28],在物流領(lǐng)域,國(guó)外有學(xué)者探討了在供應(yīng)鏈中生產(chǎn)信息整合對(duì)企業(yè)發(fā)展的作用[29],而在針對(duì)航運(yùn)運(yùn)價(jià)指數(shù)領(lǐng)域中,大多數(shù)學(xué)者進(jìn)行的是航運(yùn)運(yùn)價(jià)指數(shù)編制模型和應(yīng)用層面的研究,很少涉及用于編制航運(yùn)運(yùn)價(jià)指數(shù)的基礎(chǔ)信息來(lái)源和信息集成的研究。本文從大數(shù)據(jù)背景出發(fā),面向集裝箱運(yùn)價(jià)指數(shù)編制的需要,設(shè)計(jì)數(shù)字資源整合模型,探討其原理和實(shí)現(xiàn)技術(shù),并進(jìn)行了實(shí)證研究,結(jié)果說(shuō)明將分散在各航運(yùn)電商平臺(tái)和系統(tǒng)上的運(yùn)價(jià)通過(guò)數(shù)字資源整合作為集裝箱運(yùn)價(jià)指數(shù)編制的可行性,今后研究的重點(diǎn)在于進(jìn)一步完善針對(duì)半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)的集成模型和算法,以提高其準(zhǔn)確度、自動(dòng)化程度和集成效率。

      參考文獻(xiàn)

      [1]邢榮華,朱玉珍,韓依辰,等.面向高校利用者的數(shù)字資源整合系統(tǒng)設(shè)計(jì)[J].現(xiàn)代情報(bào),2017,37(2):68-74.

      [2]馬文峰.數(shù)字資源整合研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2002,28(4):63-66.

      [3]趙建平.數(shù)字信息資源整合方式比較研究[J].情報(bào)科學(xué),2008,26(12):1787-1791.

      [4]毛玉萃.試論企業(yè)電子商務(wù)與企業(yè)內(nèi)信息系統(tǒng)的整合[J].管理信息系統(tǒng),2001,(5):43-45.

      [5]謝寶義.高校圖書(shū)館數(shù)字資源整合模式研究與實(shí)踐——以石家莊鐵道大學(xué)圖書(shū)館為例[J].圖書(shū)館建設(shè),2011,(2):33-35.

      [6]張巧娜.海峽兩岸高校圖書(shū)館數(shù)字資源整合的比較研究[J].圖書(shū)情報(bào)工作,2012,56(19):43-47.

      [7]李紅霞.圖書(shū)館館藏?cái)?shù)字資源整合方案研究[J].現(xiàn)代情報(bào),2006,26(8):144-145.

      [8]趙榮.淺談圖書(shū)館服務(wù)工作如何應(yīng)對(duì)數(shù)字化閱讀的挑戰(zhàn)[J].圖書(shū)館工作與研究,2011,(7):99-101.

      [9]郝欣,劉英濤.基于本體集成的數(shù)字資源整合研究[J].圖書(shū)館學(xué)研究,2011,(20):55-59.

      [10]崔偉,徐愷英,王寧.基于知識(shí)鏈的數(shù)字資源整合研究[J].圖書(shū)館學(xué)研究,2010,(15):32-35.

      [11]袁村平.圖書(shū)館與出版企業(yè)數(shù)字資源共享影響因素分析[D].湘潭:湘潭大學(xué),2013.

      [12]楊晨.基于Web Services的高職院校教務(wù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2014.

      [13]邱均平,王菲菲.基于共現(xiàn)與耦合的館藏文獻(xiàn)資源深度聚合研究探析[J].中國(guó)圖書(shū)館學(xué)報(bào),2013,39(3):25-33.

      [14]陳海敏.異構(gòu)信息集成系統(tǒng)研究[J].情報(bào)科學(xué),2008,(12):1902-1907.

      [15]JM Smith,PA Bernstein,U Dayal.Multibase:Integrating Heterogeneous Distributed Database Systems…-American Federation of Information Processing Societies:National Computer Conference,1981:487-499.

      [16]W H Inmon.Building the Data Warehouse.Boston:QED Technical Publishing Group,1992

      [17]谷巖,馮華.利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)解決異構(gòu)數(shù)據(jù)庫(kù)的集成問(wèn)題[J].計(jì)算機(jī)應(yīng)用與軟件,2005,(6):24-26.

      [18]Wiederhold G.Mediators in the Architecture of Future Information Systems[J].IEEE Computer,1992,25(3):38-49.

      [19]D Florescu,A Levy,A Mendelzon.Database Techniques for the World Wide Web:A Survey[J].SIGMOD,1998.

      [20]陳躍國(guó),王京春.數(shù)據(jù)集成綜述[J].計(jì)算機(jī)科學(xué),2004,(5):48-51.

      [21]周甫賓.基于EDI的集裝箱運(yùn)價(jià)指數(shù)生成與技術(shù)分析[J].中國(guó)航海,2006,(3):82-86.

      [22]Zhao Yifei,Zhang Dali,Tatsuo Yanagita.World Conference on Transport Research WCTR 2016:Container Liner Freight Index Based on Data from E-booking Platforms:Shanghai,2016:10-15.

      [23]付東方,趙一飛.集裝箱運(yùn)價(jià)指數(shù)數(shù)據(jù)源及算法分析[J].大連海事大學(xué)學(xué)報(bào),2015,(3):87-92.

      [24]馬大川,楊紅平.信息資源的集成整合研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2004,(3):36-40.

      [25]劉平峰,章佩璐,張軍,等.面向主題的Web信息融合模型[J].圖書(shū)情報(bào)工作,2011,(8):40-43.

      [26]徐寶祥,葉培華.知識(shí)表示的方法研究[J].情報(bào)科學(xué),2007,(5):690-694.

      [27]孟小峰.Web信息集成技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2003,(11):32-36,63.

      [28]羅書(shū)練,鄭萍,陳志強(qiáng).加強(qiáng)數(shù)字資源的整合 提供良好信息服務(wù)[J].醫(yī)學(xué)信息:上旬刊,2005,18(8):940-941.

      [29]Devaraj S,Krajewski L,Wei J C.Impact of eBusiness Technologies on Operational Performance:The Role of Production Information Integration in the Supply Chain[J].Journal of Operations Management,2007,25(6):1199-1216.

      (責(zé)任編輯:孫國(guó)雷)

      猜你喜歡
      數(shù)據(jù)倉(cāng)庫(kù)運(yùn)價(jià)資源整合
      少先隊(duì)活動(dòng)與校外資源整合的實(shí)踐與探索
      “五育并舉”下家校社資源整合的價(jià)值意義
      海外并購(gòu)中的人力資源整合之道
      基于數(shù)據(jù)倉(cāng)庫(kù)的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
      智慧高速資源整合方式實(shí)踐
      分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉(cāng)庫(kù)中的設(shè)計(jì)
      電子制作(2016年15期)2017-01-15 13:39:15
      探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
      臺(tái)灣海峽兩岸間集裝箱運(yùn)價(jià)指數(shù)
      中國(guó)沿海煤炭運(yùn)價(jià)指數(shù)
      中國(guó)沿海煤炭運(yùn)價(jià)指數(shù)(CBCFI)
      婺源县| 台南市| 通城县| 开封市| 鲁甸县| 泗阳县| 姚安县| 普兰县| 景东| 巴林左旗| 新竹县| 巫溪县| 皮山县| 涡阳县| 慈利县| 桑日县| 定安县| 普安县| 乳源| 南江县| 湄潭县| 沙河市| 丹寨县| 禹州市| 类乌齐县| 湖南省| 平顶山市| 济源市| 营口市| 昭平县| 成都市| 连平县| 驻马店市| 习水县| 孝义市| 襄城县| 南雄市| 永德县| 开远市| 托克托县| 宾阳县|