數(shù)據(jù)倉(cāng)庫(kù)視角下多源異構(gòu)專利數(shù)據(jù)集成研究

2020-08-28 14:31:02鄭皓，許琦,

科技創(chuàng)新發(fā)展戰(zhàn)略研究 2020年3期

關(guān)鍵詞：快照數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源

鄭皓，許琦,

(1. 臺(tái)州職業(yè)技術(shù)學(xué)院臺(tái)州中小企業(yè)信息化應(yīng)用技術(shù)協(xié)同創(chuàng)新中心；2. 浙江省工業(yè)機(jī)器人與智能制造生產(chǎn)線集成推廣應(yīng)用協(xié)同創(chuàng)新中心，浙江臺(tái)州 318000)

0 引言

專利數(shù)據(jù)庫(kù)是指收錄了海量專利數(shù)據(jù)且對(duì)其進(jìn)行一定加工，并提供專利檢索、專利分析、專利下載、專利挖掘等接口的大型專利信息服務(wù)系統(tǒng)。目前國(guó)內(nèi)外存在很多專利數(shù)據(jù)庫(kù)，其中，國(guó)內(nèi)除了國(guó)家知識(shí)產(chǎn)權(quán)局提供的國(guó)家專利數(shù)據(jù)庫(kù)以外，還有incoPat專利數(shù)據(jù)庫(kù)、佰騰專利數(shù)據(jù)庫(kù)、SooPAT專利數(shù)據(jù)庫(kù)等；國(guó)外著名的專利數(shù)據(jù)庫(kù)包括美國(guó)專利商標(biāo)局專利數(shù)據(jù)庫(kù)、歐洲專利局專利數(shù)據(jù)庫(kù)和日本特許廳專利數(shù)據(jù)庫(kù)等。這些專利數(shù)據(jù)庫(kù)為企業(yè)技術(shù)研發(fā)、專利戰(zhàn)略研究、科學(xué)決策提供了強(qiáng)有力的支撐。由于建設(shè)主體、管理機(jī)制以及功能模塊不同，各專利數(shù)據(jù)庫(kù)的存儲(chǔ)機(jī)制（既可以是關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)，也可以是文件型二維數(shù)據(jù)）、存儲(chǔ)地點(diǎn)、數(shù)據(jù)邏輯、數(shù)據(jù)格式、結(jié)構(gòu)模型、編碼方式等均不相同，多源性和異構(gòu)性特點(diǎn)非常突出。為此，相關(guān)學(xué)者開展了深入研究，提出了不少解決方案[1-8]。

本文擬從數(shù)據(jù)倉(cāng)庫(kù)視角，以分布式局部專利數(shù)據(jù)為來(lái)源，依托Kettle 等工具輔助[9]，構(gòu)建專利數(shù)據(jù)中心，將分布在不同地點(diǎn)、不同系統(tǒng)的異構(gòu)專利數(shù)據(jù)進(jìn)行統(tǒng)一集成，方便專利數(shù)據(jù)的統(tǒng)一存儲(chǔ)、訪問和共享。

1 專利數(shù)據(jù)中心框架

專利數(shù)據(jù)中心遵循數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)模式[10]，將分布在不同地點(diǎn)、不同系統(tǒng)的異構(gòu)專利數(shù)據(jù)集成到一個(gè)數(shù)據(jù)中心，方便專利數(shù)據(jù)的統(tǒng)一存儲(chǔ)、訪問和分析，其框架如圖1所示。具體特點(diǎn)包括：一是將來(lái)自不同數(shù)據(jù)源的異構(gòu)專利數(shù)據(jù)以統(tǒng)一格式規(guī)范地存儲(chǔ)，并實(shí)時(shí)、高效地實(shí)現(xiàn)增量數(shù)據(jù)更新；二是僅提取原有系統(tǒng)的專利數(shù)據(jù)，不影響其正常運(yùn)行，保持原有系統(tǒng)應(yīng)用獨(dú)立和工作自治；三是封裝所有數(shù)據(jù)源的異構(gòu)專利數(shù)據(jù)細(xì)節(jié)，對(duì)用戶提供統(tǒng)一、透明的訪問接口，用戶只需關(guān)注自身的訪問需求，無(wú)需過多關(guān)注各底層數(shù)據(jù)源的差異結(jié)構(gòu)；四是具有較好的跨平臺(tái)性，能夠滿足不同操作平臺(tái)需求，并預(yù)留可擴(kuò)展接口。

圖1 專利數(shù)據(jù)中心框架

（1）數(shù)據(jù)源層。專利數(shù)據(jù)中心的數(shù)據(jù)源來(lái)自各業(yè)務(wù)系統(tǒng)的底層數(shù)據(jù)庫(kù)，是專利數(shù)據(jù)最原始的存儲(chǔ)點(diǎn)，可以分布在不同地區(qū)，也可以在同一地區(qū)的不同系統(tǒng)上。這些專利數(shù)據(jù)雖然以結(jié)構(gòu)化形式存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中，但由于存儲(chǔ)格式不同、字段不一、數(shù)據(jù)庫(kù)類型差異等，很難直接按照統(tǒng)一的模式進(jìn)行管理、訪問和應(yīng)用。

（2）數(shù)據(jù)提取層。數(shù)據(jù)提取層是專利數(shù)據(jù)集成的基礎(chǔ)，直接決定了專利數(shù)據(jù)中心的效率和質(zhì)量。本文擬通過綜合應(yīng)用快照法、觸發(fā)器法、日志法、時(shí)間戳法、影子表法等各類數(shù)據(jù)提取方法，實(shí)現(xiàn)高效、實(shí)時(shí)的數(shù)據(jù)提取。

（3）數(shù)據(jù)轉(zhuǎn)換層。數(shù)據(jù)轉(zhuǎn)換層的主要功能是完成數(shù)據(jù)格式轉(zhuǎn)換，使得其按照統(tǒng)一結(jié)構(gòu)模式輸出。為了減少數(shù)據(jù)傳輸量、提高傳輸效率，首先可進(jìn)行數(shù)據(jù)壓縮，以減輕數(shù)據(jù)傳輸負(fù)擔(dān)；其后進(jìn)行數(shù)據(jù)簽名，保證數(shù)據(jù)的完整性和不可抵賴性，保障信息安全，規(guī)避偽造、抵賴、冒充和篡改等問題；接著進(jìn)行加密處理，實(shí)現(xiàn)信息隱蔽，起到保護(hù)數(shù)據(jù)安全的作用。鑒于數(shù)據(jù)源層的異構(gòu)情況，數(shù)據(jù)轉(zhuǎn)換層還需要負(fù)責(zé)數(shù)據(jù)封裝。采用數(shù)據(jù)封裝器，包裝所有異構(gòu)數(shù)據(jù)細(xì)節(jié)，對(duì)外統(tǒng)一提供數(shù)據(jù)處理接口，揚(yáng)棄不同業(yè)務(wù)系統(tǒng)底層數(shù)據(jù)的差異性，實(shí)現(xiàn)異構(gòu)數(shù)據(jù)統(tǒng)一化處理。

（4）數(shù)據(jù)倉(cāng)庫(kù)層。數(shù)據(jù)倉(cāng)庫(kù)層主要是存儲(chǔ)統(tǒng)一格式的專利數(shù)據(jù)，涵蓋專利數(shù)據(jù)更新、專利數(shù)據(jù)查詢以及專利數(shù)據(jù)傳輸?shù)裙芾砉δ埽?duì)外提供專利數(shù)據(jù)應(yīng)用接口，滿足用戶各種訪問需求。

2 增量專利數(shù)據(jù)集成方法

增量專利數(shù)據(jù)集成是影響專利數(shù)據(jù)中心成效的關(guān)鍵因素之一，本文綜合采用快照法、觸發(fā)器法、日志法、時(shí)間戳法、影子表法等各類數(shù)據(jù)提取方法，揚(yáng)長(zhǎng)避短，提高專利數(shù)據(jù)集成效率。

2.1 快照法

快照即即時(shí)映像，是對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)存儲(chǔ)現(xiàn)狀在一定時(shí)間節(jié)點(diǎn)的實(shí)時(shí)反映。通過快照法，對(duì)數(shù)據(jù)源中的專利數(shù)據(jù)設(shè)置一個(gè)即時(shí)映像，作為當(dāng)前專利數(shù)據(jù)存儲(chǔ)現(xiàn)狀的一個(gè)副本。當(dāng)數(shù)據(jù)源中專利數(shù)據(jù)發(fā)生增量時(shí)，通過與快照中專利數(shù)據(jù)副本進(jìn)行對(duì)比，獲取增量部分?jǐn)?shù)據(jù)。該方法管理快捷便利、操作輕巧，當(dāng)沒有增量數(shù)據(jù)時(shí)，幾乎不占用任何磁盤空間和額外的系統(tǒng)資源，不依賴于數(shù)據(jù)庫(kù)類型，是最常用的增量數(shù)據(jù)集成方法。

2.2 觸發(fā)器法

觸發(fā)器法，顧名思義，是在數(shù)據(jù)源中植入新增、刪除、更新等各類觸發(fā)器。一旦數(shù)據(jù)源中的專利數(shù)據(jù)發(fā)生新增、刪除、更新，相應(yīng)觸發(fā)器就會(huì)被激發(fā)，會(huì)在專利數(shù)據(jù)中心對(duì)對(duì)應(yīng)的專利數(shù)據(jù)執(zhí)行新增、刪除及更新等操作，確保與數(shù)據(jù)源保持一致。

2.3 日志法

通過日志法實(shí)現(xiàn)增量專利數(shù)據(jù)集成的基礎(chǔ)在于數(shù)據(jù)源中所有數(shù)據(jù)操作記錄被完整、成功地保存在日志中，可以供分析、維護(hù)、恢復(fù)使用。目前，常用的關(guān)系型數(shù)據(jù)庫(kù)（如SQL Server、Oracle、MySQL、DB2等）基本上都支持日志功能，可以分析其記載的數(shù)據(jù)操作記錄，提取專利數(shù)據(jù)系列變化信息。該方法一般不需要占用過多的額外資源，并能保證增量專利數(shù)據(jù)的完整性和提取效率。但可能存在一個(gè)小問題，即不同類型數(shù)據(jù)庫(kù)的日志接口不同，需要定制專用的分析工具，這給異構(gòu)專利數(shù)據(jù)集成帶來(lái)一定困擾。

2.4 時(shí)間戳法

采用時(shí)間戳法實(shí)現(xiàn)增量專利數(shù)據(jù)集成，前提是數(shù)據(jù)源中所有數(shù)據(jù)均設(shè)有時(shí)間戳字段用以記錄該行數(shù)據(jù)的更新時(shí)間，通過該字段判斷數(shù)據(jù)是否更新及其更新時(shí)間，從而在專利數(shù)據(jù)中心對(duì)對(duì)應(yīng)的專利數(shù)據(jù)執(zhí)行新增、刪除及更新等操作。該方法運(yùn)行效率較高，但存在時(shí)間戳字段這一必要前提，否則需對(duì)數(shù)據(jù)源的原有表格作出較大調(diào)整，即需要增設(shè)時(shí)間戳字段。這也是阻礙時(shí)間戳法得到廣泛應(yīng)用的因素之一。

2.5 影子表法

影子表法和快照法有些類似，均是通過建立一個(gè)數(shù)據(jù)副本的方式備份當(dāng)前存儲(chǔ)現(xiàn)狀，通過對(duì)比數(shù)據(jù)副本和最新數(shù)據(jù)的變化信息，定期提取增量數(shù)據(jù)。和日志法一樣，影子表法不依賴于數(shù)據(jù)庫(kù)類型，在任何關(guān)系型數(shù)據(jù)上均能實(shí)現(xiàn)，但同時(shí)也有以下兩個(gè)缺點(diǎn)：一是不可串性，若無(wú)保存中間操作過程信息，數(shù)據(jù)副本則不可串；二是效率低下，無(wú)法實(shí)時(shí)實(shí)現(xiàn)增量數(shù)據(jù)提取，每次提取增量數(shù)據(jù)時(shí)，均需全盤掃描數(shù)據(jù)副本和最新數(shù)據(jù)，這也是該方法一個(gè)嚴(yán)重的性能瓶頸。

3 應(yīng)用

以時(shí)間戳法為例，本文應(yīng)用Kettle工具實(shí)現(xiàn)增量專利數(shù)據(jù)集成，具體流程如下：

（1）配置目標(biāo)表和源表。這是兩個(gè)基本環(huán)節(jié)。輸入目標(biāo)表target和源表source，并配置數(shù)據(jù)庫(kù)類型、地址、端口、用戶名、密碼等參數(shù)。

（2）插入/更新（見圖2）。該步驟是關(guān)鍵環(huán)節(jié)。首先對(duì)比兩個(gè)數(shù)據(jù)流，即傳入數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流，前者是從源表中獲取的各字段值，后者為目標(biāo)表中各字段值。其次執(zhí)行更新，若在目標(biāo)表中沒有查詢到這些數(shù)據(jù)記錄，則執(zhí)行插入操作；若在目標(biāo)表中查詢到這些數(shù)據(jù)記錄，則根據(jù)其更新時(shí)間，即時(shí)間戳字段，決定是否執(zhí)行更新操作；若兩個(gè)數(shù)據(jù)流完全一致，則不執(zhí)行任何操作。

圖2 專刊數(shù)據(jù)集中的插入/更新

（3）新建工作任務(wù)。建立一個(gè)作業(yè)，包括一個(gè)start和上述2個(gè)環(huán)節(jié)，運(yùn)行一次，測(cè)試整個(gè)流程是否正常，然后設(shè)置start，按時(shí)間重復(fù)運(yùn)轉(zhuǎn)。

4 結(jié)語(yǔ)

專利數(shù)據(jù)庫(kù)多源、異地，且具有數(shù)據(jù)邏輯、數(shù)據(jù)格式、結(jié)構(gòu)模型、編碼方式等不統(tǒng)一的突出特點(diǎn)。本文從數(shù)據(jù)倉(cāng)庫(kù)視角，提出了一種統(tǒng)一存儲(chǔ)、訪問和共享的專利數(shù)據(jù)中心框架結(jié)構(gòu)，依托Kettle工具實(shí)現(xiàn)了增量專利數(shù)據(jù)的高效、實(shí)時(shí)更新。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看