鄭 皓,許 琦,
(1. 臺(tái)州職業(yè)技術(shù)學(xué)院臺(tái)州中小企業(yè)信息化應(yīng)用技術(shù)協(xié)同創(chuàng)新中心;2. 浙江省工業(yè)機(jī)器人與智能制造生產(chǎn)線集成推廣應(yīng)用協(xié)同創(chuàng)新中心,浙江臺(tái)州 318000)
專利數(shù)據(jù)庫(kù)是指收錄了海量專利數(shù)據(jù)且對(duì)其進(jìn)行一定加工,并提供專利檢索、專利分析、專利下載、專利挖掘等接口的大型專利信息服務(wù)系統(tǒng)。目前國(guó)內(nèi)外存在很多專利數(shù)據(jù)庫(kù),其中,國(guó)內(nèi)除了國(guó)家知識(shí)產(chǎn)權(quán)局提供的國(guó)家專利數(shù)據(jù)庫(kù)以外,還有incoPat專利數(shù)據(jù)庫(kù)、佰騰專利數(shù)據(jù)庫(kù)、SooPAT專利數(shù)據(jù)庫(kù)等;國(guó)外著名的專利數(shù)據(jù)庫(kù)包括美國(guó)專利商標(biāo)局專利數(shù)據(jù)庫(kù)、歐洲專利局專利數(shù)據(jù)庫(kù)和日本特許廳專利數(shù)據(jù)庫(kù)等。這些專利數(shù)據(jù)庫(kù)為企業(yè)技術(shù)研發(fā)、專利戰(zhàn)略研究、科學(xué)決策提供了強(qiáng)有力的支撐。由于建設(shè)主體、管理機(jī)制以及功能模塊不同,各專利數(shù)據(jù)庫(kù)的存儲(chǔ)機(jī)制(既可以是關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng),也可以是文件型二維數(shù)據(jù))、存儲(chǔ)地點(diǎn)、數(shù)據(jù)邏輯、數(shù)據(jù)格式、結(jié)構(gòu)模型、編碼方式等均不相同,多源性和異構(gòu)性特點(diǎn)非常突出。為此,相關(guān)學(xué)者開展了深入研究,提出了不少解決方案[1-8]。
本文擬從數(shù)據(jù)倉(cāng)庫(kù)視角,以分布式局部專利數(shù)據(jù)為來(lái)源,依托Kettle 等工具輔助[9],構(gòu)建專利數(shù)據(jù)中心,將分布在不同地點(diǎn)、不同系統(tǒng)的異構(gòu)專利數(shù)據(jù)進(jìn)行統(tǒng)一集成,方便專利數(shù)據(jù)的統(tǒng)一存儲(chǔ)、訪問和共享。
專利數(shù)據(jù)中心遵循數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)模式[10],將分布在不同地點(diǎn)、不同系統(tǒng)的異構(gòu)專利數(shù)據(jù)集成到一個(gè)數(shù)據(jù)中心,方便專利數(shù)據(jù)的統(tǒng)一存儲(chǔ)、訪問和分析,其框架如圖1所示。具體特點(diǎn)包括:一是將來(lái)自不同數(shù)據(jù)源的異構(gòu)專利數(shù)據(jù)以統(tǒng)一格式規(guī)范地存儲(chǔ),并實(shí)時(shí)、高效地實(shí)現(xiàn)增量數(shù)據(jù)更新;二是僅提取原有系統(tǒng)的專利數(shù)據(jù),不影響其正常運(yùn)行,保持原有系統(tǒng)應(yīng)用獨(dú)立和工作自治;三是封裝所有數(shù)據(jù)源的異構(gòu)專利數(shù)據(jù)細(xì)節(jié),對(duì)用戶提供統(tǒng)一、透明的訪問接口,用戶只需關(guān)注自身的訪問需求,無(wú)需過多關(guān)注各底層數(shù)據(jù)源的差異結(jié)構(gòu);四是具有較好的跨平臺(tái)性,能夠滿足不同操作平臺(tái)需求,并預(yù)留可擴(kuò)展接口。
圖1 專利數(shù)據(jù)中心框架
(1)數(shù)據(jù)源層。專利數(shù)據(jù)中心的數(shù)據(jù)源來(lái)自各業(yè)務(wù)系統(tǒng)的底層數(shù)據(jù)庫(kù),是專利數(shù)據(jù)最原始的存儲(chǔ)點(diǎn),可以分布在不同地區(qū),也可以在同一地區(qū)的不同系統(tǒng)上。這些專利數(shù)據(jù)雖然以結(jié)構(gòu)化形式存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中,但由于存儲(chǔ)格式不同、字段不一、數(shù)據(jù)庫(kù)類型差異等,很難直接按照統(tǒng)一的模式進(jìn)行管理、訪問和應(yīng)用。
(2)數(shù)據(jù)提取層。數(shù)據(jù)提取層是專利數(shù)據(jù)集成的基礎(chǔ),直接決定了專利數(shù)據(jù)中心的效率和質(zhì)量。本文擬通過綜合應(yīng)用快照法、觸發(fā)器法、日志法、時(shí)間戳法、影子表法等各類數(shù)據(jù)提取方法,實(shí)現(xiàn)高效、實(shí)時(shí)的數(shù)據(jù)提取。
(3)數(shù)據(jù)轉(zhuǎn)換層。數(shù)據(jù)轉(zhuǎn)換層的主要功能是完成數(shù)據(jù)格式轉(zhuǎn)換,使得其按照統(tǒng)一結(jié)構(gòu)模式輸出。為了減少數(shù)據(jù)傳輸量、提高傳輸效率,首先可進(jìn)行數(shù)據(jù)壓縮,以減輕數(shù)據(jù)傳輸負(fù)擔(dān);其后進(jìn)行數(shù)據(jù)簽名,保證數(shù)據(jù)的完整性和不可抵賴性,保障信息安全,規(guī)避偽造、抵賴、冒充和篡改等問題;接著進(jìn)行加密處理,實(shí)現(xiàn)信息隱蔽,起到保護(hù)數(shù)據(jù)安全的作用。鑒于數(shù)據(jù)源層的異構(gòu)情況,數(shù)據(jù)轉(zhuǎn)換層還需要負(fù)責(zé)數(shù)據(jù)封裝。采用數(shù)據(jù)封裝器,包裝所有異構(gòu)數(shù)據(jù)細(xì)節(jié),對(duì)外統(tǒng)一提供數(shù)據(jù)處理接口,揚(yáng)棄不同業(yè)務(wù)系統(tǒng)底層數(shù)據(jù)的差異性,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)統(tǒng)一化處理。
(4)數(shù)據(jù)倉(cāng)庫(kù)層。數(shù)據(jù)倉(cāng)庫(kù)層主要是存儲(chǔ)統(tǒng)一格式的專利數(shù)據(jù),涵蓋專利數(shù)據(jù)更新、專利數(shù)據(jù)查詢以及專利數(shù)據(jù)傳輸?shù)裙芾砉δ埽?duì)外提供專利數(shù)據(jù)應(yīng)用接口,滿足用戶各種訪問需求。
增量專利數(shù)據(jù)集成是影響專利數(shù)據(jù)中心成效的關(guān)鍵因素之一,本文綜合采用快照法、觸發(fā)器法、日志法、時(shí)間戳法、影子表法等各類數(shù)據(jù)提取方法,揚(yáng)長(zhǎng)避短,提高專利數(shù)據(jù)集成效率。
快照即即時(shí)映像,是對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)存儲(chǔ)現(xiàn)狀在一定時(shí)間節(jié)點(diǎn)的實(shí)時(shí)反映。通過快照法,對(duì)數(shù)據(jù)源中的專利數(shù)據(jù)設(shè)置一個(gè)即時(shí)映像,作為當(dāng)前專利數(shù)據(jù)存儲(chǔ)現(xiàn)狀的一個(gè)副本。當(dāng)數(shù)據(jù)源中專利數(shù)據(jù)發(fā)生增量時(shí),通過與快照中專利數(shù)據(jù)副本進(jìn)行對(duì)比,獲取增量部分?jǐn)?shù)據(jù)。該方法管理快捷便利、操作輕巧,當(dāng)沒有增量數(shù)據(jù)時(shí),幾乎不占用任何磁盤空間和額外的系統(tǒng)資源,不依賴于數(shù)據(jù)庫(kù)類型,是最常用的增量數(shù)據(jù)集成方法。
觸發(fā)器法,顧名思義,是在數(shù)據(jù)源中植入新增、刪除、更新等各類觸發(fā)器。一旦數(shù)據(jù)源中的專利數(shù)據(jù)發(fā)生新增、刪除、更新,相應(yīng)觸發(fā)器就會(huì)被激發(fā),會(huì)在專利數(shù)據(jù)中心對(duì)對(duì)應(yīng)的專利數(shù)據(jù)執(zhí)行新增、刪除及更新等操作,確保與數(shù)據(jù)源保持一致。
通過日志法實(shí)現(xiàn)增量專利數(shù)據(jù)集成的基礎(chǔ)在于數(shù)據(jù)源中所有數(shù)據(jù)操作記錄被完整、成功地保存在日志中,可以供分析、維護(hù)、恢復(fù)使用。目前,常用的關(guān)系型數(shù)據(jù)庫(kù)(如SQL Server、Oracle、MySQL、DB2等)基本上都支持日志功能,可以分析其記載的數(shù)據(jù)操作記錄,提取專利數(shù)據(jù)系列變化信息。該方法一般不需要占用過多的額外資源,并能保證增量專利數(shù)據(jù)的完整性和提取效率。但可能存在一個(gè)小問題,即不同類型數(shù)據(jù)庫(kù)的日志接口不同,需要定制專用的分析工具,這給異構(gòu)專利數(shù)據(jù)集成帶來(lái)一定困擾。
采用時(shí)間戳法實(shí)現(xiàn)增量專利數(shù)據(jù)集成,前提是數(shù)據(jù)源中所有數(shù)據(jù)均設(shè)有時(shí)間戳字段用以記錄該行數(shù)據(jù)的更新時(shí)間,通過該字段判斷數(shù)據(jù)是否更新及其更新時(shí)間,從而在專利數(shù)據(jù)中心對(duì)對(duì)應(yīng)的專利數(shù)據(jù)執(zhí)行新增、刪除及更新等操作。該方法運(yùn)行效率較高,但存在時(shí)間戳字段這一必要前提,否則需對(duì)數(shù)據(jù)源的原有表格作出較大調(diào)整,即需要增設(shè)時(shí)間戳字段。這也是阻礙時(shí)間戳法得到廣泛應(yīng)用的因素之一。
影子表法和快照法有些類似,均是通過建立一個(gè)數(shù)據(jù)副本的方式備份當(dāng)前存儲(chǔ)現(xiàn)狀,通過對(duì)比數(shù)據(jù)副本和最新數(shù)據(jù)的變化信息,定期提取增量數(shù)據(jù)。和日志法一樣,影子表法不依賴于數(shù)據(jù)庫(kù)類型,在任何關(guān)系型數(shù)據(jù)上均能實(shí)現(xiàn),但同時(shí)也有以下兩個(gè)缺點(diǎn):一是不可串性,若無(wú)保存中間操作過程信息,數(shù)據(jù)副本則不可串;二是效率低下,無(wú)法實(shí)時(shí)實(shí)現(xiàn)增量數(shù)據(jù)提取,每次提取增量數(shù)據(jù)時(shí),均需全盤掃描數(shù)據(jù)副本和最新數(shù)據(jù),這也是該方法一個(gè)嚴(yán)重的性能瓶頸。
以時(shí)間戳法為例,本文應(yīng)用Kettle工具實(shí)現(xiàn)增量專利數(shù)據(jù)集成,具體流程如下:
(1)配置目標(biāo)表和源表。這是兩個(gè)基本環(huán)節(jié)。輸入目標(biāo)表target和源表source,并配置數(shù)據(jù)庫(kù)類型、地址、端口、用戶名、密碼等參數(shù)。
(2)插入/更新(見圖2)。該步驟是關(guān)鍵環(huán)節(jié)。首先對(duì)比兩個(gè)數(shù)據(jù)流,即傳入數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流,前者是從源表中獲取的各字段值,后者為目標(biāo)表中各字段值。其次執(zhí)行更新,若在目標(biāo)表中沒有查詢到這些數(shù)據(jù)記錄,則執(zhí)行插入操作;若在目標(biāo)表中查詢到這些數(shù)據(jù)記錄,則根據(jù)其更新時(shí)間,即時(shí)間戳字段,決定是否執(zhí)行更新操作;若兩個(gè)數(shù)據(jù)流完全一致,則不執(zhí)行任何操作。
圖2 專刊數(shù)據(jù)集中的插入/更新
(3)新建工作任務(wù)。建立一個(gè)作業(yè),包括一個(gè)start和上述2個(gè)環(huán)節(jié),運(yùn)行一次,測(cè)試整個(gè)流程是否正常,然后設(shè)置start,按時(shí)間重復(fù)運(yùn)轉(zhuǎn)。
專利數(shù)據(jù)庫(kù)多源、異地,且具有數(shù)據(jù)邏輯、數(shù)據(jù)格式、結(jié)構(gòu)模型、編碼方式等不統(tǒng)一的突出特點(diǎn)。本文從數(shù)據(jù)倉(cāng)庫(kù)視角,提出了一種統(tǒng)一存儲(chǔ)、訪問和共享的專利數(shù)據(jù)中心框架結(jié)構(gòu),依托Kettle工具實(shí)現(xiàn)了增量專利數(shù)據(jù)的高效、實(shí)時(shí)更新。
科技創(chuàng)新發(fā)展戰(zhàn)略研究2020年3期