許 謙
摘要:近年來,隨著信息源的不斷增長,人們對綜合研究多數(shù)據(jù)源數(shù)據(jù)的需求越來越強(qiáng)烈。為了專利研究工作的便利,建立自動化、高效率、高準(zhǔn)確性的多數(shù)據(jù)源集成檢索系統(tǒng)是十分必要的。通過系統(tǒng)提供的統(tǒng)一的檢索界面,可以為用戶提供無縫的、靈活的訪問方式,以緩解用戶分別查詢不同數(shù)據(jù)庫的壓力。
關(guān)鍵詞:多數(shù)據(jù)源 數(shù)據(jù)源集成 數(shù)據(jù)表達(dá) 專利數(shù)據(jù)
隨著全球信息化進(jìn)程的加快,人們越來越深刻地認(rèn)識到,信息是與材料和能源同等重要的戰(zhàn)略資源,是重要的財(cái)富和資產(chǎn)。信息資源對經(jīng)濟(jì)社會發(fā)展的作用日益突出,已成為開放環(huán)境下政治、經(jīng)濟(jì)、文化和軍事等國際競爭的焦點(diǎn)。數(shù)據(jù)是信息的載體,它通常是指人類通過不同的傳感方式所獲得的原始資料,如表格、曲線、圖形、文字、圖像、文本、視頻等。
數(shù)據(jù)的組織方式主要有以下兩種:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)指存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù),主要包括全文數(shù)據(jù)庫、摘要數(shù)據(jù)庫等各種傳統(tǒng)數(shù)據(jù)庫,其特點(diǎn)是數(shù)據(jù)結(jié)構(gòu)性強(qiáng),準(zhǔn)確率高,查詢方便,使用和維護(hù)通過數(shù)據(jù)庫軟件進(jìn)行管理,并有一定的操作規(guī)范。而不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻、視頻信息等等,這些信息的形式相對不固定,難以用有限規(guī)則表達(dá)。
近年來,隨著信息源的不斷增長,計(jì)算機(jī)網(wǎng)絡(luò)和數(shù)據(jù)庫系統(tǒng)的迅速發(fā)展,人們對存取、關(guān)聯(lián)、組合多數(shù)據(jù)源數(shù)據(jù)的需求越來越強(qiáng)烈。如分布的多數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)、WEB信息收集系統(tǒng)等集成系統(tǒng)不斷涌現(xiàn),在這些系統(tǒng)中,數(shù)據(jù)和信息的集成是其中的核心問題之一。信息資源的異構(gòu)性在信息系統(tǒng)中無處不在,越來越多的應(yīng)用需要訪問各種異構(gòu)數(shù)據(jù)源。為了達(dá)到異構(gòu)數(shù)據(jù)源的共享,必須首先解決數(shù)據(jù)集成問題。數(shù)據(jù)集成為多數(shù)據(jù)源提供一個完整的數(shù)據(jù)源模式和一致的訪問接口,用戶不必考慮數(shù)據(jù)模型的多樣性、異構(gòu)性、數(shù)據(jù)抽取、數(shù)據(jù)合成等問題,只需指定他們想要的數(shù)據(jù)。
為了專利研究工作的便利,建立自動化、高效率、高準(zhǔn)確性的多數(shù)據(jù)源集成檢索系統(tǒng)是十分必要的。通過系統(tǒng)提供的統(tǒng)一的檢索界面,為用戶提供無縫的和靈活的訪問方式,可以緩解用戶分別查詢不同數(shù)據(jù)庫的壓力。用戶可以同時檢索多個自治的、分布的和異構(gòu)的數(shù)據(jù)源。多數(shù)據(jù)源集成檢索系統(tǒng)不需要用戶提供如何或者從哪里可以獲得信息的詳細(xì)情況,可以屏蔽多數(shù)據(jù)源中數(shù)據(jù)命名的不一致,非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)的不一致,以及各數(shù)據(jù)源查詢能力不同等因素。
以專利數(shù)據(jù)為主進(jìn)行研究,多數(shù)據(jù)源集成檢索系統(tǒng)需要分別獲取的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩類。
結(jié)構(gòu)化數(shù)據(jù)指各種專利數(shù)據(jù)庫中的數(shù)據(jù),包括中國專利數(shù)據(jù)庫、美國專利數(shù)據(jù)庫、EI、INSPEC等。這些專業(yè)數(shù)據(jù)庫集成了與專利相關(guān)的最新文獻(xiàn)、科技成果、標(biāo)準(zhǔn)等信息,可以完整地展現(xiàn)專利產(chǎn)生的背景、最新發(fā)展動態(tài)、相關(guān)領(lǐng)域的發(fā)展趨勢,可以瀏覽發(fā)明人與發(fā)明機(jī)構(gòu)更多的論述以及在各種出版物上發(fā)表的信息。這些數(shù)據(jù)覆蓋面廣,權(quán)威性高,結(jié)構(gòu)性強(qiáng),是數(shù)據(jù)來源的主要部分。
非結(jié)構(gòu)化數(shù)據(jù)主要指Web網(wǎng)站上的數(shù)據(jù),包括與所查詢內(nèi)容有關(guān)的各種信息,如百度、谷歌、與專利有關(guān)的網(wǎng)站信息等。Web 技術(shù)的飛速發(fā)展,在促使人們信息交流的方式變的更加方便快捷的同時,也積累了大量的數(shù)據(jù),如何發(fā)現(xiàn)并利用隱藏在這些數(shù)據(jù)背后的知識就成為當(dāng)前信息技術(shù)領(lǐng)域研究的熱點(diǎn)問題之一。這些數(shù)據(jù)具有豐富多樣、時效性強(qiáng)、更新速度快等特點(diǎn),是專業(yè)結(jié)構(gòu)化數(shù)據(jù)庫的重要補(bǔ)充部分。
為了對檢索到的信息進(jìn)行集成,將關(guān)于同一主體的多條信息綜合為一條完整的信息,就必須對數(shù)據(jù)內(nèi)容的一致性進(jìn)行研究。針對檢索的主體,系統(tǒng)需要在眾多記錄中尋找相似重復(fù)記錄進(jìn)行匹配,根據(jù)匹配的結(jié)果進(jìn)行處理,刪除部分記錄或者多個記錄合并為一個更完整信息的記錄,同時將這些步驟中的處理過程和結(jié)果寫入數(shù)據(jù)庫,以便進(jìn)行后續(xù)清洗過程,避免重復(fù)檢驗(yàn),以及更好的進(jìn)行切片、切塊等操作。解決這類問題需要的技術(shù)有:記錄匹配算法、重復(fù)檢測算法、合并過程中的沖突解決算法等。只有分析出哪些信息的內(nèi)容具有高度的相關(guān)性與一致性,才能對這些信息的內(nèi)容進(jìn)行集成。數(shù)據(jù)內(nèi)容的一致性檢驗(yàn)是數(shù)據(jù)集成的前提和基礎(chǔ)。
在數(shù)據(jù)集成的過程中,數(shù)據(jù)清洗和數(shù)據(jù)質(zhì)量一直是一個非常關(guān)鍵的問題,它直接影響到數(shù)據(jù)表達(dá)的準(zhǔn)確性。將數(shù)據(jù)準(zhǔn)確無誤地表達(dá)出來是數(shù)據(jù)集成的最終目標(biāo),數(shù)據(jù)清洗正是為了提高數(shù)據(jù)質(zhì)量,使之符合用戶使用要求,從而提高基于這些數(shù)據(jù)的信息服務(wù)的質(zhì)量和效率。因此,使用高效、準(zhǔn)確的表達(dá)方法將集成后的數(shù)據(jù)表達(dá)出來是至關(guān)重要的。
數(shù)據(jù)清洗與集成的內(nèi)容主要包括以下方面:1.對異構(gòu)的數(shù)據(jù)進(jìn)行分析,使之具有良好的通用的結(jié)構(gòu),將非標(biāo)準(zhǔn)數(shù)據(jù)統(tǒng)一化成結(jié)構(gòu)數(shù)據(jù),根據(jù)數(shù)據(jù)字典消除不一致的數(shù)據(jù),將元素標(biāo)準(zhǔn)化。2.對標(biāo)準(zhǔn)化的元素進(jìn)行一致性校驗(yàn),將內(nèi)容上的一些錯誤進(jìn)行修改。3.去處重復(fù)的和錯誤的數(shù)據(jù)記錄。4.補(bǔ)充原始數(shù)據(jù)中不完整及遺漏的字段。例如對數(shù)據(jù)中不完整的字段補(bǔ)充必要的信息,使之完整;為空值字段設(shè)置合適的值;增加字段以添加額外的信息。最后得到整合完畢的數(shù)據(jù)。
將集成完畢的數(shù)據(jù)展現(xiàn)給用戶是系統(tǒng)的最終目的,最終的數(shù)據(jù)應(yīng)該盡可能包含全部的正確信息,條理清晰,結(jié)構(gòu)明確。界面設(shè)計(jì)是人與計(jì)算機(jī)之間傳遞和交換信息的媒介,良好的界面設(shè)計(jì)必須遵循以下幾個基本原則:1.用戶導(dǎo)向原則,要站在用戶的觀點(diǎn)和立場上來考慮設(shè)計(jì),有良好的交互性。2.簡潔和易于操作原則。3.布局控制,界面中的信息量要適中,結(jié)構(gòu)勻稱。4.視覺平衡,要合理搭配文字、圖表以及空白區(qū)域。5.和諧與一致性,一致的結(jié)構(gòu)設(shè)計(jì)、導(dǎo)航設(shè)計(jì)和操作設(shè)計(jì),可以讓瀏覽者對軟件的形象有深刻的記憶,迅速而又有效的進(jìn)入在軟件中自己所需要的部分,快速了解整個軟件的各種功能操作。
多數(shù)據(jù)源集成檢索系統(tǒng)是最近幾年出現(xiàn)的一種新的服務(wù)方式,在一定程度上解決了網(wǎng)絡(luò)環(huán)境下分布式異構(gòu)數(shù)據(jù)庫的檢索問題,緩解了用戶分別查詢不同數(shù)據(jù)庫的壓力。目前,面向?qū)@麛?shù)據(jù)的多數(shù)據(jù)源集成與表達(dá)方法研究尚存在空白,我們可以通過對國外類似系統(tǒng)的研究,從中得到借鑒,這對具有本地化特色的多數(shù)據(jù)源集成檢索系統(tǒng)的開發(fā)有一定的啟發(fā)作用。