趙偉 張覽 望俊成
中國(guó)科學(xué)技術(shù)信息研究所 北京 100038
目前,隨著大數(shù)據(jù)的迅速發(fā)展,知識(shí)圖譜技術(shù)已成為科技文獻(xiàn)資源服務(wù)的重要?jiǎng)?chuàng)新手段。近年來(lái)不少機(jī)構(gòu)和學(xué)者投入到知識(shí)圖譜研究中,借助其強(qiáng)大的語(yǔ)義處理能力將領(lǐng)域知識(shí)有序地組織起來(lái),揭示知識(shí)的整體關(guān)聯(lián)性,科技文獻(xiàn)知識(shí)圖譜得到了越來(lái)越多的重視[1]。然而,由于數(shù)據(jù)覆蓋不全、精確度不高、受概念范圍的影響等原因[2],很難規(guī)范科技文獻(xiàn)的實(shí)體及其關(guān)系,而且科技文獻(xiàn)還包括了前瞻性預(yù)測(cè)和猜想,甚至包括一些由于同行評(píng)議把關(guān)不嚴(yán)或認(rèn)識(shí)不到位而產(chǎn)生的錯(cuò)誤理解和闡釋?zhuān)瑢?dǎo)致可視化結(jié)果與客觀事實(shí)不符,這也是知識(shí)圖譜技術(shù)在這些年無(wú)法在科技文獻(xiàn)領(lǐng)域獲得令人滿(mǎn)意的應(yīng)用的重要原因之一。
標(biāo)準(zhǔn)文獻(xiàn)作為十大科技文獻(xiàn)資源之一,蘊(yùn)含著豐富的科技知識(shí),既是標(biāo)準(zhǔn)的重要載體和表現(xiàn)形式,也是科研人員收集標(biāo)準(zhǔn)情報(bào)的主要來(lái)源[3]。其具有科技文獻(xiàn)的共性特點(diǎn),還與其他科技文獻(xiàn)存在顯著不同,即標(biāo)準(zhǔn)文獻(xiàn)是基于具有可操作性的最低限制性要求而形成的,是真實(shí)可靠的。標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜屬于典型的領(lǐng)域知識(shí)圖譜,在規(guī)范且豐富的數(shù)據(jù)基礎(chǔ)上,建立起一套通用型規(guī)則抽取體系和可視化模型,實(shí)現(xiàn)全覆蓋和高質(zhì)量的標(biāo)準(zhǔn)領(lǐng)域知識(shí)圖譜,對(duì)于揭示標(biāo)準(zhǔn)知識(shí)的整體關(guān)聯(lián)性,為標(biāo)準(zhǔn)研究人員提供有組織的標(biāo)準(zhǔn)文獻(xiàn)知識(shí)集合,讓標(biāo)準(zhǔn)數(shù)據(jù)發(fā)揮更大的效用,具有重要的研究意義。
總體上,國(guó)外學(xué)者們圍繞標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜開(kāi)展的研究并不多見(jiàn),我國(guó)對(duì)標(biāo)準(zhǔn)文獻(xiàn)的相關(guān)研究陸續(xù)有了試驗(yàn)探索。在早期的科學(xué)知識(shí)圖譜研究中,以標(biāo)準(zhǔn)文獻(xiàn)網(wǎng)絡(luò)的結(jié)構(gòu)特征為研究目標(biāo),多以引用關(guān)系為核心,以文獻(xiàn)計(jì)量學(xué)、社會(huì)網(wǎng)絡(luò)分析方法以及聚類(lèi)等為研究方法進(jìn)行分析[4-8]。這一階段的研究以建立標(biāo)準(zhǔn)間的鏈接網(wǎng)絡(luò)為主,尚未達(dá)到標(biāo)準(zhǔn)內(nèi)容知識(shí)元的粒度。隨著數(shù)據(jù)挖掘技術(shù)的運(yùn)用和數(shù)字化的標(biāo)準(zhǔn)信息獲取手段的加強(qiáng),學(xué)者們逐漸向標(biāo)準(zhǔn)知識(shí)關(guān)聯(lián)的領(lǐng)域深入研究。郭德華[9]指出應(yīng)根據(jù)標(biāo)準(zhǔn)文獻(xiàn)的知識(shí)關(guān)聯(lián)關(guān)系開(kāi)展支持知識(shí)關(guān)聯(lián)檢索、動(dòng)態(tài)跟蹤等功能的標(biāo)準(zhǔn)文獻(xiàn)知識(shí)鏈接服務(wù)。甘克勤等[10]基于K均值聚類(lèi)算法、模糊C均值聚類(lèi)算法等文本聚類(lèi)方法應(yīng)用于標(biāo)準(zhǔn)文獻(xiàn)題錄數(shù)據(jù)并進(jìn)行聚類(lèi)試驗(yàn),結(jié)果表明在核心詞匯抽取的準(zhǔn)確性上效果較好,但在分詞和聚類(lèi)的準(zhǔn)確
性上需進(jìn)一步提升。語(yǔ)義網(wǎng)技術(shù)的推廣促進(jìn)了知識(shí)服務(wù)的發(fā)展[11-12],在此浪潮下,潘薇[13]、甘克勤[14]、梁薇[15]、李抵非等[16]進(jìn)一步圍繞語(yǔ)義網(wǎng)環(huán)境下的標(biāo)準(zhǔn)知識(shí)關(guān)聯(lián)的理論和方法開(kāi)展了積極探索。然而總體上,標(biāo)準(zhǔn)文獻(xiàn)分析和知識(shí)關(guān)聯(lián)等的相關(guān)研究主要體現(xiàn)在基于傳統(tǒng)情報(bào)學(xué)、科學(xué)計(jì)量學(xué)的應(yīng)用,在內(nèi)容挖掘和知識(shí)圖譜的構(gòu)建應(yīng)用方面少有涉足。目前標(biāo)準(zhǔn)文獻(xiàn)的研究還存在一些制約因素,如標(biāo)準(zhǔn)文獻(xiàn)的非結(jié)構(gòu)化數(shù)據(jù)格式處理困難、標(biāo)準(zhǔn)文獻(xiàn)的信息組織模式不清晰和微觀分析方法與宏觀分析方法應(yīng)用不協(xié)調(diào)等。已有標(biāo)準(zhǔn)間關(guān)系的抽取深度和廣度還不夠,并在很大程度上影響著知識(shí)圖譜構(gòu)建最終的效果。因此,有待對(duì)標(biāo)準(zhǔn)文獻(xiàn)的要素及其知識(shí)抽取方面開(kāi)展更多探索。
在當(dāng)今知識(shí)經(jīng)濟(jì)時(shí)代,標(biāo)準(zhǔn)反映了該國(guó)的經(jīng)濟(jì)、技術(shù)和生產(chǎn)水平,其重要性日益凸顯。標(biāo)準(zhǔn)文獻(xiàn)作為標(biāo)準(zhǔn)的重要信息載體和表現(xiàn)形式,概念分為狹義和廣義兩種。狹義的標(biāo)準(zhǔn)文獻(xiàn)是指由技術(shù)標(biāo)準(zhǔn)、管理標(biāo)準(zhǔn)、工作標(biāo)準(zhǔn)及其他具有標(biāo)準(zhǔn)性質(zhì)的規(guī)范性文件所組成的一種特定形式的科技文獻(xiàn)體系,簡(jiǎn)稱(chēng)標(biāo)準(zhǔn);廣義的標(biāo)準(zhǔn)文獻(xiàn)指與標(biāo)準(zhǔn)化活動(dòng)有關(guān)的所有文獻(xiàn),除了狹義概念下的各類(lèi)標(biāo)準(zhǔn)外,還包括標(biāo)準(zhǔn)分類(lèi)資料、標(biāo)準(zhǔn)檢索工具、標(biāo)準(zhǔn)化期刊、標(biāo)準(zhǔn)化專(zhuān)著、標(biāo)準(zhǔn)化手冊(cè)、定制圖冊(cè)等其他出版物。
標(biāo)準(zhǔn)文獻(xiàn)作為一種特殊的文獻(xiàn),除具有一般科技文獻(xiàn)的屬性和作用外,其自身在結(jié)構(gòu)、形式、內(nèi)容、制定及適用范圍等方面均具有獨(dú)特而明顯的特點(diǎn)[17],具體表現(xiàn)在:(1)具有法律約束力。標(biāo)準(zhǔn)是參與生產(chǎn)工作、管理、設(shè)計(jì)制造的準(zhǔn)入門(mén)檻和遵守依據(jù),標(biāo)準(zhǔn)化法明確規(guī)定必須執(zhí)行強(qiáng)制性標(biāo)準(zhǔn),鼓勵(lì)自愿采用推薦性標(biāo)準(zhǔn)。(2)具有統(tǒng)一的產(chǎn)生過(guò)程和專(zhuān)門(mén)的編寫(xiě)格式。國(guó)家設(shè)立了標(biāo)準(zhǔn)制修訂的流程規(guī)范,專(zhuān)門(mén)規(guī)定了標(biāo)準(zhǔn)文獻(xiàn)的編排格式,并設(shè)有固定的代號(hào)。(3)具有時(shí)效性。標(biāo)準(zhǔn)文獻(xiàn)通常情況下代表了底線(xiàn)和門(mén)檻,起到準(zhǔn)入作用,其目的是確保規(guī)格或安全。隨著經(jīng)濟(jì)發(fā)展、標(biāo)準(zhǔn)化對(duì)象的變化和科學(xué)技術(shù)水平的提高,標(biāo)準(zhǔn)文獻(xiàn)也要不斷更新?lián)Q代,因而產(chǎn)生了廢止無(wú)效的標(biāo)準(zhǔn)文獻(xiàn)。(4)具有明確的適用范圍和用途。標(biāo)準(zhǔn)文獻(xiàn)的“范圍”結(jié)構(gòu)概括了該篇標(biāo)準(zhǔn)的適用范圍和不適用范圍,簡(jiǎn)明扼要地說(shuō)明了標(biāo)準(zhǔn)化對(duì)象和要解決的問(wèn)題。(5)不同種類(lèi)和級(jí)別的標(biāo)準(zhǔn)在不同范圍內(nèi)貫徹執(zhí)行。
標(biāo)準(zhǔn)知識(shí)元和知識(shí)關(guān)聯(lián)模式是識(shí)別、研究和應(yīng)用標(biāo)準(zhǔn)知識(shí)的基本出發(fā)點(diǎn)。構(gòu)建標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜,需要對(duì)標(biāo)準(zhǔn)文獻(xiàn)的組成要素、層次和知識(shí)關(guān)聯(lián)邏輯進(jìn)行分析,進(jìn)而確定標(biāo)準(zhǔn)文獻(xiàn)文本特征的抽取任務(wù)和模型選擇。因此,標(biāo)準(zhǔn)文獻(xiàn)的結(jié)構(gòu)解析是采用知識(shí)圖譜對(duì)其進(jìn)行表達(dá)的基礎(chǔ)。
標(biāo)準(zhǔn)要素是組成標(biāo)準(zhǔn)文獻(xiàn)的基本單元,標(biāo)準(zhǔn)文獻(xiàn)的內(nèi)容都是由各種要素構(gòu)成的。根據(jù)GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》,標(biāo)準(zhǔn)要素的劃分有3種方式。依據(jù)要素的性質(zhì),可將標(biāo)準(zhǔn)中的要素劃分為“規(guī)范性要素”和“資料性要素”;依據(jù)要素在標(biāo)準(zhǔn)中所處的位置,標(biāo)準(zhǔn)要素可劃分四類(lèi):“規(guī)范性一般要素”“規(guī)范性技術(shù)要素”和“資料性概述要素”“資料性補(bǔ)充要素”[18]如表1所示。
表1 標(biāo)準(zhǔn)的要素
規(guī)范性要素不一定是必備要素,資料性要素也可能是可選要素,這幾個(gè)概念間具有交叉關(guān)系。要實(shí)現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜,數(shù)據(jù)內(nèi)容必須覆蓋所有必備要素、規(guī)范性技術(shù)要素、部分規(guī)范性一般要素和部分資料性規(guī)范性要素。因此,標(biāo)準(zhǔn)文獻(xiàn)實(shí)體應(yīng)在標(biāo)準(zhǔn)封面、前言、范圍、規(guī)范性引用文件等部分進(jìn)行抽取。
標(biāo)準(zhǔn)的層次劃分和設(shè)置采用部分、章、條、段、列項(xiàng)和附錄的形式[18],如表2所示,對(duì)任何一份標(biāo)準(zhǔn)來(lái)說(shuō),其編排都至少要有章、條、段三個(gè)層次,其編排方式為層層嵌套。
表2 標(biāo)準(zhǔn)的層次
知識(shí)具有關(guān)聯(lián)屬性,標(biāo)準(zhǔn)文獻(xiàn)之間的知識(shí)關(guān)聯(lián)是各標(biāo)準(zhǔn)文獻(xiàn)知識(shí)元之間存在的各種關(guān)系的總和。研究標(biāo)準(zhǔn)文獻(xiàn)的關(guān)聯(lián),可以使各知識(shí)元形成系統(tǒng)的知識(shí)關(guān)聯(lián)網(wǎng)絡(luò),發(fā)現(xiàn)其潛在的邏輯關(guān)系[18],有助于加強(qiáng)對(duì)標(biāo)準(zhǔn)文獻(xiàn)的利用,便于使用者快速準(zhǔn)確地獲取技術(shù)標(biāo)準(zhǔn)中的技術(shù)知識(shí)。
知識(shí)按可被直接獲取和理解的程度可劃分為顯性知識(shí)及隱性知識(shí)。標(biāo)準(zhǔn)文獻(xiàn)的顯性知識(shí)又可分為直接關(guān)系和間接關(guān)系,直接關(guān)系指兩份標(biāo)準(zhǔn)之間通過(guò)一條通路即可連接的關(guān)系,通常包含引用關(guān)系、采用關(guān)系、修改關(guān)系和代替關(guān)系。其中引用關(guān)系類(lèi)似于學(xué)術(shù)論文中的引用關(guān)系,可以解釋標(biāo)準(zhǔn)技術(shù)發(fā)展的脈絡(luò);采用關(guān)系是標(biāo)準(zhǔn)文獻(xiàn)特有的關(guān)系,它反映了一國(guó)標(biāo)準(zhǔn)在其他國(guó)家和地區(qū)標(biāo)準(zhǔn)化領(lǐng)域的影響力。間接關(guān)系則指兩份標(biāo)準(zhǔn)之間通過(guò)一個(gè)或多個(gè)連接點(diǎn)建立的關(guān)系,這個(gè)連接點(diǎn)通常表現(xiàn)為歸口單位、提出單位、起草單位和起草人等。
除了諸如相互引用和采用之類(lèi)的顯性關(guān)聯(lián)外,標(biāo)準(zhǔn)文獻(xiàn)還可以通過(guò)主題內(nèi)容關(guān)系鏈接在一起,以形成不易直接發(fā)現(xiàn)的隱性關(guān)聯(lián)。標(biāo)準(zhǔn)中的“范圍”部分可視為專(zhuān)利和論文的“摘要”部分,規(guī)定了該標(biāo)準(zhǔn)的適用范圍和標(biāo)準(zhǔn)化對(duì)象,這一篇章結(jié)構(gòu)蘊(yùn)藏著豐富的標(biāo)準(zhǔn)信息,可視為多個(gè)關(guān)鍵詞的集合,同一領(lǐng)域內(nèi)的標(biāo)準(zhǔn)文獻(xiàn)可能共同對(duì)同一主題下的某些關(guān)鍵詞進(jìn)行規(guī)范約束,跨領(lǐng)域之間的標(biāo)準(zhǔn)文獻(xiàn)也可能從該領(lǐng)域所屬的維度分別對(duì)某一項(xiàng)標(biāo)準(zhǔn)化對(duì)象設(shè)立標(biāo)準(zhǔn)規(guī)范。通過(guò)分析和發(fā)現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)之間的隱性關(guān)聯(lián),可以獲得大量潛在的隱藏知識(shí),從而使標(biāo)準(zhǔn)文獻(xiàn)可以創(chuàng)造更大的價(jià)值。
標(biāo)準(zhǔn)文獻(xiàn)知識(shí)效用的最大化取決于從整體上對(duì)相互關(guān)聯(lián)的各類(lèi)標(biāo)準(zhǔn)知識(shí)進(jìn)行系統(tǒng)、靈活的應(yīng)用。因此首要解決的是獲取多個(gè)標(biāo)準(zhǔn)文獻(xiàn)知識(shí)之間的關(guān)系,其次將其分解為知識(shí)單元并進(jìn)行知識(shí)鏈接,最后用知識(shí)圖譜進(jìn)行表達(dá)。
本文從細(xì)粒度知識(shí)單元視角出發(fā),通過(guò)對(duì)標(biāo)準(zhǔn)文獻(xiàn)邏輯結(jié)構(gòu)的分析,提出了用于描述標(biāo)準(zhǔn)文獻(xiàn)知識(shí)的知識(shí)單元五元組(E,A,R,T,H),并結(jié)合科技文獻(xiàn)的資源語(yǔ)義空間的描述[19]提出了標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜RDM模型(Resource-Description-Mapping,資源—描述—映射),模型如圖1所示。該模型由文獻(xiàn)資源、知識(shí)單元描述和知識(shí)單元映射三個(gè)層面支撐并連接起整個(gè)標(biāo)準(zhǔn)文獻(xiàn)的知識(shí)圖譜。正如前文所述,知識(shí)圖譜通過(guò)三元組(實(shí)體—屬性—屬性值)和實(shí)體—關(guān)系—實(shí)體的形式表達(dá)知識(shí)。這一方式同樣適用于標(biāo)準(zhǔn)文獻(xiàn)的知識(shí)表示,標(biāo)準(zhǔn)文獻(xiàn)的實(shí)體可從顯性特征和隱性特征兩方面表示,顯性標(biāo)準(zhǔn)實(shí)體即為常規(guī)的易于判別的實(shí)體,這些實(shí)體的確定依賴(lài)于標(biāo)準(zhǔn)文獻(xiàn)嚴(yán)格劃一、有規(guī)律的描述風(fēng)格;隱性標(biāo)準(zhǔn)實(shí)體指的是通過(guò)自然語(yǔ)言處理,將隱性知識(shí)顯性化得到的那些實(shí)體,而顯性標(biāo)準(zhǔn)實(shí)體和隱性標(biāo)準(zhǔn)實(shí)體的分布又依賴(lài)于標(biāo)準(zhǔn)文獻(xiàn)嚴(yán)格的編排體系。
圖1 標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜RDM模型
因此,本文提出的標(biāo)準(zhǔn)知識(shí)單元五元組與知識(shí)圖譜三元組存在重合的要素,但是通過(guò)知識(shí)單元五元組進(jìn)行描述是為了更準(zhǔn)確、更全面地表示實(shí)體關(guān)系,最終的知識(shí)表示方式仍然符合知識(shí)圖譜的三元組的邏輯。首先,標(biāo)準(zhǔn)文獻(xiàn)的內(nèi)容由多個(gè)知識(shí)單元組成,多個(gè)知識(shí)單元之間的不同組配方式又能反過(guò)來(lái)表示標(biāo)準(zhǔn)文獻(xiàn)要素;其次,利用人工或半人工、自動(dòng)的抽取方法提取標(biāo)準(zhǔn)知識(shí)內(nèi)容中所包含的主題知識(shí);最后,將這些具有實(shí)體概念意義的標(biāo)準(zhǔn)知識(shí)單元通過(guò)知識(shí)鏈接的方式映射到知識(shí)圖譜的實(shí)體關(guān)系表達(dá)上,這樣就建立了多層次關(guān)聯(lián)關(guān)系,形成標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜。
標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜RDM模型由SLR、KuD和KuM三要素構(gòu)成,模型可表示為:
第一層為標(biāo)準(zhǔn)文獻(xiàn)資源層SLR(Standard Literature Resource),表示該模型所組織的標(biāo)準(zhǔn)文獻(xiàn)資源集合。通常按照標(biāo)準(zhǔn)文獻(xiàn)主題內(nèi)容所屬學(xué)科和標(biāo)準(zhǔn)化專(zhuān)業(yè)領(lǐng)域進(jìn)行組織,本研究依據(jù)國(guó)際標(biāo)準(zhǔn)分類(lèi)法(ICS)和中國(guó)標(biāo)準(zhǔn)文獻(xiàn)分類(lèi)法(CCS)劃分標(biāo)準(zhǔn)文獻(xiàn)資源層級(jí)。
第二層為標(biāo)準(zhǔn)文獻(xiàn)知識(shí)單元描述層KuD(Description of Knowledge unit),表示從標(biāo)準(zhǔn)文獻(xiàn)資源中抽取出的知識(shí)單元Ku(Knowledge unit)經(jīng)過(guò)描述與表示后所形成的集合。本研究使用標(biāo)準(zhǔn)文獻(xiàn)知識(shí)單元五元組來(lái)描述標(biāo)準(zhǔn)文獻(xiàn)的基本屬性:
其中,Ku代表標(biāo)準(zhǔn)文獻(xiàn)知識(shí)單元;E為標(biāo)準(zhǔn)知識(shí)單元的實(shí)體(Entity);A(Attribute)為標(biāo)準(zhǔn)知識(shí)單元的屬性集合,包括:標(biāo)準(zhǔn)編號(hào)、標(biāo)準(zhǔn)名稱(chēng)、發(fā)布時(shí)間等;R(Relation)為標(biāo)準(zhǔn)知識(shí)單元之間的關(guān)系,包括代替關(guān)系、引用關(guān)系以及主題關(guān)聯(lián)關(guān)系等顯性關(guān)系和隱性關(guān)系;T(Topic)為描述標(biāo)準(zhǔn)知識(shí)單元主題的主題概念集合;H(Hierarchy)為標(biāo)準(zhǔn)文獻(xiàn)的要素層次結(jié)構(gòu),是不同知識(shí)單元在標(biāo)準(zhǔn)文獻(xiàn)內(nèi)的分布位置。
第三層為標(biāo)準(zhǔn)文獻(xiàn)知識(shí)單元映射層KuM(Mapping of Knowledge unit),表示若干個(gè)知識(shí)單元所構(gòu)建的知識(shí)圖譜,表示為:
Tc表示標(biāo)準(zhǔn)知識(shí)的主題概念集合,每一個(gè)節(jié)點(diǎn)代表著一個(gè)標(biāo)準(zhǔn)知識(shí)單元的主題概念,由多個(gè)關(guān)鍵詞組成;Ec表示標(biāo)準(zhǔn)文獻(xiàn)實(shí)體集合,每一個(gè)節(jié)點(diǎn)代表一個(gè)標(biāo)準(zhǔn)知識(shí)單元的實(shí)體概念;Rtc表示標(biāo)準(zhǔn)知識(shí)單元主題概念之間的關(guān)系集合,每一個(gè)語(yǔ)義關(guān)系可被描述為一個(gè)標(biāo)準(zhǔn)三元組(tci,tcj,rtc),tci和tcj分別為兩個(gè)標(biāo)準(zhǔn)主題概念,rtc表示兩個(gè)主題之間的關(guān)系;Rec表示標(biāo)準(zhǔn)知識(shí)單元主題概念與實(shí)體之間的關(guān)系集合,同標(biāo)準(zhǔn)主題概念間關(guān)系一樣,每一個(gè)關(guān)系可描述為一個(gè)標(biāo)準(zhǔn)三元組(eci,tci,rec),eci為第i個(gè)標(biāo)準(zhǔn)實(shí)體,tci為第i個(gè)標(biāo)準(zhǔn)知識(shí)單元的主題概念,rec表示標(biāo)準(zhǔn)實(shí)體與主題概念之間的關(guān)系。
本研究設(shè)計(jì)的標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜RDM模型核心在于知識(shí)單元五元組的解構(gòu),將實(shí)體E之間的關(guān)聯(lián)關(guān)系進(jìn)行分解,以層次結(jié)構(gòu)H為骨架,分為顯性關(guān)聯(lián)和隱性關(guān)聯(lián)。其中顯性關(guān)聯(lián)主要,指通過(guò)實(shí)體屬性A和R建立的知識(shí)單元之間的鏈接,隱性關(guān)聯(lián)主要指通過(guò)主題T建立的知識(shí)單元之間的鏈接。如在“封面”部分,通常包含有屬性,如標(biāo)準(zhǔn)代碼、推薦等級(jí)、分類(lèi)號(hào)等;在“前言”部分,通常包含實(shí)體,如采用標(biāo)準(zhǔn)、代替標(biāo)準(zhǔn)、提出單位、歸口單位、起草單位以及采用方式屬性;在“范圍”部分,包含由關(guān)鍵詞組成的主題要素;在“規(guī)范性引用”部分,包含引用文件實(shí)體及其代碼屬性,因此通過(guò)知識(shí)單元五元組可以比較充分的揭示標(biāo)準(zhǔn)文獻(xiàn)知識(shí)。
在前文所建立的RDM模型中,資源層和描述層可通過(guò)知識(shí)抽取來(lái)實(shí)現(xiàn),描述層和映射層可通過(guò)知識(shí)鏈接的方式來(lái)實(shí)現(xiàn),即RDM模型的建立過(guò)程主要包括標(biāo)準(zhǔn)文獻(xiàn)的知識(shí)抽取和知識(shí)鏈接兩個(gè)步驟,分別作用于不同的章節(jié)結(jié)構(gòu),從而建立起標(biāo)準(zhǔn)文獻(xiàn)的知識(shí)圖譜如圖2所示。
圖2 基于RDM模型的知識(shí)圖譜構(gòu)建的總體流程圖
(1)標(biāo)準(zhǔn)文獻(xiàn)知識(shí)抽取。根據(jù)不同知識(shí)單元在標(biāo)準(zhǔn)文獻(xiàn)內(nèi)所處的位置,分別利用規(guī)則抽取和LDA主題抽取方法,對(duì)標(biāo)準(zhǔn)的顯性知識(shí)和隱性知識(shí)單元進(jìn)行匹配和抽取,形成標(biāo)準(zhǔn)文獻(xiàn)實(shí)體。
(2)標(biāo)準(zhǔn)文獻(xiàn)知識(shí)鏈接。對(duì)標(biāo)準(zhǔn)文獻(xiàn)知識(shí)單元之間相互鏈接所依靠的語(yǔ)義關(guān)系進(jìn)行人工合并去重,再利用Neo4j數(shù)據(jù)庫(kù)將標(biāo)準(zhǔn)知識(shí)單元的各知識(shí)單元轉(zhuǎn)換到標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜中。
其中,如前文所述,在知識(shí)抽取的過(guò)程中,本文基于規(guī)則方法進(jìn)行標(biāo)準(zhǔn)文獻(xiàn)顯性知識(shí)抽取,基于LDA主題模型進(jìn)行隱性知識(shí)抽取。對(duì)于顯性知識(shí)而言,由于其存在于標(biāo)準(zhǔn)封面和標(biāo)準(zhǔn)前言中,組織方式相對(duì)規(guī)范,因此適合用基于規(guī)則的方法進(jìn)行信息抽取。對(duì)于隱性知識(shí)而言,其存在于標(biāo)準(zhǔn)文獻(xiàn)正文中,相較于其他知識(shí)更加復(fù)雜,無(wú)法用規(guī)則抽取的方式得到合適的描述字段。而LDA是一種文檔主題生成模型,可以用來(lái)分析一篇文檔的若干主題分布,近幾年在情報(bào)學(xué)領(lǐng)域中得到了廣泛應(yīng)用,包括用于科技文獻(xiàn)文本分類(lèi)、科學(xué)主題演化與科技文獻(xiàn)相似度計(jì)算等研究領(lǐng)域。標(biāo)準(zhǔn)文獻(xiàn)的初始文本是PDF格式的,屬于非結(jié)構(gòu)化數(shù)據(jù),需要先對(duì)初始文本做格式轉(zhuǎn)換,XML格式的數(shù)據(jù)是半結(jié)構(gòu)化,具有清晰的邏輯結(jié)構(gòu),便于后續(xù)操作,但要實(shí)現(xiàn)標(biāo)準(zhǔn)全文的三元組抽取還很困難。因此,可考慮將研究范圍限定在前言部分、范圍部分和規(guī)范性引用文件部分。從非結(jié)構(gòu)化表示的標(biāo)準(zhǔn)文獻(xiàn)中抽取出結(jié)構(gòu)化的實(shí)體屬性關(guān)系,并以三元組的形式存放到文件中,其研究成果可有助于標(biāo)準(zhǔn)知識(shí)庫(kù)構(gòu)建、標(biāo)準(zhǔn)搜索引擎和標(biāo)準(zhǔn)信息檢索的實(shí)現(xiàn)。因此,本文提出采用LDA主題模型進(jìn)行隱性知識(shí)的抽取,數(shù)據(jù)范圍限定在“范圍”部分。
通過(guò)上述集成方法可實(shí)現(xiàn)與RDM模型的良好映射,它適用于標(biāo)準(zhǔn)這一特定領(lǐng)域。規(guī)則抽取技術(shù)成熟,通過(guò)人工定義模板可以保證準(zhǔn)確性,在垂直領(lǐng)域中表現(xiàn)良好;而LDA技術(shù)不同于專(zhuān)門(mén)用于知識(shí)抽取的技術(shù),它是關(guān)鍵詞、主題詞抽取的主流技術(shù),LDA抽取的效果對(duì)標(biāo)準(zhǔn)主題的揭示更有說(shuō)服力。因此,本文認(rèn)為通過(guò)規(guī)則和LDA模型的知識(shí)抽取集成方法使基于標(biāo)準(zhǔn)文獻(xiàn)挖掘得到的關(guān)系是有用且有效的。
本文在解析標(biāo)準(zhǔn)文獻(xiàn)特征及內(nèi)容特點(diǎn)的基礎(chǔ)上,分解了標(biāo)準(zhǔn)知識(shí)結(jié)構(gòu),構(gòu)造了標(biāo)準(zhǔn)知識(shí)單元五元組 (E,A,R,T,H),并基于五元組設(shè)計(jì)了標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜RDM模型,從資源層、描述層和映射層解構(gòu)了標(biāo)準(zhǔn)知識(shí)圖譜構(gòu)建的理論模型。針對(duì)標(biāo)準(zhǔn)關(guān)聯(lián)關(guān)系的識(shí)別與挖掘,補(bǔ)充和拓展標(biāo)準(zhǔn)文獻(xiàn)知識(shí)關(guān)聯(lián)的相關(guān)研究。除了一般性的題錄關(guān)系,本研究進(jìn)一步拓展的關(guān)系體現(xiàn)在兩點(diǎn),即四種不同程度的相互采用的知識(shí)關(guān)聯(lián)關(guān)系和基于主題關(guān)聯(lián)維度的多元關(guān)系。標(biāo)準(zhǔn)文獻(xiàn)中“范圍”部分可視為論文文獻(xiàn)中的“摘要”,其中存在揭示主題內(nèi)容的信息,通過(guò)提取主題詞,挖掘標(biāo)準(zhǔn)實(shí)體和主題詞匯之間的語(yǔ)義關(guān)聯(lián)可以建立標(biāo)準(zhǔn)主題間的關(guān)系。
在此基礎(chǔ)上,進(jìn)一步提出構(gòu)建RDM模型的集成方法,即RDM模型的建立過(guò)程主要包括標(biāo)準(zhǔn)文獻(xiàn)的知識(shí)抽取和知識(shí)鏈接兩個(gè)步驟,分別作用于不同的章節(jié)結(jié)構(gòu),從而建立起標(biāo)準(zhǔn)文獻(xiàn)的知識(shí)圖譜,有助于擴(kuò)展實(shí)體關(guān)系類(lèi)型。
需要指出的是,上述標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜的構(gòu)建研究仍處于初級(jí)階段,缺少高質(zhì)量語(yǔ)料庫(kù),未實(shí)現(xiàn)基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)實(shí)現(xiàn)知識(shí)抽取。下一步可在現(xiàn)有研究的基礎(chǔ)上結(jié)合機(jī)器學(xué)習(xí)方法,選擇更加適合的實(shí)體關(guān)系抽取方法。