余敬春
摘 要:在原國(guó)家新聞出版廣電總局“專業(yè)數(shù)字內(nèi)容資源知識(shí)服務(wù)模式試點(diǎn)”工作倡導(dǎo)下,專業(yè)出版社基于自有優(yōu)質(zhì)資源,開(kāi)展知識(shí)庫(kù)建設(shè)為行業(yè)提供基于知識(shí)圖譜的服務(wù),是傳統(tǒng)出版向知識(shí)服務(wù)轉(zhuǎn)型的必由之路。本文總結(jié)國(guó)防工業(yè)出版社“雷達(dá)與探測(cè)知識(shí)圖譜”項(xiàng)目實(shí)施經(jīng)驗(yàn),介紹了出版行業(yè)專業(yè)領(lǐng)域知識(shí)圖譜建設(shè)研究;探索了從資源遴選、結(jié)構(gòu)化加工、本體模型構(gòu)建、知識(shí)元提取、關(guān)聯(lián)關(guān)系構(gòu)建的知識(shí)圖譜建設(shè)全過(guò)程;探討了知識(shí)圖譜的評(píng)價(jià)與審核方法。
關(guān)鍵詞:知識(shí)元 知識(shí)圖譜 知識(shí)服務(wù) 知識(shí)本體
目前,知識(shí)圖譜的建設(shè)已成為國(guó)內(nèi)外出版社的必要工作。Springer Nature推出了SciGraph(科研圖譜)服務(wù),把自有和來(lái)自合作伙伴的資源,如期刊、論文、圖書、專利,以及機(jī)構(gòu)、作者等關(guān)聯(lián)。Elsevier開(kāi)發(fā)的知識(shí)圖譜,把資源和軟件工具關(guān)聯(lián),形成知識(shí)管理系統(tǒng)。電子工業(yè)出版社的數(shù)字產(chǎn)品“E知元”和人民法院出版社的“法信”數(shù)字網(wǎng)絡(luò)服務(wù)平臺(tái),也創(chuàng)新性地利用了知識(shí)圖譜技術(shù)。
一、知識(shí)圖譜的內(nèi)涵
專業(yè)出版社積累了豐富的內(nèi)容資源,其涵蓋范圍較廣,且大多是非結(jié)構(gòu)化的不斷更新的數(shù)據(jù)。知識(shí)圖譜是知識(shí)間關(guān)系的最有效表示形式,通過(guò)提取知識(shí)元,建立知識(shí)元之間的關(guān)聯(lián)關(guān)系,從內(nèi)容資源中提煉知識(shí)元實(shí)體信息,從而打通資源內(nèi)在脈絡(luò),支持內(nèi)容的計(jì)算、重組、聚合、再創(chuàng)造形成新的知識(shí)對(duì)象,達(dá)到優(yōu)化知識(shí)檢索、共享和傳承的目的。專業(yè)出版社通過(guò)構(gòu)建行業(yè)知識(shí)圖譜,可探索實(shí)現(xiàn)以“知識(shí)圖譜+知識(shí)化內(nèi)容資源”為主體的新型知識(shí)服務(wù)模式。
知識(shí)圖譜在工業(yè)領(lǐng)域剛剛起步,很難找到現(xiàn)成的知識(shí)圖譜為出版社所用,且建設(shè)耗時(shí)長(zhǎng),出版社需綜合分析內(nèi)容資源、智力儲(chǔ)備和行業(yè)應(yīng)用,選擇最優(yōu)質(zhì)資源、最豐富內(nèi)容、最迫切需要的細(xì)分專業(yè)領(lǐng)域,采用“逐點(diǎn)構(gòu)建、連點(diǎn)成面”的方式,完成專業(yè)領(lǐng)域知識(shí)圖譜建設(shè)。
為了使知識(shí)圖譜能服務(wù)實(shí)際應(yīng)用,出版社建設(shè)的知識(shí)圖譜需滿足三項(xiàng)原則:①面向應(yīng)用。以實(shí)際應(yīng)用為出發(fā)點(diǎn),進(jìn)行資源遴選、本體模型設(shè)計(jì),以及技術(shù)和規(guī)范的制定等。②與內(nèi)容資源結(jié)合。確保知識(shí)圖譜通過(guò)標(biāo)引能與內(nèi)容資源緊密結(jié)合。③尊重著作權(quán)人學(xué)術(shù)觀點(diǎn)。專業(yè)領(lǐng)域存在學(xué)術(shù)分歧,知識(shí)圖譜的構(gòu)建不在學(xué)術(shù)觀點(diǎn)上厚此薄彼,盡量全面反映學(xué)術(shù)研究現(xiàn)狀。
二、知識(shí)圖譜建設(shè)研究
知識(shí)圖譜建設(shè)的技術(shù)路徑是構(gòu)建本體模型,對(duì)本體進(jìn)行實(shí)體擴(kuò)充。其建設(shè)主要任務(wù)是知識(shí)元的提取與關(guān)聯(lián)關(guān)系的構(gòu)建,實(shí)施流程包括資源遴選、結(jié)構(gòu)化加工、本體模型構(gòu)建、知識(shí)元提取、關(guān)聯(lián)關(guān)系構(gòu)建等5個(gè)環(huán)節(jié),如圖1所示。
圖1 知識(shí)圖譜建設(shè)流程
1.資源遴選。知識(shí)圖譜基于資源建設(shè),只有優(yōu)質(zhì)的資源才能保證知識(shí)圖譜的質(zhì)量。出版社需組織領(lǐng)域?qū)<一蛴胸S富經(jīng)驗(yàn)的編輯,通過(guò)分析資源的經(jīng)典和時(shí)效性,以及對(duì)領(lǐng)域知識(shí)覆蓋的廣度和深度,從海量資源中挑選出與選定領(lǐng)域最相關(guān)的資源;同時(shí),根據(jù)專業(yè)深度和應(yīng)用目的,對(duì)這些資源進(jìn)行分類,確定核心資源、輔助資源。例如,國(guó)防工業(yè)出版社“雷達(dá)與探測(cè)知識(shí)圖譜”項(xiàng)目,遴選100多種近幾年出版的重點(diǎn)圖書或叢書,涉及原理、技術(shù)、系統(tǒng)、設(shè)備等。其中核心資源40余種,即成熟的教材、手冊(cè)和工具書,對(duì)知識(shí)圖譜的貢獻(xiàn)度超過(guò)70%;科技專著則在專業(yè)縱深方向進(jìn)行補(bǔ)充,屬于輔助資源。
2.結(jié)構(gòu)化加工。結(jié)構(gòu)化加工的任務(wù)是:統(tǒng)一資源格式;標(biāo)識(shí)內(nèi)容中的標(biāo)題、段落、圖片和表格等(因?yàn)槌霈F(xiàn)在不同位置的關(guān)鍵詞,在知識(shí)圖譜中的重要程度有明顯的區(qū)別);規(guī)范元數(shù)據(jù)結(jié)構(gòu)。內(nèi)容資源經(jīng)過(guò)結(jié)構(gòu)化加工形成符合標(biāo)準(zhǔn)的XML文件和Epub文件。
3.本體模型構(gòu)建。本體是知識(shí)元和知識(shí)元關(guān)聯(lián)關(guān)系的集合,本體模型需構(gòu)建一個(gè)完整、簡(jiǎn)潔、規(guī)范、結(jié)構(gòu)清晰的描述規(guī)則或框架,清楚地描述知識(shí)元及其關(guān)系的類型、層級(jí)和結(jié)構(gòu),定義元數(shù)據(jù)即知識(shí)元實(shí)體信息描述規(guī)則。例如,“雷達(dá)與探測(cè)知識(shí)圖譜”本體模型提取知識(shí)元類型10余類,包括:設(shè)備、方法、技術(shù)、產(chǎn)品、原理等;知識(shí)元元數(shù)據(jù)30余項(xiàng),如圖2所示;知識(shí)元關(guān)聯(lián)關(guān)系20余種,如圖3所示。
4.知識(shí)元提取。知識(shí)元提取是通過(guò)人工或程序輔助方法將資源中的專業(yè)知識(shí)提煉出來(lái)并完善元數(shù)據(jù),實(shí)現(xiàn)本體模型到知識(shí)圖譜建設(shè)的過(guò)程。目前,計(jì)算機(jī)技術(shù)的自動(dòng)提取功能,對(duì)于語(yǔ)料匱乏的小領(lǐng)域而言,其提取效率還達(dá)不到使用需要,人工提取知識(shí)元是更加實(shí)用、可行的方式。知識(shí)元的提取包括:內(nèi)容閱讀、知識(shí)元提取、元數(shù)據(jù)編輯、知識(shí)元修正等4個(gè)環(huán)節(jié),如圖4所示。
(1)內(nèi)容閱讀:分為通讀和精讀。通讀時(shí)了解圖書的內(nèi)容和編寫風(fēng)格,關(guān)注圖書的結(jié)構(gòu)和可提取的知識(shí)元,知識(shí)元描述信息從何處摘取等。精讀時(shí)需分析圖書中主要論述、附加描述以及涉及的各層級(jí)知識(shí)點(diǎn)。專業(yè)圖書內(nèi)容組織的特點(diǎn)一般是以章/節(jié)為一個(gè)相對(duì)獨(dú)立的知識(shí)范圍進(jìn)行編寫,所以,精讀一般以章/節(jié)為基本單元進(jìn)行。
(2)知識(shí)元提?。褐R(shí)元的提取就是找到書中的知識(shí)點(diǎn)和相關(guān)描述,大部分在內(nèi)容精讀時(shí)可完成??萍紙D書通常表述比較嚴(yán)謹(jǐn)、規(guī)范,可以通過(guò)總結(jié)知識(shí)的表述形式來(lái)提高提取的速度和質(zhì)量,常見(jiàn)的表達(dá)形式包括:定義型、引用型和舉例型。例如:
定義型:
引用型:
舉例型:
知識(shí)元提取應(yīng)把握以下原則:是領(lǐng)域?qū)I(yè)詞匯、術(shù)語(yǔ);是圖書主要講述或涉及的知識(shí)點(diǎn);以名詞或名詞短語(yǔ)為主,避免使用動(dòng)詞,一般不用形容詞或副詞;提取的詞出現(xiàn)頻率較高;概念明確,敘述簡(jiǎn)練。如果提交時(shí)系統(tǒng)提示已經(jīng)存在相同的詞條,需仔細(xì)查看已有詞條的詳細(xì)信息,判斷是否為相同概念。如果概念相同則放棄提交;如果概念不同則強(qiáng)制提交(此情況一般為“一詞多義”)。
(3)元數(shù)據(jù)編輯:需要編輯的元數(shù)據(jù)項(xiàng)包括分類、詳細(xì)描述、詞條出處、詞條位置等?!霸敿?xì)描述”字段即知識(shí)條目是對(duì)知識(shí)元定義性或描述性的內(nèi)容,包括純文本、圖表或公式等。這些信息通常出現(xiàn)在提取位置附近,也有的需要從不同的位置分別提取、編輯、整合。其內(nèi)容要求在任何語(yǔ)境中閱讀時(shí),均有完整的意義,不能帶有“綜上所述”“見(jiàn)××頁(yè)”等承接前后文的文字。出現(xiàn)此類情況,需要加工人員對(duì)內(nèi)容進(jìn)行摘取、調(diào)整和補(bǔ)充。
(4)知識(shí)元修正:由于不同圖書或加工人員對(duì)相似概念理解不一致,需對(duì)提取的知識(shí)元進(jìn)行橫向比較并修正。主要問(wèn)題包括提取粒度、知識(shí)元名稱和元數(shù)據(jù)的一致性。提取粒度的一致性是指同級(jí)概念下提取的子概念的細(xì)化粒度應(yīng)一致。知識(shí)元名稱的一致性主要考查詞組或短語(yǔ)的一致性,例如,與“雷達(dá)功率”同級(jí)別或并列的概念“雷達(dá)波段”“雷達(dá)天線”也要用詞組描述,不能僅用“波段”和“天線”。元數(shù)據(jù)的一致性是指同級(jí)或并列知識(shí)元的元數(shù)據(jù)的“詳細(xì)描述”等需要二次編輯的項(xiàng)目應(yīng)保持質(zhì)量與程度一致。除了一致性問(wèn)題,還需要考慮的是同義詞的合并以及一詞多義的判斷。通過(guò)對(duì)比,確定概念是否相同,如果相同或相似則進(jìn)行合并;如果不同則需修改元數(shù)據(jù)以做區(qū)分,使其差異盡可能清晰。
5.關(guān)聯(lián)關(guān)系構(gòu)建。通常,在知識(shí)元提取過(guò)程中建立與鄰近資源相關(guān)知識(shí)元間的關(guān)聯(lián)關(guān)系之后,還需設(shè)置專門的建立關(guān)聯(lián)關(guān)系的環(huán)節(jié),使更廣泛的資源間建立關(guān)聯(lián)。這個(gè)環(huán)節(jié)需系統(tǒng)整理、規(guī)范和挖掘廣泛資源中知識(shí)元間的關(guān)聯(lián)關(guān)系,同時(shí)形成對(duì)關(guān)聯(lián)關(guān)系的數(shù)量及分布是否合理的評(píng)價(jià)指標(biāo)。
(1)關(guān)系空間:關(guān)系空間包括關(guān)系的名稱及元數(shù)據(jù)屬性。關(guān)系空間在確定時(shí)應(yīng)規(guī)范、統(tǒng)一。通常敘詞表中有五類標(biāo)準(zhǔn)的關(guān)系名稱,即用、代、屬、分、參。在這五類關(guān)系之上,還需增加“擴(kuò)展關(guān)系”和“自定義關(guān)系”。擴(kuò)展關(guān)系是根據(jù)應(yīng)用需要,在基本關(guān)系的基礎(chǔ)上分解或細(xì)化出的關(guān)系名稱,這些關(guān)系名稱能夠更加清晰、準(zhǔn)確地表現(xiàn)兩個(gè)知識(shí)元之間的關(guān)系。在工程技術(shù)中,常用的擴(kuò)展關(guān)系包括:“相關(guān)原理”“由……部件組成”“有……方法”“被替代”等。當(dāng)增加了擴(kuò)展關(guān)系,還存在沒(méi)有合適的名稱來(lái)描述的關(guān)系時(shí),則允許加工人員自行命名新的關(guān)系名稱,經(jīng)過(guò)整理和規(guī)范,符合條件時(shí)納入“擴(kuò)展關(guān)系”。
(2)關(guān)系的判斷:兩個(gè)知識(shí)元之間的關(guān)系通過(guò)閱讀圖書內(nèi)容、分析層次結(jié)構(gòu)完成,找不到具體語(yǔ)境則依據(jù)加工人員專業(yè)知識(shí)或查找輔助資料來(lái)判斷。例如:從上下級(jí)標(biāo)題中分別提取的知識(shí)元,一般以屬分關(guān)系為主,其次是相關(guān)關(guān)系以及其他關(guān)系;一般情況下,“×××又叫(也叫/又稱)×××”這種句型的句子中知識(shí)元之間大多是用代關(guān)系。有些知識(shí)元之間的關(guān)系并不明顯,不能簡(jiǎn)單地從標(biāo)題層級(jí)、句型結(jié)構(gòu)上分析出來(lái),這時(shí)需要依據(jù)內(nèi)容判斷,尤其是擴(kuò)展關(guān)系和自定義關(guān)系,需要認(rèn)真理解知識(shí)元的含義及其邏輯關(guān)系,找到最適合的關(guān)系名稱。
三、知識(shí)圖譜的評(píng)價(jià)與審核
在知識(shí)圖譜建設(shè)過(guò)程中,可通過(guò)量化度量的評(píng)價(jià)圖譜,及時(shí)了解實(shí)施的進(jìn)度和質(zhì)量,示例如圖5所示(圖中每一個(gè)黑點(diǎn)為一個(gè)知識(shí)元,中間的連線為關(guān)聯(lián)關(guān)系),其中包括核心集合、知識(shí)簇和孤立詞。中心是核心集合,由具有關(guān)聯(lián)關(guān)系的知識(shí)元構(gòu)成;外層是知識(shí)簇,由若干有關(guān)聯(lián)關(guān)系的知識(shí)元構(gòu)成,對(duì)外沒(méi)有關(guān)聯(lián)關(guān)系;最外層是孤立詞,與其他知識(shí)元沒(méi)有關(guān)聯(lián)關(guān)系。同時(shí),引入了知識(shí)元/關(guān)系比和全局關(guān)系比兩個(gè)概念來(lái)評(píng)價(jià)知識(shí)圖譜的質(zhì)量,知識(shí)元/關(guān)系比是一個(gè)知識(shí)元的關(guān)聯(lián)關(guān)系的值,反映知識(shí)元的重要程度;全局關(guān)系比是全部關(guān)聯(lián)關(guān)系與知識(shí)元個(gè)數(shù)的比,反映關(guān)聯(lián)關(guān)系建設(shè)的合理性。一個(gè)健康的知識(shí)圖譜應(yīng)該只有少量孤立詞、較少的知識(shí)簇和龐大的核心集合;知識(shí)元/關(guān)系比通常最大不宜超過(guò)50;全局關(guān)系比一般應(yīng)大于2。
知識(shí)圖譜構(gòu)建階段性工作完成后,必須由領(lǐng)域?qū)<乙罁?jù)相關(guān)規(guī)范,對(duì)知識(shí)元及元數(shù)據(jù)、關(guān)聯(lián)關(guān)系及元數(shù)據(jù)進(jìn)行審核,包括其科學(xué)性、專業(yè)性、準(zhǔn)確性和規(guī)范性等。審核發(fā)現(xiàn)的常見(jiàn)問(wèn)題包括:知識(shí)元名稱不規(guī)范,或內(nèi)涵較大,需要修正或拆分;知識(shí)元間關(guān)聯(lián)關(guān)系漏建等,需進(jìn)行補(bǔ)充。
綜上所述,知識(shí)圖譜以可視化圖譜的形式建立非結(jié)構(gòu)化資源的內(nèi)在聯(lián)系,使傳統(tǒng)出版社基于圖書資源提供知識(shí)服務(wù)得以實(shí)現(xiàn)。專業(yè)領(lǐng)域知識(shí)圖譜建設(shè)對(duì)出版行業(yè)而言,是一項(xiàng)新技術(shù),也是一個(gè)新挑戰(zhàn);同時(shí),它又是一個(gè)需要逐步更新、進(jìn)化的大工程,是無(wú)法回避、必須跨越的壁壘。本文在總結(jié)“雷達(dá)與探測(cè)知識(shí)圖譜”項(xiàng)目實(shí)施經(jīng)驗(yàn)的基礎(chǔ)上,討論了知識(shí)圖譜建設(shè)中資源遴選、人員組織、質(zhì)量保障需要注意的問(wèn)題,重點(diǎn)介紹了專業(yè)知識(shí)圖譜建設(shè)中知識(shí)元抽取這個(gè)最關(guān)鍵環(huán)節(jié)的特點(diǎn)、方法,希望對(duì)出版社同行有所助益。
參考文獻(xiàn):
1. 張曉林.顛覆性變革與后圖書館時(shí)代——推動(dòng)知識(shí)服務(wù)的供給側(cè)結(jié)構(gòu)性改革[J].中國(guó)圖書館學(xué)報(bào),2018(1).
2. 張德政,謝永紅,李曼,石川.基于本體的中醫(yī)知識(shí)圖譜構(gòu)建[J].情報(bào)工程,2017,3(1).
(作者單位系國(guó)防工業(yè)出版社)