• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于領(lǐng)域知識(shí)庫的語義出版形態(tài)研究

      2020-11-09 03:35蘇靜
      出版科學(xué) 2020年5期
      關(guān)鍵詞:數(shù)字出版

      [摘 要] 指出領(lǐng)域知識(shí)庫是對知識(shí)單元進(jìn)行管理、存儲(chǔ)和關(guān)聯(lián)利用的有效工具,是專業(yè)出版機(jī)構(gòu)開展語義出版服務(wù)的基礎(chǔ)性工程。提出語義出版領(lǐng)域知識(shí)庫的知識(shí)單元可劃分為出版載體與文獻(xiàn)類型模塊、母體要素模塊、科學(xué)陳述模塊、知識(shí)形態(tài)模塊和外部關(guān)聯(lián)模塊,通過書目關(guān)聯(lián)關(guān)系、概念關(guān)聯(lián)關(guān)系、引證關(guān)聯(lián)關(guān)系、論證關(guān)聯(lián)關(guān)系、科研本體關(guān)聯(lián)關(guān)系構(gòu)建適用于出版業(yè)的資源語義網(wǎng)絡(luò)。闡釋面向集成揭示和智能推理兩種語義出版形態(tài),并提出采用“眾包”模式建設(shè)領(lǐng)域知識(shí)庫和推動(dòng)開放知識(shí)組織體系共享利用的建議,以期對我國語義出版領(lǐng)域知識(shí)庫構(gòu)建及其應(yīng)用提供借鑒。

      [關(guān)鍵詞] 語義出版 領(lǐng)域知識(shí)庫 知識(shí)單元 服務(wù)形態(tài) 數(shù)字出版

      [中圖分類號] G237[文獻(xiàn)標(biāo)識(shí)碼] A[文章編號] 1009-5853 (2020) 05-0091-09

      [Abstract] The domain knowledge base is an effective tool for managing, storing and associating knowledge units, and it is the groundwork for professional publishing institutions to develop semantic publishing services. The knowledge units of the domain knowledge bases in the field of semantic publishing can be divided into publication media and document type module, parent element module, scientific statement module, knowledge type module and external association module. Meanwhile, these knowledge units can be built into content resource semantic networks suitable for the publishing industry through bibliographic associations, conceptual associations, citation associations, argument associations and research ontology associations. Based on the above analysis, it first explained two forms of semantic publishing oriented to integral showcase and intelligent reasoning respectively; then put forward the suggestions of using the‘crowdsourcing model to construct domain knowledge bases and sharing open knowledge organization systems, in order to provide references for the development of semantic publishing and its application in China.

      [Key words] Semantic publishing Domain knowledge base Knowledge unit Service form Digital publishing

      1 引 言

      由于海量的異構(gòu)數(shù)字資源仍呈現(xiàn)指數(shù)式增長,人們傾向于讓計(jì)算代理執(zhí)行信息資源發(fā)現(xiàn)和集成任務(wù)。然而,當(dāng)前數(shù)字出版服務(wù)更多依賴于傳統(tǒng)文獻(xiàn)資源的元數(shù)據(jù)檢索,而其中的關(guān)鍵詞匹配機(jī)制較少考慮關(guān)鍵詞的多義性、組合關(guān)鍵詞的復(fù)雜性和被用于不同語境時(shí)的差異性[1],因此,其結(jié)果難以滿足高效率、知識(shí)性、體系化的用戶服務(wù)需求。作為數(shù)字出版的高級形態(tài),語義出版旨在將可發(fā)現(xiàn)、可引用并可重用的信息資源有序關(guān)聯(lián)和發(fā)布,這對提升出版業(yè)知識(shí)服務(wù)能力具有重要意義。

      目前,在語義出版形態(tài)的設(shè)計(jì)與應(yīng)用研究方面,主要集中在:(1)學(xué)術(shù)期刊的內(nèi)容增強(qiáng)研究,如基于本體和關(guān)聯(lián)數(shù)據(jù)等方法的學(xué)術(shù)期刊數(shù)字資源聚合模型[2]、利用XML實(shí)現(xiàn)學(xué)術(shù)期刊數(shù)據(jù)交換與集成[3];(2)不同粒度知識(shí)單元的發(fā)布模型研究,如納米出版物[4]、液體出版物、微型出版物等;(3)語義出版服務(wù)功能分析,如語義索引、按需檢索[5]、本體導(dǎo)航等基本功能,主題知識(shí)聚類與演化、知識(shí)推理分析等知識(shí)管理功能[6],以及科研實(shí)體影響力可視化分析、科技熱點(diǎn)監(jiān)測、學(xué)科預(yù)測與規(guī)劃等定制功能[7][8];(4)面向語義出版的結(jié)構(gòu)化工具研究,如基于科研論文引文關(guān)系的智能信息檢索工具CIRRA,可提供引用文本時(shí)間軸、追溯引文原始表達(dá)、集中展示核心關(guān)鍵詞所在文本等功能[9],或提供從素材收集、數(shù)字對象制作、自動(dòng)標(biāo)引參考文獻(xiàn)、按期刊版式呈現(xiàn)到Word文檔格式轉(zhuǎn)換等一系列功能的論文寫作工具DPaper [10],以及面向作者服務(wù)的學(xué)術(shù)論文語義注釋自動(dòng)增強(qiáng)工具CISE [11]等。

      其中,領(lǐng)域知識(shí)庫是對領(lǐng)域知識(shí)單元進(jìn)行管理、存儲(chǔ)和關(guān)聯(lián)利用的有效工具,是發(fā)揮語義出版價(jià)值的主要發(fā)力點(diǎn),是專業(yè)出版機(jī)構(gòu)開展語義出版服務(wù)的基礎(chǔ)性工程。因此,本文通過描述領(lǐng)域知識(shí)庫的構(gòu)建元素及其關(guān)聯(lián)關(guān)系,構(gòu)建適用于出版業(yè)的資源語義網(wǎng)絡(luò),并提出兩種基于領(lǐng)域知識(shí)庫的語義出版形態(tài),以期為我國語義出版領(lǐng)域知識(shí)庫構(gòu)建及應(yīng)用提供借鑒。

      2 領(lǐng)域知識(shí)庫構(gòu)建:適用于語義出版的資源網(wǎng)絡(luò)框架

      在傳統(tǒng)出版機(jī)構(gòu)特別是專業(yè)出版機(jī)構(gòu)數(shù)字化轉(zhuǎn)型升級過程中,領(lǐng)域知識(shí)庫構(gòu)建是發(fā)揮已有內(nèi)容資源優(yōu)勢、實(shí)現(xiàn)語義內(nèi)容開發(fā)、開拓知識(shí)服務(wù)范圍的可行路徑。通過對原始內(nèi)容資源進(jìn)行知識(shí)單元的精細(xì)化抽取、標(biāo)識(shí)和分類,并以機(jī)器可理解、可處理的方式來表示,進(jìn)而根據(jù)語義關(guān)系構(gòu)建多維知識(shí)網(wǎng)絡(luò),可以探索語義出版服務(wù)新形態(tài)。因此,下文主要從內(nèi)容組織視角入手,識(shí)別知識(shí)單元并揭示其間的關(guān)聯(lián)關(guān)系,構(gòu)建適用于語義出版形態(tài)的資源網(wǎng)絡(luò)框架。

      2.1 基于知識(shí)單元識(shí)別的資源模塊

      知識(shí)單元是指客觀知識(shí)系統(tǒng)中有實(shí)際意義的基本單位,如一個(gè)明確的語詞概念、具體觀點(diǎn)、科學(xué)定理、數(shù)學(xué)公式等;數(shù)字內(nèi)容中每一個(gè)層次的信息都可以作為具體的知識(shí)單元被解析、被描述、被重組[12][13]。知識(shí)單元的識(shí)別是開展語義出版內(nèi)容服務(wù)的基礎(chǔ),有助于后端借助知識(shí)單元的語義邏輯關(guān)系構(gòu)建知識(shí)網(wǎng)絡(luò)。領(lǐng)域知識(shí)庫的知識(shí)單元不僅蘊(yùn)含于圖書、期刊、報(bào)紙、音頻、視頻等傳統(tǒng)文獻(xiàn)和載體中,也存在于開放出版、數(shù)據(jù)倉儲(chǔ)[14][15]、社交網(wǎng)絡(luò)等新型科學(xué)交流與出版平臺(tái)。此外,領(lǐng)域知識(shí)庫往往圍繞某一知識(shí)主題形成對知識(shí)單元的有效識(shí)別和有序集成,以快速構(gòu)建面向某一主題、結(jié)構(gòu)完整的知識(shí)體系。例如,圍繞某一農(nóng)作物對象,關(guān)聯(lián)該農(nóng)作物的分布地圖、相關(guān)統(tǒng)計(jì)數(shù)據(jù)、科學(xué)研究產(chǎn)出、維基百科事實(shí)、世界銀行數(shù)據(jù)、瀕危生物數(shù)據(jù)等;采用Mesh語義本體集中某一藥物的臨床試驗(yàn)數(shù)據(jù)、正式發(fā)布的藥物數(shù)據(jù)、副作用記錄、使用報(bào)道等,知識(shí)單元的表現(xiàn)形態(tài)則涵蓋數(shù)據(jù)、文檔、網(wǎng)絡(luò)鏈接、圖片、軟件、項(xiàng)目、出版物、研究活動(dòng)、新聞等[16]。

      綜合新型科學(xué)交流環(huán)境下知識(shí)單元的產(chǎn)生渠道、外部出版特征和內(nèi)容資源內(nèi)涵,梳理適用于語義出版的關(guān)聯(lián)要素,領(lǐng)域知識(shí)庫知識(shí)單元可分5個(gè)模塊進(jìn)行識(shí)別和集成,如圖1所示:(1)出版載體與文獻(xiàn)類型模塊,如圍繞某一知識(shí)主題的期刊論文、學(xué)位論文、科技報(bào)告、標(biāo)準(zhǔn)、圖書等,有利于跨出版物載體提供主題服務(wù)。(2)母體要素模塊,如期刊名稱、會(huì)議名稱、作者、發(fā)表機(jī)構(gòu)、關(guān)鍵詞、基金項(xiàng)目、發(fā)表時(shí)間、參考文獻(xiàn)等書目元素,有利于梳理知識(shí)主題的研究熱點(diǎn)與發(fā)展趨勢,及時(shí)展現(xiàn)某一學(xué)科領(lǐng)域中信息吸收與知識(shí)擴(kuò)散的發(fā)展演變。(3)科學(xué)陳述模塊,是指經(jīng)過自然語言處理,由文獻(xiàn)自動(dòng)抽取的觀點(diǎn)、理論、原理、指標(biāo)和方法等,有利于根據(jù)規(guī)則對上述要素的權(quán)威性、影響力和前沿性進(jìn)行評價(jià)和篩選,形成基于科學(xué)陳述要素的自動(dòng)綜述等。(4)知識(shí)形態(tài)模塊,即從文獻(xiàn)內(nèi)部提取的軟件、工具、公式、視頻、表格、圖片、數(shù)據(jù)集等具有獨(dú)立表現(xiàn)形態(tài)的知識(shí)單元。(5)外部關(guān)聯(lián)模塊,是對原有文獻(xiàn)內(nèi)容的語義化、交互式、概念性擴(kuò)展,如DBpedia、SemSur [17]、漢語主題詞表等知識(shí)組織工具,權(quán)威機(jī)構(gòu)發(fā)布的財(cái)經(jīng)數(shù)據(jù)、地理數(shù)據(jù)、生物數(shù)據(jù)等,或是某一知識(shí)主題的專業(yè)軟件、專家釋義、典型案例和新聞等知識(shí)對象。這有利于在服務(wù)層結(jié)構(gòu)化展示主題與體系內(nèi)上下位類目、相關(guān)類目的關(guān)系,以及向用戶立體化地展現(xiàn)可交互的三維圖像數(shù)據(jù)。

      值得注意的是,知識(shí)單元有可分解與不可分解兩類;也有學(xué)者將不可分解的知識(shí)單元稱之為“知識(shí)元”[18],它在分類和索引實(shí)踐中極為有用。上述知識(shí)單元中的概念、理論、圖表、數(shù)據(jù)等,也隸屬于知識(shí)元的概念范疇。因此,語義出版應(yīng)側(cè)重于知識(shí)元釋義和知識(shí)元關(guān)系建設(shè),強(qiáng)化對文章、篇、章、節(jié)、段落等獨(dú)立、完整的文字內(nèi)容進(jìn)行的碎片化加工、標(biāo)引標(biāo)注、主題詞創(chuàng)建等技術(shù)處理,完善知識(shí)元修改、標(biāo)引、超鏈、備注、標(biāo)簽等流程環(huán)節(jié)的專業(yè)編輯,提升面向多元應(yīng)用場景的圖標(biāo)、公式、表格矢量化處理的專業(yè)能力。

      2.2 基于關(guān)聯(lián)揭示的知識(shí)單元網(wǎng)絡(luò)

      語義出版中的領(lǐng)域知識(shí)庫,可大致從書目關(guān)聯(lián)關(guān)系、概念關(guān)聯(lián)關(guān)系、引證關(guān)聯(lián)關(guān)系、論證關(guān)聯(lián)關(guān)系、科研本體關(guān)聯(lián)關(guān)系5個(gè)維度加以構(gòu)建。結(jié)果既可包括知識(shí)主題本身的結(jié)構(gòu)屬性,也能涵蓋時(shí)間序列下的知識(shí)主題演進(jìn)網(wǎng)絡(luò),此外還涉及知識(shí)主題與其他相關(guān)資源的關(guān)聯(lián)關(guān)系。

      (1)書目關(guān)聯(lián)關(guān)系。書目是以“記錄”為單位,由描述書目實(shí)體內(nèi)容與形式特征的各項(xiàng)書目元素及其數(shù)據(jù)組成。書目元素包括題名、責(zé)任者、出版社、出版日期、版本、ISBN、主題/關(guān)鍵詞、格式、標(biāo)識(shí)符、權(quán)限、語種等。書目關(guān)聯(lián)關(guān)系可從兩方面加以揭示:一是書目實(shí)體與書目實(shí)體的關(guān)聯(lián)關(guān)系,如等同、修訂、改編、翻譯、描述、整體與部分、附屬、連續(xù)等;二是書目實(shí)體與其書目元素的關(guān)聯(lián)關(guān)系,通過對書目實(shí)體的元素值進(jìn)行識(shí)別、提取和對比,以都柏林核心(Dublin Core,DC)元數(shù)據(jù)描述方式可發(fā)現(xiàn)實(shí)體間的潛在書目關(guān)聯(lián)關(guān)系。如圖2所示,Resource1(資源1)和Resource3(資源3)可通過DC元數(shù)據(jù)元素creator(創(chuàng)建者)的屬性值構(gòu)建書目關(guān)聯(lián)關(guān)系,Resource1(資源1)和Resource2(資源2)可通過DC元數(shù)據(jù)元素language(語種)的屬性值構(gòu)建書目關(guān)聯(lián)關(guān)系。

      (2)概念關(guān)聯(lián)關(guān)系。同一概念可以有多種表達(dá)形式,而這些表達(dá)形式又可以被劃分為人們公認(rèn)的、能夠代表概念的優(yōu)先術(shù)語(也可稱為優(yōu)選詞、敘詞)和若干個(gè)非優(yōu)先術(shù)語(也可稱為非優(yōu)選詞)。如“馬鈴薯”即為優(yōu)先術(shù)語,與其對應(yīng)的非優(yōu)先術(shù)語包括“土豆”“洋芋”等。概念關(guān)聯(lián)關(guān)系可以把不同詞語表述的完全相同或相近主題的文獻(xiàn)信息聚集在一個(gè)信息集合之內(nèi),有利于概念的集成存儲(chǔ)、關(guān)聯(lián)與發(fā)布。具體來看,可包括以下3種關(guān)系:一是基于術(shù)語結(jié)構(gòu)的語義關(guān)系,即基于概念關(guān)系類型實(shí)現(xiàn)內(nèi)容資源的語義表達(dá),主要包括等同關(guān)系、等級關(guān)系和相關(guān)關(guān)系。二是基于術(shù)語映射關(guān)聯(lián)的語義關(guān)系,即通過映射揭示基于不同知識(shí)組織體系描述的內(nèi)容資源之間的語義關(guān)聯(lián)關(guān)系。如兩個(gè)術(shù)語含義完全相同的精確等同,目標(biāo)概念是源概念上位詞的向上等同,含義基本相同或只有部分相同的近義等同,以及與某一概念雖既不具有同義或準(zhǔn)同義關(guān)系,亦不具有向上匹配與向下匹配關(guān)系,但在語義上或使用中與其有密切聯(lián)系的相關(guān)等同。三是基于術(shù)語分類關(guān)聯(lián)的語義關(guān)系,即依據(jù)學(xué)科、主題、詞性等分類描述,從不同語義層次揭示術(shù)語的語義關(guān)聯(lián)關(guān)系。

      (3)引證關(guān)聯(lián)關(guān)系。主要指以引文鏈接為基礎(chǔ),通過人工規(guī)范、自動(dòng)規(guī)范和數(shù)字對象標(biāo)識(shí)符(Digital Object Identifier,DOI)關(guān)聯(lián),形成作者、機(jī)構(gòu)、基金和引文題名等信息對象的關(guān)系聚合,以識(shí)別核心學(xué)術(shù)主體、揭示科學(xué)結(jié)構(gòu)、描繪科學(xué)發(fā)展歷程。具體而言,可劃分為4種語義關(guān)系類型:一是耦合關(guān)系聚合,通過文獻(xiàn)耦合來客觀測度文獻(xiàn)的相關(guān)性;二是引證路徑聚合,通過引證關(guān)系網(wǎng)絡(luò)圖來量化文獻(xiàn)的相似性;三是引證強(qiáng)度聚合,通過引證關(guān)系的強(qiáng)度計(jì)算文獻(xiàn)之間的相關(guān)性;四是引證擴(kuò)展聚合,文獻(xiàn)的引證關(guān)系可擴(kuò)展至作者、機(jī)構(gòu)等科研實(shí)體的相互引證,這樣能夠揭示科研實(shí)體之間的相關(guān)性。

      (4)論證關(guān)聯(lián)關(guān)系。論證的基礎(chǔ),即為論點(diǎn)和論據(jù)。論證關(guān)聯(lián)關(guān)系,是基于邏輯衍推的關(guān)系構(gòu)建過程??筛鶕?jù)邏輯學(xué)的一般原理,在自然語言處理的基礎(chǔ)上提取特定情境下的論點(diǎn)和論據(jù)(claim-evidence-context)[19],形成智能化、自動(dòng)化語義推理框架,以用于后期在內(nèi)容層面構(gòu)建具有某種邏輯關(guān)系的語義出版服務(wù)產(chǎn)品。例如,根據(jù)科學(xué)文獻(xiàn)自身的論證結(jié)構(gòu)形成自動(dòng)文摘;根據(jù)科學(xué)文獻(xiàn)描述內(nèi)容的因果關(guān)系形成如“癥狀-疾病”語義推理產(chǎn)品;根據(jù)某一主題和論證本體動(dòng)態(tài)形成基于該主題的智能綜述。其中,科學(xué)論文的論據(jù)覆蓋范圍較為廣泛,既包括數(shù)據(jù)、圖片、表格、公式、情境,又包括本體、工具、軟件代碼等,以及理論、原理、方法(試驗(yàn)方法、調(diào)查方法、數(shù)據(jù)分析方法等)或技術(shù)。由此,本研究的論據(jù)可以被定義為:凡是對論點(diǎn)和結(jié)論具有支撐作用的客觀事物均可作為論據(jù)加以使用;事物單位涵蓋篇章、段落、詞句及其蘊(yùn)含的知識(shí)單元。在關(guān)聯(lián)關(guān)系表現(xiàn)方面,需依據(jù)論點(diǎn)、論據(jù)和論證構(gòu)建語義邏輯。其中,科學(xué)論文的觀點(diǎn)或結(jié)論可以直接被視為論點(diǎn)。支撐論點(diǎn)的論據(jù)應(yīng)是根據(jù)邏輯關(guān)系(如“時(shí)間、目的、原因”等關(guān)系明顯的主謂賓詞對關(guān)系),從出版內(nèi)容資源直接抽取的知識(shí)單元或知識(shí)片段,主要包括理論論據(jù)(如定理、公式)和事實(shí)論據(jù)(如具體事實(shí)、概括事實(shí)和數(shù)字/數(shù)據(jù)集),具體對象可參照上述論據(jù)的覆蓋范圍。同時(shí),在支撐論點(diǎn)、組織論據(jù)的論證過程中,可以優(yōu)先選擇以歸納法和比較法的形式系統(tǒng)羅列論據(jù)的論證結(jié)構(gòu)。歸納法以案例集、自動(dòng)文摘等例證或概括的形式有序化地羅列知識(shí)單元;比較法則對知識(shí)單元的差異性進(jìn)行對比和類比。例如,對某一觀點(diǎn)的引用就可采用對比法,從正面引用和負(fù)面引用兩個(gè)方面全面揭示對某一觀點(diǎn)的統(tǒng)一或多方對立認(rèn)知。

      (5)科研本體關(guān)聯(lián)關(guān)系。通過對科研項(xiàng)目、科研人員、科研機(jī)構(gòu)、科研活動(dòng)和科研成果5大科研對象進(jìn)行本體化語義關(guān)系描述,全面、系統(tǒng)地反映科研本體的屬性與關(guān)系。首先,對規(guī)?;目蒲袑ο髷?shù)據(jù)集進(jìn)行采集、匹配、歸一,將同一科研對象的相關(guān)屬性信息和所有名稱形式進(jìn)行關(guān)聯(lián),以形成確保唯一性和穩(wěn)定性的規(guī)范文檔,從而實(shí)現(xiàn)科研對象的有序集成。其次,根據(jù)科研本體層級關(guān)系、組織結(jié)構(gòu)和屬性特征,對科研對象進(jìn)行語義推理和可視化展示。如借助等級層次分明的科研本體分析和計(jì)算科研對象之間關(guān)聯(lián)關(guān)系的強(qiáng)弱程度,以便為后期語義出版服務(wù)提供強(qiáng)關(guān)聯(lián)的科研實(shí)體推薦功能。以科研機(jī)構(gòu)關(guān)聯(lián)關(guān)系為例,可分為基于科研機(jī)構(gòu)內(nèi)部關(guān)聯(lián)的語義關(guān)系和基于機(jī)構(gòu)外部關(guān)聯(lián)的語義關(guān)系。前者指某一機(jī)構(gòu)實(shí)體自身產(chǎn)生的關(guān)聯(lián)關(guān)系如用代關(guān)聯(lián)、參照關(guān)聯(lián)、屬分關(guān)聯(lián)等,包括單一機(jī)構(gòu)實(shí)體各個(gè)名稱之間的關(guān)聯(lián)關(guān)系和機(jī)構(gòu)整體與其內(nèi)在各部門的上下級關(guān)系。后者指多個(gè)機(jī)構(gòu)實(shí)體通過某種共性或者活動(dòng)而產(chǎn)生的關(guān)聯(lián)關(guān)系,如地域關(guān)聯(lián)、行業(yè)關(guān)聯(lián)、學(xué)科關(guān)聯(lián)、合作關(guān)聯(lián)、從屬關(guān)聯(lián)等。為揭示科研機(jī)構(gòu)關(guān)聯(lián)關(guān)系,需要描述科研機(jī)構(gòu)的屬性特征。這主要包括機(jī)構(gòu)唯一標(biāo)識(shí)符、規(guī)范名稱、交替名稱、所屬行業(yè)、學(xué)科主題等。

      3 基于領(lǐng)域知識(shí)庫的語義出版形態(tài)

      依據(jù)知識(shí)單元識(shí)別及其關(guān)聯(lián)關(guān)系構(gòu)建的差異,語義出版形態(tài)既可以是一種基于知識(shí)主題本體的出版資源知識(shí)體系集成揭示模型,又可以是一種面向評價(jià)和推理的知識(shí)主題出版資源自動(dòng)化發(fā)布平臺(tái)。它的功能特征可包括發(fā)掘并豐富文獻(xiàn)內(nèi)部的知識(shí)內(nèi)涵和表現(xiàn)形式,提供可供網(wǎng)絡(luò)自動(dòng)發(fā)現(xiàn)的外部顯示數(shù)據(jù)、可自動(dòng)鏈接與之相關(guān)的篇級文獻(xiàn)、數(shù)據(jù)等材料,支持訪問、可操作和結(jié)果再現(xiàn),以及面向科學(xué)計(jì)量的知識(shí)圖譜構(gòu)建和科研實(shí)體評價(jià)等。

      3.1 面向集成揭示的語義出版形態(tài)

      面向集成揭示的語義出版形態(tài),以領(lǐng)域知識(shí)主題挖掘?yàn)楹诵?,由文獻(xiàn)結(jié)構(gòu)、篇章、段落、詞句、圖表、引文、公式等構(gòu)成復(fù)合數(shù)字對象,突破文獻(xiàn)類型的界限,實(shí)現(xiàn)知識(shí)聚合、知識(shí)演化、科研關(guān)系展示和學(xué)術(shù)評價(jià)等功能。它不僅能夠滿足語義檢索需求,還能高效地為用戶提供觀點(diǎn)提煉和語義網(wǎng)絡(luò)節(jié)點(diǎn)評價(jià)等服務(wù)能力。

      當(dāng)前,出版機(jī)構(gòu)可圍繞自身優(yōu)質(zhì)出版資源和優(yōu)勢出版資源,從建設(shè)經(jīng)典閱讀、精品閱讀語義出版服務(wù)投送平臺(tái)入手,圍繞某一主題或知識(shí)點(diǎn)實(shí)現(xiàn)文獻(xiàn)整合及其所蘊(yùn)含知識(shí)單元要素的動(dòng)態(tài)重組,形成如圖書集成、文本綜述、主題監(jiān)測和追蹤等知識(shí)網(wǎng)絡(luò)產(chǎn)品。為此,本文設(shè)計(jì)了物理學(xué)語義出版服務(wù)平臺(tái)中知識(shí)主題集成揭示系統(tǒng)的相關(guān)功能,如圖3所示。

      其中,圖書集成服務(wù)是指以書目關(guān)聯(lián)關(guān)系為核心,通過詞條檢索功能,運(yùn)用語義搜索技術(shù)將傳統(tǒng)關(guān)鍵詞匹配檢索提升至規(guī)范詞、篇章、語用、邏輯等語義檢索層次。它運(yùn)用語義碎片化技術(shù),識(shí)別和提取出版內(nèi)容資源的結(jié)構(gòu)化信息碎片,根據(jù)用戶或者行業(yè)需求特征,將圖書、文本、多媒體資源等進(jìn)行個(gè)性化整合及專題服務(wù),從而以百科閱讀、主題閱讀等形式對外呈現(xiàn),實(shí)現(xiàn)對多載體檢索內(nèi)容的按需聚合。自動(dòng)綜述服務(wù)是指以概念關(guān)聯(lián)關(guān)系和引證關(guān)聯(lián)關(guān)系為核心,形成如簡介、理化性質(zhì)、制備方法、分類與應(yīng)用、發(fā)展前景等主題對象知識(shí)集合。它支持文本過濾與內(nèi)容對比分析功能;支持用戶自定義語義出版服務(wù)的內(nèi)容組織結(jié)構(gòu);支持高被引文獻(xiàn)的核心觀點(diǎn)/概念展示;支持多媒體資源、結(jié)構(gòu)化公式的有機(jī)融合;支持不同知識(shí)元之間的關(guān)聯(lián)與跳轉(zhuǎn)。主題監(jiān)測服務(wù)是指以科研本體關(guān)聯(lián)關(guān)系為核心的學(xué)術(shù)主體評價(jià)服務(wù)。該服務(wù)可圍繞知識(shí)主題,對相關(guān)機(jī)構(gòu)、作者、項(xiàng)目和管理決策進(jìn)行數(shù)據(jù)處理和信息運(yùn)算,實(shí)現(xiàn)立體化的實(shí)體計(jì)量和對某個(gè)知識(shí)單元的有效評價(jià),凸顯某學(xué)科領(lǐng)域的核心或潛在作者、機(jī)構(gòu)、期刊、會(huì)議、項(xiàng)目等知識(shí)要素及其相關(guān)關(guān)系,動(dòng)態(tài)展示學(xué)科發(fā)展現(xiàn)狀與趨勢。

      3.2 面向智能推理的語義出版形態(tài)

      面向智能推理的語義出版形態(tài),是指在碎片化、結(jié)構(gòu)化、語義化的底層數(shù)據(jù)基礎(chǔ)上,根據(jù)用戶設(shè)置的問題,運(yùn)用自然語言處理技術(shù)、可視化技術(shù)、人工智能技術(shù)等,借助前期預(yù)設(shè)的推理機(jī)制在底層數(shù)據(jù)中尋找符合條件的內(nèi)容資源,以可視化、體系化的形式為用戶提供面向問題的自動(dòng)問答解決方案,滿足用戶的知識(shí)需求。具體展現(xiàn)方式可以是基于知識(shí)單元的自動(dòng)問答;也可以是預(yù)測研究模式與規(guī)律的自動(dòng)系統(tǒng),如針對某一問題如何開展實(shí)驗(yàn)、相關(guān)步驟有哪些、所需設(shè)備型號、實(shí)驗(yàn)數(shù)據(jù)庫建設(shè)框架等;還可以是輔助疾病診斷的治療措施推薦,等等。

      需要注意的是,面向智能推理的語義出版服務(wù),需要在提供解決方案的同時(shí),特別標(biāo)明產(chǎn)生方案的出版來源和鏈接來源,以說明方案的真實(shí)性和科學(xué)性。以基于電腦醫(yī)學(xué)專家系統(tǒng)的語義出版服務(wù)為例,可由一個(gè)醫(yī)學(xué)領(lǐng)域知識(shí)庫、數(shù)據(jù)庫、推理庫、解釋機(jī)制以及知識(shí)獲取5部分構(gòu)成。它要求能夠準(zhǔn)確地模擬醫(yī)學(xué)專家的記憶、聯(lián)想、推理以及判斷等思維過程,即讓電腦模擬醫(yī)學(xué)專家診治各類疾病的思想和思路,讓其起到醫(yī)學(xué)專家的作用,以隨時(shí)隨地地為廣大用戶診斷各種疾病并開出相應(yīng)藥方。其中,醫(yī)學(xué)領(lǐng)域知識(shí)庫是將專家的專業(yè)知識(shí)和經(jīng)驗(yàn)存儲(chǔ)在其中,通過建立疾病診斷樹而實(shí)現(xiàn);數(shù)據(jù)庫存放該系統(tǒng)處理對象的初始信息(包括患者姓名、年齡、癥狀、診斷結(jié)果、病情程度以及治療方案等);推理機(jī)是一組程序,根據(jù)輸入的數(shù)據(jù)(如患者的病史、癥狀與檢查結(jié)果)調(diào)用知識(shí)庫的知識(shí),進(jìn)行各種方式的推理;解釋機(jī)制以規(guī)則隊(duì)列方式記錄推理軌跡,對這種物理形式的規(guī)則進(jìn)行分析,并將分析結(jié)果用中文予以表述;知識(shí)獲取部分,會(huì)幫助修改知識(shí)庫中原有不合理的知識(shí)和擴(kuò)充新知識(shí)。

      目前,出版機(jī)構(gòu)可以根據(jù)在某一行業(yè)領(lǐng)域的專業(yè)優(yōu)勢,研發(fā)、打造行業(yè)針對性強(qiáng)、用戶需求度高的語義出版服務(wù)產(chǎn)品,將專業(yè)出版內(nèi)容資源與現(xiàn)代信息技術(shù)相融合,提供面向金融決策的語義出版平臺(tái)、面向醫(yī)學(xué)診療的語義出版平臺(tái)等。為此,本文以農(nóng)業(yè)領(lǐng)域語義出版服務(wù)平臺(tái)為例,以概念關(guān)聯(lián)關(guān)系和論證關(guān)聯(lián)關(guān)系為核心設(shè)計(jì)農(nóng)作物病害診斷系統(tǒng),著重從物種屬性關(guān)系、整體與部分關(guān)系、癥狀與處方關(guān)系、因果關(guān)系4個(gè)方面構(gòu)建語義網(wǎng)絡(luò)架構(gòu),系統(tǒng)可通過用戶選擇的病害發(fā)生時(shí)間、病害發(fā)生位置、癥狀和相似性圖片推薦等碎片化信息,智能化、自動(dòng)化推理水稻病害名稱,并同時(shí)提供病害簡介、癥狀識(shí)別方法、發(fā)生規(guī)律和防治方法等語義關(guān)聯(lián)內(nèi)容,具體如圖4所示。

      4 結(jié)論與展望

      互聯(lián)網(wǎng)、數(shù)字技術(shù)、語義技術(shù)等已經(jīng)深入出版業(yè)數(shù)字轉(zhuǎn)型工作中,出版產(chǎn)品的構(gòu)成、內(nèi)容模式和載體形態(tài)等也在發(fā)生深刻變化,基于用戶需求創(chuàng)造高效、精準(zhǔn)的基于語義的閱讀體驗(yàn)逐漸成為新興趨勢[20]。領(lǐng)域知識(shí)庫構(gòu)建是開展語義出版服務(wù)的前端環(huán)節(jié),是在深度開發(fā)已有出版內(nèi)容資源的基礎(chǔ)上,借助多元關(guān)聯(lián)關(guān)系將不同的知識(shí)單元對象有序分類和多維集成。同時(shí),面向集成揭示和智能推理的語義出版形態(tài),是基于領(lǐng)域知識(shí)庫的數(shù)字出版語義服務(wù)形式,能夠?qū)崿F(xiàn)圍繞某一主題的知識(shí)體系全方位展示以及基于用戶知識(shí)需求的自動(dòng)解答。

      其中,領(lǐng)域知識(shí)庫開發(fā)是完善知識(shí)單元識(shí)別和關(guān)系揭示、構(gòu)建知識(shí)體系結(jié)構(gòu)、優(yōu)化語義出版形態(tài)的基礎(chǔ)建設(shè)工作,具體可采用以下方式進(jìn)行:一是應(yīng)用“眾包”模式,探索“分布建設(shè)、集成應(yīng)用”的領(lǐng)域知識(shí)庫發(fā)展新模式。所謂“眾包”模式,是指部分專業(yè)出版機(jī)構(gòu)按照服務(wù)領(lǐng)域既分工、又聯(lián)合地開展專業(yè)數(shù)字內(nèi)容資源知識(shí)庫建設(shè)的模式。各個(gè)出版機(jī)構(gòu)須依據(jù)內(nèi)容資源的相關(guān)規(guī)律和特征,研制數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn),開展語義分析和知識(shí)挖掘,設(shè)計(jì)知識(shí)庫功能并構(gòu)建相應(yīng)層級等。一家獨(dú)大的局面并不適合當(dāng)下國內(nèi)語義出版發(fā)展,因其更需要發(fā)揮中小出版機(jī)構(gòu)的多方優(yōu)勢,探索多方分散型出版資源的數(shù)據(jù)加工和集群管理模式。對于中小型出版機(jī)構(gòu)而言,采用“眾包”模式是參與語義出版建設(shè)、降低轉(zhuǎn)型升級風(fēng)險(xiǎn)、挖掘優(yōu)勢資源價(jià)值的重要舉措。只有這樣,才能夠充分保留出版內(nèi)容資源的“延展性”權(quán)利,即出版機(jī)構(gòu)具有先占權(quán),一旦內(nèi)容資源或領(lǐng)域知識(shí)庫被利用而產(chǎn)生商業(yè)價(jià)值,出版機(jī)構(gòu)都能從中分取相應(yīng)利益。由此,基于“眾包”模式的領(lǐng)域知識(shí)庫建設(shè)能夠創(chuàng)建出有特色、專業(yè)性強(qiáng)的本地化知識(shí)庫,并在此基礎(chǔ)上由大型出版機(jī)構(gòu)為主導(dǎo),開發(fā)領(lǐng)域知識(shí)庫集成與服務(wù)平臺(tái)。二是推動(dòng)已有開放知識(shí)組織體系的共享利用,擴(kuò)充領(lǐng)域本體的知識(shí)架構(gòu)。知識(shí)組織體系具有范疇分類、概念關(guān)聯(lián)、定義注釋等功能,可以有效地輔助領(lǐng)域本體的構(gòu)建。20世紀(jì)80年代以來,我國已編制出版多個(gè)大型綜合性或?qū)I(yè)性知識(shí)組織體系。其中,敘詞表是重要組成部分。目前,有代表性的綜合性敘詞表如《漢語主題詞表》《中國分類主題詞表》等,2000年以來專業(yè)性敘詞表有《中國中醫(yī)藥學(xué)主題詞表》《海軍主題詞表》《地質(zhì)學(xué)漢語敘詞表》《電力主題詞表》《測繪學(xué)敘詞表》等。可見,現(xiàn)有的知識(shí)組織體系成果較為豐碩,涉及專業(yè)領(lǐng)域較多,并且已逐漸呈現(xiàn)網(wǎng)絡(luò)化、數(shù)字化、開放化的應(yīng)用特征。出版業(yè)可引入這些開放的知識(shí)組織體系,將之用于切詞、信息抽取、聚類、詞頻統(tǒng)計(jì)等文本信息處理流程,使之與出版內(nèi)容資源或其他相關(guān)資源互聯(lián)互通,以服務(wù)于領(lǐng)域知識(shí)庫構(gòu)建過程中的計(jì)算語言學(xué)應(yīng)用;可以建立領(lǐng)域知識(shí)庫自動(dòng)分類系統(tǒng),實(shí)現(xiàn)對海量內(nèi)容資源進(jìn)行自動(dòng)標(biāo)注、知識(shí)關(guān)聯(lián)、知識(shí)組織、知識(shí)揭示等服務(wù)功能;可以通過詞族知識(shí)概念體系,推進(jìn)“分類(類目詞)-主題詞-關(guān)鍵詞”的主題分類一體化應(yīng)用,達(dá)到領(lǐng)域知識(shí)庫內(nèi)學(xué)科導(dǎo)航的服務(wù)目的;從自身本質(zhì)就屬于知識(shí)本體的意義上來說,還可進(jìn)行智能推理、語義聚類和跨語言檢索的服務(wù)項(xiàng)目。

      當(dāng)前,我國出版業(yè)正朝向技術(shù)、知識(shí)、服務(wù)密集型的方向加快發(fā)展,出版機(jī)構(gòu)的集團(tuán)化結(jié)構(gòu)調(diào)整也提升了出版內(nèi)容資源的整合規(guī)模,拓展了語義出版的資源基礎(chǔ),而語義出版的服務(wù)形態(tài)和應(yīng)用場景仍處于檢驗(yàn)階段。下一步研究方向,將在明確用戶需求的基礎(chǔ)上,面向科研全生命周期,提出強(qiáng)調(diào)以傳統(tǒng)出版物內(nèi)容資源為核心,通過海量數(shù)字資源的組織、關(guān)聯(lián)、聚合、評價(jià)和推薦,開展實(shí)現(xiàn)精準(zhǔn)服務(wù)的語義出版形態(tài)研究。

      注 釋

      [1] 孫坦.數(shù)字出版與數(shù)字圖書館:面向語義知識(shí)服務(wù)的融合歸一[EB/OL]. [2019-12-17]. https://max.book118.com/html/2016/0811/51067082.shtm

      [2] 許鑫,江燕青,翟姍姍.面向語義出版的學(xué)術(shù)期刊數(shù)字資源聚合研究[J].圖書情報(bào)工作,2016,60(17):122-129

      [3] 朱琳峰,李楠.學(xué)術(shù)期刊數(shù)字出版內(nèi)容增強(qiáng)模式探索[J].編輯學(xué)報(bào),2019,31(4):421-423,427

      [4] 王曉光,宋寧遠(yuǎn).語義出版物的內(nèi)容組織架構(gòu)研究:基于納米出版物和微型出版物的比較分析[J].出版科學(xué),2017,25(4):20-27

      [5] 王莉莉,欒冠楠.英國廣播公司(BBC)動(dòng)態(tài)語義出版模式研究[J].圖書情報(bào)工作,2017,61(8): 126-132

      [6] Senderov V, Simov K, Franz N,et al. OpenBiodiv-O: ontology of the OpenBiodiv knowledge management system[J]. Journal of Biomedical Semantics, 2018(9):5,11

      [7] 徐雷,潘珺.科學(xué)出版物語義數(shù)據(jù)及其應(yīng)用研究[J].中國科技期刊研究,2018,29(7): 704-710

      [8] 蘇靜.面向科學(xué)交流的語義出版體系建設(shè)研究[J].數(shù)字圖書館論壇,2018(11):58-64

      [9] Angrosh M A, Cranefield S, Stanger N. Contextual information retrieval in research articles: Semantic publishing tools for the research community[J]. Semantic Web, 2014, 5(4): 261-293

      [10] 樂小虬,王子璇,張曉林,等. DPaper:一種面向語義出版的結(jié)構(gòu)化論文寫作工具設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2016(11):76-81

      [11] Peroni S. Automating semantic publishing [J]. Data Science,2017(1):155-173

      [12]彭希珺,張曉林.國際學(xué)術(shù)期刊的數(shù)字化發(fā)展趨勢[J].中國科技期刊研究,2013,24(6): 1033-1038

      [13]王子舟,王碧瀅.知識(shí)的基本組分:文獻(xiàn)單元和知識(shí)單元[J].中國圖書館學(xué)報(bào),2003, 29(143):5-11

      [14] 關(guān)聯(lián)數(shù)據(jù)云(LOD Cloud) [EB/OL].[2019-12-17]. https://lod-cloud.net/#about

      [15] Dryad[EB/OL]. [2019-12-17].https://datadryad.org/stash/our_mission

      [16] Ettorre M, Pontieri P, Ruffolo M, et al. A prototypal environment for collaborative work within a research organization[C]// International Workshop on Database and Expert Systems Applications,2003:274-279

      [17] Fathalla S, Vahdati S, Auer S, et al. SemSur: A Core Ontology for the Semantic Representation of Research Findings[J]. Procedia Computer Science, 2018, 137:151-162

      [18] 溫有奎.基于“知識(shí)元”的知識(shí)組織與檢索[J].計(jì)算機(jī)工程與應(yīng)用,2005,41(1):55-57,91

      [19] Ciccarese P, Ocana M, Clark T. Open semantic annotation of scientific publications using DOMEO[J]. Journal of Biomedical Semantics, 2012, 3(1):1-14

      [20] 徐麗芳,叢挺.數(shù)據(jù)密集、語義、可視化與互動(dòng)出版:全球科技出版發(fā)展趨勢研究[J].出版科學(xué),2012,20(4):73-80

      (收稿日期:2020-03-17)

      猜你喜歡
      數(shù)字出版
      數(shù)字出版授權(quán)的“結(jié)”與“解”
      傳承、變革與國際合作
      教輔出版在數(shù)字出版環(huán)境下的轉(zhuǎn)型發(fā)展
      我國傳統(tǒng)出版在數(shù)字出版沖擊下的生存與發(fā)展
      國外開放獲取平臺(tái)對我國科技期刊OA發(fā)展的啟示
      數(shù)字出版的著作權(quán)保護(hù)問題研究
      學(xué)術(shù)期刊數(shù)字出版的運(yùn)行模式與市場結(jié)構(gòu)
      淺談新媒體在美術(shù)類圖書出版中的應(yīng)用
      做一個(gè)全民閱讀時(shí)代的“悅”讀人
      國際圖書出版市場現(xiàn)狀及趨勢分析
      嘉定区| 古丈县| 闸北区| 大悟县| 仁布县| 郧西县| 澄城县| 四子王旗| 广灵县| 灌阳县| 新宾| 泽库县| 德令哈市| 清河县| 二连浩特市| 惠东县| 周至县| 黔西| 彰武县| 尚义县| 永州市| 义马市| 宜章县| 东莞市| 三穗县| 赤水市| 从江县| 贵州省| 东方市| 宜宾市| 什邡市| 钦州市| 夏津县| 东海县| 曲沃县| 永宁县| 饶阳县| 兴仁县| 上蔡县| 宁城县| 日土县|