• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于主題詞表的數(shù)字出版領(lǐng)域本體構(gòu)建

      2015-12-10 04:25司莉陳雨雪莊曉喆
      出版科學(xué) 2015年6期
      關(guān)鍵詞:主題詞表數(shù)字出版

      司莉 陳雨雪 莊曉喆

      [摘 要] 領(lǐng)域本體在知識(shí)管理和語(yǔ)義網(wǎng)中起到越來(lái)越重要的作用,本文按照從提取主題詞、概念的篩選與取舍、概念名稱(chēng)的規(guī)范化處理、概念分類(lèi)體系的調(diào)整與概念歸類(lèi)、主題詞表的編制與修訂、確定概念間的語(yǔ)義關(guān)系、領(lǐng)域本體的形式化建模等程序構(gòu)建了數(shù)字出版領(lǐng)域本體,并利用保護(hù)軟件(Prot€間€椋┩瓿篩帽咎宓男問(wèn)交涂墑踴允盡=ǔ珊蟮謀咎寰弒肝謀咀遠(yuǎn)暌⑽南仔畔⒂鏌寮燜饔肟墑踴燜鰲⑹跤鋟竦裙δ???

      [關(guān)鍵詞] 數(shù)字出版 領(lǐng)域本體 主題詞表

      [中圖分類(lèi)號(hào)] G237 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1009-5853 (2015) 06-0080-05

      The Construction of a Digital Publishing Domain Ontology Based on Thesaurus

      Si Li Chen Yuxue Zhuang Xiaozhe

      (Information Resource Research Center,Wuhan University,Wuhan,430072)(School of Information Management,Wuhan University,430072)

      [Abstracts] Domain ontology plays a more and more important role in knowledge management and semantic web.This article explores the methods and the process of building a digital publishing ontology knowledge base based on thesaurus.The extraction and selection of descriptors,the establishment and revision of thesaurus,the building of semantic relationship between concepts, and the modeling of domain ontology are discussed.The modeling and visual display of the domain ontology is realized by Prot€間€?The system can provide a series of functions,including text automatic indexing,documental informations semantic and visual retrieval,term service,etc.

      [Key words] Digital publishing Domain ontology Thesaurus

      1 引 言

      隨著出版產(chǎn)業(yè)與數(shù)字技術(shù)、信息網(wǎng)絡(luò)技術(shù)的加速融合,傳統(tǒng)出版與數(shù)字出版并重發(fā)展的格局已逐步形成,出版產(chǎn)業(yè)發(fā)展方式發(fā)生了根本轉(zhuǎn)變[1]。如何對(duì)數(shù)字出版領(lǐng)域的概念及概念間的關(guān)系進(jìn)行明晰的表達(dá)與描述,成為數(shù)字出版發(fā)展過(guò)程中面臨的重要課題,而構(gòu)建數(shù)字出版領(lǐng)域本體是解決該問(wèn)題的有效舉措。

      在表達(dá)知識(shí)結(jié)構(gòu)方面,本體和主題詞表有著與生俱來(lái)的聯(lián)系。主題詞表包含豐富的主題詞與清晰的語(yǔ)義結(jié)構(gòu),易于從中提取概念與關(guān)系,為本體的建立提供了極為便利的條件;本體使用受控詞表中的受控詞及它們之間的關(guān)系來(lái)對(duì)某一知識(shí)領(lǐng)域的信息進(jìn)行組織和正式地概念化[2]。因此,國(guó)內(nèi)外一些學(xué)術(shù)機(jī)構(gòu)和團(tuán)體都在開(kāi)展利用主題詞表建立本體的研究。美國(guó)國(guó)家癌癥研究所(National Cancer Institute,NCI)和馬里蘭大學(xué)帕克分校合作將NCI主題詞表(The NCI Th€閟aurus)轉(zhuǎn)換為一個(gè)OWL本體[3];植物本體聯(lián)盟(The Plant Ontology Consortium,POC)基于其創(chuàng)建的受控詞表構(gòu)建了植物本體(lant Ontology,POP)[4];Sun等基于農(nóng)業(yè)科學(xué)敘詞表(Agriculture Science Thesaurus,AST)建立了果樹(shù)栽培領(lǐng)域本體(Pomology Domain Ontology,PDO)[5];胡兆芹等進(jìn)行了利用漢語(yǔ)主題詞表建立領(lǐng)域本體的研究[6]。

      筆者創(chuàng)建數(shù)字出版領(lǐng)域主題詞表,以Prot€間€槲唇üぞ吖菇ㄊ殖靄媼煊蟣咎澹迪質(zhì)殖靄嫖錟諶蕕淖遠(yuǎn)暌⑻峁┯鏌寮燜鰲⒖墑踴燜骱褪跤鋟窆δ???

      2 本體構(gòu)建步驟

      數(shù)字出版領(lǐng)域本體知識(shí)庫(kù)的建設(shè)過(guò)程包括提取主題詞、概念的篩選與取舍、概念名稱(chēng)的規(guī)范化處理、本體分類(lèi)體系的調(diào)整與概念歸類(lèi)、主題詞表的編制與修訂、確定概念間的語(yǔ)義關(guān)系、領(lǐng)域本體的形式化建模等步驟。

      2.1 提取主題詞

      2.1.1 主題詞的來(lái)源

      (1)人工抽詞

      首先選取中國(guó)知網(wǎng)全文數(shù)據(jù)庫(kù)作為數(shù)據(jù)源,下載國(guó)內(nèi)數(shù)字出版領(lǐng)域研究文獻(xiàn)(含期刊論文、會(huì)議論文、學(xué)位論文、報(bào)紙、專(zhuān)利、標(biāo)準(zhǔn))的題錄信息(含題名、摘要),并從中人工抽取與數(shù)字出版相關(guān)的關(guān)鍵詞,進(jìn)行去重處理,再經(jīng)人工篩選后,得到4700余個(gè)相關(guān)概念,初步獲取了數(shù)字出版領(lǐng)域內(nèi)的重要術(shù)語(yǔ)。

      (2)文本分詞

      人工抽取的術(shù)語(yǔ)并不能完全反映領(lǐng)域知識(shí),為避免遺漏,選用中科院NLPIR/ICTCLAS漢語(yǔ)分詞系統(tǒng)(2014版)對(duì)電子工業(yè)出版社出版的《數(shù)字出版理論、技術(shù)和實(shí)踐》系列叢書(shū)中的9本專(zhuān)著進(jìn)行自動(dòng)分詞處理,進(jìn)一步提取有關(guān)術(shù)語(yǔ),而后對(duì)分詞結(jié)果作預(yù)處理:刪除所有單字詞、對(duì)剩余的語(yǔ)詞進(jìn)行去重處理。預(yù)處理后,余下的術(shù)語(yǔ)為34484個(gè)。

      2.1.2 概念的篩選與取舍

      分詞結(jié)果的準(zhǔn)確度對(duì)于領(lǐng)域本體的知識(shí)覆蓋范圍與表達(dá)能力以及文本標(biāo)引的效果均有直接影響,任何分析系統(tǒng)的結(jié)果必須經(jīng)過(guò)人工審核預(yù)處理。其具體過(guò)程如下:

      (1)通過(guò)Excel的COUNTIFS函數(shù)一次性統(tǒng)計(jì)每個(gè)概念在書(shū)中的出現(xiàn)頻次,并按頻次由低至高排列所有概念。去除出現(xiàn)頻次過(guò)低(設(shè)置閾值為3)的概念與過(guò)于泛指(通常為超高頻詞)、專(zhuān)指以及與數(shù)字出版無(wú)關(guān)的概念。

      (2)對(duì)于存有歧義、專(zhuān)業(yè)性較強(qiáng)的概念,在專(zhuān)著、研究文獻(xiàn)、網(wǎng)絡(luò)百科中查閱其含義并備注。

      (3)標(biāo)明英文縮寫(xiě)詞的英文全稱(chēng)及其對(duì)應(yīng)的中文名稱(chēng)。

      全面瀏覽專(zhuān)著內(nèi)容,訂正分詞時(shí)切分出錯(cuò)的概念,同時(shí)補(bǔ)充遺漏的重要概念。最后共留存概念480余個(gè)。

      此外,對(duì)人工抽詞獲取的近5000個(gè)概念進(jìn)行了多輪篩選,具體工作大致同上,共保留概念700余個(gè)。將兩部分概念進(jìn)行比對(duì),去除重復(fù)概念后,計(jì)有680個(gè)概念(含非正式概念100余個(gè))。

      2.2 概念名稱(chēng)的規(guī)范化處理

      概念名稱(chēng)必須符合漢語(yǔ)構(gòu)詞特點(diǎn),契合實(shí)際使用情況,便于用戶(hù)檢索,表述規(guī)范清晰。具體處理原則包括:若語(yǔ)詞中存在標(biāo)點(diǎn)符號(hào),則去除標(biāo)點(diǎn)符號(hào)或直接刪除;外文名詞術(shù)語(yǔ)均采用漢譯名,如有多個(gè)譯名,以最通行的譯名為準(zhǔn),其余譯名作入口詞;若外文名詞術(shù)語(yǔ)更為通行,也可直接選用其作為正式詞;概念術(shù)語(yǔ)長(zhǎng)度限制在10個(gè)字以?xún)?nèi),過(guò)長(zhǎng)的語(yǔ)詞使用其簡(jiǎn)稱(chēng)、縮寫(xiě)或者直接刪除;拆分并列式概念,將析出的概念/語(yǔ)詞作為多個(gè)新概念術(shù)語(yǔ)。

      2.3 概念分類(lèi)體系的建立與概念歸類(lèi)

      在人工抽詞之后,筆者采取自頂向下的建模原則,初步確定數(shù)字出版領(lǐng)域概念的分類(lèi)體系,編列前四級(jí)類(lèi)目,并對(duì)已抽取的概念詞進(jìn)行分類(lèi),依其內(nèi)涵分別歸入各類(lèi)目下。

      首先將人工抽取的關(guān)鍵詞初步劃分為10個(gè)大類(lèi)。文本分詞后獲取了一批新的概念術(shù)語(yǔ),原有的等級(jí)體系也需予以相應(yīng)調(diào)整,以便更加科學(xué)合理地容納數(shù)字出版領(lǐng)域內(nèi)的概念,因此增設(shè)了“案例”和“機(jī)構(gòu)”兩個(gè)一級(jí)類(lèi)目,將“數(shù)字出版物與數(shù)字圖書(shū)館”和“傳統(tǒng)出版”類(lèi)名分別改為“數(shù)字出版產(chǎn)品”和“相關(guān)概念”,并撤銷(xiāo)“數(shù)字版權(quán)”一級(jí)類(lèi)目,使一級(jí)類(lèi)目達(dá)到11個(gè)(見(jiàn)表1)。

      表1 分類(lèi)體系一級(jí)類(lèi)目

      此外,部分子類(lèi)的設(shè)置也有所調(diào)整。本體等級(jí)體系的調(diào)整,解決了原有等級(jí)體系存在的類(lèi)目涵義重疊、表意模糊等缺陷??紤]到概念數(shù)量有限,加之過(guò)深的層級(jí)體系不利于用戶(hù)的瀏覽與檢索,本體等級(jí)體系的層級(jí)一般為4級(jí),極少數(shù)類(lèi)目劃分到5級(jí)。最后,依據(jù)新的等級(jí)體系,在準(zhǔn)確把握概念內(nèi)涵及外延的基礎(chǔ)上,將所有概念逐一歸入對(duì)應(yīng)的類(lèi)目之下。

      2.4 主題詞表的編制

      將獲取的數(shù)字出版領(lǐng)域概念術(shù)語(yǔ)編制成數(shù)字出版領(lǐng)域主題詞表。概念術(shù)語(yǔ)編碼采用英文字母與阿拉伯?dāng)?shù)字組配的方式,為每個(gè)概念賦予唯一編號(hào),基本采取層累制編號(hào)法,具體編碼方式如下。

      ①一級(jí)為兩位數(shù)字(00到10);

      ②二級(jí)為對(duì)應(yīng)的一級(jí)類(lèi)目編號(hào)加一位英文大寫(xiě)字母(若類(lèi)目多于26個(gè),則加兩位英文字母);

      ③三級(jí)為對(duì)應(yīng)的二級(jí)類(lèi)目編號(hào)加兩位數(shù)字(01起);

      ④四級(jí)為對(duì)應(yīng)的三級(jí)類(lèi)目編號(hào)加兩位數(shù)字(01起);

      ⑤五級(jí)為對(duì)應(yīng)的四級(jí)類(lèi)目編號(hào)加一位英文小寫(xiě)字母;

      ⑥入口詞則是在相應(yīng)正式詞編碼后面增加“UF”和兩位數(shù)字(用于標(biāo)識(shí)同一主題詞對(duì)應(yīng)的多個(gè)入口詞)。

      以“工具”類(lèi)及其部分下位類(lèi)為例,其編碼如下:

      04 工具

      04A 存儲(chǔ)設(shè)備

      04A01 磁帶

      D 04A01UF01磁介質(zhì)

      04A02 光盤(pán)

      D 04A02UF01光介質(zhì)

      D 04A02UF02光碟

      04A0201 CD@

      04A0201a CD-ROM@

      04A0202 DVD@

      04A0202a DVD-ROM@

      D 04A0202aUF01 數(shù)字視盤(pán)

      注:編碼前標(biāo)有英文字母“D”則為入口詞

      其中“工具”為一級(jí)類(lèi)目,“存儲(chǔ)設(shè)備”為二級(jí)類(lèi)目,“磁帶”“光盤(pán)”為三級(jí)類(lèi)目,“CD”“DVD”為四級(jí)類(lèi)目,“CD-ROM”“DVD-ROM”為五級(jí)類(lèi)目,“磁介質(zhì)” “光介質(zhì)”“光碟”“數(shù)字視盤(pán)”則是相關(guān)概念的入口詞,編碼為相應(yīng)正式詞編碼后增加“UF”和兩位數(shù)字。

      對(duì)于表述形式不唯一的概念(同義異形)以及彼此間涵義相近的概念,根據(jù)其出現(xiàn)的頻次,并結(jié)合用戶(hù)的檢索習(xí)慣,確定了正式詞(出現(xiàn)頻次較多、用戶(hù)使用較廣泛者;對(duì)應(yīng)于本體中的正式概念)和入口詞(出現(xiàn)頻次較少、用戶(hù)使用不普遍者;對(duì)應(yīng)于本體中的非正式概念)。而后按照已完成的分類(lèi)表編排所有概念,添加用、代關(guān)系;入口詞均緊隨對(duì)應(yīng)的正式詞之后,與正式詞的下位概念同級(jí)。對(duì)具有多種含義、涉及多種領(lǐng)域的概念進(jìn)行多重列類(lèi)處理,即將同一概念依其語(yǔ)義分別歸入不同的類(lèi)目,并以“@”符號(hào)加以標(biāo)識(shí)。最后,編列入口詞表收錄入口詞,以音序排列,所有入口詞均給予唯一編號(hào)。

      這樣即編列完成了反映概念間等級(jí)結(jié)構(gòu)的數(shù)字出版領(lǐng)域主題詞表之范疇表。此外,還將所有概念按其首字或首字母的字順排列,得到數(shù)字出版領(lǐng)域主題詞表之字順表。

      2.5 確定概念間的語(yǔ)義關(guān)系

      首先,將本體概念間的語(yǔ)義關(guān)系歸納為等同關(guān)系、等級(jí)關(guān)系和相關(guān)關(guān)系三類(lèi);接著仔細(xì)分析概念的內(nèi)涵與外延,并咨詢(xún)領(lǐng)域?qū)<?,以?zhǔn)確把握各概念的涵義與其間關(guān)聯(lián);最終確定概念間存在的10種關(guān)系。其中,除了“In relation to”外,其余關(guān)系均以關(guān)系對(duì)的形式存在,即包含兩種互逆的關(guān)系。具體關(guān)系如下:

      ①Equals/Is synonym of(等同于/是**的同義詞),如Copyleft Equals著作權(quán)/著作權(quán)Is synonym of Copyleft。

      ②Has part/Is part of(包含**部分/是**的一部分),如SGML Has part XML/XML Is part of SGML。

      ③Has type/Is type of(包括**一類(lèi)/是**的一類(lèi)),如軟件Has Type iTunes/iTunes Is type of 軟件。

      ④Has instance/Is instance of(有實(shí)例**/是**的實(shí)例),如出版單位Has instance愛(ài)思唯爾/愛(ài)思唯爾Is instance of 出版單位。

      ⑤Has tool/Is tool of(有工具**/是**的工具),如移動(dòng)閱讀Has tool HTML5/HTML5 Is tool of 移動(dòng)閱讀。

      ⑥Offer/Offered by(提供**/提供者是**),如OCLC Offer 數(shù)字期刊/數(shù)字期刊Offered by OCLC。

      ⑦Develop/Developed by (發(fā)明**/發(fā)明者是**),如Adobe Develop PDF/PDF Developed by Adobe。

      ⑧Has standard/Is standard of(有標(biāo)準(zhǔn)**/是**的標(biāo)準(zhǔn)),如ISO Has standard MPEG/MPEG Is standard of ISO。

      ⑨In relation to(與**相關(guān)),如3G In relation to 數(shù)字閱讀。

      ⑩Manage/Manage by(負(fù)責(zé)管理**/管理者是**),如DCMI Manage DC/DC Manage by DCMI。

      隨后為抽取的概念間兩兩建立關(guān)系,前后共建立關(guān)系3500余對(duì),并進(jìn)行人工審定,保證領(lǐng)域本體的一致性,盡量避免冗余關(guān)系、循環(huán)錯(cuò)誤等不一致性錯(cuò)誤的產(chǎn)生。

      2.6 領(lǐng)域本體的形式化建模

      選用開(kāi)源本體編輯軟件Prot€間€?4.3建立領(lǐng)域本體的等級(jí)結(jié)構(gòu)(即添加父類(lèi)、子類(lèi)及實(shí)例),設(shè)置概念的IRI(資源標(biāo)識(shí)符)、label(顯示的名稱(chēng))、code(編碼)等基本屬性,定義概念間存在的關(guān)系種類(lèi),并為部分概念添加注釋信息。該本體的等級(jí)結(jié)構(gòu)即為范疇表中的等級(jí)結(jié)構(gòu),但入口詞則與對(duì)應(yīng)的正式詞平級(jí)。接著使用Prot€間€橥綈鎃ebProt€間€椋扇《噯嗽諳咝鞣絞劍拍釤砑庸叵擔(dān)⒍員咎宓牡燃督峁?、类冒其始g災(zāi)到屑觳欏6雜詰韌叵擔(dān)碋quals/Is synonym of關(guān)系,如概念的全稱(chēng)和簡(jiǎn)稱(chēng)、用代關(guān)系等),采用增設(shè)“fullname”(全稱(chēng))與“abbreviation”(簡(jiǎn)稱(chēng)/縮寫(xiě))屬性、使用系統(tǒng)自帶的“equivalent to”關(guān)鍵字等方式予以描述。最后使用Prot€間€櫚牟寮﨩WLViz和OntoGraf實(shí)現(xiàn)領(lǐng)域本體的可視化瀏覽(圖3)。

      2.7 領(lǐng)域本體形成與界面

      使用Prot€間€槿砑瓿殺咎宓男問(wèn)交:螅勺遠(yuǎn)擅枋霰咎逯懈拍釷糶約捌浼涔叵檔腞DF文檔(圖4)。

      3 結(jié) 語(yǔ)

      筆者通過(guò)對(duì)信息技術(shù)領(lǐng)域主題詞表中涉及數(shù)字出版的主題詞及其相互關(guān)系的分析,構(gòu)建了適合科教出版的領(lǐng)域本體模型所需的要素與本體描述模型,使之能完整反映數(shù)字出版領(lǐng)域的知識(shí)網(wǎng)絡(luò);并通過(guò)抽取相關(guān)系列專(zhuān)著的信息,完成該領(lǐng)域本體的實(shí)例化。主題分類(lèi)表和領(lǐng)域本體二者間應(yīng)存在一定的對(duì)應(yīng)關(guān)系,并作為動(dòng)態(tài)數(shù)字出版標(biāo)準(zhǔn)規(guī)范體系的重要組成部分,為動(dòng)態(tài)數(shù)字出版技術(shù)的集成開(kāi)發(fā)、動(dòng)態(tài)數(shù)字出版應(yīng)用系統(tǒng)的建設(shè)提供支撐。

      目前,在本體知識(shí)庫(kù)建設(shè)方面已編制完成數(shù)字出版領(lǐng)域主題詞表的范疇表、字順表,利用Prot€間€槿砑瓿墑殖靄媼煊蟣咎宓男問(wèn)交涂墑踴允荊就瓿墑殖靄媼煊蟣咎逯犢庀低車(chē)慕ㄉ韞ぷ鰨低辰ǔ珊蠼弒肝謀咀遠(yuǎn)暌⑽南仔畔⒌撓鏌寮燜饔肟墑踴燜鰲⑹跤鋟竦裙δ???

      雖然當(dāng)前研究已取得一些成果和經(jīng)驗(yàn),但對(duì)于未來(lái)的研究,還有以下建議和展望:實(shí)現(xiàn)數(shù)字出版領(lǐng)域本體知識(shí)庫(kù)在線服務(wù)系統(tǒng)與其他數(shù)字出版業(yè)務(wù)系統(tǒng)的無(wú)縫集成,保證系統(tǒng)具有良好的可擴(kuò)展性;強(qiáng)化后期維護(hù)和后臺(tái)資源更新,實(shí)現(xiàn)數(shù)字出版資源建設(shè)、流程管理、用戶(hù)服務(wù)的一體化;系統(tǒng)總結(jié)數(shù)字出版領(lǐng)域本體開(kāi)發(fā)中的經(jīng)驗(yàn)及策略,為建構(gòu)更大規(guī)模、適用于其他學(xué)科領(lǐng)域文獻(xiàn)的標(biāo)引與檢索的本體積累更多經(jīng)驗(yàn)。

      注 釋

      [1]常青. 世界圖書(shū)出版西安公司是如何提升數(shù)字出版水平的[J]. 出版參考,2013,27:16

      [2]Vihinen M. Variation Ontology for annotation of variation effects and mechanisms[J]. Genome research, 2014, 24(2): 356-364

      [3]Golbeck J, Fragoso G, Hartel F, et al. The national cancer institutes thesaurus and ontology[J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2003, 1(1): 75-80

      [4]Plant Ontology Consortium. The Plant Ontology? consortium and plant ontologies[J]. International Journal of Genomics, 2002, 3(2): 137-142

      [5]Sun Q, Wu Q, Liang Y. Study on Query System Based on Pomology Domain Ontology[M]//Computer and Computing Technologies in Agriculture V. Springer Berlin Heidelberg, 2012: 180-187

      [6]Hu Z Q. Domain Ontology Construction from Chinese Thesaurus[J]. Advanced Materials Research, 2013, 753: 3209-3213

      猜你喜歡
      主題詞表數(shù)字出版
      《〈漢語(yǔ)主題詞表〉構(gòu)建研究》
      《〈漢語(yǔ)主題詞表〉構(gòu)建研究》
      《〈漢語(yǔ)主題詞表〉構(gòu)建研究》
      《〈漢語(yǔ)主題詞表〉構(gòu)建研究》
      《〈漢語(yǔ)主題詞表〉構(gòu)建研究》
      《〈漢語(yǔ)主題詞表〉構(gòu)建研究》
      學(xué)術(shù)期刊數(shù)字出版的運(yùn)行模式與市場(chǎng)結(jié)構(gòu)
      淺談新媒體在美術(shù)類(lèi)圖書(shū)出版中的應(yīng)用
      做一個(gè)全民閱讀時(shí)代的“悅”讀人
      國(guó)際圖書(shū)出版市場(chǎng)現(xiàn)狀及趨勢(shì)分析
      胶南市| 六枝特区| 安新县| 牡丹江市| 盐津县| 辽宁省| 旬阳县| 买车| 深州市| 阳谷县| 金阳县| 嘉峪关市| 新丰县| 略阳县| 定兴县| 东乌珠穆沁旗| 宣城市| 太湖县| 福安市| 临清市| 武安市| 汾阳市| 舒兰市| 清原| 石柱| 铜梁县| 海口市| 临武县| 高唐县| 维西| 大新县| 曲周县| 沾化县| 上高县| 长治县| 页游| 广西| 安化县| 榆中县| 新安县| 昌吉市|