版權(quán)知識本體構(gòu)建方法研究

2017-07-12 09:17任志遠

軟件導刊 2017年6期

任志遠

摘要：針對版權(quán)知識的結(jié)構(gòu)并考慮到版權(quán)本體需要不斷迭代更新，在充分分析版權(quán)知識結(jié)構(gòu)的基礎(chǔ)上融合現(xiàn)有本體構(gòu)建技術(shù)，通過提取中華人民共和國國家版權(quán)局和中國裁判文書網(wǎng)數(shù)據(jù)，提出適合版權(quán)知識本體的自動構(gòu)建方法。

關(guān)鍵詞：本體；版權(quán)；知識庫

DOIDOI：10.11907/rjdk.162585

中圖分類號：TP319

文獻標識碼：A 文章編號：1672-7800（2017）006-0142-03

0 引言

隨著社會發(fā)展，版權(quán)知識變得越來越重要。但是版權(quán)知識比較復雜瑣碎，人們查找學習版權(quán)知識時比較困難。目前，大部分知識庫都只是基于字符串檢索，檢索結(jié)果準確性差，知識獲取效率低。本體作為語義網(wǎng)的重要組成部分，可以極大提高檢索效率。本文旨在探討版權(quán)知識本體的構(gòu)建方法，最大程度減少構(gòu)建版權(quán)知識本體的難度。

1 本體構(gòu)建方法簡述

由于領(lǐng)域知識在構(gòu)建本體時有特定需求，比較成熟的方法有七步法、METHONTOLOGY法，另外還有骨架法、五步獲取法、循環(huán)獲取法。各方法的優(yōu)缺點及用途比較如表1所示。

1.1 METHONTOLOGY法

METHONTOLOGY法是專門用于構(gòu)建化學本體的方法，該方法支持本體層次構(gòu)建，但是該方法無法進行更新迭代。該方法主要應用于化學領(lǐng)域，流程如圖1所示。

1.2 七步法

七步法是由斯坦福大學提出的一種實用的本體開發(fā)方式，但是該方法沒法評價過程，無法迭代更新，該方法適用于醫(yī)學本體構(gòu)建，開發(fā)流程如圖2所示。

1.3 五步循環(huán)法

五步循環(huán)法主要用于語義網(wǎng)本體構(gòu)建，該方法有評價環(huán)節(jié)，構(gòu)建的本體可以迭代更新，但是該方法操作性差，難度大，因此適用范圍不廣。

2 版權(quán)知識本體構(gòu)建

本文融合以上方法的優(yōu)點提出新的適合版權(quán)知識本體構(gòu)建方法，將版權(quán)本體的構(gòu)建分成兩方面，其中法律采用手動構(gòu)建本體，而案例等采用自動構(gòu)建。最后添加評價步驟，使得整個流程不斷地迭代更新。在本體構(gòu)建過程中，數(shù)據(jù)來源于中華人民共和國版權(quán)局和中國裁判文書網(wǎng)。

2.1 改進的本體構(gòu)建方法

對于法律案例來說，一般裁判文書結(jié)構(gòu)明確，適合自動構(gòu)建。從樣例中可以看出案例文書的結(jié)構(gòu)非常直接，案例涉及的人物等信息很容易被準確提取出來。首先，本體構(gòu)建分成兩個主要方面，一方面是法律，因為法律的嚴謹性以及版權(quán)法字數(shù)較少，可以人工構(gòu)建，中國裁判文書網(wǎng)涉及版權(quán)相關(guān)的數(shù)據(jù)條件大約有3萬個。在已提出方法的基礎(chǔ)上改進流程，使得符合版權(quán)知識的結(jié)構(gòu)特點。流程為：①整理版權(quán)概念詳細術(shù)語；②根據(jù)知識內(nèi)容主要分為兩個具有代表性的類型，法律和案例；③對于法律來說首先將概念之間的關(guān)系整理出來，構(gòu)建概念模型；④使用OWL本體描述語言將第三步生成的結(jié)構(gòu)化文檔形式化表達；⑤評價法律本體；⑥對于案例，在本體模板的基礎(chǔ)上，自動提取案例的概念以及屬性；⑦檢查案例本體是否具有邏輯錯誤。圖3為版權(quán)本體的構(gòu)建流程。

2.2 版權(quán)法律本體構(gòu)建

法律本體是版權(quán)知識本體的重要組成部分。法律本體構(gòu)建依據(jù)《中華人民共和國著作權(quán)法》、《計算機軟件保護條例》等相關(guān)法律。法律本體包括著作權(quán)相關(guān)概念、權(quán)利、處罰等內(nèi)容。

2.2.1 復用本體

目前已經(jīng)有LKIF、FOLaw兩個比較優(yōu)秀的法律本體模型。LKIF 基于LRI-Core但是減少了對子類的約束。LKIF包含200多個概念，但是LKIF提出的概念太抽象。而FOLaw更像是一個認知框架，兩者對于著作權(quán)相關(guān)法律本體的構(gòu)建更多的是借鑒意義，復用意義不大。

2.2.2 版權(quán)知識概念關(guān)系抽取

根據(jù)領(lǐng)域知識界定，版權(quán)知識本體主要有9個類、55個子類、466個概念。這幾個類通過概念關(guān)系互相構(gòu)成一個網(wǎng)狀的概念圖，如作品、人物、權(quán)利等，如圖4所示。根據(jù)概念關(guān)系圖分類手動提取法律法規(guī)文本中的概念。

2.2.3 創(chuàng)建實例

構(gòu)建本體框架以及提取概念及關(guān)系后，實例化本體的方法分為手動構(gòu)建和自動構(gòu)建。具體如下：①手動導入，可以通過本體構(gòu)建工具Protégé手動構(gòu)建本體。在Protégé的Individual by class選項卡中手動輸入概念以及關(guān)系；②自動導入，通過提取概念關(guān)系后，版權(quán)法律法規(guī)中的概念以及概念之間的關(guān)系已經(jīng)成為結(jié)構(gòu)化數(shù)據(jù)。然后通過Jena語義網(wǎng)工具讀取本體概念，添加本體的實例及屬性的方式將概念或?qū)傩蕴砑拥奖倔w文件中，實現(xiàn)本體自動擴充。

2.3 案例知識本體構(gòu)建

案例裁定書一般由五部分組成：首部、事實、理由、判決結(jié)果、尾部。首部主要說明相關(guān)涉案人，事實包括公司再審審稱和法院再審復查查明等，理由是判決依據(jù)，尾部是判決結(jié)果。

2.3.1 案例知識結(jié)構(gòu)

根據(jù)需求，首先構(gòu)建案例的概念之間關(guān)系以及概念跟屬性之間的關(guān)系。圖5為案例中的概念層次。

2.3.2 概念提取

（1）結(jié)構(gòu)化數(shù)據(jù)提取。建立概念之間的關(guān)系以及屬性之間的關(guān)系，需要提取概念來實例化本體，而且文書格式比較嚴格，所以根據(jù)正則匹配就可以提取出大部分概念。首先將文書按照格式規(guī)范分成5部分，根據(jù)開頭詞語確定該段落歸屬于哪一類。根據(jù)規(guī)范提取部分相關(guān)詞如表2所示。

（2）非結(jié)構(gòu)化數(shù)據(jù)提取。提取非結(jié)構(gòu)化數(shù)據(jù)首先需要對文本進行分詞，這一步使用開源框架IKAnalyzer分詞工具進行分詞、標注。在分詞過程中使用版權(quán)術(shù)語表制作字典提高分詞準確率，通過分詞標注后，通過n-gram算法提取出其中的概念，將概念通過Jena語義網(wǎng)工具添加到本體中。

3 結(jié)語

由于本體在知識工程以及人工智能知識表示方面的優(yōu)勢，使得本體一直是語義網(wǎng)的重點研究方向。然而，本體的構(gòu)建尚沒有成熟的標準體系。由于國內(nèi)也尚無標準評價體系和工具，本文沒有討論本體的評價問題。目前本體質(zhì)量只能通過領(lǐng)域?qū)＜疫M行人工評定。本文主要討論了版權(quán)知識的基本結(jié)構(gòu)，分析構(gòu)建本體的基本過程，為本體自動構(gòu)建作準備。下一步主要研究將機器學習整合到本體構(gòu)建的過程中，通過監(jiān)督學習使得本體構(gòu)建自動化。

參考文獻：

[1]賈焰，王永恒，楊樹強.基于本體論的文本挖掘技術(shù)綜述[J].計算機應用，2006，26（9）：2013-2015.

[2]曹燦.基于本體的軟件工程課程知識庫研究和應用[D].北京：北京林業(yè)大學，2010.

[3]有關(guān)著作權(quán)（copyright）的一些詞匯（中英文對照）[EB/OL].http：//blog.sina.com.cn/s/blog_4d53c365010188w7.html.

[5]郭沖，王振宇.面向細粒度意見挖掘的情感本體樹及自動構(gòu)建[J].中文信息學報，2013，27（5）：75-92.

[6]巫建偉，陳崇成，葉曉燕，等.基于Jena的土地適宜性評價本體知識庫構(gòu)建研究[J].計算機工程與設(shè)計，2014，35（1）：287-292.

[7]李景.主要本體構(gòu)建工具比較研究[J].情報理論與實踐，2014，29（2）：109-111.

[8]田宏，馬朋云.基于Jena的城市交通領(lǐng)域本體推理和查詢方法[J].計算機應用與軟件，2011，28（8）：56-63.

[9]李景.本體理論及在農(nóng)業(yè)文獻檢索系統(tǒng)中的應用研究——以花卉學本體建模為例[D].北京：中國科學院研究生院，2004.

[9]尚新麗.國外本體構(gòu)建方法比較分析[J].圖書情報工作，2012，56（4）：116-119.

（責任編輯：陳福時）