喬鋼柱,馮婷婷,張國晨
1(太原科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,太原 030024)
2(中北大學(xué) 大數(shù)據(jù)學(xué)院,太原 030024)
隨著各地智慧檢務(wù)辦案輔助系統(tǒng)[1]的研發(fā),部分地區(qū)檢察機關(guān)各業(yè)務(wù)部門已經(jīng)實現(xiàn)了網(wǎng)上辦公,各類案件的辦理效率得到了大幅提升,由此產(chǎn)生的案件信息也由紙質(zhì)檔案變成了數(shù)字信息存儲在計算機當(dāng)中.如何借助信息科學(xué)與技術(shù)對盜竊案件理論和知識體系進(jìn)行整理和分析,對盜竊案件法律文書中的隱式關(guān)系、深層關(guān)系進(jìn)行挖掘、推理,實現(xiàn)智能推薦,幫助檢察官更好的辦案是值得探索的一個問題.隨著互聯(lián)網(wǎng)時代的到來,大規(guī)模開放性應(yīng)用需要全新的知識表示,谷歌知識圖譜誕生此后引入了知識圖譜的概念.知識圖譜本質(zhì)上是一個大規(guī)模的語義網(wǎng)絡(luò),充滿豐富的實體,概念及其之間的各種語義關(guān)系.在此背景下,引入知識圖譜解決盜竊案件法律文書在知識表達(dá)、共享和應(yīng)用方面的問題[2],為檢察官辦案提供更好的幫助也受到了檢察機關(guān)的重視.
本文將本體概念引入到盜竊案件法律文書的研究中來,旨在與知識圖譜相結(jié)合,研究實現(xiàn)基于盜竊案件法律文書本體的知識圖譜構(gòu)建技術(shù),分析已有基于jena 的推理方法,并在此基礎(chǔ)上探索盜竊案件法律文書知識圖譜在類案推送、深層關(guān)系發(fā)現(xiàn)中的應(yīng)用.
本體首先是在哲學(xué)上提出來的,簡單來說就是一種概念,如動物這個抽象概念集合,它是一種抽象集合用來表達(dá)世界上的具體的、實際的物體,而在人工智能領(lǐng)域主要將本體運用在知識表達(dá)上,本體是一個格式規(guī)范的、域概念的描述[3].本體可以分為領(lǐng)域本體和上層本體,領(lǐng)域本體模擬特定領(lǐng)域,上層本體是指由普通對象組成的模型,這些對象普遍適用于各種領(lǐng)域本體.
知識圖譜是一種大規(guī)模語義網(wǎng)絡(luò),富含實體、概念、屬性、關(guān)系等信息.知識圖譜的誕生標(biāo)志是2012年Google 收購Metawebg 公司,并正式發(fā)布知識圖譜.知識圖譜由節(jié)點-實體、節(jié)點概念,節(jié)點值和邊緣組成[4].概念是存在的基本規(guī)范,邊則表示關(guān)系,側(cè)重實體之間的關(guān)系.知識圖譜可以分為領(lǐng)域(行業(yè))知識圖譜和企業(yè)知識圖譜,領(lǐng)域知識圖譜聚焦于特定領(lǐng)域或者行業(yè)的知識圖譜,企業(yè)知識圖譜是貫穿企業(yè)各業(yè)務(wù)部門的知識圖譜.
構(gòu)建基于本體的知識圖譜的目的決定了它的應(yīng)用領(lǐng)域和功能,因此構(gòu)建的本體需要具備推理功能.知識推理的其中一個目標(biāo)就是通過給定的知識獲取隱性的知識.推理有很多方面的應(yīng)用,一方面,針對知識庫的建立人員,推理用來檢測沖突和優(yōu)化表達(dá);另一方面,作為知識庫的使用人員,推理的主要作用是獲得知識庫中的知識并且運用這些知識解決問題.由惠普實驗室研發(fā)的jena 提供了用于檢索過程推理的基于規(guī)則的推理子系統(tǒng),jena 提供的推理機通過本體的內(nèi)置屬性,可以滿足一般的查詢需求.例如,查詢張三盜竊案相關(guān)法律文書信息,推理子系統(tǒng)就會將張三盜竊案件法律文書相關(guān)的案件基本信息,犯罪嫌疑人信息,量刑信息等屬性實體進(jìn)行查詢顯示,具體示例如圖1所示.
圖1 盜竊案件法律文書一般查詢舉例圖
但是在實際應(yīng)用中,只有這些內(nèi)建規(guī)則形成的推理是不夠的,例如,用戶想要通過查詢獲取與當(dāng)前案件具有相似量刑情節(jié)的案件,通過內(nèi)建規(guī)則是無法實現(xiàn)的,除非人工定義這層推理關(guān)系.在推理機中,本體中類之間的相互關(guān)系需要明確定義,目前本體的自動構(gòu)建技術(shù)尚不成熟,在人工定義復(fù)雜關(guān)系時,往往由于疏忽而導(dǎo)致數(shù)據(jù)不完整.針對這種情況,在盜竊案件法律文書知識圖譜[5]的構(gòu)建中,通過自定義推理機,構(gòu)造自定義推理規(guī)則,從而實現(xiàn)類案推送,將具有相似量刑的案件進(jìn)行推送,挖掘不同案件量刑之間隱藏的關(guān)系.
本文盜竊案件法律文書本體是在檢察機關(guān)專家的參與指導(dǎo)下,以《刑事法律文書制作指南與范例》、《量刑指導(dǎo)建議書》等為主要知識源[6],并結(jié)合盜竊案件法律文書術(shù)語標(biāo)準(zhǔn)等,使用OWL 語言作為本體描述語言,使用protege 為本體構(gòu)建工具,由于盜竊案件法律文書內(nèi)容側(cè)重案件基本信息,嫌疑人基本情況,相關(guān)證據(jù),量刑等方面,因此本體構(gòu)建主要圍繞這幾方面內(nèi)容展開.
該本體以盜竊案件犯罪構(gòu)成要素為指導(dǎo),以法律文書內(nèi)容為中心,包括嫌疑人、時間、案件物品、犯罪行為、空間、證據(jù)材料、量刑這七個部分.這七大部分構(gòu)成一個有機整體,關(guān)系密切.其中時間包括作案時間和銷贓時間,物品包括侵害物、帶離物、犯罪產(chǎn)生物、犯罪使用物、遺留物、銷贓物等概念,犯罪行為包括作案手段和作案方式,空間包括作案地點、犯罪預(yù)備地、藏匿地點、銷贓地點,時間、空間、物品,犯罪行為與嫌疑人有著密切關(guān)系,證據(jù)材料包括扣押發(fā)還物品清單、抓獲到案經(jīng)過、指認(rèn)現(xiàn)場照片、犯罪嫌疑人供述、現(xiàn)場勘驗筆錄、痕跡鑒定、盜竊價值、被害人陳述、視聽資料、證人證言、辨認(rèn)筆錄,量刑包括數(shù)據(jù)標(biāo)準(zhǔn)、量刑建議、量刑情節(jié),證據(jù)材料與量刑貫穿于盜竊案件審理的整個過程.構(gòu)建完成的盜竊案件法律文書本體庫包括三百多個實體,三十多個盜竊案件法律文書案例.
盜竊案件法律文書理論本體的概念層次關(guān)系結(jié)構(gòu)如圖2所示,使用protege 中的OWL Viz 工具進(jìn)行展示.盜竊案件法律文書理論本體的語義關(guān)系包括概念
之間通用的語義關(guān)系和概念之間自定義語義關(guān)系.概念之間的自定義語義關(guān)系指的是除了通用語義關(guān)系外,自定義的概念之間的語義關(guān)系[7],本文抽取的自定義語義 關(guān)系如表1所示.
圖2 盜竊案件法律文書部分本體層次關(guān)系圖
表1 自定義語義關(guān)系表
本文根據(jù)研究以及實際應(yīng)用的需求,在傳統(tǒng)的七步法本體模型構(gòu)建方法上進(jìn)行改進(jìn),提出了盜竊案件法律文書本體模型的構(gòu)建方法.根據(jù)盜竊案件法律文件領(lǐng)域的信息獲取特點,首先收集盜竊案件法律文件的相關(guān)信息,然后進(jìn)行術(shù)語提取和本體建模.最后,本體不斷迭代演化,直到最終獲得相對完美的本體[8].具體實施步驟:1)明確需要構(gòu)建本體的領(lǐng)域和構(gòu)建該本體的目的.2)領(lǐng)域信息采集與分析.3)定義盜竊案件法律文書本體概念,定義概念的結(jié)構(gòu)層次.4)定義盜竊案件法律文書概念對象屬性和數(shù)據(jù)屬性以及相關(guān)屬性值的約束.5) 本體編碼.6) 本體評估.7) 本體實例化.8)迭代、進(jìn)化.對應(yīng)的盜竊案件法律文書本體模型構(gòu)建過程如圖3所示.
3.2.1 本體與知識圖譜映射機制
構(gòu)建基于本體的盜竊案件法律文書知識圖譜,首先要明確本體與知識圖譜之間的映射匹配原理.本體是關(guān)于共享概念的一致慣例.層次結(jié)構(gòu)是最簡單的本體形式,可用于詳細(xì)描述類和它們之間的包含.而知識圖譜是由真實世界中存在的各種實體、概念及其關(guān)系組成的一張巨大的語義網(wǎng)絡(luò)圖,概念及概念之間的層次結(jié)構(gòu)用樹來表示,概念節(jié)點可以作為樹的節(jié)點,把概念、實例之間的繼承關(guān)系用線連接,實體與實體之間的層次結(jié)構(gòu)用圖來表示,實體節(jié)點可以作為圖的節(jié)點,實體與實體之間的語義關(guān)系用線連接表示.因此本體與知識圖譜的映射原理是樹與樹的映射、樹與圖的映射[9,10].盜竊案件法律文書本體與知識圖譜的匹配映射原理如圖4所示.
圖3 盜竊案件法律文書本體構(gòu)建過程圖
圖4 盜竊案件法律文書本體與知識圖譜映射原理圖
3.2.2 盜竊案件法律文書知識圖譜構(gòu)建
根據(jù)映射匹配機制,構(gòu)建盜竊案件法律文書知識圖譜,首先應(yīng)明確數(shù)據(jù)來源,本文數(shù)據(jù)來源主要有兩方面,一是檢察機關(guān)提供的《刑事法律文書制作指南與范例》、《量刑指導(dǎo)建議書》,二是結(jié)構(gòu)化數(shù)據(jù)庫中提供的法律文書案例數(shù)據(jù).在上一小節(jié)盜竊案件法律文書本體模型的構(gòu)建基礎(chǔ)上,設(shè)立知識節(jié)點,進(jìn)行知識存儲,盜竊案件本體構(gòu)建完畢后,對采集來的盜竊案件法律文書信息進(jìn)行了本體實例化操作,實例化完成后的文檔的示例和原始本體概念是盜竊案件法律文件知識圖譜中的知識節(jié)點.使用OWL 本體描述語言對本體相關(guān)概念、實例以及相互之間關(guān)系進(jìn)行描述,并將其存儲在OWL 本體文件和My SQL 數(shù)據(jù)庫中.然后執(zhí)行知
識鏈接,并通過OWL 和URL(統(tǒng)一資源定位符)實現(xiàn)盜竊案例法律文書的知識圖譜中的知識鏈接.OWL 語言具有很強的描述能力,可以描述知識,上下關(guān)系和相關(guān)關(guān)系之間的關(guān)系等.知識的位置通過基于OWL 的資源定位器URI 實現(xiàn),該URI 可以描述知識存儲的位置.所有內(nèi)容都表示為由URI 標(biāo)識的資源,每個資源都具有屬性和相應(yīng)的屬性值.每個資源還能和其它資源有關(guān)系[11].因此,利用URI 來充當(dāng)橋梁作用,將孤立的知識節(jié)點關(guān)聯(lián)起來,形成一張巨大的知識網(wǎng)絡(luò)圖.該知識圖譜采取自底向上的構(gòu)建方法,將底層數(shù)據(jù)庫、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行融合、抽取關(guān)鍵信息,從而構(gòu)建盜竊案件法律文書知識圖譜.至此,盜竊案件法律文書知識圖譜基本搭建完成,該知識圖譜構(gòu)建過程如圖5所示.
圖5 知識圖譜構(gòu)建過程圖
該盜竊案件法律文書知識圖譜是在本體架構(gòu)上實現(xiàn)的,因此基于本體的知識圖譜智能推理是知識圖譜的一個關(guān)鍵應(yīng)用,本文基于本體的知識圖譜智能推理是在jena 的基礎(chǔ)上實現(xiàn)的,jena 是由惠普實驗室開發(fā)的知識圖譜管理系統(tǒng),現(xiàn)已由Apache 管理[12].構(gòu)建盜竊案件法律文書自定義推理規(guī)則,研究實現(xiàn)實體查詢、相似量刑類案推送以及證據(jù)審查等智能推理應(yīng)用.
基于構(gòu)建的盜竊案件法律文書知識圖譜,在protege平臺上借助Onto Graf 工具,利用jena 推理機實現(xiàn)在線查詢.在jena 中,本體子系統(tǒng)和推理子系統(tǒng)一起在RDF 的基礎(chǔ)上構(gòu)建出語義檢索的基本核心架構(gòu).通過本體子系統(tǒng)用戶可以讀取各種結(jié)構(gòu)存儲的數(shù)據(jù),并可以對本體的類,屬性以及實例等元素進(jìn)行查詢等操作和處理以及一致性檢查,是實現(xiàn)語義推理的基礎(chǔ).在線查詢中的實體查詢可以查詢到該實體與其他實體之間的語義關(guān)系,圖6示例展示了嫌疑人張某某的相關(guān)犯罪事實、犯罪證據(jù)以及他涉及到的與案件相關(guān)的一些基本情況的查詢結(jié)果.
圖6 實體查詢舉例圖
知識圖譜除了可以進(jìn)行一些在線查詢?nèi)玑槍嶓w的查詢、針對屬性的查詢、針對關(guān)系的查詢等,還可以實現(xiàn)離線分析,如基于圖結(jié)構(gòu)的分析,基于規(guī)則的推理等.目前,推理引擎廣泛用于許多與推理相關(guān)的研究中.jena 提供的推理引擎支持本體分析,因此它是本體的推理引擎.因此,本文使用jena 推理機作為推理工具.并充分利用盜竊案件法律文書領(lǐng)域本體豐富的語義關(guān)系進(jìn)行推理,基于構(gòu)建的知識圖譜結(jié)合檢察官思維在知識檢索方面進(jìn)行智能推理研究.
4.2.1 jena 推理引擎的工作原理
智能推理的核心思想是利用概念及其關(guān)聯(lián),根據(jù)構(gòu)建的知識地圖,從語義層進(jìn)行相應(yīng)的推理,面對信息和知識,獲得更符合用戶需求的搜索結(jié)果.本文的推理步驟分為以下幾點:首先,根據(jù)推理機的原理,構(gòu)建自定義推理規(guī)則;其次,將自定義推理規(guī)則添加到自定義規(guī)則推理引擎;然后,Model Factory 創(chuàng)建本體模型API,主動查找含有自定義規(guī)則的模型對象;最后,對含有自定義規(guī)則的Model 對象進(jìn)行查詢操作,實現(xiàn)推理目的.Jena 推理機的工作原理如圖7所示.
圖7 jena 推理機工作原理圖
4.2.2 語義推理自定義規(guī)則構(gòu)造
Jena 提供的內(nèi)置推理機能夠?qū)崿F(xiàn)基于本體的知識圖譜的一些基本推理和一致性的檢查,但是在實際應(yīng)用中,只有這些內(nèi)置規(guī)則實現(xiàn)的推理不能滿足用戶的實際需求.例如,基于盜竊案件法律文書本體構(gòu)建的知識圖譜中,用戶想要知道與當(dāng)前查詢案件有相同量刑情節(jié)的案件,經(jīng)過通用規(guī)則推理并不能實現(xiàn)這一功能;或者用戶想要知道當(dāng)前盜竊案件證據(jù)審查方面的一些信息,經(jīng)過內(nèi)置推理規(guī)則也不能實現(xiàn)這一點.因此,我們可以根據(jù)需求構(gòu)造自定義推理規(guī)則從而實現(xiàn)用戶的查詢目的.
用戶可以根據(jù)需求定制自己的規(guī)則,創(chuàng)建特定需求的推理機,以自定義規(guī)則作為通用規(guī)則的補充和完善,從而滿足特定領(lǐng)域?qū)嶋H應(yīng)用需求.同時為了深度挖掘盜竊案件法律文書信息,編寫自定義規(guī)則是必要的.基于jena 的規(guī)則推理引擎支持前向鏈,后向鏈和兩種推理模型的混合.也就是說,Jena 提供了兩個內(nèi)部規(guī)則引擎:前向鏈推理RETE 引擎和后向鏈引擎,它們可以是獨立的,或作為后向鏈引擎的領(lǐng)導(dǎo)者的前向鏈,合作完成“查詢 - 問題 - 答案”[12].
綜上所述,根據(jù)規(guī)則的構(gòu)造原理,本文自定義規(guī)則結(jié)構(gòu)為:一個規(guī)則的前提,一個規(guī)則的結(jié)論,中間加判斷條件.本文采用的是前向推理引擎模型,使用的推理機是GenericRuleReasoner.基于盜竊案件法律文書本體的知識圖譜的語義自定義查詢部分規(guī)則如下所示:
Rule1:[同有量刑情節(jié)(?a:有量刑情節(jié)?c),(?b 有量刑節(jié)?c),notEqual(?a,?b)->(?a 同有量刑情節(jié)?b)]
Rule2:[時間一致:(?a 時間是?c),(?b 時間是?c),notEqual(?a,?b)->(?a 時間一致?b)]
Rule3:[地點一致:(?a 地點是?c),(?b 地點是?c),notEqual(?a,?b)->(?a 地點一致?b)]
根據(jù)自定義推理規(guī)則創(chuàng)建對應(yīng)的推理機過程如下:Resource configuration=model.createResource();
configuration.addProperty(ReasonerVocabulary.PR OPruleMode,"forward");configuration.addProperty(ReasonerVocabulary.PROPruleSet,"../../rules/case.rules");
Reasoner reasoner= GenericRuleReasonerFactory.theInstance().create(configuration);
根據(jù)自定義推理引擎創(chuàng)建包含推理關(guān)系的數(shù)據(jù)模型如下所示:
infModel=ModelFactory.createInfModel(reasoner,model);
4.2.3 類案推送實現(xiàn)
自修訂后的“刑法”和“刑事訴訟法”實施以來,檢察院加大了實施檢察機關(guān)改革的力度,尋求一種更有利于使檢察工作與審判工作密切相關(guān)的工作機制,從而進(jìn)一步加強對檢察院的審判監(jiān)督功能.在這種背景下,公訴量刑建議制度應(yīng)運而生.而檢察機關(guān)是否能充分有效的發(fā)揮量刑建議權(quán),在庭審方式變革過程中扮演著非常重要的角色.由于檢察官辦案經(jīng)驗不足,辦案過程中對量刑建議給出把握不準(zhǔn)確,可能導(dǎo)致辦案效率降低.因此,在辦案過程中,給辦案人員推送具有相似量刑情節(jié)的已辦案件,供辦案人員進(jìn)行在線參考,無疑會使檢察官更快的給出更加公平、準(zhǔn)確的量刑建議,提高辦案準(zhǔn)確率等.本文基于這一特點需求,利用智能推理技術(shù),實現(xiàn)了相似量刑類案推送測試功能.
相似量刑類案推送測試功能是利用上一小節(jié)基于知識圖譜的自定義推理規(guī)則,向用戶自動、及時的推送與當(dāng)前檢索案件具有相似量刑情節(jié)的案件,并以列表的形式進(jìn)行展現(xiàn),點擊顯示列表項,會跳轉(zhuǎn)到相應(yīng)的案件詳情頁.根據(jù)檢察官思維,在案件檢索過程中,希望查看與當(dāng)前案件具有相似量刑情節(jié)的其他案件的量刑結(jié)果,通過比較總結(jié)量刑建議給出實用經(jīng)驗并得出結(jié)論.這一功能的實現(xiàn),提高了檢察官的檢索效率[13],根據(jù)檢察官思維、個性需求,將有用的信息及時挖掘整理推送給檢察官,輔助量刑[14].測試案例截圖如圖8、圖9所示.點擊類案推送列表中相應(yīng)案件,在量刑情節(jié)部分顯示內(nèi)容有相似量刑情節(jié)“自首”屬性,驗證結(jié)論準(zhǔn)確.
圖8 類案推送測試案例圖
圖9 類案推送測試案例驗證結(jié)果截圖
本文提出了盜竊案件法律文書的本體構(gòu)建方法,通過本體與知識圖譜映射原理提出了基于盜竊案件法律文書本體的知識圖譜構(gòu)建方法,解決盜竊案件法律文書知識規(guī)范化、信息化,并對盜竊案件法律文書知識圖譜的智能推理應(yīng)用進(jìn)行了探索,基于jena 推理原理在智能推理方面提出了自定義推理規(guī)則,實現(xiàn)了盜竊案件法律文書知識圖譜在類案推送方面應(yīng)用的探索,挖掘量刑隱藏數(shù)據(jù)關(guān)系,將具有相似量刑情節(jié)的案件準(zhǔn)確推送給用戶,輔助檢察官辦案.但是本文使用的本體建模工具不夠自動化智能化、并且需要進(jìn)一步完善和補充盜竊案件法律文書本體庫,構(gòu)建適合檢察機關(guān)業(yè)務(wù)需求的知識圖譜,由于證據(jù)拆解的復(fù)雜性,本文對證據(jù)方面相關(guān)數(shù)據(jù)深層關(guān)系挖掘尚不完備.因此結(jié)合最新的人工智能技術(shù),探索自動化構(gòu)建知識圖譜的機制,并且在檢察機關(guān)相關(guān)業(yè)務(wù)方面,就合理量刑建議的給出、輔助證據(jù)審查等方面提供幫助.