舒怡 毛國慶
基金項目:2018年度國家重點研發(fā)計劃項目“智慧法院綜合示范及效能評價”(項目批準(zhǔn)號:2018YFC0831600)的階段性成果;課題名稱:“智慧法院總體設(shè)計、一體化應(yīng)用平臺構(gòu)建及綜合示范”的階段性成果(課題編號:2018YFC 0831606)。
新基建中,知識驅(qū)動是智能升級的核心,在建設(shè)體系設(shè)計中具有重要作用。在新基建背景下,結(jié)合司法改革和法院信息化建設(shè)的需求,知識也將成為智慧法院建設(shè)從信息化向智能化轉(zhuǎn)型的核心驅(qū)動[1]。
本文將回答什么是智慧法院的知識體系,如何構(gòu)建智慧法院知識體系等關(guān)鍵問題。
智慧法院知識體系是指,可以與技術(shù)支持系統(tǒng)結(jié)合的知識處理架構(gòu)和規(guī)范,用于對法院決策、管理、辦案、執(zhí)行、研究、黨建等信息化系統(tǒng)內(nèi)的知識流進(jìn)行處理,以實現(xiàn)上述信息化系統(tǒng)的優(yōu)化或系統(tǒng)內(nèi)數(shù)據(jù)價值的提升[2]。知識體系構(gòu)建需考慮到法院業(yè)務(wù)的專業(yè)屬性,司法流程的實用屬性,數(shù)據(jù)處理的規(guī)范屬性,以及提升法院工作質(zhì)效的社會屬性[3]。知識體系不是一個樹狀結(jié)構(gòu)的框架,知識體系中各知識節(jié)點之間根據(jù)不同的業(yè)務(wù)場景標(biāo)簽進(jìn)行動態(tài)的、網(wǎng)狀的聯(lián)系。
知識體系與知識門戶存在區(qū)別。知識門戶是一種知識的展現(xiàn)形式,知識體系是知識門戶及知識應(yīng)用系統(tǒng)內(nèi)在的知識處理框架和邏輯[4]。
知識體系與知識服務(wù)存在區(qū)別。知識服務(wù)是一系列知識應(yīng)用系統(tǒng)或功能模塊的統(tǒng)稱。包括有知識庫文檔管理、知識檢索、知識地圖、知識推薦、知識問答、知識可視化、知識評價和基于知識系統(tǒng)應(yīng)用的使用者知識應(yīng)用行為分析。而知識體系是指為涵蓋上述系統(tǒng)和功能模塊內(nèi)知識流而構(gòu)建的一個整體知識框架,以及基于該框架的,對于知識流數(shù)據(jù)的定義規(guī)范、融合規(guī)范、關(guān)聯(lián)規(guī)范[5]。
知識體系與知識處理流程存在區(qū)別。知識處理流程是指在知識體系指導(dǎo)下借助各種知識處理工具的操作流程。一般的知識的處理流程包括體系構(gòu)建、知識標(biāo)準(zhǔn)化、知識編輯、知識抽取、知識驗證和知識管理;知識處理需要在知識體系框架下進(jìn)行,需要考慮到基于大數(shù)據(jù)挖掘的概率模型和基于專家知識的強規(guī)則模型互相之間的滲透和融合,在標(biāo)準(zhǔn)化、編輯、抽取、驗證和調(diào)用管理的各個環(huán)節(jié)預(yù)留模型對應(yīng)和模型比照的空間[6]。這個對應(yīng)與比照是知識體系進(jìn)行規(guī)范的內(nèi)容。
知識體系與知識輔助系統(tǒng)存在區(qū)別。知識輔助系統(tǒng)是指用知識流數(shù)據(jù)優(yōu)化現(xiàn)有流程系統(tǒng)或者管理系統(tǒng)的信息化建設(shè)的統(tǒng)稱。有的知識輔助系統(tǒng),因為缺乏頂層設(shè)計,并不存在知識體系的指引,因此不同主體提供的同一功能的知識輔助系統(tǒng)會給出不同的統(tǒng)計結(jié)果或者政策建議。最為詬病比如類案推送系統(tǒng)。由于沒有對于類案的準(zhǔn)確定義,各家信息化建設(shè)廠商提供的類案推薦策略不同,導(dǎo)致推薦結(jié)果差異較大。當(dāng)然不同審級、不同地域甚至不同法官有可能對于類案標(biāo)準(zhǔn)給出不同的主觀判斷,在沒有類案統(tǒng)一標(biāo)準(zhǔn)的情況下,知識輔助系統(tǒng)應(yīng)當(dāng)在知識體系的標(biāo)準(zhǔn)框架下,披露自己的知識推薦策略,并允許使用者進(jìn)行個性化修改。
知識體系與數(shù)據(jù)管理架構(gòu)的區(qū)別。知識體系和數(shù)據(jù)管理架構(gòu)其實是兩個存在并集的集合。有一些數(shù)據(jù),本身是知識流的一部分,在數(shù)據(jù)管理框架和知識體系框架中都有自己的結(jié)構(gòu)位置、屬性和規(guī)范標(biāo)準(zhǔn)[7]。
目前,有的單位在進(jìn)行梳理時,將知識體系框架限定在數(shù)據(jù)管理框架之外,這里就割裂了知識與數(shù)據(jù)之間的天然的聯(lián)系,導(dǎo)致在應(yīng)用層功能模塊對接上出現(xiàn)問題。
一般來說,基于數(shù)據(jù)管理框架中的數(shù)據(jù)結(jié)構(gòu)再進(jìn)行知識體系的梳理,是一個較好的辦法。但往往在數(shù)據(jù)中臺建設(shè)項目中,一般數(shù)據(jù)和知識數(shù)據(jù)被人為的進(jìn)行團隊切割,且要求的項目工時相同,導(dǎo)致很多的架構(gòu)中數(shù)據(jù)和知識服務(wù)內(nèi)容交雜混亂,不能做統(tǒng)一界定。
(一)知識分類梳理
按照傳統(tǒng)知識工程的方法,可以按照知識類型作為梳理知識體系的入口。比如我們按照規(guī)則、規(guī)律、推理三種知識類型對司法知識體系進(jìn)行分類。規(guī)則主要指司法知識主要涉及辦案相關(guān)的法律、法規(guī)、規(guī)章制度及業(yè)務(wù)規(guī)范。規(guī)律主要指基于數(shù)據(jù)統(tǒng)計分析的趨勢、特點。而推理這里主要指根據(jù)數(shù)據(jù)結(jié)合經(jīng)驗形成的算法模型。
知識分類梳理法架構(gòu)下的人民法院司法知識體系,分別包括靜態(tài)規(guī)則、動態(tài)規(guī)律以及知識推理幾個部分。訴訟、庭審、判決、送達(dá)、公開、立案、執(zhí)行以及管理屬于靜態(tài)規(guī)則;審判執(zhí)行類、社會治理類、司法管理類屬于動態(tài)規(guī)律;基礎(chǔ)類、服務(wù)人民群眾、服務(wù)審判執(zhí)行以及服務(wù)司法管理即為知識推理。
根據(jù)知識類型進(jìn)行分類,規(guī)則體系可以分為規(guī)則文檔、范本文檔兩類,范本文檔又可以根據(jù)范本的對象不同區(qū)別為內(nèi)容范本和格式范本兩類[8]。規(guī)律體系中主要根據(jù)橫向?qū)Ρ然蛘呖v向?qū)Ρ鹊牟煌枨?,劃分不同的指?biāo)體系,主要有趨勢指標(biāo)和分布指標(biāo)的差異。推理模型則主要與智慧法院建設(shè)中的應(yīng)用一一對應(yīng)。
因此在上述知識體系的構(gòu)建中規(guī)則的取值主要為文本。進(jìn)行知識抽取時主要關(guān)注規(guī)則的效力時間、效力等級、規(guī)則頒布對象、規(guī)則適用對象、規(guī)則適用條件、規(guī)則的適用除外條件、規(guī)則的演化內(nèi)容等。規(guī)律型知識主要是數(shù)值型的知識,需要明確規(guī)律指標(biāo)的類目、名稱、對應(yīng)的計算方法或模型、計算時的取值對象(時長、地域、審級、業(yè)務(wù)范圍)、業(yè)務(wù)邏輯、值字典等。最后的推理類知識應(yīng)當(dāng)有模型描述、計算邏輯、業(yè)務(wù)邏輯、訓(xùn)練數(shù)據(jù)、模型指標(biāo)、模型測試用例等[9]。
知識分類梳理法具有涵蓋范圍廣的特點,但由于與具體的應(yīng)用場景距離較遠(yuǎn),知識處理的粒度在后期需要根據(jù)調(diào)用需求和模型優(yōu)化需求進(jìn)行調(diào)優(yōu)。
(二)知識標(biāo)簽梳理
我們也可以按照我們對于數(shù)據(jù)標(biāo)簽梳理的邏輯,將知識作為一類數(shù)據(jù),進(jìn)行知識標(biāo)簽梳理。通過設(shè)計合適的知識標(biāo)簽并將其掛載到知識標(biāo)簽類目。知識標(biāo)簽類目設(shè)計完成后,知識標(biāo)簽體系的框架就有了,然后通過將知識數(shù)據(jù)提煉轉(zhuǎn)化為標(biāo)簽,并掛載到合適的標(biāo)簽類目下,進(jìn)而完成整個知識體系的設(shè)計。知識標(biāo)簽設(shè)計對司法專業(yè)知識、知識抽象、知識提煉,司法業(yè)務(wù)場景的理解能力要求較高。知識標(biāo)簽的設(shè)計是專業(yè)知識與數(shù)據(jù)項目經(jīng)驗結(jié)合的結(jié)晶,是一個漫長的持續(xù)迭代的過程。知識標(biāo)簽的設(shè)計與數(shù)據(jù)標(biāo)簽的設(shè)計一樣,標(biāo)簽的內(nèi)容不僅包括名稱,還要有歸屬類目、業(yè)務(wù)邏輯、調(diào)用、取值范圍等。
知識標(biāo)簽梳理需要通過兩步進(jìn)行,第一步為知識數(shù)據(jù)的萃取,第二步為知識標(biāo)簽的構(gòu)建。
知識數(shù)據(jù)的萃取是指按照知識主題和法院的事件流程對知識數(shù)據(jù)進(jìn)行匯聚和準(zhǔn)化。這一步過程中,首先要選取關(guān)鍵的知識域。司法知識域可以包括法律法規(guī)域、司法觀點域、法律文書域、電子卷宗域、案例域、司法人員域、組織機構(gòu)域等主題數(shù)據(jù)域,涵蓋各司法業(yè)務(wù)、各訴訟階段。其次要定義知識的粒度,知識粒度的定義一般以具有一定的業(yè)務(wù)含義為標(biāo)準(zhǔn);再次,確定每一個知識粒度在業(yè)務(wù)場景應(yīng)用中的描述角度[10]。
知識標(biāo)簽的構(gòu)建目標(biāo)是讓知識變得可閱讀、可調(diào)取、方便業(yè)務(wù)的使用,是方法論實施最核心的步驟。知識標(biāo)簽本質(zhì)上是一種對知識的度量或描述,是經(jīng)過縝密的邏輯分析和處理后的產(chǎn)物,用以引導(dǎo)發(fā)揮知識數(shù)據(jù)的應(yīng)用價值。
知識標(biāo)簽的構(gòu)建與數(shù)據(jù)標(biāo)簽的構(gòu)建方法類似,但由于其分類的對象并不是客觀事物,而是知識,有其自己的特點。
1.確定知識域內(nèi)的標(biāo)簽體系對象。比如以“人” “物”“案(事)”為主對象,進(jìn)行司法標(biāo)簽體類目設(shè)計。其中,人包括司法人員(法官/檢察官等)、當(dāng)事人(被告/原告/第三人等)和代理人(律師/法定代理人等);案按訴訟領(lǐng)域分為刑事案件、民事案件、行政案件,再按案由進(jìn)行細(xì)分;物包括證據(jù)和涉案物品。司法知識體系內(nèi)有一種比較特別的梳理對象是法律概念。法律概念要進(jìn)行梳理可以應(yīng)用:自頂向下法、自底向上法和綜合法。一般可應(yīng)用司法實踐體系或者應(yīng)用司法學(xué)術(shù)分類對概念間的層次結(jié)構(gòu)關(guān)系進(jìn)行搭建,梳理好相應(yīng)的根節(jié)點,枝節(jié)點,樹枝,葉節(jié)點。法律概念搭建好后,可以將屬性值添加到結(jié)構(gòu)中。屬性可以根據(jù)不同的域進(jìn)行多次定義。每一個域內(nèi)的子樹都可對應(yīng)獨立的、模塊化的知識模型。
2.根據(jù)對象進(jìn)行標(biāo)簽體系的建設(shè),一般一種對象的標(biāo)簽搭建并不會影響另一種對象標(biāo)簽體系的建設(shè)。司法域內(nèi),人物標(biāo)簽除通用標(biāo)簽外,有一定的司法標(biāo)簽類別。我們可以對法律概念拆解,表征為行為標(biāo)簽(事實標(biāo)簽)、法律關(guān)系標(biāo)簽(或者構(gòu)成要件標(biāo)簽)、法律結(jié)果標(biāo)簽(量刑標(biāo)簽、定罪標(biāo)簽)等,并映射到案情基本事實中,成為案件特征標(biāo)簽或案件中“人”的司法類標(biāo)簽,以盜竊罪為例,案件標(biāo)簽如下:故意傷害罪知識體系,主要包括定罪要素、量刑要素以及刑事裁判結(jié)果。在定罪方面,主要對犯罪對象、主體、手段以及故意幾個方面進(jìn)行考量。量刑要素主要是對法定量刑情節(jié)、酌定量刑情節(jié)、限制死刑、升級法定刑的事由或情節(jié)。刑事裁判結(jié)果,包括主刑、判決罪名、附加刑、免予刑事處罰、不負(fù)刑事責(zé)任情形、宣告無罪。
3.在梳理統(tǒng)計標(biāo)簽時,有時候原子指標(biāo)和屬性標(biāo)簽的定義會出現(xiàn)混淆或不完備的問題。標(biāo)簽對象分類法與數(shù)據(jù)倉庫對接效果最好?!皩ο笤跇I(yè)務(wù)過程事件中產(chǎn)生原子指標(biāo),原子指標(biāo)與修飾詞、計算方法可以組裝出統(tǒng)計標(biāo)簽?!痹陧椖拷ㄔO(shè)過程中是否需要絕對定義原子指標(biāo),還是可以允許對原子指標(biāo)進(jìn)行增改需要根據(jù)項目的復(fù)雜程度和項目的需求變化頻率進(jìn)行具體分析。
(三)業(yè)務(wù)流程對應(yīng)法
智慧法院司法辦案主體業(yè)務(wù)包括訴訟服務(wù)、審判、執(zhí)行、管理、4大類,立案、審理、結(jié)案、涉訴信訪、執(zhí)行、司法公開、司法管理等7個環(huán)節(jié)。其中,立案環(huán)節(jié)包括訴前保全、訴訟調(diào)解、收案、審查、立案、分案等業(yè)務(wù)活動;審理環(huán)節(jié)包括司法協(xié)助、庭前準(zhǔn)備、開庭/聽證、合議評議、審委會討論、文書制作等業(yè)務(wù)活動;結(jié)案環(huán)節(jié)包括歸檔、案件移送、送達(dá)等業(yè)務(wù)活動;涉訴信訪環(huán)節(jié)包括信訪、審查等業(yè)務(wù)活動;執(zhí)行環(huán)節(jié)包括執(zhí)行查控與強制執(zhí)行、執(zhí)行管理等業(yè)務(wù)活動;司法公開環(huán)節(jié)包括審判流程公開、破產(chǎn)案件信息公開、庭審公開、文書公開、執(zhí)行公開等業(yè)務(wù)活動;司法管理環(huán)節(jié)包括審判管理、人事管理、行政事務(wù)、司法研究、信息化管理等業(yè)務(wù)活動。如商業(yè)銀行可以服務(wù)訴訟費支付;網(wǎng)上訴訟平臺可以進(jìn)行立案信息的查詢等;利用網(wǎng)絡(luò)進(jìn)行案件要素智能提取分析;數(shù)字法庭也需要網(wǎng)絡(luò)的應(yīng)用才可以進(jìn)行開庭審理等相關(guān)工作。司法查控部門負(fù)責(zé)進(jìn)行財產(chǎn)查控工作;委托鑒定部門負(fù)責(zé)財產(chǎn)處置等相關(guān)工作。每一個部門都有自己所負(fù)責(zé)的相關(guān)工作,各個部門彼此之間相互協(xié)調(diào)、促進(jìn),這樣才可以保障各項工作都有序展開。
這種做法在信息化建設(shè)中是比較能突出“成效”的,能夠迅速找到知識服務(wù)的“應(yīng)用場景”。但是由于業(yè)務(wù)部門職權(quán)責(zé)的不同,對接的業(yè)務(wù)部門或者直屬領(lǐng)導(dǎo)對整體知識工程的認(rèn)識不一致,這樣的知識服務(wù)往往變形為支持單獨應(yīng)用,知識數(shù)據(jù)定制化發(fā)展。
(一)對于文本型的知識拆解和實踐演繹的知識積累需要用不同的知識工程邏輯和工具進(jìn)行處理
文本型知識來源于法律法規(guī)、司法文件等,首要進(jìn)行知識的拆解。因此第一步應(yīng)當(dāng)確定知識拆解的域、對象和標(biāo)簽,確立好框架,其次進(jìn)行標(biāo)簽標(biāo)注,根據(jù)標(biāo)注數(shù)據(jù)構(gòu)建抽取模型。這一類的知識主要用于檢索、預(yù)警和流程中的知識輔助。這一知識需要進(jìn)行大數(shù)據(jù)的驗證,包括抽取結(jié)果的代表性取樣測評和知識抽取、數(shù)據(jù)標(biāo)準(zhǔn)的規(guī)范化。在知識驗證和優(yōu)化的過程中,針對特定知識應(yīng)用場景的田野研究,應(yīng)用系統(tǒng)指標(biāo)采集和知識更新管理非常重要。而對于實踐經(jīng)驗,我們獲取的時候需要依靠大數(shù)據(jù)挖掘,從數(shù)據(jù)中總結(jié)專家難以積累為文本的知識。而這一類的知識在應(yīng)用中特別要注意決策輔助的維度,也就是說應(yīng)當(dāng)能夠向使用者明確決策推薦算法的數(shù)據(jù)集、模型邏輯和模型適用限定條件等。在知識驗證的階段,專家驗證和基于知識驗證模型的自動比對驗證需要進(jìn)行結(jié)合。自動比對的知識驗證模型我們一般以偏離模型最大值作為對專家驗證的輸出值。
(二)法學(xué)知識抽取要依賴有監(jiān)督的學(xué)習(xí)和專家經(jīng)驗進(jìn)行驗證
無監(jiān)督的學(xué)習(xí)和遷移學(xué)習(xí)的效果都有一定的局限性。但是在有監(jiān)督的學(xué)習(xí)過程中,如前所述,法學(xué)知識的應(yīng)用有一定的主觀性,不同的專家給出的經(jīng)驗具有個性化,同時存在知識偏見,因此在有監(jiān)督的學(xué)習(xí)時,不同的專家在訓(xùn)練數(shù)據(jù)的標(biāo)注時就存在知識定義模糊甚至定義沖突的情況,導(dǎo)致學(xué)習(xí)的困難。這樣的模糊和沖突會使得系統(tǒng)建設(shè)者期待在系統(tǒng)使用過程中,收集用戶使用數(shù)據(jù),優(yōu)化知識抽取效果的期待落空。經(jīng)過培訓(xùn)的數(shù)據(jù)處理人員,按照特定專家的指導(dǎo)對訓(xùn)練數(shù)據(jù)進(jìn)行清洗和標(biāo)注目前是較好的辦法。
(三)知識圖譜作為底層知識表達(dá),知識融合成本非常高
知識圖譜最初定義為用于增強其搜索引擎功能的知識庫由Google提出。知識圖譜可用來更好地查詢復(fù)雜的關(guān)聯(lián)信息,從語義層面理解用戶意圖,改進(jìn)搜索質(zhì)量。本質(zhì)上,知識圖譜是一種揭示實體之間關(guān)系的語義網(wǎng)絡(luò),可以對現(xiàn)實世界的事物及其相互關(guān)系進(jìn)行形式化地描述。目前知識圖譜被越來越多的作為知識內(nèi)核被應(yīng)用在信息化系統(tǒng)底層。但是在建設(shè)過程中,領(lǐng)域圖譜的知識融合成本非常高。一般來說,通過知識抽取可以得到原始的知識資源,但由于知識來源廣泛、質(zhì)量難以判定,其中可能包含大量的模糊、歧義、冗余甚至錯誤信息,所以必須對原始數(shù)據(jù)進(jìn)行清洗和融合。知識融合是對知識組織方式的更高抽象,所設(shè)計的技術(shù)主要有實體消歧、共值消解,多元數(shù)據(jù)合并等。
知識融合中有三個重要的建設(shè)包括:
第一,知識融合組件搭建。
第二,schema規(guī)約機制確立。
第三,沖突檢測的自動化。
在法學(xué)專業(yè)領(lǐng)域,深入理解行業(yè)邏輯,梳理領(lǐng)域?qū)I(yè)術(shù)語,明確各專業(yè)術(shù)語之間的界限和區(qū)隔是融合的關(guān)鍵。知識融合組件的搭建、schema規(guī)約機制確立和沖突檢測的方法都需要深度的理解業(yè)務(wù)規(guī)則和知識圖譜服務(wù)的業(yè)務(wù)流程。
上述三方面建設(shè)中,要求有司法專業(yè)的人員投入,有效的進(jìn)行各類知識節(jié)點的界說、定義、范例、反例,特別在一些學(xué)說界定不明或者有界定爭議的知識界節(jié)點上,需要以通說或者有利于數(shù)據(jù)實現(xiàn)的方法進(jìn)行“再定義”。另一方面,技術(shù)人員對專業(yè)人員知識邊界梳理結(jié)果的再學(xué)習(xí)和再編輯,在這個過程中,代碼的模塊化開發(fā),實時的動態(tài)流程監(jiān)測能夠有效的避免謬誤、降低成本。
[1] 楊臨萍.司法體制改革與智慧法院的實踐與探索[M].法律出版社,2019.
[2] 呂艷濱.人民法院信息化3.0版建設(shè)應(yīng)用評估報告以山東法院為視角[M].中國社會科學(xué)出版社,2017.
[3] 王昊奮,漆桂林,陳華鈞.知識圖譜:方法、實踐與應(yīng)用[M].電子工業(yè)出版社,2019.
[4] 趙軍.知識圖譜[M].高等教育出版社,2018.
[5] 曾鯤.大數(shù)據(jù)時代如何構(gòu)建智慧法院——以1059名法官的訪談實錄為樣本[J].東南司法評論,2019(9).
[6] 黃曉云.智慧法院:以現(xiàn)代科技應(yīng)用助推司法改革[J].中國審判,2017.
[7] 高曉桐.關(guān)于智慧法院建設(shè)現(xiàn)狀的思考[J].法制博覽,2019(8).
[8] 高學(xué)強.人工智能時代的中國司法[J].浙江大學(xué)學(xué)報(人文社會科學(xué)版),2019(7).
[9] 馬燦.面向“智慧法院”的知識圖譜構(gòu)建方法與研究[J].貴州大學(xué)碩士論文 2019.
[10] 秦永彬,馮麗,陳艷平,黃瑞章,劉于雷.“智慧法院”數(shù)據(jù)融合分析與集成應(yīng)用[J].大數(shù)據(jù),2019(5).