段錫輝 黃瑞章
摘? 要:隨著國(guó)家司法信息化建設(shè)的推進(jìn),促進(jìn)司法公平正義、提高司法審判工作效率成為必然的趨勢(shì)。本文將事件圖譜的構(gòu)建方法引入司法領(lǐng)域,將裁判文書(shū)案情描述中的犯罪行為視為節(jié)點(diǎn),犯罪行為間的邏輯關(guān)系視為邊,構(gòu)建了一種犯罪行為演化圖譜,以此來(lái)將案情中孤立的犯罪行為利用邏輯關(guān)系連接起來(lái),從而描述案情的發(fā)展過(guò)程而不是獨(dú)立的要素,最大限度地保留了案情的語(yǔ)義信息。本文提出的自動(dòng)構(gòu)建方法在五個(gè)案由中的抽取結(jié)果比傳統(tǒng)方法平均提高了7.8%,此方法構(gòu)建的犯罪行為演化圖譜可為法律從業(yè)人員研究案情提供參考,同時(shí)為推進(jìn)智慧法院建設(shè)如罪名預(yù)測(cè)、類案推薦等提供了新的思路與方法。
關(guān)鍵詞:犯罪行為;關(guān)系識(shí)別;犯罪行為鏈;犯罪行為演化圖譜
中圖分類號(hào):TP399? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Research on Automatic Construction Method of Criminal Act Evolution Graph
DUAN Xihui, HUANG Ruizhang
(School of Computer Science and Technology, Guizhou University, Guiyang 550025, China)
Abstract: With the advancement of national judicial information construction, it has become an inevitable trend to promote judicial fairness and justice, and improve the efficiency of judicial trials. This paper proposes to introduce construction method of event graph into the judicial field and construct an evolution graph of criminal acts, where criminal act in case fact description of the judgment document is regarded as a node, and the logical relationship between criminal acts as an edge. Isolated criminal acts are thus connected by logical relationship, so as to describe the development process of the case rather than independent elements, and preserve the semantic information of the case to the greatest extent. The extraction results of the five reasons of case by the proposed automatic construction method are improved by an average of 7.8% compared with the traditional method. The criminal act evolution graph constructed by this method can provide a reference for legal practitioners to study cases, and at the same time, it provides new ideas and methods for advancing the construction of smart courts, such as crime prediction and case recommendation.
Keywords: criminal act; relationship identification; criminal act chain; criminal act evolution graph
1? ?引言(Introduction)
裁判文書(shū)是我國(guó)司法案件的一種載體,根據(jù)內(nèi)容大致分為案件信息、案情描述、判決要素及審判結(jié)果四個(gè)部分,如圖1所示。法律從業(yè)人員在研究過(guò)往案件裁判文書(shū)的過(guò)程中往往需要獲取案情的發(fā)展脈絡(luò),以此來(lái)為當(dāng)前案件提供論據(jù)。在過(guò)去的知識(shí)圖譜分析方法中,人們往往只關(guān)注裁判文書(shū)中獨(dú)立的案情要素,忽略了犯罪行為之間存在的邏輯與規(guī)律[1-2]。在能夠描述事件發(fā)展和演化的事件演化圖譜[3](Event Evolutionary Graph, EEG)的啟發(fā)下,本文提出了一種全新的案情結(jié)構(gòu)化表示方法——犯罪行為演化圖譜(Criminal Act Evolutionary Graph),將犯罪行為視為事件(Event),而犯罪行為之間的演化關(guān)系則可以用事件間的時(shí)序、因果等關(guān)系(Relation)來(lái)描述,故犯罪行為演化圖譜的構(gòu)建方法可以表述為:構(gòu)建一個(gè)能夠利用事件之間的時(shí)序及因果等關(guān)系來(lái)描述事件演化規(guī)律的有向無(wú)環(huán)圖。在以圖結(jié)構(gòu)描述案情的過(guò)程中,如何在清晰明確地描述案情發(fā)展及其演化過(guò)程的同時(shí)盡可能地保留上下文語(yǔ)義信息是本工作的一大難點(diǎn)。
2? ?背景及相關(guān)工作(Background and related work)
近年來(lái),國(guó)內(nèi)外學(xué)者普遍認(rèn)為計(jì)算機(jī)技術(shù)對(duì)法律行業(yè)產(chǎn)生了重大的影響[4],我國(guó)在司法信息化建設(shè)過(guò)程中取得了不錯(cuò)的進(jìn)展,并積累了相當(dāng)多的經(jīng)驗(yàn)。目前智能司法領(lǐng)域的相關(guān)工作主要集中在通過(guò)裁判文書(shū)、證詞、庭審記錄等司法大數(shù)據(jù),利用大數(shù)據(jù)與人工智能技術(shù)達(dá)成輔助審判的應(yīng)用[5],同時(shí)在罪名預(yù)測(cè)、法條推薦、刑期預(yù)測(cè)、類案推薦及司法知識(shí)圖譜等應(yīng)用[6]上取得了令人矚目的成果,但這些工作還只停留在對(duì)案情要素的應(yīng)用上,沒(méi)有對(duì)案情的發(fā)展和演化進(jìn)行深入研究。
在過(guò)去對(duì)案情的分析方法中,常采用知識(shí)圖譜的方法來(lái)表示裁判文書(shū)中包含的半結(jié)構(gòu)化信息[7],但這種方法通常只關(guān)注實(shí)體及關(guān)系等靜態(tài)要素,難以獲得案情部分具有序列特征的犯罪行為的演化與發(fā)展等動(dòng)態(tài)信息。受知識(shí)圖譜構(gòu)建方法的啟發(fā),本文引入了一種特殊的知識(shí)圖譜——事件圖譜。在事件圖譜的構(gòu)建工作中,HOLME等人[8]將這種結(jié)構(gòu)統(tǒng)稱為時(shí)間網(wǎng)絡(luò)(Temporal Networks),這是具有跨學(xué)科性質(zhì)的研究?jī)?nèi)容;CHAMBERS等人[9]通過(guò)引入局部有序的時(shí)序關(guān)系,構(gòu)建了一種新的結(jié)構(gòu)化數(shù)據(jù)表示:敘事事件鏈(Narrative Event Chains);LI等人[10]在其基礎(chǔ)上又引入了因果關(guān)系,稱為事件演化圖譜(Event Evolutionary Graph),使其能描述現(xiàn)實(shí)世界中事件的演化和發(fā)展邏輯。
本文將犯罪行為(事件)對(duì)應(yīng)知識(shí)圖譜中的實(shí)體,犯罪行為的演化關(guān)系對(duì)應(yīng)知識(shí)圖譜中的關(guān)系,將“實(shí)體-關(guān)系-實(shí)體”的三元組變?yōu)椤胺缸镄袨?演化關(guān)系-犯罪行為”的三元組,犯罪行為之間用演化關(guān)系彼此連接,構(gòu)建犯罪行為演化圖譜,用來(lái)描述案情的演化與發(fā)展規(guī)律。
3? ?定義(Definition)
犯罪行為(Criminal Act)是指案情描述中的事件提及,即表示案情中事件發(fā)生的謂語(yǔ)動(dòng)詞及其所包含的參數(shù),其中謂語(yǔ)動(dòng)詞稱為“犯罪行為詞”。在本文中,我們利用基于NLP(Natural Language Process)的語(yǔ)法分析工具提取犯罪行為,識(shí)別犯罪行為之間的時(shí)序、因果兩種演化關(guān)系,構(gòu)造出犯罪行為鏈(Criminal Act Chain),最后將多個(gè)犯罪行為鏈拼接為犯罪行為演化圖譜。在本部分中,我們會(huì)對(duì)犯罪行為、犯罪行為鏈及犯罪行為演化圖譜等概念做出系統(tǒng)性的定義與解釋。
3.1? ? 犯罪行為元組及演化關(guān)系
5? ?實(shí)驗(yàn)(Experiment)
5.1? ?數(shù)據(jù)來(lái)源
本文構(gòu)建犯罪行為演化圖譜的數(shù)據(jù)來(lái)源于貴州省高級(jí)人民法院提供的裁判文書(shū),由于涉毒案件在貴州省歷年案件中占比排在前列,且案情描述清晰,邏輯性較強(qiáng),故我們以其中涉毒案件為例,獲取了總計(jì)20,509 篇涉毒案件,主要包括販賣毒品罪、運(yùn)輸毒品罪及非法持有毒品罪等案由。表1中展示了數(shù)據(jù)的構(gòu)成。
5.2? ?犯罪行為抽取結(jié)果
犯罪行為抽取為犯罪行為演化圖譜構(gòu)建及犯罪行為演化模式識(shí)別的關(guān)鍵步驟,犯罪行為抽取方法的效果將直接影響后續(xù)工作的結(jié)果。為了驗(yàn)證上述抽取方法的有效性,我們從涉毒案件裁判文書(shū)數(shù)據(jù)集中隨機(jī)選取了500 篇案件進(jìn)行人工標(biāo)注,獲得共計(jì)19,536 個(gè)標(biāo)簽,將其按3∶1∶1的比例分別構(gòu)建訓(xùn)練集、驗(yàn)證集與測(cè)試集,將本文中基于LTP工具及規(guī)則的抽取算法(LTP+R)與當(dāng)前最有效的基于BERT預(yù)訓(xùn)練模型的機(jī)器閱讀理解(MRC)抽取算法[14]進(jìn)行對(duì)比,其結(jié)果如表2所示。
從表2中可以看到,在所有類別的案件中,LTP+R方法的準(zhǔn)確率與F1值均高于BERT-MRC方法,故我們判定,基于LTP的無(wú)監(jiān)督抽取方法LTP+R在犯罪行為的抽取中是有效的。
5.3? ?犯罪行為圖譜構(gòu)建結(jié)果
在本部分中,我們將展示從犯罪案件中抽取的犯罪行為演化圖譜,將每一篇案件對(duì)應(yīng)的犯罪行為演化圖譜存儲(chǔ)為json格式,利用pyecharts工具將json格式的犯罪行為演化圖譜進(jìn)行可視化展示,如圖4所示。
圖4為以某一販賣毒品案件為基礎(chǔ)自動(dòng)構(gòu)建出的犯罪行為演化圖譜,其中每一個(gè)較大的節(jié)點(diǎn)為行為詞,與較小的節(jié)點(diǎn)所代表的行為參數(shù)共同構(gòu)成了一個(gè)犯罪行為實(shí)例,并通過(guò)較大的節(jié)點(diǎn)之間的邊所代表的演化關(guān)系連接,組成了一個(gè)能夠描述案情發(fā)展的犯罪行為演化圖譜。在由20,509 篇裁判文書(shū)構(gòu)建的20,509 個(gè)犯罪行為圖譜中,包含200,948 個(gè)節(jié)點(diǎn)、593,588 個(gè)屬性及203,236 條有向邊。裁判文書(shū)的犯罪行為演化圖譜描述方法具有豐富的上下文語(yǔ)義特征,故我們認(rèn)為犯罪行為演化圖譜的自動(dòng)構(gòu)建方法能在一定程度上描述案情的發(fā)展演化。
我們將通過(guò)犯罪行為演化圖譜的特征數(shù)量來(lái)展示犯罪行為演化圖譜的構(gòu)建結(jié)果,如表3所示。表3中,犯罪行為元組由行為觸發(fā)詞及其參數(shù)構(gòu)成。行為觸發(fā)詞對(duì)應(yīng)圖4中的節(jié)點(diǎn)數(shù)量,犯罪行為參數(shù)(包含施事者、受事者、間接受事者、時(shí)間、地點(diǎn))對(duì)應(yīng)節(jié)點(diǎn)屬性的數(shù)量,演化關(guān)系對(duì)應(yīng)圖4中的邊。
在表4與表5中分別展示了犯罪行為抽取的結(jié)果與犯罪行為演化關(guān)系的示例??梢钥闯鲈诒?中,犯罪行為元組包含犯罪行為詞及其參數(shù),犯罪行為元組可以簡(jiǎn)單明了地描述犯罪行為;在表5中展示了“犯罪行為-演化關(guān)系-犯罪行為”的犯罪行為三元組結(jié)構(gòu)。
6? ?結(jié)論(Conclusion)
本文通過(guò)犯罪行為抽取方法生成犯罪行為鏈,構(gòu)建犯罪行為演化圖譜,對(duì)裁判文書(shū)的案情描述進(jìn)行層層抽象。在此過(guò)程中提出了一種新的案情描述框架——犯罪行為演化圖譜,以此來(lái)對(duì)案情進(jìn)行包含上下文語(yǔ)境的結(jié)構(gòu)化表示,為警務(wù)工作和司法輔助審判的信息化建設(shè)提供了一種新的案情分析方法。在未來(lái)的工作中,我們將繼續(xù)完善和推廣犯罪行為圖譜理論,并深入挖掘犯罪行為演化圖譜在犯罪行為預(yù)測(cè)、類案推薦、罪名預(yù)測(cè)、法條推薦等方向的應(yīng)用。
參考文獻(xiàn)(References)
[1] LIAN H, QIN Z, HE T, et al. Knowledge graph construction based on judicial data with social media[C]// WANG G, LIN X, HENDLER J, et al. 2017 14th Web Information Systems and Applications Conference (WISA). Piscataway, USA: IEEE, 2017:225-227.
[2] CHEN B, LI Z, SHEN S, et al. Judicial knowledge reasoning based on representation learning[C]// MENG S, DAI Y,? ?LUO L, et al. 2019 IEEE 19th International Conference on Software Quality, Reliability and Security Companion (QRS-C). Piscataway, USA: IEEE, 2019:84-88.
[3] LI Z, DING X, LIU T. Constructing narrative event evolutionary graph for script event prediction[C]// LANG J.??Proceedings of the 27th International Joint Conference on Artificial Intelligence. Menlo Park, USA: AAAI, 2018:?4201-4207.
[4] XU A. Chinese judicial justice on the cloud: A future call or a pandora's box? An analysis of the 'Intelligent Court System' of China[J]. Information & Communications Technology Law, 2017, 26(1):59-71.
[5] 楊凱.公共法律服務(wù)智能應(yīng)用新視野——以人工智能技術(shù)與審判輔助辦案機(jī)制建構(gòu)為中心[J].湖北警官學(xué)院學(xué)報(bào),2020,33(05):28-40.
[6] 秦永彬,馮麗,陳艷平,等.“智慧法院”數(shù)據(jù)融合分析與集成應(yīng)用[J].大數(shù)據(jù),2019,5(03):35-46.
[7] 陳彥光,劉海順,李春楠,等.基于刑事案例的知識(shí)圖譜構(gòu)建技術(shù)[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2019,51(03):85-90.
[8] HOLME P, SARAM?KI J. Temporal networks[J]. Physics Reports, 2012, 519(3):97-125.
[9] CHAMBERS N, JURAFSKY D. Unsupervised learning of narrative event chains[C]// MOORE J, TEUFEL S, ALLAN J, et al. Proceedings of ACL-08: HLT. Stroudsburg, USA: ACL, 2008:789-797.
[10] LI Z, ZHAO S, DING X, et al. EEG: Knowledge base for event evolutionary principles and patterns[C]// CHENG X, MA W, LIU H, et al. Chinese National Conference on Social Media Processing. Singapore: Springer, 2017:40-52.
[11] GRANROTH-WILDING M, CLARK S. What happens next? Event prediction using a compositional neural network model[C]// ALTO P. Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Menlo Park, USA: AAAI, 2016:2727-2733.
[12] CHE W, LI Z, LIU T. Ltp: A Chinese language technology platform[C]// LIU Y, LIU T. Coling 2010: Demonstrations. Stroudsburg, USA: ACL, 2010:13-16.
[13] JANS B, BETHARD S, VULI? I, et al. Skip N-grams and ranking functions for predicting script events[C]// DAELEMANS W. Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2012:336-344.
[14] RAJPURKAR P, JIA R, LIANG P. Know what you don't know: Unanswerable questions for SQuAD[C]// GUREVYCH I, MIYAO Y. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2018:784-789.
作者簡(jiǎn)介:
段錫輝(1996-),男,碩士生.研究領(lǐng)域:數(shù)據(jù)挖掘,知識(shí)圖譜,機(jī)器學(xué)習(xí).
黃瑞章(1979-),女,博士,教授.研究領(lǐng)域:數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),聚類.