• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中文法律條文推薦深度學(xué)習(xí)方法綜述

      2024-01-02 08:35:56彭亞男賀敏偉
      軟件導(dǎo)刊 2023年12期
      關(guān)鍵詞:法條法律條文案情

      彭亞男,尹 華,2,賀敏偉

      (1.廣東財(cái)經(jīng)大學(xué) 信息學(xué)院;2.廣東省智能商務(wù)工程技術(shù)研究中心,廣東 廣州 510320)

      0 引言

      在司法判決中,法官根據(jù)案情描述查找相關(guān)的法律條文,再根據(jù)法律條文和案情描述確定罪名,最后根據(jù)法律條文、罪名以及案情描述確定刑罰。法律條文推薦(法條推薦,法條預(yù)測(cè))對(duì)確定罪名和量刑至關(guān)重要。法條推薦根據(jù)案情描述(定義為事實(shí))預(yù)測(cè)所適用的法律條文,可作為法院判決的依據(jù)[1],是輔助法官進(jìn)行司法判決的重要實(shí)踐,也是智慧法院的關(guān)鍵技術(shù)與應(yīng)用之一。近年來(lái),涌現(xiàn)出大量關(guān)于我國(guó)智能司法應(yīng)用的文獻(xiàn),研究者們主要從寬泛的人工智能法律應(yīng)用以及判決預(yù)測(cè)任務(wù)等角度對(duì)當(dāng)前的研究進(jìn)行綜述[2-4],但較少針對(duì)性地系統(tǒng)梳理中文法條推薦方法。法條推薦任務(wù)的本質(zhì)是對(duì)案情描述和法律法規(guī)進(jìn)行表示,提取出關(guān)鍵特征信息用于模型的訓(xùn)練和預(yù)測(cè)。相比傳統(tǒng)的法條推薦算法,基于深度學(xué)習(xí)的方法利用逐層學(xué)習(xí)的方式,提取案情描述的深層語(yǔ)義特征,是當(dāng)前的主流方法。本文從中文法條推薦任務(wù)的模型構(gòu)建模式出發(fā),首先將其分為基于分類(lèi)任務(wù)、多任務(wù)學(xué)習(xí)以及基于匹配的法條推薦三類(lèi);然后,根據(jù)所采用的深度神經(jīng)網(wǎng)絡(luò)模型,深入分析當(dāng)前中文法條推薦算法研究進(jìn)展;并從實(shí)際應(yīng)用角度進(jìn)一步分析復(fù)雜場(chǎng)景下中文法條推薦算法研究;最后,歸納整理中文法條推薦數(shù)據(jù)集、評(píng)價(jià)指標(biāo)以及實(shí)驗(yàn)數(shù)據(jù),并對(duì)未來(lái)的研究方向和重點(diǎn)進(jìn)行展望。

      1 法條推薦

      法條推薦任務(wù)的輸入通常為案情描述,輔以法律法規(guī)等法律知識(shí),采用不同的模式構(gòu)造法條推薦模型。根據(jù)采用的模式,我們將法條推薦方法劃分為基于分類(lèi)任務(wù)的法條推薦、多任務(wù)學(xué)習(xí)的法條推薦以及基于匹配的法條推薦三類(lèi)。

      1.1 基于分類(lèi)任務(wù)的法條推薦

      此類(lèi)方法將法條推薦任務(wù)轉(zhuǎn)化為文本分類(lèi)任務(wù),法律條文作為類(lèi)標(biāo)簽,結(jié)合案情描述構(gòu)建分類(lèi)器,預(yù)測(cè)的類(lèi)別即推薦的法律條文。根據(jù)特征抽取方法將其分為基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法(如圖1a 所示)和基于深度學(xué)習(xí)的方法(如圖1b所示)。

      Fig.1 Framework for law articles recommendation based on classification tasks圖1 基于分類(lèi)任務(wù)的法條推薦框架

      傳統(tǒng)機(jī)器學(xué)習(xí)方法需要人工提取特征,包括字符、詞以及短語(yǔ)級(jí)別的淺層語(yǔ)義特征[5]。此類(lèi)淺層語(yǔ)義特征缺乏深層語(yǔ)義信息,難以區(qū)分相似法律條文。例如,Lin 等[6]通過(guò)人工的方法定義特殊法條之間的不同因素,從而獲得案情描述的深層次表示,但該方法需要大量的人工標(biāo)注;Liu 等[5,7]提出將法律條文信息加入預(yù)測(cè)模型中,只考慮了少量的法律條文信息,不適用大規(guī)模的法條推薦。傳統(tǒng)機(jī)器學(xué)習(xí)方法的特征提取需要專(zhuān)業(yè)人員參與,標(biāo)注成本高且具有數(shù)據(jù)特異性,難以適應(yīng)不同場(chǎng)景?;谏疃葘W(xué)習(xí)的方法通過(guò)深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行文本表示,自動(dòng)提取案情描述的文本特征,具有抽取深層特征的優(yōu)勢(shì),具體在第2 節(jié)詳細(xì)展開(kāi)描述。

      1.2 多任務(wù)學(xué)習(xí)的法條推薦

      現(xiàn)實(shí)司法判決中,法條推薦與罪名預(yù)測(cè)、刑期預(yù)測(cè)并非獨(dú)立存在。因此有研究者采用多任務(wù)學(xué)習(xí)方法進(jìn)行法條推薦。多任務(wù)學(xué)習(xí)包括多任務(wù)學(xué)習(xí)框架選擇和子任務(wù)依賴(lài)關(guān)系的確定兩部分,其中多任務(wù)學(xué)習(xí)框架有參數(shù)硬共享和軟共享兩種模式。參數(shù)硬共享通過(guò)在相關(guān)任務(wù)之間共享表示層或某些編碼層來(lái)實(shí)現(xiàn)參數(shù)共享,參數(shù)軟共享為每個(gè)任務(wù)學(xué)習(xí)一個(gè)網(wǎng)絡(luò),但每個(gè)任務(wù)的網(wǎng)絡(luò)都可以訪問(wèn)其他任務(wù)對(duì)應(yīng)網(wǎng)絡(luò)中的信息。Zhong 等[8]將子任務(wù)之間的依賴(lài)關(guān)系形式化為有向無(wú)環(huán)圖,將所有子任務(wù)都按照拓?fù)漤樞蜻M(jìn)行排列,其中最典型的就是無(wú)依賴(lài)關(guān)系(圖2a)和序列依賴(lài)關(guān)系(圖2b)。無(wú)依賴(lài)關(guān)系的多任務(wù)學(xué)習(xí)將子任務(wù)獨(dú)立考量,但在學(xué)習(xí)模型的不同位置共享參數(shù)。范阿曼等[9]對(duì)3 個(gè)子任務(wù)使用了相同的基于BERT[10]特征提取子網(wǎng)絡(luò),并共享了相應(yīng)的特征提取子網(wǎng)絡(luò)權(quán)重;潘瑞東等[11]對(duì)于罪名預(yù)測(cè)和法條推薦兩個(gè)子任務(wù)在使用BERT 模型和知識(shí)蒸餾策略提取相應(yīng)特征的時(shí)候共享參數(shù),降低模型計(jì)算復(fù)雜度并且提高模型推理速度。序列依賴(lài)的多任務(wù)法條推薦中,罪名預(yù)測(cè)依賴(lài)于法條預(yù)測(cè),刑期預(yù)測(cè)依賴(lài)于法條預(yù)測(cè)和罪名預(yù)測(cè);張春云等[12]在此基礎(chǔ)上加入基于自注意力機(jī)制的過(guò)程監(jiān)督層,通過(guò)引入過(guò)程監(jiān)督來(lái)獲取有效的先行任務(wù)相關(guān)依賴(lài)信息,從而為后續(xù)序列多任務(wù)依賴(lài)信息融合層抽取提供重要的特征保障;Yang 等[13]將每個(gè)任務(wù)的中間預(yù)測(cè)結(jié)果映射到潛在空間狀態(tài),再將潛在空間向量與案情語(yǔ)義向量合并,并將其用于前向任務(wù)預(yù)測(cè)(FP),同時(shí)建立后向任務(wù)驗(yàn)證(BV),最后將前向預(yù)測(cè)和后向驗(yàn)證結(jié)合得到最終的預(yù)測(cè)結(jié)果,解決了法條缺少依賴(lài)任務(wù)提升效果的問(wèn)題。

      Fig.2 Multi-task law articles recommendation framework圖2 多任務(wù)法條推薦框架

      1.3 基于匹配的法條推薦

      目前主流的法條推薦方法是將法條當(dāng)作類(lèi)別標(biāo)簽,采用分類(lèi)的思想將案情描述歸類(lèi)到相關(guān)的法條中,但是法律條文是具有規(guī)范的表述形式,而現(xiàn)有的分類(lèi)方法簡(jiǎn)單的將法條作為類(lèi)別標(biāo)簽的索引,未深度利用法條的語(yǔ)義信息從而影響法條推薦質(zhì)量。因此,研究者們提出將法條推薦視為匹配任務(wù),基于匹配的方法將法條推薦任務(wù)視為語(yǔ)義匹配任務(wù),計(jì)算案情描述和法條的匹配程度,按照匹配程度進(jìn)行推薦。該任務(wù)分為法條的嵌入表示層、案情嵌入表示層以及語(yǔ)義匹配層3個(gè)部分,具體如圖3所示。

      Fig.3 Law articles recommendation based on matching圖3 基于匹配的法條推薦

      在嵌入表示時(shí),李琳等[1]從深層語(yǔ)義匹配出發(fā),從案情描述中提取與法條語(yǔ)義匹配的重要局部特征,再聯(lián)合案情描述和匹配概率分布,通過(guò)回歸樹(shù)輸出最終的推薦結(jié)果,并且具有一定的可解釋性;Wang 等[14]針對(duì)法條知識(shí)和結(jié)構(gòu)信息,將罪名和法條結(jié)構(gòu)以樹(shù)形進(jìn)行表示,通過(guò)分解層將法律條文(子標(biāo)簽)分解為對(duì)齊分量和剩余分量。對(duì)齊分量是同一罪名(父標(biāo)簽)的子標(biāo)簽的相似語(yǔ)義,進(jìn)行聚合得到罪名表示;剩余分量表示每個(gè)子標(biāo)簽的唯一特征,并將其聚合為子標(biāo)簽的表示。將事實(shí)標(biāo)簽之間的共同注意機(jī)制來(lái)生成有效的語(yǔ)義輸入匹配層得到法條和罪名預(yù)測(cè)結(jié)果;Fan 等[15]考慮現(xiàn)實(shí)中一個(gè)案情可能違背了多條法律條文,然而這些法律條文并非獨(dú)立的存在,它們之間存在著關(guān)系等問(wèn)題,根據(jù)構(gòu)建先驗(yàn)知識(shí)和外部知識(shí)構(gòu)建法律條文圖,用圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)得到法條嵌入表示,并對(duì)案情描述進(jìn)行編碼,將法條和案情描述的嵌入表示輸入到匹配層得到法條推薦的結(jié)果;

      2 基于深度學(xué)習(xí)的中文法條推薦

      深度學(xué)習(xí)方法不依賴(lài)于人工獲取的文本特征,可以直接對(duì)文本內(nèi)容進(jìn)行學(xué)習(xí)、建模[16],對(duì)文本表示具有天然的優(yōu)勢(shì),本節(jié)從卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、GNN 以及混合模型等具有代表性的深度學(xué)習(xí)模型出發(fā),對(duì)中文法條推薦算法進(jìn)行歸納總結(jié)。

      2.1 CNN

      CNN 通過(guò)卷積和池化操作進(jìn)行特征提?。?7],卷積層的作用是從句子中提取出語(yǔ)義組合信息,池化層進(jìn)行降維,保留主要特征的同時(shí)減少參數(shù)和計(jì)算量,防止過(guò)擬合。TextCNN[18]是最早用于文本分類(lèi)的卷積神經(jīng)網(wǎng)絡(luò)模型,結(jié)構(gòu)如圖4 所示。在CNN 的基礎(chǔ)上,DPCNN[19]、VDCNN[20]等算法相繼被提出。

      Fig.4 Structure of TextCNN圖4 TextCNN結(jié)構(gòu)

      在法條推薦研究中,Yan 等[21]在TextCNN 的卷積層提取案情特征時(shí)首先計(jì)算一些關(guān)鍵字間的相似性,并建立反向網(wǎng)絡(luò),以充分利用法律法規(guī)信息。CNN 用于文本分類(lèi)時(shí)具有從全局信息中提取局部特征的能力,但其無(wú)法捕獲長(zhǎng)距離依賴(lài)關(guān)系[22]。為此,Zhong 等[8]提出一個(gè)判決預(yù)測(cè)框架TOPJUDGE,該方法使用CNN 編碼層對(duì)案情描述進(jìn)行編碼,每個(gè)任務(wù)使用一個(gè)特定的LSTM 單元格,并以拓?fù)漤樞颢@得每個(gè)任務(wù)的輸出,該方法利用了任務(wù)之間的相關(guān)性,相較于傳統(tǒng)的CNN、HLSTM 等單任務(wù)模型取得了更好的結(jié)果;Zhang 等[23]針對(duì)案情描述具有長(zhǎng)距離依賴(lài)關(guān)系的特征,將DPCNN 用于法條推薦模型中,DPCNN 模型使用兩級(jí)等長(zhǎng)卷積和最大池化,并在每次卷積后執(zhí)行最大池化。重復(fù)執(zhí)行卷積池循環(huán)塊可以捕獲合法文本的長(zhǎng)距離依賴(lài)關(guān)系,該方法也可以克服CNN+LSTM 模型的時(shí)間復(fù)雜度高的問(wèn)題。程豪等[24]提出基于分層學(xué)習(xí)的易混淆法條預(yù)測(cè)模型HLCLPM,該模型使用兩個(gè)CNN 分類(lèi)器對(duì)法條進(jìn)行分層預(yù)測(cè),對(duì)易混淆法條完成第二層預(yù)測(cè)從而解決易混淆法條推薦問(wèn)題,其中卷積層負(fù)責(zé)抽取文本的特征,最大池化層負(fù)責(zé)選擇最主要的特征值,SoftMax 用于預(yù)測(cè)在各個(gè)類(lèi)別上的概率?;贑NN 的法條推薦主要通過(guò)卷積核從案情描述向量中提取特征,卷積核捕獲的特征數(shù)量與卷積核大小相關(guān)。CNN 具有較強(qiáng)的并行能力,并且由多層神經(jīng)網(wǎng)絡(luò)組成,理論而言,只要層次夠深就可以捕獲遠(yuǎn)距離特征。

      2.2 RNN

      RNN 由輸入層、隱藏層和輸出層組成[25],結(jié)構(gòu)如圖5所示。RNN 在處理序列數(shù)據(jù)上有著良好的性能,具備處理變長(zhǎng)輸入和長(zhǎng)距離依賴(lài)的能力,但對(duì)長(zhǎng)期的記憶影響較小,不能應(yīng)對(duì)輸入很長(zhǎng)的情況,面臨梯度爆炸和梯度消失等問(wèn)題。針對(duì)該問(wèn)題,研究者提出多種變體RNN,如 LSTM[26]、GRU[27]等,他們都可以有效解決長(zhǎng)期記憶依賴(lài)和反向傳播中的梯度消失等問(wèn)題。RNN 及其變體在文本分類(lèi)中也取得了顯著的成果。例如,Wang 等[14]將法條預(yù)測(cè)視為標(biāo)簽匹配問(wèn)題,把標(biāo)簽(罪名和法條)結(jié)構(gòu)以樹(shù)形進(jìn)行表示,在編碼層利用GRU 將標(biāo)簽和事實(shí)嵌入到低嵌入空間中,提出一種融合標(biāo)簽的層次結(jié)構(gòu)和語(yǔ)義的分層匹配網(wǎng)絡(luò)。基于RNN 的法條推薦可以解決案情描述的長(zhǎng)文本依賴(lài)以及序列信息問(wèn)題,然而循環(huán)神經(jīng)網(wǎng)絡(luò)是順序計(jì)算,不能并行計(jì)算,存在計(jì)算效率問(wèn)題。

      Fig.5 Structure of RNN圖5 RNN結(jié)構(gòu)

      2.3 GNN

      GNN 是一種直接對(duì)圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行學(xué)習(xí)的框架[28]。GNN 通過(guò)節(jié)點(diǎn)及其周?chē)泥従有畔⒉粩嗑酆希詫W(xué)習(xí)到節(jié)點(diǎn)的高層表示?;贕NN 的法條推薦分為3 個(gè)步驟:首先進(jìn)行案情描述的文本嵌入表示;然后按照法條共現(xiàn)信息、法條詞匯共現(xiàn)以及法條相似多等信息構(gòu)建法條圖,通過(guò)GNN 得到法條的嵌入表示;最后通過(guò)匹配層實(shí)現(xiàn)法條推薦,或通過(guò)融合層將法條知識(shí)與案情描述融合后分類(lèi)獲得法條推薦模型。具體如圖6所示。

      Fig.6 Law articles recommendation based on GNN圖6 基于GNN的法條推薦流程

      在基于GNN 的法條推薦研究中,F(xiàn)an 等[15]提出基于圖的標(biāo)簽匹配模型GLAM,通過(guò)建立語(yǔ)義法條圖、案情法條圖、詞匯圖以及法條—詞匯關(guān)聯(lián)圖構(gòu)造標(biāo)簽異構(gòu)圖(即法條圖),然后采用GNN 對(duì)異構(gòu)圖進(jìn)行編碼得到法條底層嵌入,同時(shí)對(duì)案情描述進(jìn)行編碼,將得到的底層嵌入表示輸入到匹配層得到法條推薦的結(jié)果;Xu 等[29]提出一個(gè)端對(duì)端的法條推薦方法LADAN,該方法將GNN 中的聚合方案改為蒸餾操作,以提取相似法條之間的可區(qū)分特征。案情描述特征的基礎(chǔ)表示采用CNN 和Bi-RNN 編碼,易區(qū)分表示則是通過(guò)TF-IDF 建立法條關(guān)系圖,根據(jù)閾值將其劃分為子圖,經(jīng)過(guò)圖蒸餾層獲得各個(gè)子圖的區(qū)分向量,根據(jù)子圖的區(qū)分向量對(duì)案情描述進(jìn)行注意力加權(quán)得到區(qū)分特征,該方法將案情描述作為整體進(jìn)行特征表示;Yue 等[30]提出NeurJudge+方法,結(jié)合司法實(shí)際將案情描述事實(shí)分為不同部分,構(gòu)建法條和罪名兩個(gè)標(biāo)簽相似圖,然后通過(guò)圖分解學(xué)習(xí)得到標(biāo)簽的特有特征,使用CNN 和Bi-RNN 編碼案情描述、法律條文和罪名描述的語(yǔ)義向量,采用注意力機(jī)制得到關(guān)注標(biāo)簽特性的案情表示。GNN 以圖的形式表示文本,直觀表達(dá)文本各元素之間豐富的關(guān)系,并且能夠利用節(jié)點(diǎn)間的連接關(guān)系保留全局圖信息?;贕NN 的法條推薦可以從多維度建立法條圖,當(dāng)設(shè)計(jì)的圖結(jié)構(gòu)足夠有效時(shí),其可以更好地捕捉結(jié)構(gòu)信息,從而更深入地融入法條知識(shí)。

      2.4 混合模型

      單一深度學(xué)習(xí)模型各有優(yōu)劣,混合模型則綜合考慮各個(gè)單一模型的優(yōu)勢(shì),例如CNN 可以從全局信息中提取局部關(guān)鍵信息,RNN 擅長(zhǎng)處理長(zhǎng)距離依賴(lài)關(guān)系。在混合模型研究中,陳文哲等[31]使用TextCNN 對(duì)案情進(jìn)行編碼,采用Bi-LSTM 對(duì)犯罪序列編碼,然后將案情描述與犯罪序列拼接后經(jīng)過(guò)全連接層得到法律條文推薦;張青等[32]引入BiLSTM 模型解決案情描述長(zhǎng)文本依賴(lài)問(wèn)題,設(shè)計(jì)CNN 不同的卷積核尺寸提取不同粒度的專(zhuān)業(yè)術(shù)語(yǔ)特征信息。注意力機(jī)制允許編碼器回顧輸入序列,即編碼器會(huì)基于一個(gè)上下文向量來(lái)調(diào)節(jié)輸出從而使特征提取更為全面,因此有研究者提出融合CNN 與注意力機(jī)制的組合方法。例如,Yang等[13]在CNN 編碼器的基礎(chǔ)上提出一種基于任務(wù)間拓?fù)浣Y(jié)構(gòu)的多視角雙反饋詞搭配注意機(jī)制網(wǎng)絡(luò)MPBFN-WCA;Wang 等[33]在基于CNN 對(duì)案情描述和法條定義進(jìn)行嵌入表示的基礎(chǔ)上提出動(dòng)態(tài)成對(duì)注意力模型DPAM。亦有研究者將RNN 與注意力機(jī)制組合,在關(guān)注案情描述文本序列信息和長(zhǎng)距離依賴(lài)關(guān)系的同時(shí)使用注意力機(jī)制關(guān)注案情描述中法律規(guī)定的關(guān)鍵信息。例如,Yang 等[34]提出一個(gè)循環(huán)注意力模型RAN,首先使用LSTM 和自注意力機(jī)制對(duì)法條和案情描述進(jìn)行編碼;然后在重復(fù)注意力模塊多次捕捉法條與案情描述之間的重復(fù)交互信息;最后輸出基于法條注意力的案情表述推薦結(jié)果。GNN 可有效處理長(zhǎng)距離與非連續(xù)單詞的交互,其與其他神經(jīng)網(wǎng)絡(luò)融合的法條推薦模型在“2.3”節(jié)已經(jīng)詳細(xì)闡述。

      法律案情描述以及法條定義通常包含大量法律專(zhuān)屬名詞,將知識(shí)整合到預(yù)先訓(xùn)練的模型中,有助于提高法律概念之間的推理能力。例如,楊超群等[35]以遷移學(xué)習(xí)的思想訓(xùn)練法律詞向量,使用FastText[36]預(yù)訓(xùn)練4.2 G 通用中文詞向量作為初始向量,采用FastText 詞嵌入方法在初始向量的基礎(chǔ)上對(duì)法律詞向量進(jìn)行分類(lèi);張青等[32]使用BERT預(yù)訓(xùn)練模型獲取案件詞向量,唐光遠(yuǎn)等[37]利用BERT 預(yù)訓(xùn)練模型對(duì)案情描述和法條知識(shí)進(jìn)行編碼。然而B(niǎo)ERT 模型512 的字?jǐn)?shù)限制會(huì)導(dǎo)致長(zhǎng)案件文本相關(guān)信息丟失的問(wèn)題,為此張青等[38]采用XLNET[39]預(yù)模型獲取案件豐富的語(yǔ)義信息;楊通超等[40]在KG-Bert 算法[41]和Lawformer 預(yù)訓(xùn)練模型(采用法律領(lǐng)域真實(shí)的民事和刑事案件數(shù)據(jù)作為預(yù)訓(xùn)練語(yǔ)料庫(kù))[42]的基礎(chǔ)上提出KG-Lawformer 算法,將案情描述和法條文本分別看作三元組中的頭實(shí)體和尾實(shí)體描述信息,對(duì)其之間連接關(guān)系的進(jìn)行學(xué)習(xí),預(yù)測(cè)出案情與法條之間的對(duì)應(yīng)關(guān)系。

      3 復(fù)雜場(chǎng)景下的中文法條推薦

      3.1 低頻法條推薦

      低頻法條推薦是判決預(yù)測(cè)的重大挑戰(zhàn),因?yàn)榉深I(lǐng)域的文本數(shù)據(jù)常常是不平衡的、缺失的,如何在有限的案例中訓(xùn)練出一種穩(wěn)健且有效的低頻法條推薦方法成為研究者們關(guān)注的重點(diǎn)。例如,Wang 等[33]將每個(gè)法條集枚舉到一個(gè)成對(duì)的標(biāo)簽集,將法條語(yǔ)義融入到成對(duì)標(biāo)簽注意矩陣中意關(guān)注更為關(guān)鍵的信息,并將精確的標(biāo)簽集擴(kuò)展到所有可能標(biāo)簽上的一個(gè)軟注意矩陣中,用于實(shí)現(xiàn)標(biāo)簽概率預(yù)測(cè),緩解標(biāo)簽不平衡問(wèn)題;張青等[38]通過(guò)引入法條的司法解釋來(lái)豐富案件向量表征,然后通過(guò)CNN 模型提取案件與法條的特征信息,加深案件與法條之間的潛在聯(lián)系,最后通過(guò)余弦相似距離法計(jì)算法條之間的相似性,解決低頻法條被忽略的問(wèn)題;Chen 等[43]將遷移學(xué)習(xí)的思想應(yīng)用于低頻法條推薦任務(wù)中,將數(shù)據(jù)分為低頻數(shù)據(jù)集和高頻數(shù)據(jù)集,在高頻數(shù)據(jù)集上訓(xùn)練模型,并將分類(lèi)器權(quán)重共享在低頻數(shù)據(jù)集中,實(shí)現(xiàn)了低頻數(shù)據(jù)集法條預(yù)測(cè)。

      3.2 易混淆法條推薦

      在司法實(shí)踐中,易混淆法條是影響法條推薦準(zhǔn)確性的主要問(wèn)題之一。程豪等[24]將法條劃分為136 條易區(qū)分法條和11 個(gè)易混淆法條集,第一層采用CNN 分類(lèi)器預(yù)測(cè)出易混淆法條集或易區(qū)分法條結(jié)果,將輸出結(jié)果為易混淆法條集的案情描述輸入第二層分類(lèi)器得到法條預(yù)測(cè)結(jié)果;Xu等[29]將案情描述的特征分為基礎(chǔ)表示和易區(qū)分表示,基礎(chǔ)表示采取CNN 和Bi-RNN 進(jìn)行編碼;對(duì)于易區(qū)分部分建立法條關(guān)系圖,根據(jù)閾值將其劃分為各個(gè)子圖,經(jīng)過(guò)圖蒸餾層獲得各個(gè)子圖的區(qū)分向量;Yue 等[30]構(gòu)建兩個(gè)標(biāo)簽相似圖(法條、罪名),通過(guò)圖分解學(xué)習(xí)得到標(biāo)簽的特有特征,采用注意力機(jī)制得到關(guān)注標(biāo)簽特性的案情表示,從而捕獲案情描述中的可區(qū)分部分;Hu 等[44]通過(guò)定義10 個(gè)易區(qū)分的屬性來(lái)解決易混淆的罪名,但該方法過(guò)于依賴(lài)專(zhuān)家從而難以大范圍推廣;Liu 等[45]提出融入罪名關(guān)鍵詞的法律判決預(yù)測(cè)多任務(wù)學(xué)習(xí)模型,判決結(jié)果包括法條推薦和罪名預(yù)測(cè),該方法隨著數(shù)據(jù)量的增加同樣需要投入大量人工標(biāo)注工作。

      4 模型性能分析

      法條推薦的數(shù)據(jù)集通常由法律專(zhuān)家采集和標(biāo)注,因此數(shù)據(jù)集獲取具有一定的難度。常用法條推薦數(shù)據(jù)集見(jiàn)表1。

      Table 1 Common law articles recommendation datasets表 1 常用法條推薦數(shù)據(jù)集

      現(xiàn)有基于深度學(xué)習(xí)的典型法條推薦模型研究通常基于上述數(shù)據(jù)集,其實(shí)驗(yàn)結(jié)果也是后續(xù)研究的基準(zhǔn)。為便于實(shí)驗(yàn)比較,本文對(duì)這些模型在數(shù)據(jù)集上的性能表現(xiàn)進(jìn)行統(tǒng)計(jì),結(jié)果見(jiàn)表2。算法性能散點(diǎn)圖如圖7 所示??梢钥闯觯l推薦的準(zhǔn)確率最高達(dá)到0.954,精確率區(qū)間為0.539~0.913,召回值區(qū)間為0.371~0.906,F(xiàn)1 區(qū)間為0.452~0.894。表明后續(xù)研究需要進(jìn)一步提升模型性能,以輔助判決預(yù)測(cè)任務(wù)的深入研究。

      Table 2 Performance of the law articles recommendation model on the data sets表2 法律條文推薦模型在數(shù)據(jù)集上的性能表現(xiàn)

      Fig.7 Scatter plot of algorithm performance for bar recommendation圖7 法條推薦算法性能散點(diǎn)圖

      5 結(jié)語(yǔ)

      法條是司法判決的重要依據(jù),精準(zhǔn)地推薦適用法條成為判決預(yù)測(cè)的前期任務(wù)。早期判決預(yù)測(cè)研究側(cè)重于直接進(jìn)行罪名預(yù)測(cè)。在中國(guó)智慧司法建設(shè)的持續(xù)推進(jìn)下,研究者們逐漸關(guān)注法條推薦的研究,形成了一系列研究成果,然而有關(guān)中文法條推薦的研究綜述較少。為系統(tǒng)總結(jié)中文法條推薦研究成果,快速推進(jìn)該領(lǐng)域發(fā)展,本文從法條推薦模型構(gòu)建模式、基于深度學(xué)習(xí)的法條推薦算法和復(fù)雜場(chǎng)景下的法條推薦等3 個(gè)角度系統(tǒng)梳理了當(dāng)前主要研究成果;重點(diǎn)以深度學(xué)習(xí)方法為切入點(diǎn),總結(jié)分析基于CNN、循RNN、GNN 以及混合模型等的中文法條推薦方法;并在公開(kāi)數(shù)據(jù)集基礎(chǔ)上總結(jié)比較了這些典型算法的性能。分析發(fā)現(xiàn),深度學(xué)習(xí)在法條推薦算法中的實(shí)踐應(yīng)用已經(jīng)取得了一定成效,但仍然存在以下問(wèn)題:①數(shù)據(jù)集構(gòu)造問(wèn)題。目前法條推薦的數(shù)據(jù)集來(lái)源于法研杯比賽數(shù)據(jù)集和研究者個(gè)人構(gòu)造的數(shù)據(jù)集,缺少公認(rèn)的評(píng)價(jià)標(biāo)準(zhǔn)。此外,目前公開(kāi)的數(shù)據(jù)集主要集中在刑事案件方面,缺少民事、行政等其他方面的數(shù)據(jù)集,造成模型主要集中在刑事領(lǐng)域二難以遷移到其他領(lǐng)域;②復(fù)雜場(chǎng)景的中文法條推薦問(wèn)題。復(fù)雜場(chǎng)景下法條推薦中低頻、易混淆法條推薦研究不夠充分。在實(shí)際情況下,低頻法條通常需要大量時(shí)間和人力查閱相關(guān)信息,易混淆法條描述通常極為相似,例如搶劫罪和盜竊罪等,而現(xiàn)有模型在識(shí)別與分辨低頻類(lèi)和混淆罪名方面性能并不是很突出,因此在未來(lái)研究中迫切需要加強(qiáng)復(fù)雜場(chǎng)景下的法條推薦研究;③可解釋性問(wèn)題。司法領(lǐng)域中每一項(xiàng)判決對(duì)司法的公正和當(dāng)事人都具有重大影響,需要高度嚴(yán)謹(jǐn),而深度學(xué)習(xí)是一種黑盒模型,訓(xùn)練過(guò)程難以重現(xiàn),可解釋性較差。未來(lái)需對(duì)深度學(xué)習(xí)框架下的中文法條推薦可解釋性進(jìn)行深入研究。

      猜你喜歡
      法條法律條文案情
      實(shí)質(zhì)判斷如何結(jié)合法律條文——“德發(fā)案”再審判決中的利益衡量評(píng)析
      法律方法(2019年3期)2019-09-11 06:27:22
      是誰(shuí)下的毒
      從法條的公司法到實(shí)踐的公司法
      論民法對(duì)人身權(quán)的保護(hù)
      西夏武器裝備法律條文與唐宋法律條文比較研究
      西夏學(xué)(2016年2期)2016-10-26 02:21:32
      從法條的公司法到實(shí)踐的公司法
      商(2016年20期)2016-07-04 01:04:28
      刑法“從業(yè)禁止”法條的法律性質(zhì)及改革方向
      意思自治原則在國(guó)際私法中的探討
      報(bào)案者
      “兩高”刑事指導(dǎo)性案例的文本分析及改進(jìn)
      富锦市| 堆龙德庆县| 云龙县| 慈溪市| 新邵县| 阿拉尔市| 察哈| 慈溪市| 邯郸县| 布尔津县| 武山县| 略阳县| 皋兰县| 瓮安县| 湘潭县| 子长县| 玛曲县| 山丹县| 岳池县| 定陶县| 汤阴县| 邵阳市| 孟连| 郁南县| 江津市| 广州市| 四会市| 阳山县| 武穴市| 莒南县| 诏安县| 伊通| 左权县| 龙山县| 泰和县| 陕西省| 镇原县| 佳木斯市| 娄烦县| 金山区| 泉州市|