• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于分層學(xué)習(xí)的易混淆法條預(yù)測(cè)

      2020-02-08 07:00:38趙紅燕譚紅葉
      關(guān)鍵詞:法條分類(lèi)器卷積

      程 豪,張 虎,崔 軍+,趙紅燕,3,譚紅葉,李 茹,2

      (1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2.山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;3.太原科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030024)

      0 引 言

      隨著人工智能的興起,司法智能化已成為目前司法領(lǐng)域的研究熱點(diǎn)之一,相關(guān)人員提出“智慧法院”的觀點(diǎn)。法條預(yù)測(cè)作為法律判決預(yù)測(cè)的子任務(wù),是構(gòu)成“智慧法院”的重要部分。目前大多數(shù)現(xiàn)有工作采用文本分類(lèi)方法完成法條預(yù)測(cè),但未能較好解決易混淆法條預(yù)測(cè)問(wèn)題。

      本文以刑法類(lèi)文書(shū)作為實(shí)驗(yàn)數(shù)據(jù),輸入刑事案件的事實(shí)描述預(yù)測(cè)該案件所引用的法條。通過(guò)分析案情描述部分內(nèi)容,發(fā)現(xiàn)較多法條區(qū)分性大,易于準(zhǔn)確預(yù)測(cè),但存在部分法條間內(nèi)容較為相似,在法條預(yù)測(cè)時(shí)極易混淆。據(jù)此針對(duì)易混淆法條預(yù)測(cè)問(wèn)題,采用分層學(xué)習(xí)的方法解決。首先按照各法條預(yù)測(cè)效果將其分為易區(qū)分法條和易混淆法條兩類(lèi);其次結(jié)合法條含義與相應(yīng)事實(shí)描述兩部分內(nèi)容將易混淆法條組合為不同的易混淆法條集,并單獨(dú)訓(xùn)練各易混淆法條集的分類(lèi)模型。依據(jù)易混淆法條集的類(lèi)別情況與易區(qū)分法條類(lèi)別數(shù),構(gòu)建基于分層學(xué)習(xí)的易混淆法條預(yù)測(cè)數(shù)據(jù)集。根據(jù)分層預(yù)測(cè)思想,完成對(duì)兩類(lèi)法條的預(yù)測(cè)。本文的研究主要貢獻(xiàn)有:

      (1)通過(guò)分析刑事文書(shū)的事實(shí)描述與法條內(nèi)容,將183個(gè)刑事法條整理組合為136個(gè)易區(qū)分法條和11個(gè)易混淆法條集,其中11個(gè)易混淆法條集總共包括47個(gè)易混淆法條;

      (2)針對(duì)法條預(yù)測(cè)中易混淆法條問(wèn)題,構(gòu)建基于分層學(xué)習(xí)的易混淆法條預(yù)測(cè)模型。

      1 相關(guān)工作

      早期研究通常采用簡(jiǎn)單數(shù)學(xué)模型進(jìn)行法律判決結(jié)果預(yù)測(cè),研究人員根據(jù)案情事實(shí)描述部分進(jìn)行定量分析,提出法律判決計(jì)算公式;利用相關(guān)性分析預(yù)測(cè)案例判決結(jié)果;在法律判決預(yù)測(cè)中引入數(shù)學(xué)模型,這些方法僅適用于很少類(lèi)別的小數(shù)據(jù)集。由于機(jī)器學(xué)習(xí)在許多領(lǐng)域的成功應(yīng)用,研究人員開(kāi)始將法律判決預(yù)測(cè)作為文本分類(lèi)問(wèn)題并利用機(jī)器學(xué)習(xí)的方法來(lái)解決。通過(guò)提取了法律因素標(biāo)簽用于案件分類(lèi)任務(wù);Sulea等[1]提出了基于支持向量機(jī)的罪名預(yù)測(cè)模型,模型以案情事實(shí)描述和時(shí)間跨度信息作為輸入,輸出罪名信息。

      隨著深度學(xué)習(xí)在語(yǔ)音[2-4]、計(jì)算機(jī)視覺(jué)[5-8]上的成功應(yīng)用,研究人員提出許多基于深度學(xué)習(xí)的文本分類(lèi)模型,為法律判決預(yù)測(cè)奠定良好的基礎(chǔ)。Yoon Kim等[9]最早提出將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)用于文本分類(lèi)任務(wù),其中卷積層濾波器具有局部特征提取的功能,能夠捕捉文本上下文局部相關(guān)性;Xiang Zhang等[10]提出基于字符集的卷積神經(jīng)網(wǎng)絡(luò)文本分類(lèi)模型,該模型不需要使用預(yù)訓(xùn)練好的詞向量和語(yǔ)法句法結(jié)構(gòu)等信息,并且可很容易的推廣到所有語(yǔ)言;Pengfei Liu等[11]提出將多個(gè)任務(wù)聯(lián)合起來(lái),用來(lái)直接對(duì)網(wǎng)絡(luò)進(jìn)行改善,基于RNN(recurrent neural network)設(shè)計(jì)了3種不同的信息共享機(jī)制進(jìn)行訓(xùn)練,并在4個(gè)基準(zhǔn)的文本分類(lèi)任務(wù)中獲得了較好的效果;Joulin A等[12]提出快速文本分類(lèi)模型,該模型結(jié)構(gòu)簡(jiǎn)單高效,在保持分類(lèi)效果的同時(shí),大大縮短了訓(xùn)練時(shí)間;Zichao Yang等[13]提出了層次注意力網(wǎng)絡(luò)模型(hiera-rchical attention networks,HAN),該模型針對(duì)文本分類(lèi)問(wèn)題采用層級(jí)注意力與雙向循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法;Conneau A等[14]關(guān)注卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)對(duì)分類(lèi)效果的影響,通過(guò)增加層數(shù)抽取更加準(zhǔn)確的文本特征信息。

      在參照深度學(xué)習(xí)文本分類(lèi)的基礎(chǔ)上,羅等[15]提出基于注意力機(jī)制的刑事罪名預(yù)測(cè)模型,在統(tǒng)一的框架中對(duì)罪名預(yù)測(cè)任務(wù)和相關(guān)法條提取任務(wù)進(jìn)行建模,以提取的法條信息作為罪名預(yù)測(cè)的依據(jù);胡等[16]針對(duì)法條預(yù)測(cè)任務(wù)中低頻罪名問(wèn)題,引入了法律區(qū)分性屬性來(lái)增加罪名預(yù)測(cè)的可解釋性。

      現(xiàn)有研究中針對(duì)法條預(yù)測(cè)問(wèn)題大多采用基于深度學(xué)習(xí)的分類(lèi)模型,對(duì)易混淆法條的預(yù)測(cè)效果普遍不太理想。

      2 基于分層學(xué)習(xí)的易混淆法條預(yù)測(cè)模型

      2.1 問(wèn)題描述

      表1是易混淆法條實(shí)例,表中法條第347條是走私、販賣(mài)、運(yùn)輸、制造毒品法條,法條第348條是非法持有毒品的法條,通過(guò)分析兩個(gè)法條的案情事實(shí)描述部分,發(fā)現(xiàn)其中包含許多與毒品相關(guān)的詞語(yǔ),文本語(yǔ)義較為相似,在進(jìn)行法條預(yù)測(cè)時(shí)容易相互混淆。

      表1 易混淆法條實(shí)例

      注:加粗字體為與“毒品”相關(guān)的相似或相同詞語(yǔ)。

      2.2 篩選與組合

      本文提出的模型首先根據(jù)法條預(yù)測(cè)中各法條的預(yù)測(cè)結(jié)果將法條劃分為易區(qū)分法條和易混淆法條,表2顯示了各法條的預(yù)測(cè)實(shí)驗(yàn)結(jié)果。當(dāng)法條預(yù)測(cè)的準(zhǔn)確率、召回率、F1值高于法條平均指標(biāo)值,實(shí)驗(yàn)認(rèn)為該法條為易區(qū)分法條,相反低于法條平均指標(biāo)值,則認(rèn)為該法條為易混淆法條。

      對(duì)于易混淆法條,分析相關(guān)的法條內(nèi)容與對(duì)應(yīng)事實(shí)描述,將法條內(nèi)容、相應(yīng)事實(shí)描述相近的組合為易混淆法條

      表2 各法條預(yù)測(cè)結(jié)果

      集。我們將47個(gè)易混淆法條整理組合為11個(gè)易混淆法條集,對(duì)11個(gè)易混淆法條集進(jìn)行編號(hào)。每個(gè)易混淆法條集包含法條預(yù)測(cè)時(shí)相互間容易混淆的多個(gè)法條,見(jiàn)表3。

      2.3 模型構(gòu)建

      實(shí)驗(yàn)數(shù)據(jù)集中共涉及183個(gè)刑事法條,篩選組合整理為147個(gè)法條類(lèi)別,其中包括11個(gè)易混淆法條集類(lèi)別與136個(gè)易區(qū)分法條類(lèi)別。易混淆法條預(yù)測(cè)模型可通過(guò)兩層學(xué)習(xí)機(jī)制實(shí)現(xiàn)。該模型的整體架構(gòu)如圖1所示,第一層分類(lèi)學(xué)習(xí)中在易區(qū)分法條和易混淆集法條組建的147個(gè)新法條類(lèi)別上訓(xùn)練分類(lèi)器模型,第二層分類(lèi)學(xué)習(xí)中分別訓(xùn)練11個(gè)易混淆法條集的分類(lèi)器模型。我們利用新類(lèi)別分類(lèi)器模型完成第一層預(yù)測(cè),預(yù)測(cè)結(jié)果為易混淆法條集或易區(qū)分法條。如果結(jié)果為易區(qū)分法條,則完成預(yù)測(cè);如果結(jié)果為易混淆法條集,則調(diào)用相應(yīng)易混淆法條集模型完成第二層預(yù)測(cè),輸出易混淆法條預(yù)測(cè)結(jié)果。模型中分類(lèi)器采用卷積神經(jīng)網(wǎng)絡(luò)文本分類(lèi)器。

      表3 易混淆法條集

      圖1 基于分層學(xué)習(xí)的易混淆法條預(yù)測(cè)模型

      2.4 分類(lèi)器

      2.4.1 編碼

      易混淆法條預(yù)測(cè)模型中分類(lèi)器模型包含有輸入層、卷積層、池化層、全連接層、Softmax層。其中卷積層負(fù)責(zé)抽取文本的特征,最大池化層負(fù)責(zé)選擇最主要的特征值,Softmax用于預(yù)測(cè)在各個(gè)類(lèi)別上的概率。在輸入層對(duì)文本進(jìn)行向量化表示,通過(guò)將文本序列中對(duì)應(yīng)位置詞典元素的詞向量拼接起來(lái),就得到整個(gè)文本序列的詞向量表示矩陣

      x1∶n=x1⊕x2⊕…⊕xn

      (1)

      其中,⊕是詞向量連接運(yùn)算符。xi是句子中第i個(gè)單詞的詞向量,xi∶i+j指的是xi,xi+1,…,xi+j共j+1個(gè)詞的詞向量。卷積操作涉及濾波器w,其應(yīng)用于h個(gè)詞的窗口以產(chǎn)生新特征。例如,在單詞xi∶i+h-1Xi∶i+h-1上一個(gè)窗口生成特征Ci

      ci=f(w·xi∶i+h-1+b)

      (2)

      其中,b是一個(gè)偏置項(xiàng),f是一個(gè)非線性函數(shù)。這個(gè)濾波器用于句子 {x1∶h,x2∶h+1,…,xn-h+1∶n} 中,產(chǎn)生一個(gè)特征集

      c=[c1,c2,…,cn-h+1]

      (3)

      2.4.2 正則化

      y=w·(z°r)+b

      (4)

      其中,z表示m個(gè)濾波器組成的特征集,°表示按元素逐個(gè)相乘操作,r表示掩模向量。

      2.4.3 優(yōu)化

      模型采用交叉熵作為損失函數(shù)。法條預(yù)測(cè)損失可以形式化為

      (5)

      3 實(shí) 驗(yàn)

      為了驗(yàn)證本模型在刑事案件預(yù)測(cè)中的有效性,本文基于中國(guó)裁判文書(shū)網(wǎng)的刑事數(shù)據(jù)構(gòu)建了不同規(guī)模的數(shù)據(jù)集,并利用SVM模型、CNN模型與RNN模型和本文的模型(hierarchical learning confusing law prediction model,HLCLPM)進(jìn)行了比較實(shí)驗(yàn)。

      3.1 數(shù)據(jù)集

      本文基于“中國(guó)裁判文書(shū)網(wǎng)”公開(kāi)的刑事法律文書(shū)構(gòu)建Small和Large兩組數(shù)據(jù)集,其中每份數(shù)據(jù)由法律文書(shū)中的案情事實(shí)部分與引用法條兩部分組成。兩組數(shù)據(jù)集中涉及183個(gè)刑事法條,Small包括19.6萬(wàn)條文書(shū)樣例,Large數(shù)據(jù)集包括150萬(wàn)條文書(shū)樣例。在實(shí)驗(yàn)中兩組數(shù)據(jù)集的劃分情況見(jiàn)表4。

      3.2 基 線

      本文采用3種典型的文本分類(lèi)模型作為實(shí)驗(yàn)基線:

      TFIDF+SVM模型:實(shí)現(xiàn)了(TFIDF)來(lái)提取輸入的文本特征,并采用SVM(support vector machine)作為分類(lèi)。

      表4 兩個(gè)數(shù)據(jù)集數(shù)量統(tǒng)計(jì)/條

      RNN模型:采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為文本分類(lèi)器。

      CNN模型:采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)文本分類(lèi)器。本文HLCLPM模型的基礎(chǔ)模型,選用該模型作為對(duì)比,可以更好地體現(xiàn)出分層學(xué)習(xí)的思想可以幫助易混淆法條的預(yù)測(cè)。

      3.3 實(shí)驗(yàn)設(shè)置和評(píng)價(jià)指標(biāo)

      本實(shí)驗(yàn)卷積神經(jīng)網(wǎng)絡(luò)模型濾波窗口大小設(shè)置為3,4,5,詞向量維度大小為264維,全連接層神經(jīng)元為128,dropout保留比例為0.5,學(xué)習(xí)率為0.0001,bath_size大小為264。

      實(shí)驗(yàn)采用精確率(Precision,P)、召回率(Recall,R)、F1值(F-measure,F(xiàn))作為評(píng)價(jià)指標(biāo)。計(jì)算方式如下

      (6)

      (7)

      (8)

      其中,TP是模型將正例預(yù)測(cè)成正例的數(shù)目,F(xiàn)P是模型將負(fù)例預(yù)測(cè)成正例的個(gè)數(shù),F(xiàn)N是模型將正例預(yù)測(cè)成負(fù)例的個(gè)數(shù)。

      4 結(jié)果及分析

      (1)實(shí)驗(yàn)一:不同模型下法條預(yù)測(cè)

      實(shí)驗(yàn)對(duì)比了在兩組數(shù)據(jù)集下本文提出的模型與其它基線模型的預(yù)測(cè)結(jié)果。見(jiàn)表5。

      表5 兩組數(shù)據(jù)集下各個(gè)模型法條預(yù)測(cè)的結(jié)果

      其中加粗?jǐn)?shù)據(jù)表示最優(yōu)結(jié)果。表5顯示:各模型在Large數(shù)據(jù)集下評(píng)價(jià)指標(biāo)均優(yōu)于Small數(shù)據(jù)集的評(píng)價(jià)指標(biāo),表明數(shù)據(jù)越大越有利于易混淆法條預(yù)測(cè)模型的訓(xùn)練。在相同數(shù)據(jù)集下本模型的評(píng)價(jià)指標(biāo)均取得最優(yōu),表明基于分層學(xué)習(xí)的易混淆法條預(yù)測(cè)模型能較好完成易混淆法條預(yù)測(cè)。

      (2)實(shí)驗(yàn)二:驗(yàn)證本模型在易混淆法條預(yù)測(cè)的有效性

      為進(jìn)一步驗(yàn)證本模型能較好解決法條預(yù)測(cè)中易混淆法條預(yù)測(cè)問(wèn)題,我們構(gòu)建了兩個(gè)易混淆法條數(shù)據(jù)集,Data1和Data2。Data1包括走私類(lèi)法條、合同詐騙類(lèi)法條、逃稅漏稅類(lèi)法條11個(gè)易混淆的法條,Data2包括走私類(lèi)法條、合同詐騙類(lèi)法條、逃稅漏稅類(lèi)法條、毒品類(lèi)法條17個(gè)易混淆的法條。見(jiàn)表6。

      表6 Data1和Data2統(tǒng)計(jì)/條

      我們將本模型與在TFIDF+SVM、RNN、CNN這3個(gè)分類(lèi)模型在數(shù)據(jù)集1與數(shù)據(jù)集2上的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,見(jiàn)表7。

      表7 模型在Data1和Data2上的預(yù)測(cè)結(jié)果

      表7顯示,在數(shù)據(jù)集Data1和Data2上本模型的預(yù)測(cè)結(jié)果都取得最優(yōu),表明本模型在處理易混淆法條預(yù)測(cè)上的有效性。

      5 結(jié)束語(yǔ)

      本文根據(jù)刑事案件的案情描述,專(zhuān)注于易混淆法條預(yù)測(cè)問(wèn)題。我們通過(guò)分析各個(gè)法條預(yù)測(cè)結(jié)果并結(jié)合文書(shū)案情描述與法條內(nèi)容的相似度,將常用的183個(gè)刑事法條分為136個(gè)易區(qū)分法條與47個(gè)易混淆法條,易混淆法條進(jìn)一步組合為11個(gè)易混淆法條集。針對(duì)法條預(yù)測(cè)中易混淆法條問(wèn)題,我們構(gòu)建基于分層學(xué)習(xí)的易混淆法條預(yù)測(cè)模型,通過(guò)對(duì)易混淆法條集單獨(dú)訓(xùn)練分類(lèi)模型,增強(qiáng)對(duì)易混淆法條相應(yīng)案情描述特征的學(xué)習(xí)能力。本文沒(méi)有將法條內(nèi)容用于易混淆法條預(yù)測(cè)之中,同時(shí)沒(méi)有考慮一個(gè)案件引用多個(gè)法條的情況。因此接下來(lái)我們的研究重點(diǎn)為:如何將法條內(nèi)容運(yùn)用到法條預(yù)測(cè)之中,增加法條預(yù)測(cè)的司法可解釋性;如何解決易混淆法條中的一對(duì)多問(wèn)題。

      猜你喜歡
      法條分類(lèi)器卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      BP-GA光照分類(lèi)器在車(chē)道線識(shí)別中的應(yīng)用
      從法條的公司法到實(shí)踐的公司法
      論民法對(duì)人身權(quán)的保護(hù)
      加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
      結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
      從法條的公司法到實(shí)踐的公司法
      商(2016年20期)2016-07-04 01:04:28
      刑法“從業(yè)禁止”法條的法律性質(zhì)及改革方向
      丰县| 甘谷县| 古丈县| 资阳市| 县级市| 盐源县| 彰武县| 丽水市| 屯门区| 商丘市| 抚顺县| 宜君县| 全州县| 宁武县| 兰州市| 民权县| 沂水县| 中超| 永定县| 叶城县| 汕头市| 阿瓦提县| 蒙阴县| 太仓市| 洪雅县| 广宗县| 肇州县| 新蔡县| 乐至县| 扶余县| 许昌市| 石门县| 岚皋县| 西青区| 黑河市| 肥东县| 阆中市| 宁陕县| 平遥县| 西安市| 屏东市|