周珊珊
摘要:在本文中,以全國(guó)裁判文書網(wǎng)的現(xiàn)有法律文書入手,使用基于自然語(yǔ)言處理技術(shù),提出建模思路,應(yīng)用“人工智能+法律”解決司法實(shí)踐中裁量不均衡問(wèn)題。步驟主要是:首先建立中文案例語(yǔ)料庫(kù),對(duì)文本分詞及句法分析;其次應(yīng)用機(jī)器算法對(duì)詞向量學(xué)習(xí)與訓(xùn)練;最后在對(duì)裁判文書關(guān)鍵信息提取后,針對(duì)文書相似度的計(jì)算而找到判決結(jié)果的合理空間,以定量的方法減少司法中同案不同判,裁量標(biāo)準(zhǔn)不統(tǒng)一的問(wèn)題。一方面為司法實(shí)踐提供有效參考,另一方面也為群眾提供了訴訟可行性的參照體系。
關(guān)鍵詞:自然語(yǔ)言處理;司法案例;裁判
在我國(guó)立法較為模糊的領(lǐng)域,存在一片法官自由裁量權(quán)較大的空間。實(shí)踐中,網(wǎng)絡(luò)服務(wù)商侵權(quán)賠償是適用共同侵權(quán)承擔(dān)連帶責(zé)任的問(wèn)題,還是應(yīng)按間接侵權(quán)以適用《侵權(quán)責(zé)任法》第12條規(guī)定承擔(dān)按份責(zé)任。亦或是,對(duì)《侵權(quán)責(zé)任法》第36條第3款中“知道”的主觀過(guò)錯(cuò)理解上,立法、司法、學(xué)界的觀點(diǎn)的差異問(wèn)題,都存在沖突與矛盾,如何減少網(wǎng)絡(luò)服務(wù)商法律侵權(quán)賠償責(zé)任分擔(dān)問(wèn)題上的差異。以下將從現(xiàn)有的裁判文書案例庫(kù)入手,從自然語(yǔ)言處理的角度統(tǒng)計(jì)探析在具體的某類型案例中減少司法裁量差異的問(wèn)題。
一、裁判文書中自然語(yǔ)言翻譯的困難性
在基層法院,法官最開(kāi)始套用模板制作法律文書,模板只是提取系統(tǒng)已經(jīng)錄入的案件信息。并不能替代法官思維。隨著信息化應(yīng)用的水平提高,法官開(kāi)始使用北大法寶輔助案例庫(kù)等,通過(guò)關(guān)鍵字搜索相似案例的方式撰寫法律文書。并提出能自動(dòng)生成高質(zhì)量文書的需求,考量對(duì)“經(jīng)審理查明”與“本院認(rèn)為”后的文本的技術(shù)實(shí)現(xiàn)。一方面,是法律應(yīng)用上的強(qiáng)烈需求。另一方面,則是確定法律規(guī)則的條件下,智能實(shí)現(xiàn)法律判斷、預(yù)測(cè)和應(yīng)用的技術(shù)難度。如何服務(wù)審判,自然語(yǔ)言處理技術(shù)為問(wèn)題的解決提供了很好思路,同時(shí)由于自然語(yǔ)言文本的特點(diǎn),句子句式結(jié)構(gòu)復(fù)雜,內(nèi)容也往往存有歧義。所以現(xiàn)實(shí)中也往往不存在完全一樣的案例及描述。在事實(shí)和結(jié)論認(rèn)定表達(dá)上更是千差萬(wàn)別,將自然語(yǔ)言翻譯成機(jī)器語(yǔ)言,已具有相當(dāng)技術(shù)支持,轉(zhuǎn)換難度在于解決模擬結(jié)果與實(shí)踐結(jié)論的準(zhǔn)確度。
二、語(yǔ)料庫(kù)的建立
自然語(yǔ)言處理技術(shù)成為解決難題的突破口。所謂自然語(yǔ)言處理就是人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行通信的辦法。首先,需建立司法案例庫(kù),做為最基本的數(shù)據(jù)來(lái)源。在此選擇中國(guó)裁判文書網(wǎng)的裁判文書,他為提供給機(jī)器學(xué)習(xí)的語(yǔ)料庫(kù)具有可靠性和可行性。2013年最高院發(fā)布的《關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》中指出,裁判文書以“上網(wǎng)為原則,不上網(wǎng)為例外”。隨著規(guī)定的落實(shí),大量生效文書在網(wǎng)上可查。至2017年8月17日,中國(guó)裁判文書網(wǎng)上公開(kāi)的文書總量為32,298,039萬(wàn),且以每日3萬(wàn)的速度遞增。同時(shí),隨著全國(guó)法院系統(tǒng)信息化程度的提高,以公開(kāi)促公正,上網(wǎng)的生效電子文書數(shù)量會(huì)越來(lái)越多,這不僅為語(yǔ)料提供了不斷動(dòng)態(tài)補(bǔ)充,也為不同案例庫(kù)背后的事實(shí)與規(guī)則的提供定量分析依據(jù)。相比于一個(gè)通用的語(yǔ)料庫(kù),以案例庫(kù)為整體作為語(yǔ)料庫(kù)更為合理,原因是考量單獨(dú)的網(wǎng)絡(luò)服務(wù)商侵權(quán)不能只在同種案由下的比較,而是以整個(gè)案例庫(kù)構(gòu)建的法律體系的全局觀念來(lái)分析解決一類案件間裁判的差異。同時(shí),現(xiàn)實(shí)生活中侵權(quán)行為與犯罪行為交叉,各種主觀過(guò)錯(cuò)認(rèn)定的錯(cuò)綜復(fù)雜,誰(shuí)都不是信息的孤島,脫離整體來(lái)分析局部。
三、自然語(yǔ)言處理
(一)機(jī)器翻譯
所有案例可組成為文本,語(yǔ)料庫(kù)說(shuō)到底就是一大段文本,許多語(yǔ)料庫(kù)的設(shè)計(jì)都要考慮一個(gè)或多個(gè)文本間的平衡 。首先,確定案例語(yǔ)料庫(kù)后,需對(duì)整個(gè)文本進(jìn)行分詞,分詞的意思即是將一個(gè)句子分成一個(gè)一個(gè)的詞語(yǔ),整個(gè)文本就變成了詞的集合,導(dǎo)入文本用工具庫(kù)里程序方法可直接實(shí)現(xiàn)分詞效果。也可直接通過(guò)算法,通過(guò)統(tǒng)計(jì)計(jì)算概率,計(jì)算一個(gè)字還是一個(gè)詞的概率,在模型中一組詞語(yǔ)成為一個(gè)句子的概率,詞性等都可得出。如前日計(jì)算機(jī)具有撰寫地震預(yù)警新聞稿的能力的技術(shù)實(shí)現(xiàn)技術(shù)基礎(chǔ)也是同一個(gè)道理。然后構(gòu)建詞庫(kù),循環(huán)整個(gè)語(yǔ)料庫(kù),每次遍歷到新詞,則將之添加到詞庫(kù),通過(guò)讀取每一個(gè)詞,在詞庫(kù)中查找比對(duì),存在則該詞詞頻加1,若不存在,繼續(xù)添加,統(tǒng)計(jì)詞的頻率再對(duì)構(gòu)建哈夫曼樹(shù)進(jìn)行編碼。
(二)詞向量的自動(dòng)學(xué)習(xí)與訓(xùn)練
根據(jù)向量的定義,向量是客觀存在的東西抽象后以數(shù)字表達(dá)出來(lái),機(jī)器能識(shí)別的東西。構(gòu)建詞向量是非常關(guān)鍵的一步。而一個(gè)詞要成為詞向量,首先對(duì)文本進(jìn)行處理,簡(jiǎn)化為在多維的向量空間上的計(jì)算,計(jì)算有不同種方法,算法已經(jīng)直接包含在方法內(nèi)。向量空間上的相似度代表了文本中詞義上的接近度,對(duì)于處理好的文件重新用算法構(gòu)建詞向量,無(wú)需手工規(guī)則,完全自動(dòng)機(jī)械。而且算法并不依賴語(yǔ)言學(xué)上的文法規(guī)則,也不需要詞性標(biāo)注,就像所有星星組合在一起成為星空,向量是星星,而星空即是向量空間,在這個(gè)空間上的兩顆星星間的距離計(jì)算COS距離即是兩個(gè)詞的距離。距離越近,也即兩個(gè)詞相似性,詞義相近、相似度越高,距離的計(jì)算也是詞間聚合的體現(xiàn)。詞義最相近的詞可以理解為向量空間中也是最接近的,這樣就可以通過(guò)顯示詞向量空間中相近的詞組來(lái)判斷詞向量構(gòu)建的好壞。同時(shí)通過(guò)降低維度,查看詞義分布圖直觀查看詞語(yǔ)的分布。通過(guò)統(tǒng)計(jì)概率計(jì)算機(jī)過(guò)濾低頻字詞。低頻詞的舍棄一是浪費(fèi)運(yùn)算資源,二是由于筆誤的機(jī)率較大而參考性過(guò)低。去掉高頻詞是因?yàn)楦哳l詞會(huì)對(duì)聚類準(zhǔn)確度有影響。
(三)指導(dǎo)性數(shù)據(jù)比對(duì)
將以上模型適用于真實(shí)的案例,對(duì)于具體類型案例輔助分析來(lái)源,案例庫(kù)從總量上來(lái)講,現(xiàn)階段也是不夠的。裁判文書網(wǎng)上的所有文書,排除非判決文書,再按照案由等細(xì)分案件后,需要進(jìn)一步通過(guò)以人工引導(dǎo)的方式對(duì)計(jì)算機(jī)訓(xùn)練。計(jì)算機(jī)工作,在傳統(tǒng)理解上,是根據(jù)命令一步步執(zhí)行,要什么他答什么,在人工智能應(yīng)用上,則讓計(jì)算機(jī)自我學(xué)習(xí),接受不同的輸入數(shù)據(jù),自動(dòng)運(yùn)算得出結(jié)果。與指令式的運(yùn)算存在本質(zhì)的區(qū)別,這也是人工智能創(chuàng)新的地方。為了得到接近于法官思維的裁量的輸出,在人工指導(dǎo)下,通過(guò)輸入多組數(shù)據(jù)讓機(jī)器自我學(xué)習(xí),最終得出正確的數(shù)據(jù),找到從量變到質(zhì)變的區(qū)分邊界。立法上,我國(guó)現(xiàn)行侵權(quán)法采用客觀主義。司法實(shí)踐中,法官的裁量更趨向于折中主義的觀點(diǎn),侵權(quán)損害賠償?shù)脑u(píng)價(jià)指標(biāo)包括:侵害的具體方式、地域、網(wǎng)絡(luò)服務(wù)商賠償能力、受害人的身份、年齡、家庭狀況等,司法判決的執(zhí)行難易程度也是重要考慮范疇。模型要在統(tǒng)計(jì)的基礎(chǔ)上細(xì)化和明確法官的裁量評(píng)價(jià)指標(biāo),進(jìn)而改變具體的輸入值比對(duì)評(píng)價(jià)指標(biāo)的輸出值計(jì)算差異,如賠償責(zé)任詞向量的周圍尋找最合理的近似區(qū)域。在上文的基礎(chǔ)上,以最高院指導(dǎo)案例為母版,通過(guò)正則找出需要的文本,如重點(diǎn)在網(wǎng)絡(luò)服務(wù)商侵權(quán)文書的查明和認(rèn)定部分,經(jīng)過(guò)一定的語(yǔ)義重修,即有目的性地去除特殊條件或情形,首先進(jìn)行典型性分析。算出指導(dǎo)案例核心關(guān)鍵詞局部的語(yǔ)義空間,進(jìn)而對(duì)基礎(chǔ)案例進(jìn)行數(shù)據(jù)模擬,如增加新數(shù)據(jù)與值大小,改變案例輸入的數(shù)據(jù),逐步增加減少案例細(xì)節(jié),對(duì)結(jié)果進(jìn)行比對(duì),比較其與實(shí)際裁量值的差異性,讓輸出值與實(shí)際值的誤差越來(lái)越小,越來(lái)越接近法官的實(shí)際判決值。比較案例間評(píng)價(jià)指標(biāo)的相對(duì)差值,如果得出的的結(jié)論正確,給予一定獎(jiǎng)勵(lì),繼續(xù)對(duì)輸入和輸出進(jìn)行比對(duì),從而達(dá)到訓(xùn)練的目的。學(xué)習(xí)方法重點(diǎn)不依照法律邏輯的推理理論,也不分類處理如自然人區(qū)分、過(guò)錯(cuò)描述、侵害手段、后果、侵權(quán)人獲利和侵權(quán)人的償債能力等,只是通過(guò)輸入數(shù)值的累積,讓機(jī)器遍歷所有節(jié)點(diǎn),從而獲得一類案例中的詞向量分布。這是一個(gè)大數(shù)據(jù)的應(yīng)用,通過(guò)無(wú)限量的數(shù)據(jù)模擬,完成邊界的訓(xùn)練。要與模糊區(qū)域邊界對(duì)應(yīng),必須要有大概率的重合才可。最基本的目標(biāo)底線至少小到一個(gè)基層法院,不同法官審理要做到同案同判。只要案例描述盡可能多,鋪設(shè)的基礎(chǔ)侵權(quán)行為描述語(yǔ)義地圖則會(huì)盡可能涵蓋廣泛。最后,法官通過(guò)模型輸入關(guān)鍵詞,而系統(tǒng)可以在具體的這個(gè)類型案例范圍內(nèi)找出最相符的評(píng)價(jià)指標(biāo)的判詞。
法律空間并非對(duì)技術(shù)完全免疫,2017年7月,《新一代人工智能發(fā)展規(guī)劃》中,國(guó)務(wù)院向法律行業(yè)釋放了信號(hào);其次,在AlphaGo之后,機(jī)器人取代律師的預(yù)測(cè)報(bào)道也時(shí)有發(fā)生。在這樣的背景下,法律與AI的碰撞,必將對(duì)智慧法院建設(shè)提出更深層次的要求,法律科技也會(huì)乘東風(fēng)而起,人工智能化的預(yù)測(cè)與推論機(jī)制都參考案件基本事實(shí)與案件描述,司法實(shí)踐的裁判深受其影響。基于語(yǔ)義網(wǎng)的大數(shù)據(jù)分析技術(shù)為建立平衡的司法裁量標(biāo)準(zhǔn)理論提供了思路。隨著理論的實(shí)現(xiàn)及應(yīng)用推廣普及,一方面會(huì)成為輔助辦案良好的工具,大數(shù)據(jù)司法確保公平正義;另一方面也成為當(dāng)事人對(duì)案件是否起訴,或上訴是否勝訴的有效依據(jù)。不久的未來(lái),在以自然語(yǔ)言處理技術(shù)的應(yīng)用上,以人工智能大數(shù)據(jù)為支撐的科技發(fā)展潮流能為司法提供更好服務(wù)。
參考文獻(xiàn)
[1]Steven Bird,Ewan Klein & Edward Loper.Natural Language Processing with Python[M].American:Oreilly & Associates Inc;2,2017-3-25.39endprint