• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于結(jié)構(gòu)內(nèi)容特征的裁判文書自動推薦研究

      2022-03-07 08:29:40梁柱沈思葉文豪王東波
      情報學(xué)報 2022年2期
      關(guān)鍵詞:特征詞信息檢索語料

      梁柱,沈思,葉文豪,王東波

      (1.南京農(nóng)業(yè)大學(xué)信息管理學(xué)院,南京 210095;2.南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院,南京 210094;3.南京大學(xué)信息管理學(xué)院,南京 210023)

      1 引言

      互聯(lián)網(wǎng)時代,信息的快速傳播導(dǎo)致了新聞爆發(fā)式的涌現(xiàn)。與此同時,關(guān)于案件類新聞的討論也在微博、微信、知乎等各大社交平臺上展開。雖然新媒體上法律案件類新聞層出不窮,但是,這類新聞信息缺乏專業(yè)的法律層面的解讀。因此,越來越多的學(xué)者關(guān)注到了法律領(lǐng)域信息搜尋的研究必要性。

      2016年10月1日,《最高人民法院關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》正式實施。截至2020年8月30日,裁判文書相關(guān)檢索網(wǎng)站就有中國裁判文書網(wǎng)、北大法寶網(wǎng)等,各大地方法院均有相應(yīng)的官方網(wǎng)站可進(jìn)行文書查詢。僅中國裁判文書網(wǎng)站,裁判文書總上傳量就已突破1億篇。自此,這類裁判文書檢索系統(tǒng)為用戶提供了大量法律研究案例,為基本的法律案例檢索提供了數(shù)據(jù)保障。裁判文書記載人民法院審理的過程和結(jié)果,它是訴訟活動結(jié)果的載體,里面包括了公訴機關(guān)、被告人、原告人、辯護(hù)人、審判機構(gòu)、證據(jù)信息、法院判定依據(jù)以及參考的法律條例。在現(xiàn)有的大數(shù)據(jù)背景下,裁判文書的應(yīng)用前景表現(xiàn)在:規(guī)范性、結(jié)構(gòu)性的裁判文書能被實現(xiàn)自動化信息處理,其豐富的法律案例信息,能成為用戶潛在的知識獲取對象,但也需要法律領(lǐng)域大數(shù)據(jù)挖掘能力研究的提升;裁判文書的實用價值表現(xiàn)在裁判文書被審核多次,用詞謹(jǐn)慎,語言規(guī)范性好,案件解釋詳細(xì),可以為非專業(yè)用戶提供相關(guān)案件推送的定制化服務(wù)。具體來說,用戶根據(jù)特有的案例情況,可以獲取到相關(guān)的裁判文書文檔。

      目前,裁判文書檢索系統(tǒng)的不足之處主要在于數(shù)據(jù)資源更新緩慢,以及缺乏對裁判文書橫向和縱向資源的檢索展示。中國裁判文書網(wǎng)提供了基于裁判文書的結(jié)構(gòu)化數(shù)據(jù)和全文數(shù)據(jù)的關(guān)鍵詞檢索,北大法寶等網(wǎng)站對裁判文書進(jìn)行如案例焦點、核心術(shù)語等細(xì)粒度知識元標(biāo)引,并提供對應(yīng)檢索功能。這類裁判文書檢索系統(tǒng)對用戶專業(yè)背景知識要求高,僅能滿足法律研究者和法律實踐者的檢索需求。針對這類問題,本文根據(jù)新聞、事件等事實性文本內(nèi)容特征,提出一種裁判文書自動推薦技術(shù)。

      本文將類新聞的事實性文本作為查詢式,以結(jié)構(gòu)規(guī)范的裁判文書作為全文語料庫,對裁判文書的傳統(tǒng)檢索方法進(jìn)行改進(jìn);利用裁判文書結(jié)構(gòu)內(nèi)容特征將專業(yè)性的檢索系統(tǒng)一般化,滿足缺乏法律知識的非專業(yè)用戶的檢索需求;提出“新聞-文書”自動推薦系統(tǒng)框架,該框架可以實現(xiàn)為類新聞的事實性文本推薦相關(guān)裁判文書文檔。

      2 相關(guān)研究

      裁判文書作為規(guī)范化的文本數(shù)據(jù),具有特定的文本結(jié)構(gòu)。目前傳統(tǒng)的關(guān)鍵詞檢索技術(shù)和傳統(tǒng)分類體系受限于裁判文書的數(shù)據(jù)情況,對用戶領(lǐng)域知識要求高,限制了檢索系統(tǒng)的用戶范圍。但是,人工智能等新興的研究技術(shù)已經(jīng)對法律領(lǐng)域文本數(shù)據(jù)開展了研究,法律類信息抽取等研究領(lǐng)域已經(jīng)能逐漸滿足信息檢索技術(shù)發(fā)展的需要。在信息檢索領(lǐng)域,特殊領(lǐng)域知識的信息檢索技術(shù)已經(jīng)有所突破,但缺少面向案件、新聞等一般化數(shù)據(jù)的研究內(nèi)容。

      2.1 裁判文書特點

      李振宇[1]總結(jié)了法律文獻(xiàn)特有的規(guī)范化的特征,規(guī)范化不僅反映在法律文書內(nèi)容的規(guī)范,也反映在法律文書的程式上,即文書的特定結(jié)構(gòu)特征。裁判文書作為法律應(yīng)用文獻(xiàn)中的法律文書文獻(xiàn),以司法文書為主,是反映司法活動的原始憑據(jù)。

      傳統(tǒng)的裁判文書分類體系以法律條文的分類體系為主,裁判文書涉及的量刑范圍、施用的法律條文差異性大,具有特殊性,不利于傳統(tǒng)搜索引擎按罪名分類標(biāo)引體系進(jìn)行檢索。但是,此分類體系有助于我們按類別提取主題詞。提取的主題詞不僅有利于裁判文書做細(xì)粒度主題標(biāo)引,也有助于我們對事實性文本內(nèi)容進(jìn)行表達(dá)。

      另外,裁判文書的結(jié)構(gòu)比較規(guī)范,主要分為原告(公訴機關(guān))及委托代理人、被告及委托代理人、原(被)告的辯訴、書面證據(jù)列舉、證人證言列舉、法院意見、引用的法律條文以及法院審判人員信息,數(shù)據(jù)結(jié)構(gòu)形式完整。

      原告(公訴機關(guān))及委托代理人、被告及委托代理人、書面證據(jù)列舉、法院審判人員、引用的法律條文信息等結(jié)構(gòu)化的數(shù)據(jù)信息,主要適用于關(guān)鍵詞等傳統(tǒng)檢索方法,對用戶的專業(yè)程度要求高。

      原(被)告的辯訴、書面證據(jù)列舉、證人證言列舉、法院意見等非結(jié)構(gòu)化信息,標(biāo)引程度低,傳統(tǒng)的檢索系統(tǒng)處理方式簡單,檢索方式單一;但是,語言內(nèi)容邏輯推理強,內(nèi)容豐富,目前缺乏更深層次的語義理解技術(shù)。

      傳統(tǒng)的全文檢索技術(shù),忽略了裁判文書中的法院意見等關(guān)鍵結(jié)構(gòu)信息;并且,裁判文書的這種規(guī)范化特征導(dǎo)致了用戶的信息檢索活動中,用戶需要具備特有的專業(yè)法律知識,這種局限限制了檢索系統(tǒng)的使用人群。

      2.2 法律信息智能處理技術(shù)發(fā)展

      法律文書在人工智能方向的應(yīng)用已有國內(nèi)學(xué)者[2]進(jìn)行了詳細(xì)概述,主要在文本信息處理、文本信息檢索以及法律知識推理方向,甚至為中國相關(guān)法律的完善提供了依據(jù),包括由人工智能等引起的法律問題。國外學(xué)者[3]總結(jié)了深度學(xué)習(xí)在大規(guī)模法律數(shù)據(jù)集上的使用,分別在文本分類、信息抽取以及信息檢索三個研究方向進(jìn)行了展望。

      Giri等[4]認(rèn)為法律文書用于信息檢索需要構(gòu)建語義網(wǎng)絡(luò),基本任務(wù)包括命名實體識別、詞性標(biāo)注、關(guān)系抽取等。張琳等[5]較早地使用了條件隨機場(conditional random field,CRF)模型,并使用法律領(lǐng)域知識的相關(guān)詞典對裁判文書中的罪名實體識別進(jìn)行了研究,為后續(xù)法律知識推理提供了研究基礎(chǔ)。黃菡等[6]在前人研究基礎(chǔ)上,將主動學(xué)習(xí)過程的思想融入命名實體識別當(dāng)中,使用CRF模型分別對罪名、刑罰、法律原則、法律概念以及法律條文進(jìn)行識別,實現(xiàn)了對法律語料中的法律知識的自動識別。高丹等[7]結(jié)合深度學(xué)習(xí)的技術(shù),在命名實體識別的基礎(chǔ)上,提出了基于裁判文書的實體關(guān)系抽取的模型,該模型具有較好的抽取效果和較高的計算效率。這些工作極大地豐富了裁判文書的研究工作,為后續(xù)裁判文書的信息檢索應(yīng)用提供了基礎(chǔ)。Li[8]提取英文法律文本的特征詞,對法律領(lǐng)域的英文文本進(jìn)行分類研究,結(jié)果顯示,TF-IDF(term frequency-inverse document frequency)的 特 征 提 取算法能有效提升文本中法律條文的識別效果。陸偉等[9]和黃永等[10-12]在規(guī)范性文本上的結(jié)構(gòu)化識別任務(wù)研究上取得了很好的效果。Zhuang等[13]為了識別目前純文本的裁判文書潛在語義結(jié)構(gòu),提出了一種識別裁判文書結(jié)構(gòu)的方法,并輸出為XML文件形式,也為自動化提取裁判文書的結(jié)構(gòu)信息奠定了基礎(chǔ)。因此,本文在裁判文書的結(jié)構(gòu)信息基礎(chǔ)上提出了一種融入裁判文書的結(jié)構(gòu)內(nèi)容特征的智能推薦算法。

      在法律領(lǐng)域的信息檢索研究方向上,趙彥[14]論述了目前網(wǎng)絡(luò)檢索司法裁判文書的途徑,總結(jié)出目前裁判文書檢索的不足主要于在數(shù)據(jù)資源更新緩慢,以及缺乏對裁判文書橫向和縱向資源的檢索展示;認(rèn)為需要多樣化建立數(shù)據(jù)庫,拓展裁判文書的智能檢索。黃都培[15-16]利用本體構(gòu)建的方法構(gòu)建了一個法律主題詞表,并提出了一個面向案例的法律信息語義檢索模型,為法律領(lǐng)域的知識管理和信息檢索提供了參考。邢啟迪等[17]設(shè)計了一個法律文獻(xiàn)關(guān)聯(lián)模型,實現(xiàn)了SPARQL檢索,從數(shù)據(jù)資源的層面上進(jìn)行信息組織,實現(xiàn)了對細(xì)粒度資源的檢索。Wagh等[18]基于裁判文書自身的專業(yè)性的特點,提出了基于概念的法院判決結(jié)果相似度的方法,該方法融入了法律專業(yè)概念信息,在結(jié)果表現(xiàn)上具有很強的競爭力。為了解決傳統(tǒng)信息檢索系統(tǒng)空間和時間利用的問題,Padayachy等[19]利用圖數(shù)據(jù)庫對法律文本數(shù)據(jù)進(jìn)行存儲,實驗證明該方法有利于提高用戶的信息檢索效率,但是,該數(shù)據(jù)存儲模型僅在少量數(shù)據(jù)上進(jìn)行了驗證。同樣地,Kanapala等[20]為了解決檢索法律類文本過程中產(chǎn)生的空間和時間消耗大的問題,提出了一種法律信息自動摘要的系統(tǒng),結(jié)果顯示自動摘要技術(shù)能有效提升信息檢索的效率。

      在傳統(tǒng)信息檢索方法的基礎(chǔ)上,部分學(xué)者已經(jīng)將深度學(xué)習(xí)等方法應(yīng)用到法律領(lǐng)域的信息檢索研究中。Marques等[21]用XGboost的方 法和FastText提 取文本特征,對法律文獻(xiàn)的法律條文的推薦進(jìn)行了排序改良。陳文哲等[22]認(rèn)為,法律文書事件存在一個潛在的時間序列信息,利用文本中行為序列信息結(jié)合卷積神經(jīng)網(wǎng)絡(luò)模型對語料進(jìn)行了法律條文預(yù)測。國內(nèi)外已有學(xué)者研究法律領(lǐng)域內(nèi)的知識問答系統(tǒng),為用戶所提出的法律糾紛提供參考解決方案[23-24]。目前,比較成熟的法律領(lǐng)域的應(yīng)用方案是阿里實驗室所提供的多任務(wù)下的電子商務(wù)法律人工智能,其利用特有的買賣雙方的交易相關(guān)數(shù)據(jù),為合同爭議提供自動化解決方案[25]。但是,目前法律領(lǐng)域的智能檢索研究數(shù)據(jù)多樣性高,檢索條件苛刻,而本文裁判文書的自動推薦框架檢索條件寬松,類新聞的事實性文本更易于被用戶所接受。

      本文所使用的數(shù)據(jù)是事實性較強的新聞數(shù)據(jù),用于模擬非專業(yè)用戶的查詢需求。新聞數(shù)據(jù)有口語化對事情經(jīng)過的描述特征,與非專業(yè)用戶的法律檢索查詢式描述相近。因此,本文將新聞類文本和裁判文書等規(guī)范化文本進(jìn)行相似度匹配,擴展傳統(tǒng)裁判文書檢索系統(tǒng)的檢索途徑,實現(xiàn)依據(jù)事實性文本智能推薦裁判文書的功能框架。

      3 相關(guān)模型

      本文為了將裁判文書的結(jié)構(gòu)信息和內(nèi)容信息融入裁判文書信息檢索系統(tǒng)中,利用BM25模型計算特征詞和文檔相似度,并用事實性文本中不同特征詞的BM25值作為多維度特征融入相似度算法中,從而獲得事實性文本和裁判文書的全局相似度。

      BM25模型是一種評價搜索詞和文檔之間相關(guān)性的算法,其公式表達(dá)式為

      本文利用SvmRank算法和LambdaMART算法對多維度特征詞的BM25值進(jìn)行擬合,實現(xiàn)對新聞?wù)Z料和裁判文書之間的整體相似度計算。

      Joachims[26]提出了基于SVM(support vector ma‐chine)[27]的排序?qū)W習(xí)算法SvmRank,將排序問題轉(zhuǎn)化為一個二值分類問題。其基本思想是給定一個數(shù)據(jù)集{xi,yi},其中yi∈{1,…,R},存在一個函數(shù)h(x)滿足h(xi)>h(xj)?yi>yj。因此,給定事實性文本的相關(guān)裁判文書文檔集{xi,yi},則相關(guān)裁判文書文檔關(guān)聯(lián)對{xi,yi}及其相關(guān)性標(biāo)注y構(gòu)成訓(xùn)練數(shù)據(jù)ρ={(xi,xj),yi,j},yi,j表示裁判文書和事實性文本文檔對之間的關(guān)系。設(shè)m=|ρ|,則SvmRank的優(yōu)化問題可以轉(zhuǎn)化為數(shù)學(xué)形式:

      找到一個線性函數(shù)h(x),使訓(xùn)練語料集有相應(yīng)的一個順序,即有序回歸。該算法可以融入新聞?wù)Z料特征詞BM25值表示的多維度向量,并有效提升文檔相似度計算效果,從而計算新聞?wù)Z料中特征詞和裁判文書在整體上的相似度。

      LambdaMART算法[28-30]目前在信息檢索領(lǐng)域,特別在Yahoo!Learning to Rank挑戰(zhàn)中取得了不錯的成績,其算法本質(zhì)可以廣泛應(yīng)用在排序任務(wù)中,包括但不限于廣告推薦、自動打分等。LambdaMART算法是由RankNet、LambdaRank等算法改進(jìn)而來的。RankNet算法[28]基本思想是提供一個打分函數(shù)si=f(xi),其中xi表示事實性文本所提取的特征詞向量表示;然后計算裁判文書文檔i排在裁判文書文檔j之前的概率值,其計算公式是P(Ui?Uj)=其 損 失 函 數(shù)指的是裁判文書文檔i在裁判文書文檔j之前的真實概率,Pi,j是裁判文書文檔i在裁判文書文檔j之前的預(yù)測概率。LambdaRank算法在RankNet算法的基礎(chǔ)上提出了一個加速優(yōu)化的算法,為在公式中引入信息檢索評價指標(biāo)提供了可能。

      LambdaMART算法在LambdaRank算法的基礎(chǔ)上采用MART(multiple additive regression tree)方法來優(yōu)化目標(biāo)函數(shù),基本思想是訓(xùn)練一個弱模型的集成,組合每一個弱模型的預(yù)測,成為一個比單個模型的預(yù)測更強大和更準(zhǔn)確的最終模型。

      本文依據(jù)不同結(jié)構(gòu)內(nèi)容建立特征詞索引,使用特征詞對事實性文本內(nèi)容進(jìn)行表達(dá),將多維度的特征詞信息融入相似度算法中,并對模型的目標(biāo)函數(shù)進(jìn)行優(yōu)化,從而計算事實性文本和裁判文書的全局相似度,以匹配具有多樣性特征的裁判文書。

      4 基于結(jié)構(gòu)內(nèi)容特征的裁判文書自動推薦框架

      4.1 文本特征的選取

      文本特征分為兩個部分:①查詢式的語義表達(dá)。本文使用新聞類事實性文本語料作為非專業(yè)用戶的查詢式。②裁判文書結(jié)構(gòu)索引的構(gòu)建。本文使用具有明顯結(jié)構(gòu)特征的裁判文書作為語料庫,構(gòu)建結(jié)構(gòu)索引。

      4.1.1 法律文本語料的特征詞

      (1)生產(chǎn)見習(xí)示教前30分鐘,示教老師在多媒體等教學(xué)設(shè)備輔助下進(jìn)行課程的講授;2)學(xué)生到病房對患者進(jìn)行生產(chǎn)實踐,歷時30分鐘詢問患者病史并對患者進(jìn)行體格檢查;3)回到教室后用約1小時由學(xué)生與老師進(jìn)行總結(jié)。

      裁判文書的刑事案件領(lǐng)域具有較強的粗粒度分類標(biāo)準(zhǔn),即每個裁判文書都被賦予一個或多個的刑事罪名,該罪名的標(biāo)簽又可以視為裁判文書的標(biāo)引詞。因此,裁判文書的檢索系統(tǒng)多以刑事罪名的分類系統(tǒng)作為裁判文書分類檢索,也是目前最常見的檢索手段。

      裁判文書類的規(guī)范化文本具有較強的定性表達(dá),如罪名表述、案件定性等。但是,新聞?wù)Z料具有比較強的事件陳述性質(zhì),而裁判文書僅在庭審過程等結(jié)構(gòu)中存在事件陳述性質(zhì)的內(nèi)容。因此,本文探究了從這類結(jié)構(gòu)內(nèi)容中提取關(guān)鍵詞以增強文本相似度計算效果的思路。

      目前,比較常見的特征詞提取算法有TF-IDF算法、互信息、信息增益等。TF-IDF是一種經(jīng)典的文本關(guān)鍵詞提取算法,主要從特征詞在所有文檔中出現(xiàn)的次數(shù)和特征詞在本文檔出現(xiàn)的次數(shù)兩個方面出發(fā),計算特征詞對于文檔的相對權(quán)重,主要思想是弱化高頻詞、停用詞對文獻(xiàn)的影響。信息增益是通過計算該特征詞t是否為一篇文章在類別c中出現(xiàn)的概率來得到的?;バ畔⑹峭ㄟ^計算特征詞t能為類別c提供的信息量來獲得的。

      TF-IDF算法能在規(guī)范化文本中忽略掉常用詞,提取與文本主題相似的主題詞,這類主題詞能有效描述文本中的主要事件動作,增強文本語義相似度計算效果。因此,本文選取TF-IDF作為特征詞選取算法,從裁判文書中提取與罪名類型相關(guān)性高的特征詞。在此基礎(chǔ)上,用特征詞對事實性文本進(jìn)行語義表示,分別計算特征詞與裁判文書之間的BM25值,融入SvmRank算法和LambdaMART算法中,從而計算裁判文書與事實性文本之間的整體相似度。

      4.1.2 裁判文書的結(jié)構(gòu)特征

      裁判文書具有相對清晰的標(biāo)準(zhǔn)結(jié)構(gòu),而每個結(jié)構(gòu)之間存在著相對固定的功能,裁判文書的結(jié)構(gòu)范例如表1所示。

      表1 裁判文書結(jié)構(gòu)信息范例

      庭審過程內(nèi)容記載了辯護(hù)雙方所提供的證據(jù)和供詞,而法院意見部分一般為法院對事實部分的認(rèn)定和描述,以及罪刑的審判,這類部分基本為半結(jié)構(gòu)化數(shù)據(jù)。其中,原告(公訴機關(guān))及委托代理人、被告及委托代理人這類信息多以結(jié)構(gòu)化形式存儲于數(shù)據(jù)庫中,庭審過程和法院意見以非結(jié)構(gòu)化文本數(shù)據(jù)為主。結(jié)構(gòu)化數(shù)據(jù)已廣泛用于目前的信息檢索系統(tǒng)。

      從裁判文書的非結(jié)構(gòu)化數(shù)據(jù)上看,法院意見是法院對案件事實認(rèn)定之后的陳述,對事件發(fā)生有較為明確的定性;而審判過程多為辯護(hù)雙方的陳述,事件描述性內(nèi)容較多,但是,部分事實法院不予認(rèn)定。因此,裁判文書的不同結(jié)構(gòu)內(nèi)容信息會對信息檢索系統(tǒng)在計算文本相似度時產(chǎn)生影響,主要表現(xiàn)在法院認(rèn)定的事實與雙方陳述意見存在差異,合理使用這類差異有助于擴大信息檢索系統(tǒng)的查全率和查準(zhǔn)率。陸偉等[9]、黃永等[10-12]對學(xué)術(shù)文本的結(jié)構(gòu)功能識別開展了一系列研究,論述了文獻(xiàn)結(jié)構(gòu)功能對信息檢索、關(guān)鍵詞提取等研究的積極作用。與此同時,Zhuang等[13]在裁判文書結(jié)構(gòu)識別的研究上開展了相關(guān)工作。因此,這類智能化抽取裁判文書的結(jié)構(gòu)特征的研究有助于法律信息檢索技術(shù)的改良。

      4.2 “新聞-裁判文書”推薦系統(tǒng)框架

      本文的推薦系統(tǒng)框架主要分為:①裁判文書的結(jié)構(gòu)化索引構(gòu)建;②新聞?wù)Z料文本特征提取。裁判文書結(jié)構(gòu)索引構(gòu)建,主要目的是實現(xiàn)裁判文書文本結(jié)構(gòu)化,并對裁判文書不同的結(jié)構(gòu)信息建立索引。新聞?wù)Z料文本特征提取,主要目的是對新聞?wù)Z料進(jìn)行語義表示,提取特征詞增強長文本檢索效果。最后,根據(jù)相似度排序算法進(jìn)行迭代學(xué)習(xí),并輸出相關(guān)裁判文書文檔集。具體框架如圖1所示。

      圖1 “新聞-裁判文書”推薦系統(tǒng)框架

      裁判文書結(jié)構(gòu)索引構(gòu)建,包括對裁判文書的文本結(jié)構(gòu)化和倒排索引的建立。本文所使用的裁判文書是結(jié)構(gòu)信息人工標(biāo)注規(guī)范的裁判文書文檔集。本文通過對裁判文書不同結(jié)構(gòu)信息的分詞等文本預(yù)處理,形成了具有結(jié)構(gòu)內(nèi)容信息的裁判文書倒排索引。

      新聞?wù)Z料文本特征提取,包括對新聞?wù)Z料文本的預(yù)處理和特征詞提取。本文通過對文本進(jìn)行分詞處理剔除一些無意義的詞匯和低頻詞,形成相應(yīng)的新聞?wù)Z料文檔的詞集,并用特征詞提取算法形成的特征詞詞典對新聞?wù)Z料進(jìn)行特征詞語義表示。

      本文根據(jù)新聞?wù)Z料的多類別特征詞和裁判文書文檔的BM25值形成多維度語義向量,并使用相應(yīng)的文本相似度算法、LambdaMART算法和SvmRank算法計算新聞?wù)Z料和裁判文書的語義相似度。用戶可根據(jù)其算法按相關(guān)度降序排列推薦的裁判文檔,根據(jù)需求對相關(guān)度高的裁判文書進(jìn)行參考、獲取知識,包括但不限于律師推薦、法律條文參考、證據(jù)固定等,滿足使用類新聞的事實性文本內(nèi)容獲取相關(guān)法律類信息的檢索需求。

      5 實驗設(shè)計與實施

      5.1 實驗語料集的建立

      本文所使用的語料集,是以openlaw.cn提供的結(jié)構(gòu)化語料庫作為法律文書的全文語料集,用于提供相關(guān)法律文書的候選集。openlaw.cn提供的語料集不僅包含每個案例相應(yīng)的案件罪行,也提供了法律文書的結(jié)構(gòu)信息,方便用戶檢索。本次實驗聚焦于刑事案件的文獻(xiàn),該類型的法律文獻(xiàn)資料邏輯比較清晰,相關(guān)新聞多于民事案件,有助于數(shù)據(jù)的采集。其中,刑事案件文獻(xiàn)共7320篇,其裁判文書案件的類型分布特點統(tǒng)計如表2所示。

      表2 刑事案件的犯罪類型統(tǒng)計(前10位)

      從表2可以明顯看出,盜竊罪的犯罪類型明顯高于其他罪刑;從第8位的搶劫罪開始,其他犯罪類型的文書數(shù)量有著明顯下降的趨勢,并且,根據(jù)統(tǒng)計數(shù)據(jù)顯示,裁判文書涉及的犯罪類型共計175種,可以發(fā)現(xiàn)裁判文書的罪刑類別分布廣,傳統(tǒng)的分類檢索體系加大了用戶的信息檢索難度。

      另外,本文統(tǒng)計裁判文書記載的案件中所涉及的犯罪類型數(shù),結(jié)果如表3所示。

      從表3可知,法律文書涉及的罪名數(shù)呈階梯式分布,涉及1個罪名的文書數(shù)量占76.67%,涉及2個罪名的文書數(shù)量為18.51%,而不少于3個罪名的文書數(shù)量為5%左右。由表3可知,裁判文書案件性質(zhì)以單一罪名為主,但仍有約25%的裁判文書含有2個或2個以上的罪名。因此,裁判文書涉及的量刑范圍、施用的法律條文差異性大,具有特殊性,不利于傳統(tǒng)搜索引擎按罪名分類標(biāo)引體系進(jìn)行標(biāo)引檢索。這項統(tǒng)計結(jié)果正符合上文所總結(jié)的裁判文書的內(nèi)容特點,也從側(cè)面印證了本項實驗研究的重要性。

      表3 法律文書涉及的罪名數(shù)

      本實驗中的新聞?wù)Z料集源于法律新聞網(wǎng)(http://www.chinalawnews.cn/)刑事案件中的150篇新聞。通過以下步驟進(jìn)行處理:①篩選出經(jīng)法院審理之后的新聞?wù)Z料;②人工根據(jù)新聞內(nèi)容對語料進(jìn)行“案件類型”標(biāo)注;③刪除有判決信息的內(nèi)容,只留下新聞陳述內(nèi)容。最終獲取到有效新聞?wù)Z料75篇,其中15篇作為測試集,用于評價模型效果。

      相似度打分使用新聞?wù)Z料的罪刑類型和法律文書的罪刑類型進(jìn)行匹配評價,主要算法為漢明距離,罪刑類型越相近,相似度打分越高,即罪刑基本一致。其他語料的相關(guān)度默認(rèn)為不相關(guān)文獻(xiàn),即為0。

      5.2 實驗結(jié)果評價

      5.2.1 實驗的評價指標(biāo)

      本次測評實驗是改進(jìn)檢索系統(tǒng)的檢索效果,使用NDCG(normalized discounted cumulative gain)對此次實驗進(jìn)行評價。NDCG是根據(jù)累計增益(cu‐mulative gain,CG)、折損累計增益(discounted cu‐mulative gain,DCG)的評價方法逐步改進(jìn)而來的。

      累計增益方法是指定位置上的相關(guān)性總和,指定位置p的CG計算公式為

      其中,rel表示位置i上的文獻(xiàn)相關(guān)度。

      折損累計增益方法是將檢索結(jié)果的排序信息加入對檢索結(jié)果的評價上,其位置p上的DCG計算公式為

      評價指標(biāo)NDCG是比較預(yù)測出的結(jié)果和理想中的預(yù)測結(jié)果,對預(yù)測出的檢索結(jié)果進(jìn)行歸一化處理。前p個檢索結(jié)果的評價公式為

      其中,IDCG表示理想中的檢索結(jié)果,即根據(jù)相關(guān)度大小降序排列相關(guān)文檔。

      NDCG能很好地反映模型計算的相似度和理想相似度之間的差異,NDCG值越大,模型相似度估計的效果越好。本文將選取NDCG(1)、NDCG(5)來反映系統(tǒng)最相關(guān)文檔的排序情況,選取NDCG(10)、NDCG(20)來表示系統(tǒng)返回較多文檔時,相關(guān)文檔的推薦情況,綜合評判文本匹配模型檢索效果。

      本次實驗的評價結(jié)果是取測試集中多個查詢式的NDCG的平均值作為最終的評價指標(biāo)。

      5.2.2 實驗結(jié)果比較

      本次實驗首先利用BM25算法對特征改進(jìn)算法的效果進(jìn)行了驗證,主要包括將新聞?wù)Z料用詞袋模型表示,以及利用已知的裁判文書文本提取相關(guān)關(guān)鍵詞對新聞?wù)Z料進(jìn)行標(biāo)引,根據(jù)標(biāo)引結(jié)果進(jìn)行檢索。實驗結(jié)果如表4所示。

      表4 特征詞在BM25算法的表現(xiàn)

      如表4所示,不使用特征的實驗結(jié)果比利用TF-IDF提取特征詞之后的文本表達(dá)要差。不使用特征詞的BM25算法,由于新聞?wù)Z料的文本較長,潛在查詢詞過多,增加了該算法相似度計算難度;并且文中含有的大量無意義詞匯,如人名,對相似度計算無促進(jìn)意義,因此,在使用特征詞提取算法后,選取內(nèi)涵豐富的非低頻詞,用于構(gòu)建事實性文本的查詢式,有利于提高事實性文本作為檢索式的推薦結(jié)果。在后續(xù)實驗中,我們將使用TF-IDF算法提取文本關(guān)鍵詞,對文本進(jìn)行標(biāo)引,降低計算復(fù)雜度和提高模型的推薦效果。

      同時,本文也將裁判文書的文本結(jié)構(gòu)納入文本匹配模型的考慮范疇并設(shè)計實驗,結(jié)果如表5所示。

      如表5所示,從不同文本匹配模型的表現(xiàn)結(jié)果來看,在法院意見部分,BM25模型表現(xiàn)結(jié)果最差,SvmRank模型和LambdaMART模型均有不同程度的提升。在使用審判過程和全文本結(jié)果結(jié)構(gòu)內(nèi)容特征時,BM25模型的檢索效果僅在NDCG(1)和NDCG(5)的評測中高于SvmRank模型,在NDCG(10)和NDCG(20)的評測中,SvmRank效果明顯高于BM25。分析其原因,可能是裁判文書的內(nèi)容增加時,利用關(guān)鍵詞匹配的方法,有利于文檔中詞的相互關(guān)聯(lián),使最相關(guān)文檔排位靠前;SvmRank模型是在全局?jǐn)?shù)據(jù)中找到一個有序回歸的最佳界限,使相關(guān)性高的文檔盡可能地排在相關(guān)性低的文檔之前,因此,其在NDCG(10)和NDCG(20)的NDCG表現(xiàn)結(jié)果依然好于BM25算法。而LambdaMART模型在不同的文本結(jié)構(gòu)下均優(yōu)于其他檢索模型。

      表5 模型結(jié)果在不同結(jié)構(gòu)上的表現(xiàn)

      從不同的結(jié)構(gòu)內(nèi)容來看,以表現(xiàn)較好的Lamb‐daMART模型為例。該模型在NDCG(1)和NDCG(5)的評測中表現(xiàn)較好的是僅使用法院意見結(jié)構(gòu)內(nèi)容特征,在NDCG(10)和NDCG(20)的評測中,表現(xiàn)較好的是僅使用審判過程結(jié)構(gòu)內(nèi)容特征,而將兩者綜合時,模型的表現(xiàn)結(jié)果有一定程度的下降。分析其原因,可能是審判過程的文本中含有大量多角度陳述且事實不清的內(nèi)容,如雙方意見的陳述,其內(nèi)容一定程度上法院不予承認(rèn),造成了文本相似度計算的偏差;但是,該內(nèi)容有利于擴展?jié)撛谙嚓P(guān)文檔。因此,在僅使用法院意見結(jié)構(gòu)內(nèi)容特征時,Lamb‐daMART模型返回的前幾個結(jié)果相關(guān)度排序更加相關(guān),而使用審判過程結(jié)構(gòu)內(nèi)容特征時,該模型能返回更多的相關(guān)文本。而使用全文本的匹配方式時,模型效果趨于平均,不利于計算事實性文本和裁判文書之間的相似度。對于BM25算法而言,在對查詢式進(jìn)行特征提取之后,使用審判過程結(jié)構(gòu)內(nèi)容特征能有效提高查詢效果,可能原因是在使用審判過程結(jié)構(gòu)內(nèi)容特征之后,BM25算法可以獲得較大的匹配概率。而SvmRank算法在不同的結(jié)構(gòu)內(nèi)容特征下,其表現(xiàn)波動情況和LambdaMART模型類似,由于其結(jié)果表現(xiàn)太差,不具備對比條件。

      因此,LambdaMART模型利用特征詞提取算法構(gòu)建文檔相關(guān)度矩陣,并使用文本結(jié)構(gòu)特征能有效提高僅使用全文本內(nèi)容的檢索效果,而使用法院意見的文本內(nèi)容和使用審判過程的文本內(nèi)容各有優(yōu)劣。對于裁判文書推薦來說,本次實驗使用的是有限的語料數(shù)據(jù)集,在目前裁判文書網(wǎng)所形成的大量數(shù)據(jù)集的情況下,利用法院意見部分做文本推薦工作會有較好的結(jié)果。

      6 結(jié)語與展望

      本文為了解決目前法律類搜索引擎在非專業(yè)用戶中的局限性,擴大法律類信息檢索的用戶范圍,在傳統(tǒng)搜索引擎的法律條文檢索和細(xì)粒度知識元的檢索之外,提出了一種利用類新聞?wù)Z料文本的智能推薦框架,來解決非專業(yè)用戶在法律領(lǐng)域的信息檢索問題。

      裁判文書特有的內(nèi)容特征為非專業(yè)用戶的信息檢索帶來了困難,但也有助于我們從結(jié)構(gòu)內(nèi)容特征方向上對相關(guān)文檔進(jìn)行深度標(biāo)引。從裁判文書的主題特征,即引用的法律條文、法院認(rèn)定的罪型名稱來看,裁判文書涉及罪刑廣、牽涉法律條文多且部分裁判文書涉及多個罪名的認(rèn)定,傳統(tǒng)的分類體系不利于用戶的信息檢索。從裁判文書的結(jié)構(gòu)內(nèi)容特征來看,其結(jié)構(gòu)比較明顯,但是在不同的結(jié)構(gòu)內(nèi)容中呈現(xiàn)為不同的數(shù)據(jù)形式。裁判文書的結(jié)構(gòu)化數(shù)據(jù)已經(jīng)廣泛用于目前的檢索系統(tǒng)當(dāng)中,而對于部分非結(jié)構(gòu)化數(shù)據(jù),以現(xiàn)有檢索技術(shù)無法降低用戶的檢索難度。

      針對非專業(yè)用戶的裁判文書檢索問題,本文利用裁判文書的特征詞和結(jié)構(gòu)內(nèi)容特征,提出了一個基于結(jié)構(gòu)內(nèi)容特征的裁判文書自動推薦框架,改良了傳統(tǒng)全文檢索模型BM25在使用類新聞?wù)Z料的事實性文本中進(jìn)行檢索的不足。在此基礎(chǔ)之上,本文利用SvmRank算法和LambdaMART算法,融入裁判文書的結(jié)構(gòu)內(nèi)容信息,提升了依據(jù)類新聞?wù)Z料的事實性文本進(jìn)行信息檢索的效果,從而更好地實現(xiàn)了非專業(yè)用戶的法律信息檢索需求。

      最后,結(jié)合本次實驗研究,裁判文書未來可以研究的主要方向包括:

      (1)證據(jù)信息和陳述信息的信息抽取研究。本文在進(jìn)行相似度計算時,由于目前信息抽取技術(shù)的局限性,無法將證據(jù)信息納入相似度計算中,這類信息有助于幫助用戶尋找關(guān)鍵信息點。

      (2)裁判文書的知識圖譜構(gòu)建。未來研究可以重視法院意見和證據(jù)信息、陳述信息的關(guān)系抽取研究,有助于構(gòu)建法律知識圖譜,從實體、屬性、關(guān)系三維度提高知識表示學(xué)習(xí)、知識獲取、知識計算等模型效果,從而實現(xiàn)法律類信息搜索系統(tǒng)的自動問答。

      猜你喜歡
      特征詞信息檢索語料
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
      新聞傳播(2016年18期)2016-07-19 10:12:06
      基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      面向文本分類的特征詞選取方法研究與改進(jìn)
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
      教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計與實施
      河南科技(2014年11期)2014-02-27 14:10:19
      孟连| 朔州市| 白水县| 洞口县| 叶城县| 三明市| 读书| 仙居县| 山阳县| 应城市| 洮南市| 遵义市| 报价| 建湖县| 宜都市| 涪陵区| 平谷区| 烟台市| 马尔康县| 北票市| 开封县| 阳江市| 丁青县| 洮南市| 基隆市| 邯郸市| 阳高县| 太谷县| 黄浦区| 青川县| 峨眉山市| 卢氏县| 西华县| 张家界市| 恩平市| 三门峡市| 上犹县| 静乐县| 永胜县| 大足县| 小金县|