基于詞頻-逆文檔頻率和法律本體的相似案例檢索算法

2021-10-05 12:55:10張云婷方濱興張宏莉

智能計算機(jī)與應(yīng)用 2021年5期

張云婷，葉麟，方濱興，張宏莉

(哈爾濱工業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院，哈爾濱150001)

0 引言

隨著普法率的不斷提高，普通民眾的法律意識日益增強(qiáng)，法務(wù)系統(tǒng)的建設(shè)變得愈發(fā)重要，人們對公共法律服務(wù)的需求也呈上升趨勢。由于現(xiàn)階段面向公共法律服務(wù)的專業(yè)隊伍規(guī)模有限，且分布在偏遠(yuǎn)地區(qū)的專業(yè)人員相對較少，很多民眾對公共法律服務(wù)的需求無法得到很好的滿足。在此情況下，智慧法務(wù)系統(tǒng)和智慧檢務(wù)系統(tǒng)應(yīng)運而生。無論是普通民眾還是法官、律師等法律從業(yè)人員，均可從中得到所需的服務(wù)，這將為緩解專業(yè)隊伍規(guī)模不夠及分布不均的問題，提供有效的系統(tǒng)和技術(shù)支撐。其中，相似案例檢索又是法務(wù)系統(tǒng)中一項基礎(chǔ)且必要的需求。相似案例檢索是指檢索出與用戶輸入案例相似的案例，其在法官判案、民眾普法、案件分類等方面均起著重要的作用。但是，傳統(tǒng)的基于關(guān)鍵詞的檢索方式只能實現(xiàn)字面意義上的相似，并不能實現(xiàn)語義層面上的相似；而由于法律案例本身涉及很多知識領(lǐng)域，導(dǎo)致其和一般文章有所不同，因此僅依靠基于關(guān)鍵詞的檢索方式，無法實現(xiàn)非專業(yè)人員的精確檢索。為此，本文提出了一種基于詞頻-逆文檔頻率（TFIDF）和法律本體的相似案例檢索算法。該方法引入案例要素替代傳統(tǒng)的關(guān)鍵詞，使其能夠?qū)崿F(xiàn)語義上的相似文本匹配。其中，案例要素是指法律案例中的關(guān)鍵元素，如嫌疑人的個人背景、性格特點、心理特征以及行為表現(xiàn)等?；诎咐氐臋z索方式將法律案例的研究重點從關(guān)鍵詞轉(zhuǎn)移到了案例要素上，由于案例要素的法律語義遠(yuǎn)遠(yuǎn)強(qiáng)于關(guān)鍵詞，在專業(yè)性上必定優(yōu)于基于關(guān)鍵詞的查找方式，進(jìn)而更能滿足非專業(yè)人員對相似案例更加精確的檢索需求。

本文主要貢獻(xiàn)如下:

（1）提出了一種基于語義的相似案例檢索算法，提升了相似案例檢索結(jié)果的準(zhǔn)確性。

（2）引入了基于法條的案例要素，以公共法律服務(wù)中的監(jiān)獄教改案例為例，搭建了案件模型，并構(gòu)建了相關(guān)字典，提升了相似案例檢索結(jié)果的專業(yè)性。

1 相關(guān)工作

1.1 基于本體知識的文本相似度計算

基于Berners-Lee在1998年于國際萬維網(wǎng)聯(lián)盟提出的語義網(wǎng)的概念，本體這一概念逐漸從中衍生出來。本體是一種重要的知識表示手段，文本相似中的本體不僅包括狹義上的本體，也包括通用詞典、詞匯表等具有本體知識的知識庫［1］。本體可以根據(jù)其通用性分為通用本體和領(lǐng)域本體。研究中常用的通用本體包括《知網(wǎng)》［2］（HowNet）、WordNet［3］等；領(lǐng)域本體包括醫(yī)學(xué)本體［4］、法律本體［5］等。

本體知識一般用樹狀結(jié)構(gòu)表示，相關(guān)算法大都基于“IS＿A”關(guān)系樹狀分類體系。學(xué)者們通常將基于本體的文本相似度算法分為基于距離（Edge Counting Measures）、基于信息內(nèi) 容（Information Content Measures）、基于屬性（Feature-based Measures）以及混合式（Hybrid Measures）文本相似度計算［6］。

基于距離的文本相似度計算的基本思想為，利用概念之間的路徑長度來度量概念之間的語義距離。其最基礎(chǔ)的算法為Shortest Path法［7］，在其基礎(chǔ)上，加入權(quán)重、最近公共父節(jié)點、樹的深度、路徑方向的改變次數(shù)等方面的考量，衍生出了Weighted Links［8］、Wu and Palmer［9］等方法。

基于信息內(nèi)容的文本相似度計算的基本思想是，利用兩概念詞共享的信息量，來度量其之間的語義相似性。其最具代表性的算法為Lord等人［10］提出的基于最近公共父節(jié)點計算共享信息量的算法；在此基礎(chǔ)上，加入對其它公共父節(jié)點、自身結(jié)點的考量，分別衍生出Resnik［11］和Lin［12］法。

基于屬性的文本相似度計算的基本思想為，利用兩概念詞的公共屬性數(shù)，來度量其之間的語義相似性。其最具代表性的算法為Tversky算法［13］。在此基礎(chǔ)上，衍生出了基于概念釋詞的方法［14］，此類算法通過在釋詞（gloss）集合中提取公共屬性或劃分屬性的相似程度，來計算2個概念的語義相似程度。

混合式文本相似度計算的基本思想為，綜合以上3種方法，進(jìn)行文本相似度的計算。目前研究出的文本相似度算法，大部分都為混合式算法。

1.2 詞頻-逆文檔頻率技術(shù)

TF-IDF技術(shù)是一種被廣泛使用的特征詞提取技術(shù)，也是生成詞向量的主要手段之一。TF-IDF技術(shù)最早在文獻(xiàn)［15］中提出，該技術(shù)用于評估詞語對于文檔集或語料庫中文本的重要程度，是自然語言處理中提取文檔主題或關(guān)鍵詞的重要技術(shù)。其基本思想是:如果某個詞語在某篇文檔中出現(xiàn)頻率很高，而在語料庫里其它文檔中出現(xiàn)頻率很低，則這個詞語在某種程度上可以作為該文檔的特征詞。因此，該技術(shù)可以用作文檔分類、文本相似度計算以及信息檢索等用途。

詞頻（TF）指的是某個詞語w在某篇文檔d中出現(xiàn)的次數(shù)（count（w，d））與文檔d中總詞語數(shù)（size（d））的比值，可用式（1）來進(jìn)行計算:

逆文檔頻率（IDF）指的是語料庫中的文檔總數(shù)N與詞語w所出現(xiàn)文件數(shù)docs（w）比值的對數(shù)，可以用式（2）來進(jìn)行計算:

而詞語w在文檔d中的TF-IDF值可以用式（3）計算:

為了生成每篇文檔的詞向量，需要對語料庫中的所有文檔進(jìn)行特征詞的抽取，總結(jié)出一串由n個特征詞組成的特征詞串w0，w1，...，wn；再針對每篇文檔，依次計算這些特征詞在該文檔中的TF-IDF值，這些值就組成了該文檔的詞向量。

例如，對于文檔d來說，其詞向量就為（tfidf（w0，d），tf-idf（w1，d），...，tf-idf（wn，d））。利用這種方法，對語料庫中的每篇文檔，計算其對應(yīng)的詞向量，即可生成語料庫中所有文檔的詞向量集合。

2 案例要素及其選擇依據(jù)

案例要素是能夠描述案例特征的關(guān)鍵元素。由于公共法律服務(wù)案例基本都是用自然語言描述的，若想利用計算機(jī)對其進(jìn)行處理，就需要將其中的各案例要素進(jìn)行抽象化表示，再將抽象化表示后的案例要素進(jìn)行量化，繼而抽取每件案例中的案例要素，最終形成計算機(jī)可以處理的詞向量（即本文引入的案例要素向量）。

案例要素的選取與算法的準(zhǔn)確率密切相關(guān)。由于案例要素需要有一定的專業(yè)性，因此，筆者依據(jù)相關(guān)法律法規(guī)、對應(yīng)領(lǐng)域內(nèi)的專業(yè)知識及近千篇具體案例來選擇合適的案例要素。

以監(jiān)獄教改類案例為例，根據(jù)司法部2003年6月13日發(fā)布的《監(jiān)獄教育改造工作規(guī)定》第四條:“監(jiān)獄教育改造工作，應(yīng)當(dāng)根據(jù)罪犯的犯罪類型、犯罪原因、惡性程度及其思想、行為、心理特征，堅持因人施教、以理服人、循序漸進(jìn)、注重實效的原則?！保P者共選擇了4類案例要素，分別為犯人的個人背景、犯人的性格特點、犯人的心理特征以及犯人的行為表現(xiàn)。其中由于罪犯犯罪類型過于繁雜，且對于監(jiān)獄教改案例而言代表性較弱，因此未將犯人的犯罪類型加入到案例要素類別中。而犯人的個人背景很大程度上決定了犯罪原因及惡性程度，犯人的性格特點與其思想行為有很緊密的聯(lián)系，犯人的心理特征及行為表現(xiàn)也與該法律條款的心理特征和行為一一對應(yīng)。因此，筆者所選取的案例要素類別非常具有代表性，能將整個案例的關(guān)鍵要素全部表征出來。

表1列出了這4個案例要素類別中各案例要素的選取依據(jù)。

表1 案例要素選取依據(jù)Tab.1 Case elements selection basis

3 基于語義的相似案例檢索算法

由于基于TF-IDF技術(shù)提取出的案例要素法律語義較弱，并不能真正做到語義查詢。因此，還需要結(jié)合法律本體提取一部分案例要素，以達(dá)到增強(qiáng)法律語義的目的。本文將通過TF-IDF和法律本體提取出的案例要素相結(jié)合，再利用量化后的案例要素，計算輸入案例和語料庫中案例的歐氏距離，即可得到兩者間的相似度。

3.1 基于法律本體的案例建模

在結(jié)合法律本體提取案例要素的過程中，首先需要進(jìn)行法律本體的案例建模。案例要素的抽象化表示和量化過程即為案例建模的過程。在案例要素的抽象化表示過程中，需要以法律法規(guī)及大量案例為基礎(chǔ)，將某類案例的特點分層抽象出來，進(jìn)而建立案例要素表示體系。以監(jiān)獄教改案例為例，對該類案例進(jìn)行建模，每個監(jiān)獄教改案例向量Cjyjg均可用式（4）的形式表示:

其中，B、P、H、A分別代表犯人的個人背景、性格特點、心理特征以及行為表現(xiàn)。

為了使案例要素的表示體系更加充實，對案例要素四維特征中的每個特征進(jìn)行了二次抽象。通過這種分層抽象的方式使得建立的案件模型更加完整，抽取出的詞向量不會太稀疏。在對監(jiān)獄教改案例模型的四類特征進(jìn)行二次抽象后，監(jiān)獄教改案例的具體模型可以表示為式（5）-式（8）所示:

其中，各維度的含義及值域見表2。

表2 監(jiān)獄教改案例要素量化表Tab.2 Quantification of case elements for prison education reform cases

表中值域為｛0，1｝，0表示犯人沒有該特征，1表示犯人有該特征；犯人的文化程度b3的值域為｛0，1，2，3，4，5｝，0-5的數(shù)字分別表示犯人文化程度為小學(xué)文化、初中文化、高中文化、中專文化以及接受過高等教育。

3.2 基于法律本體的案例要素提取

在建立某類案例模型后，需要在該類所有案例中一一提取所有的案例要素，將每個案例用詞向量的形式表示。下文利用監(jiān)獄教改類案例進(jìn)行舉例，介紹基于法律本體的案例要素提取方式。

由于每個案例要素都有各自的特點，無法一概而論，因此對于不同的案例要素，需要用不同的方法來進(jìn)行提取。基于法律本體的案例要素提取主要有4種方法:基于正則表達(dá)式的案例要素提取方法、基于常識字典的案例要素提取方法、基于專業(yè)字典的案例要素提取方法、基于混合方法的案例要素提取方法。

3.2.1 基于正則表達(dá)式的案例要素提取方法

利用正則表達(dá)式提取案例要素的兩種情況:

（1）被提取的案例要素在所有案例中的描述雖然不一致，但都遵循一定規(guī)律。例如，在提取“犯人是否為未成年”這一案例要素時，每個犯人的出生時間并不一樣，且對出生時間的描述也不同。如，甲犯的出生時間描述為1989年生；乙犯的出生時間描述為1989年2月出生；丙犯的出生時間描述為1989年2月5日生等。從中可以看出，雖然每個案例對出生時間的描述不同，但是其遵循的格式規(guī)律是一致的，其格式都是最前面是4個數(shù)字，最后是一個“生”字。因此，可以通過相應(yīng)的正則表達(dá)式抽取出所需的出生年份的信息。同理，如果有些案例中沒有出生日期信息，但是有犯人年齡的信息，也可以用正則表達(dá)式將犯人的年齡抽取出來。

（2）被提取的案例要素在所有案例中的描述，無法通過一個或幾個關(guān)鍵詞判斷，還需要考慮關(guān)鍵詞的上下文，過濾掉不符合條件的情況。例如，在提取“犯人是否強(qiáng)迫”這一案例要素時，很容易知道“強(qiáng)迫”一詞肯定是判斷犯人是否強(qiáng)迫的必要不充分條件。因為很多案例中有“強(qiáng)迫”一詞，但卻并不能說明犯人就是有強(qiáng)迫傾向的。如，在案例描述中，該犯人因強(qiáng)迫婦女賣淫罪而被捕，該描述中也有“強(qiáng)迫”一詞，但并不能說明該犯人有強(qiáng)迫傾向。因此，需要通過正則表達(dá)式將不符合強(qiáng)迫條件的信息過濾掉，剩下的就是所需信息。另外，該情況通常與基于常識的案例要素提取結(jié)合使用。

3.2.2 基于常識字典的案例要素提取方法

有些案例要素在所有案例中的描述可以通過一個或幾個關(guān)鍵詞來進(jìn)行判斷，即在某一案例中，只要匹配到所有對應(yīng)關(guān)鍵詞中的一個，就能夠判斷該案例擁有相應(yīng)的案例要素。而這些關(guān)鍵詞所構(gòu)成的字典，則需要在閱讀大量監(jiān)獄教改類案例的基礎(chǔ)上，結(jié)合常識進(jìn)行總結(jié)，這種方式即為基于常識字典的案例要素提取。此種方式適用于關(guān)鍵詞較少、在文中的描述較為規(guī)范且無需考慮上下文的情況。例如，在提取“犯人的文化程度”這一案例要素時，由于該案例要素在文中的描述大都為“小學(xué)文化”、“初中文化”、“高中一年級文化”等，這樣的描述形式規(guī)范且無需考慮上下文，而文化程度的范圍只是小學(xué)到高等教育，相應(yīng)的關(guān)鍵詞較少，常識字典很好建立，因此可以用此方法來對這一案例要素進(jìn)行提取。

3.2.3 基于專業(yè)字典的案例要素提取方法

與常識字典相似，專業(yè)字典也是由關(guān)鍵詞構(gòu)成的，運用方式也與常識字典相同。而與常識字典不同的是，專業(yè)字典所包含的關(guān)鍵詞數(shù)量極大，且專業(yè)性很高，通常為互聯(lián)網(wǎng)中可獲取的專業(yè)性細(xì)胞詞庫。例如，在提取“犯人是否患病”這一案例要素時，就需要收集所有疾病的名稱。而這些疾病的名稱顯然無法用常識總結(jié)出來，因此筆者從互聯(lián)網(wǎng)中下載了搜狗細(xì)胞詞庫中關(guān)于疾病名稱的詞庫，通過與該詞庫中的疾病名稱進(jìn)行匹配，即可完整抽取出這一案件要素。

3.2.4 基于混合方法的案例要素提取方法

該方法是將上述3種方式中的2種方式進(jìn)行混合使用，以達(dá)到更精確地提取案例要素的目的。如在基于正則表達(dá)式的案例要素提取方式的第二種情況中的舉例，即為基于正則表達(dá)式的案例要素提取方式與基于常識字典或?qū)I(yè)字典的案例要素提取方式的混合使用。

為了便于理解，將基于混合方法的案例要素提取進(jìn)行如下偽代碼表示。

輸入:案例文本、常識（專業(yè)）字典

輸出:對應(yīng)抽取元素標(biāo)志位（flag）

對不同案例要素，進(jìn)行對應(yīng)的前期處理

3.3 人工增加停用詞表

在基于TF-IDF的案例要素提取算法中，停用詞表沒有經(jīng)過任何的人工改動。這樣雖然減少了人工操作，但會使得一些沒有區(qū)分能力的詞語被抽取到特征詞串中。這些詞語通常是一些普遍出現(xiàn)在公共法律服務(wù)案例中，但卻無法作為案例要素的詞語。例如，“監(jiān)獄”、“民警”等。因此，需要通過人工的方式，將它們添加到停用詞表中，這樣可以在很大程度上排除非特征詞的干擾，使提取的案例要素更具有代表性。

值得注意的是，雖然非特征詞可以通過調(diào)節(jié)max＿df參數(shù)（該參數(shù)可忽略在閾值以上的文檔數(shù)量中出現(xiàn)過的詞語）進(jìn)行去除，然而這種去除方式也會過濾掉那些普遍出現(xiàn)在各文檔中、卻仍能作為一篇案例的案例要素的詞語。例如，“焦慮”、“抑郁”等詞語。因此，人工增加停用詞在去掉非特征詞的基礎(chǔ)上，不會去掉真正有用的案例要素，從而使得后續(xù)計算相似度時得到的結(jié)果更加準(zhǔn)確。

3.4 計算文本相似度

通過上文的方法，將用自然語言描述的案例量化為詞向量后，即可進(jìn)行文本相似度的計算。該思想來自于向量空間模型（VSM）。VSM的基本思想是:假設(shè)詞與詞之間是不相關(guān)的，以向量來表示文本，從而簡化了文本中關(guān)鍵詞之間的復(fù)雜關(guān)系，使得模型具備了可計算性［16］。當(dāng)模型具備可計算性之后，即可利用數(shù)學(xué)中向量的計算方法，計算2個向量之間的距離。利用歐氏距離計算空間中2個向量之間的距離。若2個向量之間的歐氏距離越小，則2個向量在空間坐標(biāo)系中就越近。具體的計算方法如下:

設(shè):向量A為（a1，a2，...，an），向量B為（b1，b2，...，bn），則二者之間的歐氏距離S可以用式（9）進(jìn)行計算:

4 算法結(jié)果對比分析

本文使用F1作為評估指標(biāo)，其主要計算方法如下所示:

其中，P為精準(zhǔn)率；R為召回率；TP表示預(yù)測為正樣本，實際為正樣本的結(jié)果數(shù)量；FN表示預(yù)測為負(fù)樣本，實際為正樣本的結(jié)果數(shù)量；FP表示預(yù)測為正樣本，實際為負(fù)樣本的結(jié)果數(shù)量。

在本實驗中，正樣本取監(jiān)獄教改類案例，負(fù)樣本取非監(jiān)獄教改類案例。具體的實驗方法為，選擇某一案例，分別利用本文所提方法和TF-IDF方法（下稱傳統(tǒng)方法），計算該案例和語料庫中所有監(jiān)獄教改案例的相似程度，并選擇與該案例最相似的案例進(jìn)行分析。若檢索出的最相似案例與輸入案例之間的歐氏距離大于某一距離參數(shù)，則將輸入案例分類到非監(jiān)獄教改案例中；反之，則將輸入案例分類到監(jiān)獄教改案例中。

4.1 測試數(shù)據(jù)集

本文所選數(shù)據(jù)集為12348中國法網(wǎng)司法行政（法律服務(wù)）案例庫中的案例。其中語料庫中的語料為該案例庫中的監(jiān)獄教改類案例，被試語料為該案例庫中的監(jiān)獄教改類、監(jiān)獄減刑類、法律援助類、人民調(diào)解類、律師工作類案例。其中監(jiān)獄教改類別共有1 082篇文檔，非監(jiān)獄教改類別共有2 225篇文檔。

4.2 算法測試

實驗主要針對本文提出的基于TF-IDF和法律本體的案例要素提取算法，以及傳統(tǒng)的基于TF-IDF案例要素提取算法進(jìn)行測試，從而驗證本文算法對相似案例檢索結(jié)果的準(zhǔn)確性及專業(yè)性。

（1）本文方法對數(shù)據(jù)集測試。首先利用人工操作，在哈爾濱工業(yè)大學(xué)停用詞表的基礎(chǔ)上，增加法律方面的停用詞。之后將語料庫中的所有文檔進(jìn)行分詞處理，并去除停用詞。利用基于法律本體所建立的案件模型，對未經(jīng)分詞處理的原始文檔進(jìn)行第一次案例要素提取，并將每次提取到的案例要素，以詞語的形式添加到對應(yīng)分詞后的文檔尾部，即可得到補(bǔ)充完案例要素的文檔集合，建立詞向量TF-IDF值的計算模型；再由該模型自動進(jìn)行第二次案例要素提取，利用3.4節(jié)所述的方法，計算出各輸入案例與語料庫中各案例的相似程度，進(jìn)而進(jìn)行案例分類。

（2）傳統(tǒng)方法對數(shù)據(jù)集測試。直接對語料庫中的所有文檔進(jìn)行分詞處理，建立TF-IDF詞向量，并利用該詞向量進(jìn)行案例要素提取，最后利用3.4節(jié)所述的方法計算出各輸入案例與語料庫中各案例的相似程度，進(jìn)而進(jìn)行案例分類。

將上述2種方法分類結(jié)果的F1值進(jìn)行對比，即可對本文所提算法的性能進(jìn)行分析與評估。

在建立TF-IDF詞向量的過程中，將參數(shù)設(shè)定為min＿df＝0.1的含義是，忽略那些僅在10%以下的文檔數(shù)量中出現(xiàn)過的詞語。例如，某語料庫中有100篇文檔，某個詞語僅在其中的9篇文檔中出現(xiàn)過，那么則不將其放入語料庫的特征詞串中，否則，最終得到的TF-IDF詞向量矩陣將過于稀疏。在利用歐式距離的大小進(jìn)行分類的過程中，使用的參數(shù)值為1.1，該參數(shù)為筆者通過多次實驗及經(jīng)驗得出的距離參數(shù)。

4.3 結(jié)果分析

由圖1中數(shù)據(jù)分別可以看出，傳統(tǒng)方法將78.33%的監(jiān)獄減刑案例錯誤地分類成監(jiān)獄教改案例，而本文所提方法的此概率僅為7.51%。由于監(jiān)獄減刑和監(jiān)獄教改同屬監(jiān)獄工作大類案例，因此，在案例細(xì)分類這一方面，本文方法遠(yuǎn)勝于傳統(tǒng)方法。

圖1 各案例分類情況Fig.1 Classification by category

由圖2中數(shù)據(jù)可以計算出，本文所提方法的精準(zhǔn)率為84.60%，高于傳統(tǒng)方法的精準(zhǔn)率49.95%；本文所提方法的召回率為96.95%，傳統(tǒng)方法的召回率為99.26%，兩者相差無幾；本文所提方法的F1值為0.90，而傳統(tǒng)方法的F1值則為0.66，可知本文所提方法在監(jiān)獄教改類案例的分類上，將F1值提高了36.36%。以上數(shù)據(jù)可以有效說明，利用本文所提方法計算相似度的效果比利用傳統(tǒng)方法計算相似度的效果更佳。

圖2 總體分類情況Fig.2 Classification of all cases

5 結(jié)束語

本文提出了一種公共法律服務(wù)領(lǐng)域內(nèi)的相似案例檢索算法。該算法結(jié)合TF-IDF和法律本體，且其為基于語義的案例檢索。算法中引入描述案件特征的案例要素代替?zhèn)鹘y(tǒng)的關(guān)鍵詞，以增強(qiáng)案例的法律語義。本文搭建了公共法律服務(wù)中監(jiān)獄教改案例的案件模型，并構(gòu)建了該類案例的字典。最后，通過與傳統(tǒng)方法比較F1值驗證了本文所提方法的優(yōu)越性。