• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Text-CNN聯合分類與匹配的合同法律智能問答系統(tǒng)研究

      2020-06-21 15:16劉葛泓李金澤李卞婷邵南青竇萬峰
      軟件工程 2020年6期
      關鍵詞:自然語言處理

      劉葛泓 李金澤 李卞婷 邵南青 竇萬峰

      摘? 要:面向法律領域的相關問題,需要借助專業(yè)的法律文本。利用司法領域的文本資源解決用戶提出的合同法律問題,能在很大程度上降低人工成本,節(jié)約社會資源。為了更加智能、高效地響應用戶在合同法方面的法律訴求問題,本文設計與實現了一個合同法律智能問答系統(tǒng),并給出了一種基于文本卷積神經網絡(Text-CNN)的聯合分類與匹配的合同法律智能問答深度學習模式,針對合同法領域的文本特征,對其進行了分類。實驗表明,該模式適合于合同法領域的智能問答。

      關鍵詞:合同法律智能問答系統(tǒng);文本卷積神經網絡;自然語言處理;詞向量

      Abstract: Relevant issues in the legal field require professional legal texts. The text resources in the judicial field can be used to deal with the legal questions concerning contracts raised by users, which can greatly reduce labor cost and save social resources. In order to more intelligently and efficiently respond to users' legal claims in contract law, this paper designs and implements an intelligent contract law Question and Answer System (QAS), and proposes a deep learning model of intelligent QAS focusing on contract law based on the technology of joint classification and matching of Text Convolutional Neural Network (Text-CNN), which can classify different texts of contract law according to their characteristics. Experiments show that this model is suitable for intelligent question answering in the field of contract law.

      Keywords: intelligent contract law question-and-answer system; Text-CNN; natural language processing;? word vector convolutional neural network;natural language processing;the word vector

      1? ?引言(Introduction)

      隨著我國市場經濟的發(fā)展,合同糾紛成為人們生活中最常出現的法律問題之一。因此,精準高效地獲取法律援助成為每個合同主體的訴求。隨著互聯網的發(fā)展,傳統(tǒng)的搜索引擎已不能滿足用戶的需求,智能問答系統(tǒng)應運而生。問答系統(tǒng)的核心是文本匹配[1]。雖然Prolo[2]、Monroy等人[3]在該領域有一定貢獻,但一定程度上依賴于人工標注、答案范圍有限。同時,針對合同領域問答系統(tǒng)的相關研究較少,未有較好的解決方案。

      針對上述問題,本文通過詞向量技術構建合同法語料庫,采用聯合加分類的方式,利用文本卷積神經網絡(Text-CNN[4])模型對語料庫進行特征分類,劃分問題類別,縮小答案映射范圍。經實驗,Text-CNN文本分類模型適合于問題特征復雜且多樣的合同法律問答系統(tǒng),相較于LSTM[5]模型在文本分類上擁有更高的效率。

      2? 系統(tǒng)設計與實現(System design and implementation)

      針對本文提出的問答模式,建立了合同法律問題援助智能問答系統(tǒng)框架。該系統(tǒng)將合同法律科普與自動化在線咨詢功能結合在一起,提供一個智能高效的法律知識咨詢平臺。基于系統(tǒng)的功能定位,可以將系統(tǒng)劃分為三個部分:第一部分是問答系統(tǒng)前端APP形式的人機交互界面;第二部分是應用服務器,是系統(tǒng)的核心部分,主要負責處理用戶的問題并反饋答案與相關信息;第三部分是存儲合同法律問題相關領域知識的數據庫。相應的系統(tǒng)框架如圖1所示。

      本系統(tǒng)的核心功能的實現首先需要搭建一個結構合理的系統(tǒng),總體框架由三部分構成:第一部分是負責用戶和系統(tǒng)之間信息交互的用戶接口層;第二部分是應用各種算法和分詞技術處理問句的業(yè)務邏輯層;第三部分是負責數據存儲及使用的數據層。其結構如圖2所示。

      3? 模型描述與研究方法(Model description and research methods)

      本文將研究任務定義為在合同法領域語料庫中查找可能包含答案的段落(句子)[1],形式化表示如下:給定一個問題Q,系統(tǒng)將針對Q從領域語料庫中查找可能的答案,語料庫由分類后的問答對數據庫與法規(guī)文檔構成。問答對數據集為{(A1,a1),(A2,a2),...,(Am,am)},法律法規(guī)文檔集為{D1,D2,…,Dn}。答案抽取首先要判斷Q屬于什么問題類別,在此之后的過程分為兩種情況:

      (1)針對Q能夠從標準問答對數據集中檢索到相似問題,則返回相似問題所對應的答案集T={t1,t2,...,ts};

      (2)未找到相似問題,則檢索法規(guī)文檔集中可能包含答案的集合S={S1,S2,...,Sl}返回給用戶。

      問答示例如表1和表2所示,其中Q1、Q2為用戶查詢問題,T1、T2和T3為已知問答對中相似問題的答案,A為結合法律法規(guī)后答案。

      本文研究的合同法問答系統(tǒng)基本流程如圖3所示。首先,系統(tǒng)搜集相關資料構建領域語料庫并將其訓練成詞向量,通過Text-CNN模型進行問題分類。至此,準備工作完成。然后,系統(tǒng)接收用戶輸入的自然語言問句,對其進行預處理,獲得查詢向量。接著,使用語義相似度進行匹配檢索。在問答對數據集模塊,返回匹配度較高的歷史問題所對應的答案。在法律法規(guī)模塊,通過關鍵詞特征對檢索結果排序。最后,將在問答對數據集中匹配到的問題所對應的答案推薦給用戶,對于未匹配成功的問題,返回相關的法規(guī)條款作為參考方案。

      3.1? ?領域語料庫設計

      3.1.1? ?數據來源

      領域語料庫主要分為兩大板塊:問答對數據庫和法律法規(guī)數據庫。語料庫的構建主要通過網絡爬蟲技術[6]。

      (1)問答對數據庫。在該板塊語料的采集目標主要為社區(qū)問答模塊中常見熱門問題的問答對。以找法網為例,(這是國內一家大型法律資訊信息網站)系統(tǒng)共篩選出1563條合同法領域法律問答對,22萬條語料內容,包含常見問題、答案、關鍵標簽以及所屬類別。

      (2)法律法規(guī)數據庫。通過中華人民共和國中央人民政府官網下載合同法相關法律法規(guī),并進行處理。將每一項合同法律條款作為一行數據,通過關鍵詞技術提取每段數據的關鍵詞作為當前法律法規(guī)的標簽保存在數據庫中。

      3.1.2? ?特征表示與特征提取

      為了能夠利用構建好的領域語料庫進行相關研究,需要將字符形式的文本通過某種編碼方式讓計算機理解。由于中英文差異,漢字需要先進行分詞。中文字詞在計算機中的表示方法通常分為兩種:獨熱表示(One-hot Representation)[7]和分布式表示(Distribution Representation)[8]。獨熱表示通常是把每個詞都表示成一個向量,該方法直觀、易解釋,但是不能很好地展現詞與詞之間的語義關系,且會造成特征空間大的缺點[9]。而分布式表示是把每個詞表示為長度相同的連續(xù)稠密詞向量。分布式表示相對于獨熱表示,不僅降低了特征維度,令矩陣變得稠密,而且詞語之間的語義關系更為明顯[9]。

      本文采用分布式表示方法。word2vec模型對語料庫進行訓練,其基本思想是根據上下文環(huán)境中的詞來預測文本中心詞。word2vec[10]是常用的詞嵌入方法。該模型是根據詞匯的co-occurrence信息進行編碼。word2vec是Google在2013年推出的一個NLP工具,在word2vec中用到兩個重要模型結構:Skip-gram結構和CBOW(Continuous Bag-of-Words Model)結構。通過該模型,系統(tǒng)完成了對語料庫的特征表示與提取工作,將語料庫訓練成詞向量。

      3.2? ?問句分析

      3.2.1? ?文本預處理

      問句的預處理過程是提取重要的信息并處理成字ID或者詞ID的序列[11],包括分詞(運用jiebia技術)、去停用詞、去低頻詞和詞性標注等;然后對問句成分進行特征化,此處主要是將句子訓練成詞向量,通過詞嵌入(Word Embedding)技術將文本數據從高緯度稀疏變?yōu)榈途暥瘸砻艿臄祿?同時抽取和擴展問句的關鍵詞(使用TextRank算法),以便后續(xù)的相似度研究。

      3.2.2? ?問句分類處理

      針對普通法律問題檢索內存消耗大、效率不高的問題,本文提出了聯合分類與匹配模式的智能問答模型。參照常見問題集(Frequent Asked Question, FAQ)、社區(qū)問答集(Community Question Answering, CQA)的歷史數據,首先人工標注將問題分為五大類別:合同訂立、合同效力、合同糾紛、合同解除和合同文本。借鑒卷積神經網絡(CNN)[11]在圖像處理過程中的特點,利用針對文本分類的Text-CNN模型對合同法問題進行特征提取與分類,縮小映射范圍。該模型屬于文本匹配的改進方案,即先分類、再匹配。

      卷積神經網絡[12]最早應用于圖像方面,該模型在不同的位置都可以共享權重。比如相同的一個物體,在圖片中位于不同的位置,而物體的特征不變,因此CNN可以很好地提取對象的局部特征[12]。CNN的基本結構由五部分構成:輸入層、卷積層(convolutional layer)、池化層(pooling layer)、全連接層和輸出層。其中,卷積層和池化層一般為若干個,將卷積層和池化層交替設置,也即一個卷積層連接一個池化層,池化層之后再連接一個卷積層,以此類推[12]。

      CNN在圖像方面取得重大成功后,人們逐漸將它運用到自然語言處理當中。不同于圖像是二維的,文本信息是一維的。應用卷積之前,需要把輸入的文本通過前面介紹的詞向量技術進行詞嵌入操作,通過卷積層、池化層提取特征,然后對提取到的特征進行分析就可以對文本進行分類。而單層的卷積網絡學習到的特征一般是局部的,因此為了提高分類效率,使學習到的特征更加全面化。本文針對合同法領域的文本特征,參考YoonKim[4]提出的Text-CNN模型構造了如圖4所示的合同法領域文本卷積神經網絡模型流程圖。

      假設要對一些句子進行分類,其中,輸入層為m*n的文本矩陣(m、n分別表示句子長度和句中每個詞的詞向量維度)。Text-CNN通過不同的通道數目和卷積核大小,使用一維卷積的方式提取句子的特征。池化層從卷積后的向量中選取最大值并與其他通道的最大值拼接,組合得到這個句子的特征表示,通過(全連接層)SoftMax層進行分類。

      3.3? ?相似度計算

      詞向量技術作為語義相似度計算方法之一,可以把文本映射成為連續(xù)空間中的向量[13]。這樣一來,文本之間的語義相似度就可以通過詞向量之間的余弦相似度表示[13]。在獲得文本對應的詞向量后,本文采用詞袋模型[13]得到每個句子的句向量表示,即對句子中的每個詞向量通過式(1)進行平均值計算。

      其中,S是求得的句向量,si為每個詞的詞向量表示。由此就可以計算出每個句子的句向量,然后利用余弦相似度比較兩個句子之間的語義相似度。對于每個文本組合(q,a)[13],詞向量余弦相似度計算方法如式(2)所示。

      式(2)的分子部分為向量的內積,它是用于計算距離的方式。一般情況下,內積計算的缺點是向量長度的過大或過小會影響后面的度量結果,但通過余弦相似度的方式除以他們的長度或者先對向量進行歸一化處理之后,再計算內積,可以規(guī)避該問題。

      4? 實驗結果與分析(Experimental results and analysis)

      4.1? ?數據集向量化處理

      在前面,我們針對合同法領域建立了專門的領域語料庫,建立分詞結果的詞匯表并賦予索引,設置滑動窗口大小為5,即考慮一句話中當前詞與上下文詞的最大距離(單側詞窗)為5;詞向量維度,即訓練時隱變量的維度為200。詞向量模型的輸入為已搜集到的經停用詞處理后的語料集,輸出為模型文件_.model和詞向量_.vector文件。

      實驗訓練結果部分如圖5所示,以詞匯表中不重復的詞作為中心詞,取規(guī)定窗口內的單詞(此處上下文各取5個)記作w,預測當上下文出現w時輸出該中心詞的概率。下圖給出了在某個問題中以“的”和“合同”為中心詞的詞向量訓練結果。

      4.2? ?問題分類

      4.2.1? ?模型對比

      在短文本分類領域,卷積神經網絡(Convolutional Neural Network,CNN)和長短期記憶神經網絡(Long Short-Term Memory neural network,LSTM)是兩個主流的神經網絡模型[14]。

      為了測試本文提出的Text-CNN模型對合同法領域的文本進行分類的優(yōu)越性,這里使用相同語料集分別測試基于LSTM[5]和Text-CNN兩種模型的分類器性能。測試內容分為三塊:模型訓練時長、訓練集準確率和測試集準確率。其中,準確率定義公式如(3)所示。

      (1)模型構建。在本次實驗所構建的Text-CNN模型中,借助訓練好的詞向量依次獲取用戶輸入問題和分類結果的句向量表示(其中未登錄詞用左右詞的詞向量平均值表示)。最后計算兩者的向量化表示的余弦值,并將其作為兩者的相似度表示。

      (2)模型細節(jié)。在訓練之前,問答集均已經過分詞、去停用詞等預處理工作。Text-CNN模型使用基于一維卷積層的序列分類,訓練時以100個樣本為一個batch進行迭代,利用200維詞向量處理問答并作為模型輸入。

      (3)訓練結果分析。語料集為問答集qa_corpus中的1563條數據,其中80%作為訓練集,20%作為測試集。實驗結果如表4所示,由表我們可以發(fā)現針對合同法領域的文本分類處理Text-CNN無論是精度還是速度都優(yōu)于LSTM模型。

      4.2.2? ?系統(tǒng)測試

      本文利用卷積神經網絡對合同法領域文本進行分類,將問題分為五大類:合同訂立、合同效力、合同糾紛、合同解除與合同文本。在問題分類之后,我們對所構建的問答系統(tǒng)進行了測試。如圖6所示,用戶輸入一個有關合同法的問題“建設工程合同無約定逾期竣工的違約金怎么辦”,系統(tǒng)給出回答,該問題屬于“合同糾紛”。經法律專業(yè)人士判斷,該分類正確。

      4.3? ?答案抽取

      智能問答系統(tǒng)的最后一個步驟為答案抽取。由于本文的研究重點在于針對合同法領域的問題分類與匹配,故答案排序的實現借助ElasticSearch。以問題“建設工程合同無約定逾期竣工的違約金怎么辦”為例,圖7是得到答案的過程。

      如果不存在相似的問題,則將輸入問題的關鍵詞作為索引查詢法規(guī)數據庫。以問題“買賣雙方簽訂了二手房購買合同,購房時不知有人在房內死亡,可否主張撤銷合同”為例,如圖8所示為查詢之后的答案。

      5? ?結論(Conclusion)

      本文研究的合同法領域問答系統(tǒng)實現模式,主要貢獻有三點。(1)根據合同法領域的本文特征,本文提出一種結合法律法規(guī)與常見問題問答對的兩階段答案抽取方法,在進行了句子預處理后,將問句先與問答對數據庫進行匹配,若匹配成功,則返回相似度最高的歷史問題對應的答案,否則,在法律法規(guī)中查找最優(yōu)答案,提高了獲得答案的效率。(2)針對合同法領域問題的特點,本文利用Text-CNN文本分類模型對合同法問題進行了分類,從而在答案匹配時,縮小了映射范圍。經實驗證明,該方法優(yōu)于傳統(tǒng)的LSTM模型,提高了答案檢索效率。(3)根據專業(yè)數據資源創(chuàng)建的合同法領域問答測試集,并利用本文的方法進行了測試,實驗結果也證明了該模式的有效性。

      在之后的研究中,我們將進行如下工作:(1)構建適用于合同法領域的排序學習算法,提高答案選擇的效率。(2)在更深的層次研究和分析合同法領域的文本特征,研究特征選擇方法[15],并對其進行比較和評估,以更好地優(yōu)化合同法問答系統(tǒng)。

      參考文獻(References)

      [1] 仇瑜,程力.特定領域問答系統(tǒng)中基于語義檢索的非事實型問題研究[J].北京大學學報(自然科學版),2019,55(1):55-64.

      [2] Prolo C, Quaresma P, Rodrigues I, et al. A Question-answering System for Portuguese Knowledge andReasoning for Answering Questions[C].Workshop Associated with IJCAI05. Edinburgh, 2005: 45-48.

      [3] Monroy A, Calvo H, Gelbukh A. NLP for shallow question answering of legal documents using graphs[C].International Conference on Intelligent Text Processing and Computational Linguistics. Mexico City, 2009: 498-508.

      [4] Yoon Kim. Convolutional Neural Networks for Sentence Yoon Kim[D]. Computer Science: Computation and Language, 2014: 1-6.

      [5] Hochreiter S, Bengio Y, Frasconi P, et al. Gradient flow in recurrent nets:The difficulty of learning long-term dependencies[C]. Kolen JF, Kremer SC. A Filed Guide to Dynamical Recurrent Networks. Los Alamitos:IEEE Press, 2001.

      [6] 鄭小松.面向企業(yè)法律領域的智能問答系統(tǒng)研究[D].武漢理工大學,2017.

      [7] Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-supervised learning[C]. Proceedings of the 48th annual meeting of the association for computational linguistics. Association for Computational Linguistics, 2010: 384-394.

      [8] 陳志朋,陳文亮,朱慕華.利用詞的分布式表示改進作文跑題檢測[J].中文信息學報,2015,29(5):178-185.

      [9] 麻俊滿.面向非結構化文本的問答系統(tǒng)中答案抽取技術研究[D].哈爾濱工業(yè)大學,2019.

      [10] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. Computer Science: Computation and Language, 2013: 1-12.

      [11] 張寧.基于語義的中文文本預處理研究[D].西安電子科技大學,2011.

      [12] 周飛燕,金林鵬,董軍.卷積神經網絡研究綜述[J].計算機學報,2017,40(6):1229-1251.

      [13] 馮文政,唐杰.融合深度匹配特征的答案選擇模型[J].中文信息學報,2019,33(1):118-124.

      [14] 張默涵.基于字詞混合向量的CNN-LSTM短文本分類[J].信息技術與信息化,2019(01):77-80.

      [15] Chandrashekar G, Sahin F. A survey on feature selection methods[J]. Computers & Electrical Engineering, 2014, 40(1): 16-28.

      作者簡介:

      劉葛泓(1999-),女,本科生.研究領域:軟件工程.

      李金澤(1999-),女,本科生.研究領域:自然語言處理.

      李卞婷(1999-),女,本科生.研究領域:民商事合同糾紛.

      邵南青(1998-),女,本科生.研究領域:軟件工程.

      竇萬峰(1968-),男,博士,博士教授.研究領域:軟件工程,分布式與并行計算,大數據分析與挖掘.

      猜你喜歡
      自然語言處理
      基于LSTM自動編碼機的短文本聚類方法
      自然語言處理與司法案例
      國外基于知識庫的問答系統(tǒng)相關研究進展及其啟示
      基于依存句法的實體關系抽取
      基于組合分類算法的源代碼注釋質量評估方法
      面向機器人導航的漢語路徑自然語言組塊分析方法研究
      詞向量的語義學規(guī)范化
      漢哈機器翻譯中的文字轉換技術研究
      HowNet在自然語言處理領域的研究現狀與分析
      嘉兴市| 收藏| 阜康市| 兴业县| 罗城| 蒙阴县| 太仆寺旗| 涟水县| 嫩江县| 昔阳县| 沾化县| 北票市| 额济纳旗| 泾源县| 贵港市| 亚东县| 正蓝旗| 津市市| 蓬溪县| 永嘉县| 共和县| 龙胜| 边坝县| 香河县| 松阳县| 凤冈县| 贵阳市| 仙桃市| 灵宝市| 墨竹工卡县| 吉木乃县| 仁怀市| 罗城| 忻城县| 焦作市| 福州市| 观塘区| 余江县| 固安县| 渑池县| 昆明市|