武鈺智 ??『?/p>
摘要:[目的]針對當(dāng)前民事問句數(shù)據(jù)集不完全以及法律問答問句分類模型中存在無法利用語境信息或難以學(xué)習(xí)到復(fù)雜語句表示的問題,構(gòu)建了基于BERT的問句分類模型。[方法]通過爬取的6萬人工標(biāo)記的民事相關(guān)問句作為分類的訓(xùn)練樣本,構(gòu)建了基于BERT-Base-Chinese的民事相關(guān)問句分類模型進(jìn)行分類研究,并與SVM方法做對比基準(zhǔn)。[結(jié)果]基于BERT的民事相關(guān)問句分類模型的分類效果均優(yōu)于SVM方法,精準(zhǔn)率和F1值分別達(dá)到0.978和0.973,F(xiàn)1值比SVM方法高出25.5%。[局限]僅對法律領(lǐng)域下的民事類別做了分類實(shí)驗(yàn),沒有將法律全部領(lǐng)域納入。[結(jié)論]基于BERT的問句分類方法能夠顯著提高民事相關(guān)問句的分類效果,可以作為民事問答系統(tǒng)的問句分類模型。
關(guān)鍵詞:問句分類;BERT;民事問句
中圖分類號: TP311? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)01-0004-04
Abstract:[Objective] Aiming at the problems of the data set of the current civil question is incomplete and unable to use contextual information or difficult to learn complex sentence representation in the legal question answering classification model ,the question classification model based on BERT was constructed.[Methods] This study takes 60,000 manually marked civil issue-related question sentences as training samples for classification, and constructs a civil issue-related question classification model based on the BERT-Base-Chinese to perform cataloguing research, and the SVM method was used as a comparison benchmark. [Results] The question classification model of civil-related questions based on BERT is better than the SVM model in classification effect, the F1-score and precision respectively reaches 0.978 and 0.973, and the F1-score is about 25.5% higher than the SVM model .[Limitations]It only classifies the civil categories in the field of law,but does not include the whole field of law. [Conclusion] The question classification model based on BERT can significantly improve the classification effect of civil-related question and can be used as the question classification model for the civil-related question answering system.
Key words:question classification ; BERT; civil issues
隨著我國社會主義法制建設(shè)的不斷加強(qiáng),民事法律由于關(guān)系民生大眾而變得炙手可熱。然而由于人們提出的民事問題只能由持證律師進(jìn)行解答,并且我國現(xiàn)在的人均律師擁有率遠(yuǎn)遠(yuǎn)低于歐美等國家,這就導(dǎo)致一大批在線法律問答平臺的回答率較低并且很難及時對提出的問題進(jìn)行解答[1]。近年來,由于深度學(xué)習(xí)和人工智能的高速發(fā)展,金融、教育、醫(yī)療等領(lǐng)域都開始使用人工智能技術(shù)來完成各種各樣的工作,因此如何將人工智能技術(shù)應(yīng)用到法律領(lǐng)域成為重要的課題,而構(gòu)建出一個專業(yè)的民事領(lǐng)域問答模型能夠更好地解決回答率較低以及滿足大眾的需求[2-4]。問答系統(tǒng)(Question Answering System, QA)是自然語言處理和信息檢索相關(guān)的重要學(xué)科,它可以滿足人們對快速、準(zhǔn)確地獲取信息的需求[5]。在問答系統(tǒng)中一般有三個研究的基本問題,分別是問題分析、信息檢索和答案抽取,其中問題分析主要是通過對問句分類等方面進(jìn)行分析,是問答系統(tǒng)的重要模塊,也是提高問答系統(tǒng)檢索效率的關(guān)鍵要素[6][7]。
當(dāng)前關(guān)于問句分類的研究,傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法均有廣泛的應(yīng)用。傳統(tǒng)機(jī)器學(xué)習(xí)問句分類方法是利用人工標(biāo)注得到訓(xùn)練樣本,再經(jīng)過預(yù)處理后,經(jīng)過特征工程得到特征表征,然后交給分類器監(jiān)督訓(xùn)練,得到預(yù)測結(jié)果。常用的模型有樸素貝葉斯[8]、支持向量機(jī)[9-11]、K-鄰近模型[12]等。深度學(xué)習(xí)問句分類方法是通過一些深度學(xué)習(xí)網(wǎng)絡(luò)自動進(jìn)行特征提取,然后進(jìn)行分類。常用的模型有FastText、RCNN和TextRNN等[13-15]。隨著深度學(xué)習(xí)的不斷發(fā)展,基于預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)語言模型GPT(Generative Pre-trained Transformer)、BERT(Bidirectional Encoder Representations from Transformers)等在分類任務(wù)的各項(xiàng)指標(biāo)上取得了顯著提升[16]。
法律領(lǐng)域作為一個有大量數(shù)據(jù)積累的領(lǐng)域,非常適合現(xiàn)在由數(shù)據(jù)驅(qū)動的各種人工智能技術(shù)應(yīng)用,然而法律領(lǐng)域的數(shù)據(jù)集標(biāo)注需要大量法律領(lǐng)域的專業(yè)人士,這就導(dǎo)致法律領(lǐng)域的很多數(shù)據(jù)集規(guī)模并不夠大而且質(zhì)量也不夠高[17]。因此針對法律特定領(lǐng)域,只有少數(shù)研究人員展開了法律問答系統(tǒng)應(yīng)用的研究。莫濟(jì)謙構(gòu)建了基于CNN模型的中文法律問句分類模型,對采集到的250000條包括法律各個領(lǐng)域的問句進(jìn)行粗細(xì)粒度分類研究,其中細(xì)粒度分類達(dá)到了92.14%的精度。此外還提出了基于長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的層次分類模型,細(xì)粒度分類達(dá)到了93.82%的精度[18]。劉葛泓等重點(diǎn)研究了基于文本卷積神經(jīng)網(wǎng)絡(luò)(Text-CNN)的合同法律智能問答系統(tǒng),并針對合同法的文本特征對其問句進(jìn)行分類,實(shí)現(xiàn)了95.9%的合同法問句分類準(zhǔn)確率[19]。
基于CNN、LSTM等架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型存在無法利用語境信息或難以學(xué)習(xí)到復(fù)雜語句表示,因此針對上述研究及問題,本文研究構(gòu)建基于BERT的問句分類模型,并與SVM方法分別進(jìn)行民事相關(guān)問句分類實(shí)驗(yàn),然后分析其效果差異原因。
1 研究方法
1.1數(shù)據(jù)集的構(gòu)建
針對當(dāng)前法律特定領(lǐng)域的數(shù)據(jù)集規(guī)模不大質(zhì)量不高的問題,本文通過爬蟲技術(shù)在國內(nèi)專業(yè)法律問答平臺(www.110.com/ask)爬取18種常見的民事領(lǐng)域的問句,18種民事類別如表1所示。
為了將爬取到的民事問答數(shù)據(jù)轉(zhuǎn)換成可用于問句分類的數(shù)據(jù)集,需要將爬取到的語料進(jìn)行預(yù)處理(去除網(wǎng)頁信息、回答信息等),隨后按照6:3:1的比例劃分訓(xùn)練集train_data、開發(fā)集dev_data和測試集test_data,從而構(gòu)建民事問句分類數(shù)據(jù)集,數(shù)據(jù)結(jié)構(gòu)如圖1所示。
1.2基于BERT的問句分類方法
進(jìn)行自然語言處理任務(wù)時通常會借助于語言模型,通常有兩種在下游任務(wù)應(yīng)用預(yù)訓(xùn)練語言表示的方法,分別是以ELMo為代表的基于特征的方法[20],在特定任務(wù)使用特定結(jié)構(gòu),將使用預(yù)訓(xùn)練語言模型訓(xùn)練出的詞向量作為特征,輸入到下游目標(biāo)任務(wù)中;還有一種是基于微調(diào)的方法,以GPT為代表,指在已經(jīng)訓(xùn)練好的語言模型的基礎(chǔ)上,加入少量的特定任務(wù)參數(shù), 例如對于分類問題在語言模型基礎(chǔ)上加一層softmax網(wǎng)絡(luò),然后在新的語料上重新訓(xùn)練來進(jìn)行微調(diào)。在上述模型中由于ELMO使用的是兩個單向LSTM替代雙向LSTM,兩者之間的參數(shù)并不互通,所以ELMO和GPT一樣都是單向語言模型。而BERT是一種新的基于雙向Transformer的語言模型,相比于單向語言模型它能夠更深刻地理解語境,并且BERT進(jìn)一步完善和擴(kuò)展了GPT中設(shè)計的通用任務(wù)框架,使它適用于各種自然語言處理任務(wù)(如閱讀理解任務(wù)、分類任務(wù))。因此本文構(gòu)建了基于BERT的民事問句分類模型,其模型結(jié)構(gòu)如圖2所示。
其中Toki表示第i個Token(隨機(jī)遮擋部分字符),Ei表示第 i個Token的嵌入向量,Ti表示第i個Token在經(jīng)過BERT處理之后得到的特征向量。
BERT的輸入部分是線性序列,兩個句子之間使用SEP進(jìn)行分割,在開頭和結(jié)尾分別加一個CLS和SEP字符作為標(biāo)記。對于每一個字符都是由三種向量組成:詞向量、分段向量和位置信息向量,三種向量疊加便是BERT的輸入,如圖3所示。
本文中基于BERT的問句分類方法為直接調(diào)用Google發(fā)布的BERT-Base-Chinese模型,在加入訓(xùn)練數(shù)據(jù)得到輸出結(jié)果后增加一個分類層進(jìn)行微調(diào),再將其應(yīng)用到問句分類任務(wù)中。
1.3 SVM分類方法
由于SVM具有可靠的理論依據(jù),可解釋型較強(qiáng),在一些機(jī)器學(xué)習(xí)任務(wù)中具有良好的表現(xiàn),并且經(jīng)過發(fā)展也開始應(yīng)用于多元分類任務(wù),故選用SVM作為BERT的對比基準(zhǔn)模型[21][22]。
在進(jìn)行SVM分類實(shí)驗(yàn)時,本文采用一類對余類(One versus rest,OVR)方法構(gòu)建多類分類器,如圖4所示。
即假設(shè)總共有M個類別,對于每一個類,將其作為+1類,而其余M-1個類的所有樣本作為-1類,構(gòu)造一個二分類SVM。對于1類,將2類和3類都當(dāng)成-1類,構(gòu)造二分類SVM,其決策邊界為d1;對于2類,則將1類和3類都當(dāng)成-1類,構(gòu)造二分類SVM,其決策邊界為d2;類似地得到d3。
實(shí)驗(yàn)通過控制變量的方法分析分詞方法、特征提取等因素對SVM模型分類效果的影響,選擇分類效果最好的模型作為基于BERT問句分類實(shí)驗(yàn)方法的對比基準(zhǔn)。
1.4評估指標(biāo)
本文對于問句分類模型的評估指標(biāo)有三個,分別是精準(zhǔn)率P(Precision)、召回率R(Recall)以及F1值(F1-Score)。精準(zhǔn)率又稱查準(zhǔn)率,是針對預(yù)測結(jié)果而言的一個評價指標(biāo),在模型預(yù)測為正樣本的結(jié)果中,真正是正樣本所占的百分比。召回率又稱為查全率,是針對原始樣本而言的一個評價指標(biāo),在實(shí)際為正樣本中,被預(yù)測為正樣本所占的百分比。針對精準(zhǔn)率和召回率都有其自己的缺點(diǎn):如果閾值較高,那么精準(zhǔn)率會高,但是會漏掉很多數(shù)據(jù);如果閾值較低,召回率高,但是預(yù)測的會很不準(zhǔn)確。所以最后采用調(diào)和平均數(shù)F1值來綜合考慮精準(zhǔn)率和召回率兩項(xiàng)指標(biāo):
2 實(shí)驗(yàn)結(jié)果分析
根據(jù)以上實(shí)驗(yàn)方法,本文分別構(gòu)建了基于BERT的問句分類模型和SVM分類模型,使用經(jīng)過預(yù)處理的同一數(shù)據(jù)集進(jìn)行基于兩種方法的分類實(shí)驗(yàn)。
2.1基于BERT問句分類模型的實(shí)驗(yàn)
使用BERT-Base-Chinese進(jìn)行分類實(shí)驗(yàn),經(jīng)過不斷對訓(xùn)練輪數(shù)(num_train_epochs)、學(xué)習(xí)率(learning_rate)、最大序列長度(max_seq_length)、批量大?。╝tch_size)等參數(shù)調(diào)整,本文參數(shù)選擇如下:
num_train_epochs=6;learning_rate=2e-5;max_seq_length=512;train_batch_size=16;dev_batch_size=8;test_batch_size=8,實(shí)驗(yàn)結(jié)果如表2所示。
2.2基于SVM問句分類模型的實(shí)驗(yàn)
為了分析分詞方法、特征提取等因素對SVM模型分類效果的影響,本實(shí)驗(yàn)采取控制變量的方法進(jìn)行對比分析。經(jīng)過對比發(fā)現(xiàn),當(dāng)選用jieba分詞進(jìn)行語料預(yù)處理,設(shè)置一元詞、二元詞,通過TF-IDF方法進(jìn)行詞頻加權(quán),參數(shù)C的值設(shè)置為0.4時效果最好,實(shí)驗(yàn)結(jié)果如表3所示。
2.3分類效果分析
為方便分析兩種方法在問句分類效果上差異的原因,將每組實(shí)驗(yàn)中分類結(jié)果的平均精準(zhǔn)率、平均召回率和平均值整理在一起,如表4所示。
從表4可以得出,基于BERT的問句分類模型的分類效果均優(yōu)于SVM方法,平均F1值比SVM方法高出25.5%。
對于基于BERT的問句分類方法,整體分類效果較好,原因可能在于BERT相較于原來的語言模型可以做到并發(fā)執(zhí)行。提取詞在句子中的關(guān)系特征的同時,能夠在多個不同層次提取關(guān)系特征,進(jìn)而更全面反映句子語義。因此即便在有大量數(shù)據(jù)的多類別分類任務(wù)中BERT也可以取得很好的效果。
原因可能在于SVM方法最初是為解決二分類問題而提出的,而面對本文中多分類問題,使用OVR方法構(gòu)建多類分類器時,一方面會出現(xiàn)樣本不對稱的情況,導(dǎo)致分類結(jié)果出現(xiàn)偏差。另一方面SVM在求解二次規(guī)劃問題時,訓(xùn)練速度與m階矩陣的大小有關(guān)(m為樣本數(shù)),當(dāng)m越大時,機(jī)器計算該矩陣的時間就越久。因此面對大量數(shù)據(jù)的多類別分類任務(wù)SVM方法難以有較好的表現(xiàn)。
綜上,本文提出的基于BERT的分類模型表現(xiàn)出了良好的分類效果,證明了該模型的有效性并能夠很好的應(yīng)用到面向民事領(lǐng)域的問答問句分類問題。
3 結(jié)論
本文針對民事問句數(shù)據(jù)集不完全以及法律問句存在語義信息復(fù)雜的問題,構(gòu)建了基于BERT的民事問答問句分類模型。對比分析了BERT和SVM兩種模型對民事問句分類效果的差異原因,由實(shí)驗(yàn)結(jié)果可知,基于BERT的問句分類模型的精準(zhǔn)率、召回率和F1值均高于SVM方法,表明基于BERT的問句分類模型能夠更高效提取文本的語義特征,對后續(xù)的分類效果有很大的提升。
本文的局限性在于僅對法律領(lǐng)域下的民事類別進(jìn)行了分類實(shí)驗(yàn),并沒有將法律全部領(lǐng)域納入。在下一步工作中嘗試將其拓展到法律全領(lǐng)域當(dāng)中,更好地滿足人們對于法律問題類別識別的需求。
參考文獻(xiàn):
[1] 朱頌華.常年法律顧問業(yè)務(wù)的現(xiàn)狀與對策[J].法制博覽,2020(7):170-171.
[2] Nakata N.Recent technical development of artificial intelligence for diagnostic medical imaging[J].JapaneseJournalofRadiology,2019,37(2):103-108.
[3] TimmermanA.Neural networks in finance and investing.Using artificial intelligence to improve realworldperformance[J].InternationalJournalofForecasting,1997,13(1):144-146.
[4] 周銘. 大數(shù)據(jù)時代的人工智能發(fā)展的法律思考[C]. 世界人工智能大會組委會.《上海法學(xué)研究》集刊(2019年第9卷 總第9卷).世界人工智能大會組委會:上海市法學(xué)會,2019:223-233.
[5] Prager J.Open-domain question:answering[J].Foundations and Trends in Information Retrieval,2006,1(2):905-912.
[6] 鄭實(shí)福,劉挺,秦兵,等.自動問答綜述[J].中文信息學(xué)報,2002,16(6):46-52.
[7] 張寧,朱禮軍.中文問答系統(tǒng)問句分析研究綜述[J].情報工程,2016,2(1):32-42.
[8] El Hindi K,AlSalmanH,QasemS,et al.Building an ensemble of fine-tuned naive Bayesian classifiers for text classification[J].Entropy,2018,20(11):857.
[9] Ou W,Huynh VN,Sriboonchitta S.Training attractive attribute classifiers based on opinion features extracted from review data[J].Electronic Commerce Research and Applications,2018,32:13-22.
[10] Jafari A , Hosseinejad M , Amiri A . Improvement in automatic classification of Persian documents by means of Na?ve Bayes and Representative Vector[C]// International Econference on Computer & Knowledge Engineering. IEEE, 2011.
[11] 蘇金樹,張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報,2006,17(9):1848-1859.
[12] 李榮陸.文本分類及其相關(guān)技術(shù)研究[D].上海:復(fù)旦大學(xué),2005.
[13] Zhang S,Chen Y,HuangXL,et al.Text classification of public feedbacks using convolutional neural network based on differential evolution algorithm[J].International Journal of Computers Communications &Control,2019,14(1):124-134.
[14]Lai S, Xu L, Liu K, et al. Recurrent convolutional neural networks for text classification[C]. national conference on artificial intelligence, 2015: 2267-2273.
[15]Le T, Kim J, Kim H, et al. Classification performance using gated recurrent unit recurrent neural network on energy disaggregation[C]. international conference on machine learning and cybernetics, 2016: 105-110.
[16] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].2018:arXiv:1810.04805[cs.CL].https://arxiv.org/abs/1810.04805
[17] 盧新玉.淺談我國目前作為法律人工智能基礎(chǔ)的司法大數(shù)據(jù)存在的問題[J].法制博覽,2020(21):202-203.
[18] 莫濟(jì)謙.基于深度學(xué)習(xí)的法律問題層疊分類研究[D].長沙:湖南大學(xué),2018.
[19] 劉葛泓,李金澤,李卞婷,等.基于Text-CNN聯(lián)合分類與匹配的合同法律智能問答系統(tǒng)研究[J].軟件工程,2020,23(6):8-12,4.
[20] Peters M E,Neumann M,Iyyer M,et al.Deepcontextualizedwordrepresentations[EB/OL].2018:arXiv:1802.05365[cs.CL].https://arxiv.org/abs/1802.05365
[21] 蕭嶸,王繼成,張福炎.支持向量機(jī)理論綜述[J].計算機(jī)科學(xué),2000,27(3):1-3.
[22] 白小明,邱桃榮.基于SVM和KNN算法的科技文獻(xiàn)自動分類研究[J].微計算機(jī)信息,2006,22(36):275-276,65.
【通聯(lián)編輯:唐一東】