胡文燁 郭文濤 李振業(yè) 許鴻奎
(山東建筑大學信息與電氣工程學院 山東省濟南市 250000)
近年來,隨著計算機技術的發(fā)展,各行業(yè)信息化建設水平也隨之提高,政務部門出于對數(shù)據(jù)安全性以及政務處理智能化的考慮,對于政府的信息化建設也越來越重視。顯然,政府的信息化建設必須借助于電子信息及數(shù)字網(wǎng)絡技術,作為政府信息化建設中的關鍵一環(huán),電子政務業(yè)務的實現(xiàn)并不是簡單的將傳統(tǒng)的政府管理事務及相關數(shù)據(jù)由紙面遷移到互聯(lián)網(wǎng)上,而是要利用互聯(lián)網(wǎng)技術給予它們第二次的生命。政府相關管理事務需要在互聯(lián)網(wǎng)上進行組織結構的重組以及業(yè)務流程的再造,簡單來說是需要以信息化的方式重塑業(yè)務;而政府在管理運行中產(chǎn)生的數(shù)據(jù),也需要在重新整合存儲的基礎上進行更加智能化的分析和利用。
2016 年國家首次在政府工作報告中提到了“互聯(lián)網(wǎng)+政務服務”的概念,將互聯(lián)網(wǎng)、大數(shù)據(jù)等信息技術與政府工作緊密連接起來[1]。實現(xiàn)“互聯(lián)網(wǎng)+政務服務”的核心是政務大數(shù)據(jù)的互通共享,而政務大數(shù)據(jù)則要依賴信息化、智能化的系統(tǒng)。信息化、智能化的系統(tǒng)可以幫助政務部門提升工作效率及準確性,并同步留存關鍵性的操作數(shù)據(jù)。在政府及中大型企業(yè)中,目前存在并持續(xù)產(chǎn)生的信息形式以文本信息為主,而如何整理文本信息本身就是一個復雜又消耗時間的過程,因此如何在大量且復雜的文本信息中獲取到對使用者來說有價值的信息是文本挖掘領域的核心目標。文本挖掘是一個涵蓋多種技術的新興領域,它可以實現(xiàn)利用計算機處理技術從文本數(shù)據(jù)中抽取有價值的信息和知識,同時利用抽取到的知識來更好的組織信息,以便進行下一步的利用。這個過程類似于人類學習知識又加以應用的過程。它的實現(xiàn)技術包括了數(shù)據(jù)挖掘技術[2]、信息檢索[3],機器學習[4]、自然語言處理(natural language processing,NLP)[5]、計算語言學[6]、線性幾何[7]、概率理論[8]等。表達文本數(shù)據(jù)最直接的方式就是語言,任何事物都可以通過語言來表達意圖,政企類文本數(shù)據(jù)作為自然語言的一種表達形式,從這個角度上來說,自然語言處理是實現(xiàn)政企類文本數(shù)據(jù)與計算機之間通信的最合適手段。
文本分類作為文本挖掘領域最基礎且最重要的應用,在政企類文本信息的挖掘中有著舉足輕重的作用,它能夠很好的解決大數(shù)據(jù)時代數(shù)據(jù)量大且難以梳理的問題。以政務部門接線12345 市民熱線電話[9]業(yè)務為例,業(yè)務員在接到電話后需要根據(jù)群眾提供的信息首先在新工單中將其整合為事件描述,然后需要根據(jù)個人業(yè)務經(jīng)驗選擇事件處理的部門,由被派單的部門在確認后處理,否則工單將被退回重新指派。實際上,接線員的個人經(jīng)驗參差不齊,派單時更多依賴個人想法,且每天接線數(shù)量巨大,給整體的派單準確率和處理效率都帶來了很大影響,從而影響政府服務的群眾滿意度。而政企類文本的數(shù)據(jù)來源不僅限于此,社會治理中網(wǎng)格員的事件上報、政府公開網(wǎng)站中群眾反映渠道、各鎮(zhèn)街搜集民意反饋的信息等,來源廣泛、格式風格不同的數(shù)據(jù)源成了文本分類中首先要解決的問題。
人們對于文本分類這一文本挖掘應用的研究始于上世紀的50 年代[10]。在此之前一直采用手工分類的方法,直到Luhn 提出的詞匹配法開始走進人們的視野[11],但這種方法由于其簡單機械的特點無法取得好的分類結果。60 年代以后,Maron 發(fā)表了有關自動分類的第一篇文章,把文本分類技術發(fā)展向前推進了一個臺階。此后一直到2010 年前后,在文本分類領域占據(jù)主流地位的一直是基于淺層學習的模型,例如樸素貝葉斯方法(Nave Bayes,NB)[12],K 近鄰(K‐Nearest Neighbor,KNN)[13]和支持向量機(Support Vector Machine,SVM)[14]等。
隨著人們對深度學習的不斷深入挖掘,自然語言處理領域的難題也得到了不斷突破,通過自然語言處理可以實現(xiàn)人與機器之間的交流。在文本分析領域,NLP 做了很大的貢獻,而通過結合NLP 與文本分析,可以幫助政府和企業(yè)在政企類文本大數(shù)據(jù)中獲取更多重要的信息,從而產(chǎn)生巨大的數(shù)據(jù)價值。2005 年,柳炳祥、章義來等人將關聯(lián)規(guī)則和決策樹兩種數(shù)據(jù)挖掘技術應用到電子政務數(shù)據(jù)分析中[15],并進行了相關研究,為電子政務數(shù)據(jù)分析提出了一種新的研究思路。2021 年,李銘鑫等人從自然語言處理的角度對政務留言文本的分類問題進行了研究[16],將機器學習中的邏輯回歸算法、樸素貝葉斯算法以及深度學習中的TextCNN 及TextRNN 算法做對比,得出文本一級分類時TextCNN 效果優(yōu)于其他算法。在市民服務熱線接線分析場景,楊歡提出了Word2vec‐TLSTM‐Attention 的融合神經(jīng)網(wǎng)絡模型進行分類[17],同單一網(wǎng)絡神經(jīng)模型相比,取得了更好的效果。
上述的研究主要應用于語義的簡單分類,例如語句的情感分析或大意理解。然而,隨著業(yè)務需求不斷提高,對于語句具體含義的理解以及語義與宏觀對象的映射關系的分析這類復雜的現(xiàn)實任務,上述研究所提出的模型并準確率低且泛化性差,極易出現(xiàn)過擬合問題。而在中文的政企類文本智能分類任務中,其文本內容具有文本較長、信息冗余、映射關系復雜、文本質量不一等特點,對于數(shù)據(jù)處理方法與模型的性能提出了極高的要求。目前,對于中文政企類文本自然語言處理方法的研究大多停留對于簡單模型的應用研究,不能滿足實際應用需要,工程落地困難,因此,亟待研究一種擬合能力強,泛化性能好的政企類文本智能分類方法。
本文用于訓練及學習的數(shù)據(jù)集來自于社會治理脫敏數(shù)據(jù),包含了市民熱線、網(wǎng)格員上報、市民信箱、微信公眾號等渠道,數(shù)據(jù)來源比較復雜。基于NLP 領域目前的相關研究成果以及前輩老師們的處理經(jīng)驗,在文本預處理階段,本文采用了jieba 分詞、去停用詞、LDA 主題模型過濾、Word2vec 詞向量轉化等自然語言處理手段;在文本分類研究中對比了DNN、CNN、LSTM、GRU、BERT 等模型的分類效果,在使用經(jīng)典的BERT 預訓練模型的基礎上,對其中的部分參數(shù)和訓練方法進行調整,最終得到的模型及參數(shù)得到了81.47%的分類準確率,相較于其他算法具有明顯的提升。同時,BERT 作為一種無監(jiān)督預訓練模型,通過已經(jīng)訓練好的編碼器具備的中文閱讀理解能力,可以應用于不同的業(yè)務場景。此外,本文從模型及技術實際應用的角度,分析了其在實際工程生產(chǎn)中的應用價值。
在實際的中文文本分類研究中,原始的中文文本數(shù)據(jù)經(jīng)常會存在許多影響最終分類效果的內容,這部分數(shù)據(jù)或文本如果不加處理,直接交給模型去學習,會導致模型無法準確獲得文本數(shù)據(jù)的特征和語義重點,從而會導致模型準確率低。因此文本預處理的步驟是幫助文本數(shù)據(jù)更加符合模型的輸入要求而產(chǎn)生的,所有待學習的文本數(shù)據(jù)都需要在進入文本分類模型之前就被清洗干凈,科學的文本預處理環(huán)節(jié)可以起到有效指導選擇、提升模型效果的作用。文本預處理過程包含的主要環(huán)節(jié)有數(shù)據(jù)清洗(包含缺失值處理、去重處理、噪聲處理、特殊文字處理等)、文本處理(包含分詞、詞性標注、命名實體識別等)、文本張量表示(包含文本編碼、詞向量表示等)、文本語料數(shù)據(jù)分析(包含長度、特征、詞頻等的統(tǒng)計分析)、文本特征處理(包含特征增強、長度規(guī)范等)以及數(shù)據(jù)增強等。
文本數(shù)據(jù)進行預處理前,首先對數(shù)據(jù)情況進行分析,以方便確定數(shù)據(jù)處理方法。每一次文本預處理都應該先明確最終你希望把原本的文本數(shù)據(jù)處理成什么格式或者樣例。本文研究的數(shù)據(jù)為政企類文本數(shù)據(jù),數(shù)據(jù)信息具有復雜性和多變性,且根據(jù)分類目標來看,分類數(shù)量多,原始可用數(shù)據(jù)量約12.3 萬條,文本分類的類型數(shù)量約為90。因此本實驗對于文本數(shù)據(jù)在預處理階段能夠達到的處理效果有更多的期待,也需要采用更多的方法和途徑來提升文本數(shù)據(jù)與分類模型之間的匹配度。因而在本實驗中,從數(shù)據(jù)的處理前分析、數(shù)據(jù)去重、文本過濾、文本主題挖掘、文本詞向量表示等環(huán)節(jié)都采用了多種方法進行效果比較,最終以最優(yōu)的方法進行組合,完成文本數(shù)據(jù)的預處理過程。
政企類文本數(shù)據(jù)的特點是內容多,文本的固定位置具有重復現(xiàn)象。針對某些政企類文本數(shù)據(jù)來說,數(shù)據(jù)的開頭和結尾分別有表示數(shù)據(jù)來源的信息以及固定的需求表達,或具有某種特定規(guī)律。對于文本數(shù)據(jù)的分析過程來說,這些對類別特征區(qū)分沒有貢獻的文本都是干擾因素,將會影響模型的分析效果,因此首先應當做去重處理,提取對文本智能分類的分類依據(jù)有實際貢獻的文本信息。比如在本次實驗數(shù)據(jù)中,來源于12345 市民熱線的文本數(shù)據(jù),由于數(shù)據(jù)是經(jīng)過接線業(yè)務員轉述進行重新組合而成的,因而在數(shù)據(jù)結構上顯得較為標準。
以某條文本數(shù)據(jù)為例:張先生來電,某某小區(qū)門口某某路上下水井蓋松動,有安全隱患,請派人維修。處理后請回復。
在以上文本數(shù)據(jù)中,“張先生來電,”和“處理后請回復?!痹谒形谋局休^為標準,位置固定且內容重復,因此可以認為,其存在對于模型特征的學習并沒有貢獻,需要進行數(shù)據(jù)去重處理。
文本過濾是在對文本數(shù)據(jù)進行去重處理后進行的,主要是對數(shù)據(jù)去重后留下的文本信息主體進行模型可用信息的過濾提取。常見的處理方法有去停用詞[18]、詞性標注、命名實體識別等。經(jīng)過對于文本數(shù)據(jù)特點的分析,在單條文本描述中,經(jīng)常涉及身份證號、手機號等數(shù)字字符以及樓牌號等字母字符,以及部分固定的表述方式。這些具有干擾性的文字描述,可通過去停用詞環(huán)節(jié)進行處理,即選取合適的中文停用詞表(stop word),再根據(jù)業(yè)務場景增加部分特有的停用詞,形成具有針對性的專用停用詞表。然后對全量的政企類文本數(shù)據(jù)進行文本過濾。而詞性標注及命名實體識別的使用,往往在需要篩查分析不同信息時進行使用,對于文本過濾也有很大的意義。例如在文本數(shù)據(jù)描述中出現(xiàn)地名及姓名等,這些都是模型學習分類特征不需要的信息,可以通過對于單條文本數(shù)據(jù)詞性的認定以及命名實體識別來篩查去除固定詞性及命名實體,從而達到文本過濾的效果。
在文本數(shù)據(jù)描述較長,通過數(shù)據(jù)去重及文本過濾又沒有達到很好的清洗效果時,可以針對性的進行文本主題挖掘的處理。即利用文本分析模型進行文本特征學習時,將文本數(shù)據(jù)中挖掘到的主題描述結果,作為輸入的文本特征用于模型訓練,其實際效果可根據(jù)模型學習及分類效果進行驗證。將過濾后的文本利用中文分詞和文本編碼進行處理,在此基礎上,采用文本主題挖掘模型提取文本主題關鍵詞組,形成文本主干;或采用中文詞法分析進行文本詞性標注并針對性的去除某些詞性的詞語,得到文本關鍵詞組。文本主題挖掘的過程包括詞干的提取、停用詞的去除、同類詞或語義相近的詞條間的合并、主題排序等。通過文本主題挖掘后得到的主題應是彼此間含義不同的一組詞語,且文本信息中較為核心的主題詞匯將排列在前,而用戶有權在主題挖掘后根據(jù)需要選擇生成主題詞的數(shù)量。
文本主題挖掘可采用TF‐IDF 算法[19]、TextRank 算法以及LDA 主題模型等,在TF‐IDF 算法中,其計算過程如式(1)(2):
其中,ft為詞頻,ni,j表示某個詞在該文本中出現(xiàn)的次數(shù),表示該文本中包含的總詞數(shù);fid為逆向文件頻率,|D|為語料庫中所有文檔總數(shù),為包含詞語ti的文檔數(shù),分母可能出現(xiàn)等于0 的情況,因此使用
在面對某些場景時,可使用改進后的詞頻計算公式如式(3):
其中,maxk(nk,j)表示該文本中出現(xiàn)次數(shù)最多的詞的出現(xiàn)次數(shù)
最后計算TF‐IDF,只需要將計算的tf 值與idf 值累乘就得到了某個詞在當前文本中的權重值,經(jīng)過所有詞權重的排序,就能根據(jù)詞的重要程度保留文本主題。但TF‐IDF 的計算過程決定了它對于長文本數(shù)據(jù)的主題抽取效果較好,對于簡短的文本數(shù)據(jù)結果則不盡如人意,況且其精準度很大程度上依賴算法使用的詞表是否合適。
TextRank 算法是一種無監(jiān)督的主題抽取算法,它不依賴于其他語料,可以直接從文本中挖掘主題詞。它的弊端和TF‐IDF 算法類似,在長文本數(shù)據(jù)中表現(xiàn)較好,而且它需要進行迭代計算,所以效率會隨著迭代次數(shù)的增加而降低。采用TextRank 算法進行關鍵詞提取,主要步驟如下:
將文本T 按照一個句子進行分割,得到T=[S1,S2,...,Sn];
(2)根據(jù)保留的關鍵詞構建有向有權圖G=(V,E),其中V 為點集合,E 為邊集合,圖中任意兩點Vi,Vj間的邊權重為Wji。
(3)設窗口大小為K,根據(jù)以式(4)計算詞語得分:
其中,S(Vi)為詞語得分,I(Vi)為指向Vi點的點集合,O(Vj)為Vj點指向的點集合。根據(jù)公式進行迭代傳播,對各節(jié)點得分進行排序,得到文本T 的關鍵詞。
LDA 主題模型方法是一種基于貝葉斯模型誕生的無監(jiān)督的方法,可以自由選擇需要計算的主題詞語數(shù)量,在使用LDA 模型進行主題挖掘前,需根據(jù)要處理的文本數(shù)據(jù)訓練出LDA 模型,模型將自主學習文本數(shù)據(jù)中的詞語重要性,政企類文本數(shù)據(jù)較為規(guī)范,特征比較密集,因此在采用LDA 模型時能得到較好的效果。
文本向量化是將文本表示成眾多能夠表達文本語義的向量。文本向量化模塊實現(xiàn)對文本集合的數(shù)值向量化表示,向量化后的文本集合可以被文本分類模型識別和計算。詞語是表達文本信息的最基本處理單元。當前對文本向量化大部分研究都是通過詞向量化實現(xiàn)的,但也有doc2vec 和str2vec方法將文本和句子作為基本處理單元。為了更好的挖掘句中包含的詞語含義,區(qū)分多類特征,本文采用詞袋模型處理詞向量化的方法進行文本向量化表示。
以詞語為處理單元的方法為word2vec 方法[20]。word2vec 方法是基于樣本數(shù)據(jù)中出現(xiàn)的詞語構建詞典作為索引,通過統(tǒng)計每個詞語出現(xiàn)的詞頻構成向量。word2vec本質上是一種簡單的神經(jīng)網(wǎng)絡,它分為CBOW 和Skip‐gram兩種訓練模型。CBOW 和Skip‐gram 模型在進行處理時目標不同,CBOW 模型是根據(jù)周圍的單詞預測中心單詞,而Skip‐gram 模型則相反。其原理分別如圖1 和圖2 所示。
圖1:CBOW 模型訓練原理圖
圖2:Skip-gram 模型訓練原理圖
采用gensim 工具包中的word2vec 模型可快速得到文本向量化訓練結果。
文本分類作為一種信息組織和管理的有效方法,在諸多方面有著重要的應用,如情感分析、垃圾郵件識別、推薦系統(tǒng)、文檔分類等。將原始數(shù)據(jù)進行去重處理、文本過濾、文本主題挖掘等文本預處理過程后,得到處理后的數(shù)據(jù)集。再根據(jù)分類模型對數(shù)據(jù)集進行處理準備工作。在分析了各種市場主流的文本分類模型后,擬使用比較的分類模型有深度神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、反饋神經(jīng)網(wǎng)絡等。
DNN 模型是基本的深度學習網(wǎng)絡,擁有全連接的神經(jīng)元結構,包含輸入層、隱藏層、輸出層三部分,使用場景比較廣泛。卷積神經(jīng)網(wǎng)絡例如CNN,它最初在圖像領域取得了巨大成功,其核心點在于可以捕捉局部相關性,TextCNN是基于CNN 模型,針對文本領域創(chuàng)造的卷積模型,做文本的特征表達工作。循環(huán)神經(jīng)網(wǎng)絡RNN 是NLP 領域常用的模型,它允許信息的持久化,但RNN 容易出現(xiàn)梯度消失或者梯度爆炸的問題,LSTM 和GRU 是改進后的兩種算法模型。LSTM 是一種特殊的RNN 模型,是為了解決長序列訓練過程中的梯度消失問題而產(chǎn)生的,由4 個全連接層進行計算,與原始的RNN 相比,LSTM 增加了一個細胞狀態(tài),模型的核心結構如圖3。
圖3:LSTM 模型核心結構圖
其中,模型輸入有三部分,即Ct‐1為細胞狀態(tài)信息,ht‐1為隱層狀態(tài)信息,Xt為t 時刻輸入向量,輸出有兩部分,分別是:細胞狀態(tài)信息Ct,隱層狀態(tài)信息ht。細胞狀態(tài)信息和隱層狀態(tài)信息按照不同的線路進行傳遞,它們之間的交互叫做“門”結構。在“門”結構中,σ 表示sigmoid 函數(shù),它的輸出在0 到1 之間,tanh是雙曲正切函數(shù),它的輸出在‐1到1 之間。GRU 則是LSTM 網(wǎng)絡的一種效果很好的變體,相比于LSTM,它的計算更簡單,計算量也比較低,GRU和LSTM 都是通過各種門函數(shù)來將重要特征保留下來,二者實際效果的優(yōu)劣需針對不同場景來看。
對于語言分析領域,谷歌提出了基于雙向Transformer特征提取器的BERT 模型[21],相較于原來的RNN、LSTM 等,它可以在多個不同層次同時提取詞在句子中的關系特征,從而能更全面的反映句子意思。BERT 模型的架構圖如圖4。
圖4:BERT 模型內部架構圖
從模型架構圖中很明顯可以看出,BERT 模型采用的是雙向編碼,是一個基于雙向transformer 的模型,它可以共同調節(jié)left‐to‐right 的transformer 和right‐to‐left 的transformer。此外,它將預訓練模型和下游任務模型結合在一起,它更注重于識別句子中單詞與單詞之間的關系或者是句子與句子之間的關系,它采用一個半監(jiān)督學習和語言來表示模型。在預訓練階段,BERT 使用無監(jiān)督的預測任務執(zhí)行預訓練,該任務包括下文遮蔽的語言模型MLM(Masked Language Model,MLM)[22],在執(zhí)行完預訓練后,BERT 模型會針對下游任務進行fine‐tune 來微調模型參數(shù),以達到最適應的效果。
本實驗的原始數(shù)據(jù)量約12.3 萬條,文本分類的類型數(shù)量約為90。原始數(shù)據(jù)采用隨機劃分的方式,以8:1:1 的比例劃分為訓練集、驗證集、測試集,使用訓練集訓練模型,選取在驗證集中表現(xiàn)最好的模型,在測試集中測試模型分類準確率,以測試集的準確率作為實驗的評價指標。
劃分數(shù)據(jù)集后,將每個數(shù)據(jù)集進行一定的文本預處理。為適應各類模型的輸入要求,實驗中采用的文本預處理方法包括根據(jù)文檔中文字出現(xiàn)頻率訓練編碼器,文本去重、過濾并編碼,文本去重、過濾、提取主題并編碼,BertTokenizer編碼器,文本去重、過濾、提取主題、BertTokenizer 編碼器等。
將處理后的輸入量輸入分類模型,進行文本智能分類訓練,并在訓練過程中調整各訓練參數(shù)以尋求更優(yōu)結果。在實驗結果分析中,發(fā)現(xiàn)在文本預處理過程中將文本處理的越詳細,模型獲取到的特征越清晰;在模型的互相比較中,BERT 模型在經(jīng)過參數(shù)調優(yōu)后取得的效果明顯優(yōu)于其他模型,因此著重對BERT 模型的實驗過程進行介紹。
首先使用transformers 中的BertTokenizer 編碼器對文本進行編碼,其次對編碼數(shù)據(jù)進行預處理:
通過分析,添加特殊編碼[CLS]、[SEP]、[UNK]等標志以幫助執(zhí)行分類任務。
構建輸入矩陣:輸入矩陣存放編碼結果;輔助矩陣使用全零矩陣;注意力掩碼矩陣用于記錄輸入文字長度;標簽矩陣存放類別標簽。
在模型微調環(huán)節(jié),使用預訓練模型,對模型進行fine‐tune 微調。具體過程為:
(1)獲取模型:獲取預訓練模型結構與參數(shù);
(2)分類模型構建:在預訓練模型后添加MLP 分類器,采用激活函數(shù)softmax;
(3)模型優(yōu)化:優(yōu)化器使用Adam 優(yōu)化器,設置參數(shù)solver 為’adam’,損失函數(shù)為稀疏分類交叉熵;
(4)模型訓練。
在完成全部模型的訓練及測試后,得到最終測試集準確率,多次實驗后各模型及不同編碼方式的分類效果對比如表1 所示。
表1:各模型及不同編碼方式的分類效果對比
在對各類模型進行參數(shù)優(yōu)化以及編碼方式的不同效果對比后,可以看出,DNN 作為最基礎的深度學習算法,在模型未加改進以及優(yōu)化的前提下準確率較低,而作為后續(xù)出現(xiàn)的CNN 以及GRU、LSTM 等算法都針對文本智能分類工作表現(xiàn)出了各自的優(yōu)勢,其中BERT 作為建立在雙向transformer 上的語言處理模型,以其強大的中文文本理解能力以及模型參數(shù)微調的能力取得了相對較好的結果,面對分類種類多、原始數(shù)據(jù)有傾斜的樣本現(xiàn)狀,也有較好的表現(xiàn),完成了預期實現(xiàn)的目標。而在編碼方式上,通過數(shù)據(jù)對比可以得知,提取文本主題作為模型輸入的方式能夠使模型更好的學習樣本特征,在不同的模型中均有準確率提升的效果。
本實驗針對數(shù)據(jù)原始特征及特性,從各個實驗環(huán)節(jié)提高了實驗效果。對于樣本類別不均衡導致的部分類別特征少,很難從中提取規(guī)律的情況,在具體分析模型效果后,采用了BERT 預訓練模型,使得模型獲得足夠優(yōu)秀的中文閱讀理解能力,再使用fine‐tune 的微調方法實現(xiàn)文本分類任務的需求,降低了對于樣本數(shù)據(jù)的依賴。對于傳統(tǒng)分類模型帶來的嚴重過擬合現(xiàn)象,采用了MLM 對雙向的Transformers 進行預訓練,以生成深層的雙向語言表征,有效的提升了模型的特征提取能力。同時,通過遷移學習的方法有效的解決了模型過擬合問題。在通過對實驗模型的組合和改進后,最終獲得了81.47%的效果,優(yōu)化了傳統(tǒng)方法和數(shù)據(jù)本身特點帶來的弊端,唯一值得注意的是,整個訓練過程往往需要強大的算力來支撐。
實際工程項目中的政企類文本數(shù)據(jù)來源廣、數(shù)據(jù)質量不一,用于分析的數(shù)據(jù)量收到實際情況的限制,因而在解決政企類文本分析相關問題上仍然是一個需要研究的課題。通過以及訓練好的模型具備的中文閱讀理解能力,可以應對實際工程中超過80%以上的識別需求。
近年來,智慧城市的建設漸漸成為數(shù)字化政府建設的重點需求,而社會治理作為政務服務管理中的重要環(huán)節(jié),對于民情事件的智能化流轉和迅速響應是核心需求。基于NLP的政企類文本智能分類,可以以民情事件的責任部門作為分類目標,為部門設定分類標簽,設置業(yè)務流程,以文本智能分類手段替代常規(guī)人工業(yè)務流轉,從而實現(xiàn)系統(tǒng)的事件智能分派功能,節(jié)省人工成本、提高處理效率的同時,為城市建設賦予更多的智能化元素。
此外,政務服務部門作為工作量較大、民眾需求比較集中的部門,為更快更好的解決民眾實際問題,也需要以智能機器人的形式輔助政務服務工作。在保證民眾滿意度的情況下,面對各式各樣的群眾需求,政企類文本智能分類的實現(xiàn)備受關注,因而通過分析文本智能分類工作可以大大提升群眾滿意度和政務工作的積極性。政務工作的業(yè)務需求也是推進NLP 領域迅速發(fā)展的主要因素。