• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向物業(yè)投訴的字符級短文本分類模型

      2022-06-16 03:03:48陳一飛
      大眾科技 2022年4期
      關鍵詞:工單字符短文

      朱 明 陳一飛

      面向物業(yè)投訴的字符級短文本分類模型

      朱明 陳一飛

      (南京審計大學信息工程學院,江蘇 南京 211815)

      文章針對物業(yè)投訴短文本人工輸入內容復雜、提取特征較困難等問題,提出一種基于字符級文本表示的CNBG深度學習聯(lián)合模型。該模型首先將物業(yè)投訴工單文本進行字符向量表示,然后分別輸入到卷積神經網絡CNN和雙向門控循環(huán)單元BiGRU提取特征,并將它們提取到的特征進行融合,最后實現(xiàn)文本分類。實驗結果表明,基于字符級CNBG深度學習聯(lián)合模型在物業(yè)投訴工單分類任務上得到的比其它基準模型平均高15%,在物業(yè)投訴工單數據集上能夠取得更好的效果。

      自然語言處理;文本分類;字符級文本表示;CNBG深度學習聯(lián)合模型

      引言

      隨著中國城市化的發(fā)展,房地產市場異?;馃?,小區(qū)的物業(yè)產業(yè)也得到了更加廣闊的發(fā)展。但是,在這繁華景象的背后,也隨之而來出現(xiàn)了許多問題,關于小區(qū)業(yè)主投訴的問題日益增多。物業(yè)投訴工單主要是由業(yè)主自行輸入投訴文本,并且反饋到物業(yè)投訴平臺,它作為暴露小區(qū)問題最直接的投訴方式,已經成為了物業(yè)管理人員解決物業(yè)問題、提高物業(yè)管理質量的重要途徑。因此,本文從物業(yè)投訴工單短文本方面著手,對物業(yè)投訴工單數據進行文本分類,通過分類結果對解決物業(yè)問題提出科學性的指導。因此如何準確地對物業(yè)工單數據的短文本進行分類,成為了本文研究的重點問題。

      1 文獻綜述

      短文本分類的研究一直是自然語言處理領域研究的熱點問題。文本分類的一般流程如圖1所示。

      圖1 短文本分類一般流程

      文本分類模型的研究方法主要是基于傳統(tǒng)機器學習模型和深度學習模型。在傳統(tǒng)機器學習模型研究上,丁世濤等[1]通過詞向量訓練輸入到SVM(支持向量機)模型進行文本分類,為網頁分類任務提供了準確率更高、效率更高的解決方法。然而,例如支持向量機、樸素貝葉斯、決策樹等傳統(tǒng)的機器學習算法存在依靠人工標注特征、算法魯棒性差等問題,無法應對目前大數據量和內容復雜的文本數據,而深度學習模型在解決這些問題上表現(xiàn)出更好的效果。張豪[2]針對惡意軟件樣本數據復雜等問題,采用一種融合惡意樣本大小特征和字節(jié)統(tǒng)計特征的方法,輸入到搭建的CNN(卷積神經網絡)模型中進行訓練、測試,實驗結果表明深度學習CNN模型在惡意軟件樣本數據復雜的情況下得到的分類準確率更高。目前,深度學習模型在文本分類領域逐漸占據著主流,而深度學習領域的文本分類改進方向主要是基于短文本分類器模型的改進和基于短文本特征表示的改進。

      1.1 基于分類器模型的改進

      王東等[3]通過提取數據集中多標簽短文本的不同特征輸入到一種結合Stacking技術改進的RCNN模型,實驗表明該種改進的RCNN模型能夠快速、準確地完成多標簽短文本自適應分類;代麗等[4]針對文本情感信息和文本內容詞語分錯問題,通過一種以一條通道構造情感類型信息,以另一條通道構造文本字向量信息組成的雙通道CNN模型來進行文本分類,實驗表明這種通過改進的雙通道CNN文本分類器模型的實驗效果要比未改進的模型好。以上兩種是對卷積神經網絡模型的改進,而卷積神經網絡只對局部特征的提取較為有效,忽略了文本信息的全局特征的提取,單獨使用會造成特征丟失問題;楊興銳等[5]利用BiLSTM_CNN復合模型進行文本分類,通過與其它深度學習模型進行比較,這種復合模型在準確率和F1值均優(yōu)于現(xiàn)有模型,但是BiLSTM模型本身的模型參數多,結構相對復雜,訓練比較耗費時間,在實際使用的過程中效果并不是很好。

      1.2 基于特征表示的改進

      宋文琴等[6]針對旅游評論短文本短小導致的特征稀疏問題,利用一種融合知識增強語義表示預訓練模型,加強了文本的特征表示,獲得了較好的分類的結果;高娟等[7]通過全局與局部的詞向量訓練,并通過主題詞相關進行詞的語義增強計算,提升了模型在短文本上分類的正確率。以上都是基于詞級別方面文本表征的改進,但是基于詞級別文本表征主要存在兩個缺陷:一是基于詞級別的文本表示需要考慮詞語的語義信息上下文之間的聯(lián)系,需要使用預訓練好的詞向量模型,而預訓練詞向量模型和調用詞向量模型會造成時間和硬件資源的浪費;二是短文本中的詞語組成相對較少,利用詞級別文本表示更難提取到文本特征。因此,Zhang等[8]將文本表示為字符向量的形式,用字符級文本表征的方式將數據集輸入到CNN模型來進行文本分類,采用這種文本表示的方法在英文數據集上表現(xiàn)出很好的分類效果。由此開啟了字符級文本分類的新探索。

      針對基于分類器改進和特征表示改進兩方面目前的研究進展以及存在的問題,并受Zhang等[8]利用字符級卷積神經網絡進行英文文本分類的啟發(fā),本文提出一種基于字符級CNBG深度學習聯(lián)合模型。利用字符級文本表示來代替詞級別文本表示,可以忽略詞語的含義,也不需要使用預訓練好的詞向量模型,減少資源浪費,且一定程度上緩解了OOV(Out Of Vocabulary)問題,而且利用單詞、短語層面的文本表示會存在信息提取不充分的問題,采用字符級文本表示比詞級別文本表示的粒度更小,更能充分獲取文本信息。此外將BiGRU模型和CNN模型進行聯(lián)合,一方面兩種模型全局和局部特征提取能力較強,能夠對文本的信息進行更加深層次的提?。涣硪环矫媸褂肂iGRU模型解決了BiLSTM模型參數多、結構復雜等問題,減少了訓練時間,對模型訓練效率的提升更有幫助。

      2 字符級CNBG深度學習聯(lián)合模型

      2.1 整體架構

      字符級CNBG深度學習聯(lián)合模型整體架構圖如圖2所示。

      圖2 字符級CNBG架構圖

      2.2 字符級文本表示

      以Word2Vec[9]、Glove[10]等訓練出的詞向量模型,它們都是以詞級別為基礎,通過詞向量形成句子向量的方式輸入模型,且需要考慮詞語的上下文的語義關系。字符級文本表示與詞級別文本表示不同,它對文本表示的最基本的組成單位為字,字符級文本表示比詞級別文本表示的粒度更小。字符級文本表示過程的算法偽代碼如下所示。

      算法1 字符級文本表示方法

      輸入:數據集S

      輸出:文本的字符向量表示K

      1. Processed_text←text preprocessing o f S//文本預處理

      2. Character_text←segmentation of Pro cessed text//分字處理

      3. Char_list←Remove duplicate Charact er text //去重構建字匯表

      4. for Character in Char_list:

      Dic_list←According to the Statistical Character

      end for//根據字匯表構建字典表

      5. Dic_list←['']//將不出現(xiàn)在字典表中的字符用表示

      Dic_list←['']//句子長度不夠用 來表示

      6. for Character_text in Dic_list:

      Character_to_id←According to the Dic_list

      end for//將數據文本按照字為單位分別對應字典表找到字符編碼

      7. K←According to the Character_to_id//根據每個樣本的字符索引編碼通過Embedding[11]轉化為字符向量K

      至此,通過字符級文本表示算法完成了由數據集S到文本字符向量K的轉化。

      2.3 卷積神經網絡

      CNN(Convolutional Neural Networ)卷積神經網絡,它在圖像應用領域得到了廣泛的發(fā)展,后來用于NLP領域,在文本分類方面,CNN網絡局部特征提取能力是最好的[12]。CNN架構圖如圖3所示。

      2.3.1 卷積層

      CNN中的卷積層目的就是提取出文本中的局部特征。文本中的每個字符向量的設定維度為50,采用三層卷積的方式。其中要設定的超參為卷積核的數目和卷積核的大小。卷積的過程如公式如下。

      2.3.2 池化層

      接著就進入了池化層(MaxPooling),它也稱為下采樣層。它的功能是特征降維,并且可以壓縮模型運行中的數據和參數的數量,而其目的是為了減小模型過擬合,同時提升容錯性。公式如下所示。

      圖3 CNN架構圖

      2.4 BiGRU模型

      BiGRU(Bidirectional Gated Recurrent Unit)[13],是一種雙向的門控循環(huán)單元模型。GRU的目的是提取句子上下文長距離的依賴特征,獲取文本的全局特征。而BiGRU利用雙向GRU模型,能夠更深層次地提高對全文信息的特征提取。GRU的模型計算公式如下所示。

      其中,和tanh分別表示為Sigmoid與tanh兩種激活函數,μy和γy分別為更新門與重置門,對應模型超參為Cell_Size,ky為Y時刻輸入的字符向量,ky-1表示的是上一狀態(tài)輸入的字符向量,代表的是元素的相乘,表示的是候選的狀態(tài),表示當前輸出的全局特征向量。Wμ,Tμ,Wr,Tr,W,T為權值矩陣,GRU模型如圖4所示。

      其中,Sigmoid與tanh兩種激活函數的數學表達式公式如下。

      BiGRU是正向與反向GRU的結合,它在任意時刻都可以得到具有上下文相關性的文本特征信息,它的特征提取效果比單向GRU更好,更能夠深層次提取到文本全局的特征信息。BiGRU模型圖如圖5所示。

      圖5 BiGRU模型圖

      公式如下所示。

      2.5 特征融合

      將上述基于BiGRU的模型提取到的字符級文本的全局特征與基于卷積神經網絡CNN提取到的局部特征進行局部特征向量和全局特征向量的融合,這樣可以更加深層次的、全面的提取到數據文本的主要特征。特征融合如公式如下。

      2.6 全連接層

      隨后進入全連接層,它將特征融合層的特征向量通過權值矩陣向量重組起來。全連接層使用Relu激活函數(Rectified Linear Unit,修正線性單元)和DropOut機制,DropOut為要設置的超參。使用的目的是為了加快模型運行速度并緩解模型的過擬合問題。公式如下所示。

      其中,表示權重,表示的是融合向量,為偏置矩陣,X而就為全連接層輸出的結果。

      2.7 輸出層

      最后用SoftMax函數(歸一指數化函數)進行文本分類;SoftMax表達式如下所示:

      模型訓練過程中用到的學習率(Learning_Rate)、批處理(Batch_Size)、迭代次數(Epochs)均為超參數,訓練過程中用到的目標損失函數為交叉熵損失函數(Categorical_C-rossenTropy),如公式(15)所示:

      其中,為樣本真實分布值,為估計分布值,而H()就是關于與的交叉熵。

      3 實驗與分析

      3.1 實驗數據

      實驗數據是爬取互聯(lián)網上某服務平臺公開的物業(yè)投訴工單數據集(http://fz12345.fuzhou.gov.cn/fzwp/webCitizenIndex.jsp),總共7個類別,分別有秩序管理、硬件設施維修、疫情防控、開發(fā)遺留問題、環(huán)境衛(wèi)生、行政監(jiān)管、服務態(tài)度等7個類別,總共13687條數據,將數據集去重過后共有8543條物業(yè)投訴數據。按照各個類別的訓練集、驗證集、測試集的順序,劃分數據集為5∶1∶1,得到訓練集加驗證集有7322條,測試集上有1221條工單數據。實驗數據分布如表1所示。

      表1 實驗數據分布

      3.2 評價指標

      本次實驗涉及到的評價指標有Precisio-n、Recall、F1,它們分別對應查準率、查全率、調和平均數,其值越高代表模型分類能力越好。它們的計算公式如下所示。

      因為本次的各個類別的實驗數據存在不均衡性,故本次采用國際評價指標中的微平均F值(F)作為模型的評價指標,其計算公式如下所示:

      3.3 模型對照

      為了驗證字符級CNBG深度學習聯(lián)合模型的預測能力,選取CNN、LSTM、BiLSTM、GRU、BiGRU、CNN-BiLSTM、CNN-BiGRU這7種基準模型來進行物業(yè)投訴工單數據集的訓練、驗證和測試,并在這些數據集上采用微平均F值(F)評價方式來和字符級CNBG深度學習聯(lián)合模型進行預測效果的對比。

      (1)CNN模型:采用三層卷積的架構方式提取字符文本的特征,最后用全連接層和Sigmoid激活函數作為輸出層得到分類結果。

      (2)LSTM模型:單向的LSTM模型提取字符文本特征,最后將得到的特征輸入到全連接層,并用Sigmoid激活函數作為輸出層最后得到分類結果。

      (3)BiLSTM模型:利用雙向的LSTM模型提取字符文本的特征,最后用全連接層和Sigmoid激活函數作為輸出層得到分類結果。

      (4)GRU模型:一種單向的門控循環(huán)單元模型,可以提取上下文長距離的依賴特征,獲取文本的全局特征,最后將得到的特征輸入到全連接層,并用Sigmoid激活函數作為輸出層最后得到分類結果。

      (5)BiGRU模型:一種雙向的門控循環(huán)單元模型來提取字符文本的全局特征,最后將得到的特征輸入到全連接層,并用Sigmoid激活函數作為輸出層最后得到分類結果。

      (6)CNN-BiLSTM模型:數據樣本經過CNN提取到特征過后,再經過BiLSTM網絡提取全局特征,最后用全連接層和Sigmoid激活函數作為輸出層得到分類結果。

      (7)CNN-BiGRU模型:數據樣本經過CNN提取到特征過后,再經過BiGRU網絡提取全局特征,最后用全連接層和Sigmoid激活函數作為輸出層得到分類結果。

      3.4 模型的超參設置

      經過K折交叉驗證(K取10)后,模型的具體超參設置如表2所示。

      表2 模型超參設置

      3.5 實驗結果與分析

      實驗結果如表3所示。

      表3 實驗結果

      基于以上實驗結果可以得到了兩方面的結論:

      (1)在文本內容的表征上,使用字符級的方式在CNN、LSTM、BiLSTM、GRU、BiGRU模型上的F均要優(yōu)于Word2Vec文本表示的模型,分別高出0.03、0.01、0.29、0.10、0.11。主要因為物業(yè)投訴工單短文本內容短小,利用單詞、短語層面的處理方式會存在信息提取不充分的問題,采用字符級文本表示比詞級別文本表示的粒度更小,更能充分獲取文本信息?;谠~級別的文本表示需要考慮詞語的語義信息上下文之間的聯(lián)系,需要使用預訓練好的詞向量模型,而預訓練詞向量模型和調用詞向量模型會造成時間和硬件資源的浪費。此外,基于詞級別的文本表示很容易出現(xiàn)OOV(Out of Vocabulary)問題,而字符級文本表示無需考慮單詞意義以及是否存在于詞向量模型里,使用起來更加的便捷。因此采用字符級文本表示更加適合物業(yè)投訴工單短文本數據集。

      (2)在模型的組合上,使用CNBG深度學習聯(lián)合模型得到的F值要比CNN-BiLSTM和CNN-BiGRU的組合模型要高,其中采用Word2Vec文本表示方式分別高出0.06和0.05,采用字符級文本表示分別高出0.23和0.13。主要是因為CNN-BiLSTM和CNN-BiGRU模型由于經過了兩層神經網絡的特征提取,特征丟失較嚴重,而使用CNBG深度學習聯(lián)合模型融合了CNN和BiGRU提取到的局部和全局特征,因此得到的特征更加全面,取得的F結果值要高于其它兩種組合模型。使用CNBG深度學習聯(lián)合模型得到F的值比CNN、LSTM、BiLSTM、GRU、BiGRU單一模型平均高出0.15左右,這是因為物業(yè)投訴工單短文本內容短小,采用單一模型較難充分提取文本信息,而CNBG深度學習聯(lián)合模型利用CNN和BiGRU同時提取文本的局部和全局特征,這樣能夠更加深層次、全面地提取到文本信息,所以CNBG聯(lián)合模型比其它的單一或者組合模型得到的結果要好,因此這里采用CNBG聯(lián)合模型要優(yōu)于其它模型。

      綜上所述,基于字符級CNBG深度學習短文本分類模型在物業(yè)投訴工單數據集分類結果上表現(xiàn)出更好的效果。

      4 結束語

      本次研究提出的基于字符級CNBG深度學習聯(lián)合模型,采用字符級文本表示,它比詞級別文本表示的粒度更小,更能充分獲取文本信息。其次CNBG深度學習聯(lián)合模型能全面深入的提取物業(yè)投訴工單數據的特征信息,有效解決了因為短文本內容短而導致特征提取較困難等問題。

      除此之外,字符級CNBG模型因為不需要預訓練好的詞向量模型,在實驗準備、模型運行上節(jié)省了時間和資源,訓練快速且輕松;其次任何一種語言文本都是由字符構成,因此字符級文本表示適用于任何一種語言,它具有很強的適用性。

      本次研究還有一些地方需要改進,具體如下:

      (1)首先物業(yè)投訴工單數據集存在較嚴重的數據不均衡問題(各個類別樣本數不均勻問題),后期可以從這方面考慮改進模型和相關策略,來進一步提高模型的準確度。

      (2)因為短文本提供的特征相對較少,后期可以考慮從擴充語義信息(例如:知識圖譜,Probase等語義特征擴展方法)的角度來進一步提高模型的準確度。

      [1]丁世濤,盧軍,洪鴻輝,等. 基于SVM的文本多選擇分類系統(tǒng)的設計與實現(xiàn)[J]. 計算機與數字工程,2020,48(1): 147-152.

      [2] 張豪. 基于CNN的惡意軟件分類方法[J]. 計算機時代,2021(12): 48-51.

      [3] 王東,夏梓淵. 基于改進RCNN模型的多標簽短文本自適應分類[J]. 計算機仿真,2021,38(5): 388-392.

      [4] 代麗,樊粵湘,陳思. 基于卷積神經網絡的短文本情感分類[J]. 計算機系統(tǒng)應用,2021(1): 214-220.

      [5] 楊興銳,趙壽為,張如學,等. 結合自注意力和殘差的BiLSTM_CNN文本分類模型[J]. 計算機工程與應用,2022(3): 172-180.

      [6] 宋文琴,尚慶生,鞏晴. 旅游評論短文本的改進ERNIE-RCNN模型分類[J]. 宜賓學院學報, 2021, 21(12): 53-56.

      [7] 高娟,張曉濱. 基于語義增強的短文本主題模型[J]. 計算機系統(tǒng)應用. 2021,30(6): 141-147.

      [8] Zhang X, Zhao J, Lecun Y. Character-level convolutional networks for txt classification[J]. MIT Press, 2015(28): 1626.

      [9] 席笑文,郭穎,宋欣娜,等. 基于word2vec與LDA主題模型的技術相似性可視化研究[J]. 情報學報,2021,40(9): 974-983.

      [10] 陳可嘉,劉惠. 文本分類中基于單詞表示的全局向量模型和隱含狄利克雷分布的文本表示改進方法[J]. 科學技術與工程,2021,21(29): 12631-12637.

      [11] 陶愷,陶煌. 一種基于深度學習的文本分類模型[J]. 太原師范學院學報(自然科學版),2020,19(4): 7.

      [12] Alhudhaif A, Polat K, Karaman O. Determination of COVID-19 pneumonia based on generalized convolutional neural network model from chest X-ray images[J]. Expert Systems with Applications, 2021, 180: 115141.

      [13] Zhang C, Wang D, Wang L, et al. Temporal data-driven failure prognostics using BiGRU for optical networks[J]. Journal of Optical Communications and Networking, 2020, 12(8): 277.

      Character Level Short Text Classification Model for Property Complaint

      Aiming at the problems of complex manual input content and difficult feature extraction of short text of property complaint, a CNBG deep learning joint model based on character level text representation is proposed. Firstly, the text of property complaint work order is represented by character vector, and then input into convolutional neural network CNN and bidirectional gated cyclic unit BiGRU respectively to extract features, fuse the extracted features, and finally realize text classification. The experimental results show that the joint model based on character level CNBG in-depth learning is 15% higher than other benchmark models in the property complaint work order classification task, and can achieve better results in the property complaint work order data set.

      natural language processing; text classification; character level text representation; CNBG deep learning joint model

      TP391

      A

      1008-1151(2022)04-0031-05

      2022-02-20

      朱明(1993-),男,南京審計大學信息工程學院在讀碩士研究生,研究方向為數據挖掘。

      陳一飛(1977-),女,南京審計大學信息工程學院副教授,博士,研究方向為數據挖掘。

      猜你喜歡
      工單字符短文
      尋找更強的字符映射管理器
      基于量化考核的基層班組管理系統(tǒng)的設計與應用
      電子測試(2022年7期)2022-04-22 00:13:16
      基于transformer的工單智能判責方法研究
      高技術通訊(2021年6期)2021-07-28 07:39:20
      字符代表幾
      一種USB接口字符液晶控制器設計
      電子制作(2019年19期)2019-11-23 08:41:50
      KEYS
      消失的殖民村莊和神秘字符
      Keys
      基于HANA的工單備件采購聯(lián)合報表的研究與實現(xiàn)
      中國核電(2017年1期)2017-05-17 06:09:55
      電力95598熱線全業(yè)務集中后的工單預警機制
      务川| 涿鹿县| 高唐县| 阳春市| 长沙市| 吴堡县| 长垣县| 山西省| 大兴区| 南木林县| 鄂托克旗| 馆陶县| 黔江区| 含山县| 法库县| 得荣县| 勃利县| 西充县| 平遥县| 城市| 漳平市| 肇庆市| 台东县| 金寨县| 大理市| 云南省| 张家川| 巨鹿县| 浙江省| 临颍县| 贡觉县| 白水县| 英山县| 仙桃市| 辉县市| 永泰县| 安新县| 邓州市| 西峡县| 柳江县| 太和县|