謝志煒 馮鴻懷 許銳埼 李慧夫
摘 ?要:針對(duì)實(shí)際電力基建施工問(wèn)題數(shù)據(jù)集龐大,導(dǎo)致運(yùn)監(jiān)管理難度較大的問(wèn)題,本文提出一種基于樸素貝葉斯分類器的電力基建施工問(wèn)題文本分類方法,實(shí)現(xiàn)對(duì)施工問(wèn)題的自動(dòng)分類工作。首先整理收集施工問(wèn)題數(shù)據(jù)集,然后將施工問(wèn)題短文本進(jìn)行中文分詞,構(gòu)建特征向量空間,最后采用樸素貝葉斯分類器對(duì)施工問(wèn)題文本進(jìn)行分類,并通過(guò)實(shí)例分析證明了本文所用方法的有效性與優(yōu)越性。
關(guān)鍵詞:施工問(wèn)題;中文分詞;樸素貝葉斯;文本分類
中圖分類號(hào):TP391;O212.8 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)17-0017-03
Abstract:Aiming at the huge dataset of actual power infrastructure construction problems,it is difficult to manage the operation and supervision. This paper proposes a text classification method based on Naive Bayesian classifier for power infrastructure construction,which realizes the automatic classification of construction problems. Firstly,collect the construction problem data set,and then use the Chinese text segmentation of the short text of the construction problem to construct the feature vector space. Finally,the Naive Bayes classifier is used to classify the text of the construction problem. The validity and superiority of the method used in this paper are proved by an example analysis.
Keywords:construction problems;Chinese word segmentation;Naive Bayes;text classification
0 ?引 ?言
隨著經(jīng)濟(jì)的快速發(fā)展,現(xiàn)有的電力供應(yīng)能力無(wú)法滿足人們?nèi)找嬖鲩L(zhǎng)的需求,每年供電部門都會(huì)開(kāi)展大量電力基建工程以解決此問(wèn)題[1]。但由于基建施工是動(dòng)態(tài)的立體作業(yè)過(guò)程,人員的流動(dòng)性、生產(chǎn)設(shè)施的臨時(shí)性、施工工藝的標(biāo)準(zhǔn)性、生產(chǎn)過(guò)程的規(guī)范性、作業(yè)環(huán)境的多變性,形成了人、機(jī)、料、法、環(huán)等多維度施工問(wèn)題集,所存在的問(wèn)題會(huì)對(duì)工程項(xiàng)目建設(shè)的效率、質(zhì)量以及水平造成一定的影響[2]。因此基建工程管理起著越來(lái)越關(guān)鍵的作用,也是電力建設(shè)事業(yè)必須注重的環(huán)節(jié)。
目前,基建項(xiàng)目管理主要手段為現(xiàn)場(chǎng)核查,核查后對(duì)施工現(xiàn)場(chǎng)狀況以及存在問(wèn)題進(jìn)行記錄。由于基建項(xiàng)目基數(shù)大,運(yùn)監(jiān)部門在處理記錄施工問(wèn)題的文檔時(shí)較為低效,需要對(duì)每條記錄進(jìn)行審閱,無(wú)法快速對(duì)現(xiàn)場(chǎng)狀況以及存在的問(wèn)題進(jìn)行定性的分析。
國(guó)內(nèi)外有許多文本數(shù)據(jù)挖掘方法,它們也被應(yīng)用到了電力領(lǐng)域:文獻(xiàn)[3]初步探討了文本挖掘技術(shù)在電力行業(yè)的應(yīng)用,并講述了文本挖掘的概念、流程方法以及對(duì)客戶反饋信息進(jìn)行情感分析的應(yīng)用;文獻(xiàn)[4]針對(duì)電力客戶投訴文本展開(kāi)數(shù)據(jù)挖掘研究,運(yùn)用自然語(yǔ)言處理技術(shù),通過(guò)構(gòu)建文本分類器模型,實(shí)現(xiàn)投訴熱點(diǎn)的自動(dòng)分類,進(jìn)而實(shí)現(xiàn)差異化服務(wù);文獻(xiàn)[5]針對(duì)電網(wǎng)生產(chǎn)管理系統(tǒng)中存在大量設(shè)備缺陷文本的特點(diǎn),構(gòu)建電力設(shè)備缺陷文本分類模型,減輕人工比對(duì)篩選的工作量。
現(xiàn)有文獻(xiàn)對(duì)施工問(wèn)題的研究較少,故本文針對(duì)施工問(wèn)題數(shù)據(jù)量龐大且缺乏相關(guān)處理技術(shù)使得監(jiān)控管理存在較大難度的問(wèn)題,提出一種基于樸素貝葉斯分類器的電力基建施工問(wèn)題文本分類方法。首先向相關(guān)部門收集并整理施工問(wèn)題數(shù)據(jù)集,利用Python平臺(tái)中的工具包對(duì)各條施工問(wèn)題短文本進(jìn)行中文分詞,進(jìn)而構(gòu)建特征向量空間。最后對(duì)樸素貝葉斯分類器進(jìn)行訓(xùn)練,進(jìn)而實(shí)現(xiàn)施工問(wèn)題文本分類,有助于提高運(yùn)營(yíng)監(jiān)控管理水平和工作效率。
1 ?貝葉斯理論
1.1 ?貝葉斯理論介紹
目前,貝葉斯理論作為一種開(kāi)放式的決策性體系,已廣泛地應(yīng)用于國(guó)防軍事、資源評(píng)估、水利水電、風(fēng)險(xiǎn)投資、金融保險(xiǎn)等各個(gè)社會(huì)領(lǐng)域[6]。貝葉斯理論的思想如圖1所示。
盡管樸素貝葉斯分類器的條件獨(dú)立性假設(shè)在一定程度上限制了其范圍,但在實(shí)際應(yīng)用中發(fā)現(xiàn),即使在屬性顯著相關(guān)的情況下,樸素貝葉斯網(wǎng)絡(luò)也顯示了更好的準(zhǔn)確性和效率[9]。
2 ?施工問(wèn)題文本分類步驟
施工問(wèn)題文本分類是基于主流的文本挖掘技術(shù)開(kāi)展的,所采取的挖掘步驟如圖3所示。
(1)數(shù)據(jù)預(yù)處理:在獲取文本數(shù)據(jù)后,要對(duì)數(shù)字字符和英文字符等對(duì)文本意義不大的內(nèi)容進(jìn)行刪除,同時(shí)將冗余、重復(fù)的樣本進(jìn)行識(shí)別和刪除,留下對(duì)分類更有價(jià)值的數(shù)據(jù)。
(2)中文分詞:中文文本與英文文本不同,沒(méi)有單詞與單詞之間的明顯間隔,所以在進(jìn)行中文文本挖掘時(shí)必定要進(jìn)行中文分詞。一般分詞具有基于字典的方法、基于注釋的方法、基于規(guī)則的方法和基于統(tǒng)計(jì)的方法[10]。在Python中常用Jieba分詞工具。分完詞后,還需要使用停用詞庫(kù)對(duì)一些介詞或常用詞進(jìn)行刪除。
(3)特征向量空間:分詞過(guò)后,文本被分解為一個(gè)個(gè)的特征詞。通過(guò)使用詞頻來(lái)度量每個(gè)特征詞,進(jìn)而將文本數(shù)據(jù)轉(zhuǎn)化為特征向量空間。
(4)模型搭建:搭建文本分類模型,本文采用樸素貝葉斯分類器。將預(yù)處理好的樣本進(jìn)行劃分,一部分作為訓(xùn)練集導(dǎo)入分類器進(jìn)行訓(xùn)練,剩余部分作為測(cè)試集(驗(yàn)證集)對(duì)分類器的性能進(jìn)行檢測(cè)驗(yàn)證。
(5)模型評(píng)估:本文采用AUC值對(duì)分類模型進(jìn)行性能評(píng)價(jià)。AUC值是ROC曲線下方所圍成的面積值。分類器的AUC值等價(jià)于將隨機(jī)選擇的正樣本排序在隨機(jī)選擇的負(fù)樣本之前的概率。AUC值越大,說(shuō)明該分類器的效果越好。
3 ?實(shí)例分析
本文從某供電局基建部門收集了共1000條的施工問(wèn)題集。通過(guò)數(shù)據(jù)預(yù)處理,除去冗余、重復(fù)等意義不大的文本數(shù)據(jù),取剩余800條文本作為實(shí)驗(yàn)樣本。由于本文所采用的分類方法為有監(jiān)督學(xué)習(xí)機(jī)制,故已請(qǐng)專家為這800條施工問(wèn)題提前進(jìn)行分類。為保證分類器能識(shí)別正常的狀態(tài),施工問(wèn)題集中保留了正常類別。該施工問(wèn)題集所涉及類別如表1所示。
對(duì)施工問(wèn)題文本進(jìn)行中文分詞,采用Python中的Jieba分詞工具,隨機(jī)取10項(xiàng)進(jìn)行分詞后的展示,如圖4所示。
由圖4可見(jiàn),各條施工問(wèn)題文本已被分為多個(gè)詞語(yǔ),在每條施工問(wèn)題后面還帶有其類別屬性。分詞后,采用sklearn工具包中的CountVectorizer將文本轉(zhuǎn)化為特征向量空間,利用詞頻對(duì)施工文本數(shù)據(jù)進(jìn)行量化處理;最后,采用sklearn工具包中的MultinomialNB搭建分類預(yù)測(cè)模型:隨機(jī)取90%的樣本作為樸素貝葉斯分類器模型的訓(xùn)練樣本,對(duì)分類器模型進(jìn)行訓(xùn)練。剩余10%作為測(cè)試樣本對(duì)訓(xùn)練好的模型進(jìn)行性能驗(yàn)證。
為了證明本文所設(shè)計(jì)的模型具有更好的性能,還分別建立了常用的SVM分類模型以及KNN分類模型進(jìn)行比較,所得這三種分類器的性能對(duì)比如表2所示。
由表2可得,本文所提樸素貝葉斯分類器的AUC值為0.88,比KNN(0.76)、SVM(0.80)分類器的分類效果更佳。
4 ?結(jié) ?論
本文針對(duì)施工問(wèn)題數(shù)據(jù)量龐大,導(dǎo)致監(jiān)控管理存在難度較大、效率低下等問(wèn)題,提出一種基于樸素貝葉斯分類器的電力基建施工問(wèn)題文本分類方法。通過(guò)實(shí)例證明了本文所提模型具有有效性,且分類效果優(yōu)于其他分類模型。本文研究有利于提高運(yùn)營(yíng)監(jiān)控管理水平,提高工作效率,為電網(wǎng)精細(xì)化管理提供技術(shù)支持。
參考文獻(xiàn):
[1] 韋錫芝.電力基建工程管理中常見(jiàn)問(wèn)題及改進(jìn)措施 [J].技術(shù)與市場(chǎng),2016,23(2):98+100.
[2] 曹武明.當(dāng)前電力建設(shè)工程施工安全管理問(wèn)題分析與應(yīng)對(duì)措施 [J].時(shí)代經(jīng)貿(mào),2009(11):101.
[3] 施萱軒,姜紅紅,梁浩,等.文本挖掘技術(shù)研究及其在電力行業(yè)的應(yīng)用 [J].機(jī)電信息,2017(30):42-45+47.
[4] 吳剛勇,張千斌,吳恒超,等.基于自然語(yǔ)言處理技術(shù)的電力客戶投訴工單文本挖掘分析 [J].電力大數(shù)據(jù),2018,21(10):68-73.
[5] 劉梓權(quán),王慧芳,曹靖,等.基于卷積神經(jīng)網(wǎng)絡(luò)的電力設(shè)備缺陷文本分類模型研究 [J].電網(wǎng)技術(shù),2018,42(2):644-651.
[6] 莊晟.基于樸素貝葉斯的電力變壓器故障診斷 [D].上海:上海交通大學(xué),2015.
[7] 岳全中,朱永利.基于樸素貝葉斯分類器的電流互感器狀態(tài)評(píng)估 [C]//中國(guó)高等學(xué)校電力系統(tǒng)及其自動(dòng)化專業(yè)第二十四屆學(xué)術(shù)年會(huì)論文集.北京:中國(guó)農(nóng)業(yè)大學(xué),2008:208-211.
[8] 雍明超,呂俠,周鐘,等.基于樸素貝葉斯算法的電力變壓器故障診斷方法研究 [J].電氣應(yīng)用,2017,36(14):32-35.
[9] 田炳偉,高釧.基于貝葉斯分類器的電力變壓器設(shè)備故障診斷研究 [J].電子設(shè)計(jì)工程,2017,25(15):54-57+61.
[10] 梁浩波.基于文本挖掘的用電客戶訴求智能聚類研究 [J].廣東電力,2016,29(8):45-50+66.
作者簡(jiǎn)介:謝志煒(1984-),男,漢族,廣東廣州人,工程
師,碩士,研究方向:配電網(wǎng)工程管理、配電網(wǎng)工程造價(jià)管理、配電網(wǎng)規(guī)劃;馮鴻懷(1981-),男,漢族,廣東恩平人,信息系統(tǒng)項(xiàng)目管理師,研究方向:電力行業(yè)信息化、大數(shù)據(jù)分析;通訊作者:許銳埼(1995-),男,漢族,廣東潮陽(yáng)人,碩士研究生,研究方向:電力數(shù)據(jù)挖掘分析;李慧夫(1994-),男,漢族,湖北咸寧人,碩士研究生,研究方向:電力數(shù)據(jù)挖掘分析。