楊銳 陳偉 何濤 張敏 李蕊伶 岳芳
摘?要:[目的/意義]針對能源政策語義信息豐富的特點(diǎn),研究不同環(huán)境下卷積神經(jīng)網(wǎng)絡(luò)模型對能源政策文本特征分類識別的效果并提出優(yōu)化方法,輔助能源政策信息資源進(jìn)行自動分類操作,方便研究人員更好地進(jìn)行能源政策解讀。[方法/過程]在不同環(huán)境下利用字符級和詞級卷積神經(jīng)網(wǎng)絡(luò)模型對能源政策自動文本分類識別效果進(jìn)行實(shí)驗(yàn),從標(biāo)題、內(nèi)容、核心主題句等角度全面對比分析,利用Doc2Vec抽取不同比例核心主題句,將這些主題信息融入卷積神經(jīng)網(wǎng)絡(luò)模型中以對實(shí)驗(yàn)進(jìn)行優(yōu)化。[結(jié)果/結(jié)論]隨著核心主題句抽取率的提高F1均值呈正態(tài)分布,當(dāng)抽取率為70%時達(dá)到平衡,神經(jīng)網(wǎng)絡(luò)模型評估F1均值為83.45%,較實(shí)驗(yàn)中的其它方法均有所提高,通過Doc2Vec提取主題信息,并將其融入卷積神經(jīng)網(wǎng)絡(luò)的方法有效提升了卷積神經(jīng)網(wǎng)絡(luò)模型自動文本分類的效果。
關(guān)鍵詞:能源政策;卷積神經(jīng)網(wǎng)絡(luò);文本分類;詞向量;文本向量
DOI:10.3969/j.issn.1008-0821.2020.04.005
〔中圖分類號〕TP391?〔文獻(xiàn)標(biāo)識碼〕A?〔文章編號〕1008-0821(2020)04-0042-08
Text Classification Method Based on Convolutional
Neural Network Using Topic Information
Yang Rui1,2?Chen Wei1,2,3?He Tao4?Zhang Min1,2?Li Ruiling1,2?Yue Fang1,2
(1.Wuhan Library,Chinese Academy of Sciences,Wuhan 430074,China;
2.Key Laboratory of Science and Technology of Hubei Province,Wuhan 430074,China;
3.School of Economics and Management,University of Chinese Academy of Sciences,Beijing 100190,China;
4.Department of Information Security,Naval University of Engineering,Wuhan 430033,China)
Abstract:[Purpose/Significance]In view of the rich semantic information of energy policy,this paper studies the effect of convolutional neural network model on energy policy text feature classification and recognition under different environments,and proposes optimization methods to assist the automatic classification operation of energy policy information resources,so as to facilitate researchers to better interpret energy policy.[Method/Process]This paper used character-level and word-level convolution neural network model to test the effect of automatic classification and recognition of energy policy texts in different environments.It made a comprehensive comparative analysis from the perspective of title,content and core topic sentences,and extracted different proportion of core topic sentences by Doc2Vec for optimization experiments.[Result/Conclusion]With the increase of the extraction rate of core topic sentences,the average value of F1 was normal distribution.When the extraction rate is 70%,the balance was reached.The average value of F1 evaluated by the neural network model was 83.45%.Compared with other methods in the experiment,the using of topic information which was extracted with Doc2Vec effectively improved the automatic classification effect of the convolutional neural network model.
Key words:energy policy;CNN;text classification;Word2Vec;Doc2Vec
能源政策是由國家或地區(qū)圍繞能源的生產(chǎn)、供應(yīng)和消費(fèi)而制定的一系列行動綱領(lǐng)或政策規(guī)劃,多涉及于產(chǎn)品價格、技術(shù)裝備升級改造、能源戰(zhàn)略儲備等多個方面。目前國內(nèi)主流數(shù)據(jù)庫對能源政策的分類體系差異明顯,各個體系之間存在一定的擴(kuò)展和重疊。由于分類體系不統(tǒng)一,研究人員在進(jìn)行內(nèi)容解讀時,難以進(jìn)行有效梳理和對比分析。針對以上情況,本文以能源政策文本為出發(fā)點(diǎn),在梳理能源政策文本類型的基礎(chǔ)上,將能源政策文本特征與深度學(xué)習(xí)技術(shù)相結(jié)合,對基于字符級和詞級卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行全面的能源政策文本自動分類對比實(shí)驗(yàn)和效果評估,并在此基礎(chǔ)上提出一種融合主題信息的卷積神經(jīng)網(wǎng)絡(luò)文本分類方法。該方法通過對能源政策文本進(jìn)行句向量構(gòu)建以抽取主題信息,然后將這些主題信息添加到卷積神經(jīng)網(wǎng)絡(luò)的輸入之中,從而構(gòu)建出更為全面的輸入特征以提高政策文本的自動分類效果。
1?相關(guān)研究
文本分類是指按照已定義好的主題類別,對數(shù)據(jù)集中的每個文檔劃分類別,是自然語言處理領(lǐng)域的一個經(jīng)典課題。傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行文本分類通常主要基于向量空間模型(VSM,Vector Space Model)[1]進(jìn)行,如樸素貝葉斯算法、支持向量機(jī)、隨機(jī)森林[2]等。向量空間模型在文本主題特征化時,更多考慮了詞語在空間分布上的特征,即詞的前后關(guān)系,而忽略了詞語在句子或全文中語義上的相關(guān)性。2013年谷歌公司公開發(fā)表一款用于詞向量計算的工具Word2Vec[3],它將詞語用向量的方式進(jìn)行表達(dá),向量的每一個維度都代表了詞語的一個特征,解決了VSM模型所生成的特征維度過高、數(shù)據(jù)稀疏等問題[4]。但當(dāng)進(jìn)行長文本處理時,Word2Vec對上下文的語義分析能力仍需要較大提升。2014年谷歌公司的Quoc Le和Tomas Mikolov繼續(xù)在Word2Vec的基礎(chǔ)上提出了Doc2Vec方法[5]。該方法保留了句子中詞語的順序關(guān)系,使得每一個詞向量都具有了語義,能夠更好地處理文本自動分類的問題。隨著詞向量和文本向量的發(fā)展,相關(guān)學(xué)者和機(jī)構(gòu)逐步開始利用卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network)在自然語言處理自動文本分類領(lǐng)域進(jìn)行探索研究[6]。其中在模型優(yōu)化方面,Kalchbrenner N等基于CNN進(jìn)行了句子建模的研究[7],通過動態(tài)池化方法來構(gòu)建動態(tài)卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的結(jié)構(gòu)用于句子的語義建模,誤差率減少了25%以上。在算法融合方面,殷亞博等人基于CNN和KNN進(jìn)行了短文本分類研究[8],實(shí)驗(yàn)結(jié)果準(zhǔn)確率比基于TF-IDF的KNN算法效果有10%以上的提升。騰訊AI Lab聯(lián)合香港中文大學(xué)提出的主題記憶網(wǎng)絡(luò)將主題模型與文本分類在神經(jīng)網(wǎng)絡(luò)框架進(jìn)行有效融合,利用卷積神經(jīng)網(wǎng)絡(luò)作為文本分類器,實(shí)驗(yàn)證明該方法顯著提升了自動文本分類的性能[9]。在應(yīng)用研究方面賴文輝等基于CNN和詞向量進(jìn)行了垃圾短信的分類識別應(yīng)用[10],識別準(zhǔn)確率相較于傳統(tǒng)模型提高了2.4%~5.1%。
2?研究方法
目前能源政策文本分類通常采用《能源經(jīng)濟(jì)學(xué)》[11]一書中提出的九大類分類體系標(biāo)準(zhǔn),即能源開發(fā)投資政策、能源工業(yè)政策、能源技術(shù)裝備政策、能源價格稅收信貸政策、能源消費(fèi)政策、能源進(jìn)出口政策、能源外交政策、新能源政策和能源安全政策。筆者通過對知網(wǎng)、萬方以及北大法寶等政策法規(guī)數(shù)據(jù)庫的調(diào)研發(fā)現(xiàn),能源政策文本數(shù)據(jù)多以國家、地方和機(jī)構(gòu)的法規(guī)、規(guī)章以及司法解釋為主,一方面各個數(shù)據(jù)庫雖然大多都是從資源類型的角度進(jìn)行區(qū)分,但不同的數(shù)據(jù)庫之間分類標(biāo)準(zhǔn)也存在差異[12],例如,知網(wǎng)的政策分類體系中還包括團(tuán)體規(guī)定、萬方的政策分類體系中還包括合同范本以及北大法寶的政策分類體系中還包括行政許可批復(fù)等等各不相同;另一方面通過從內(nèi)容本身的解讀來看,各個類別內(nèi)的政策文本仍然缺乏統(tǒng)一有效的類別梳理,不同類別的政策也存在著一定的重疊。由于這些政策文本范圍拓展和內(nèi)容重疊,導(dǎo)致文本分類特征不明顯,如新能源政策中均包含了其他8類政策類別,算法模型難以對傳統(tǒng)的9種類型進(jìn)行有效的判定區(qū)分。為了提高文本自動分類的準(zhǔn)確度,更好地支撐政策內(nèi)容分析以及主題識別等文本計算工作,筆者在對各類數(shù)據(jù)庫的政策文本內(nèi)容進(jìn)行深度解讀后,在傳統(tǒng)分類基礎(chǔ)上進(jìn)行了類型歸納合并,從投資開發(fā)、技術(shù)裝備、安全管理和市場消費(fèi)4個方面對能源政策進(jìn)行劃分,具體包括能源投資開發(fā)與建設(shè)類政策、能源科技與產(chǎn)業(yè)裝備類政策、能源安全生產(chǎn)管理類政策和能源市場調(diào)節(jié)與監(jiān)管類政策,以此作為研究出發(fā)點(diǎn)。
2.1?研究思路
融合主題信息的卷積神經(jīng)網(wǎng)絡(luò)文本分類方法,研究思路如圖1所示。
首先將獲取到的能源政策文本數(shù)據(jù)集按照4種類型特征進(jìn)行人工標(biāo)注并進(jìn)行預(yù)處理,然后將數(shù)據(jù)集分成測試數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集,對數(shù)據(jù)集分別從標(biāo)題、內(nèi)容以及核心主題句3個方面進(jìn)行字符級和詞級[13]的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練,利用Doc2Vec文本向量模型進(jìn)行文本句向量的計算和分析并獲取文本的主題句[14],通過不同抽取率進(jìn)行對比試驗(yàn)。最后對能源政策自動文本分類評估結(jié)果進(jìn)行全面地分析。
2.2?數(shù)據(jù)收集和預(yù)處理
本文利用網(wǎng)絡(luò)采集技術(shù)從相關(guān)機(jī)構(gòu)網(wǎng)站采集能源政策文本,然后進(jìn)行過濾和查重,去掉與能源政策主題無關(guān)的冗余信息形成原始語料,對原始語料內(nèi)容進(jìn)行清洗,去掉各種與分析內(nèi)容無關(guān)的信息,共計21 054篇原始語料作為樣本數(shù)據(jù)集。按照4種能源政策分類類型,包括能源投資開發(fā)與建設(shè)類政策、能源科技與產(chǎn)業(yè)裝備類政策、能源安全生產(chǎn)管理類政策和能源市場調(diào)節(jié)與監(jiān)管類政策,對文本進(jìn)行手工標(biāo)注,每個類別從政策文本中篩選出4 000篇作為樣本數(shù)據(jù),在CNN模型定型完成后,再將樣本數(shù)據(jù)輸入其中進(jìn)行測試,評估模型性能。本文采用十折交叉驗(yàn)證法進(jìn)行CNN模型泛化能力評估,將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,訓(xùn)練集用于模型訓(xùn)練,測試集用于評估模型性能[15]。具體將能源政策樣本數(shù)據(jù)集按照分類平均分成10等份,每次實(shí)驗(yàn)抽取9份組成訓(xùn)練集,剩余1份組成測試集,每次實(shí)驗(yàn)訓(xùn)練集數(shù)據(jù)為14 400個,測試集數(shù)據(jù)為1 600個,最后得到卷積神經(jīng)網(wǎng)絡(luò)分類器性能指標(biāo),取10次實(shí)驗(yàn)結(jié)果的均值進(jìn)行評估。
2.3?理論模型
實(shí)驗(yàn)采用的模型均為基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)的數(shù)學(xué)模型。
2.3.1?詞向量模型
Word2Vec是一種淺層神經(jīng)網(wǎng)絡(luò)模型。Word2Vec的網(wǎng)絡(luò)結(jié)構(gòu)分為CBOW和SkipGram兩種方式[16-17]。其中SkipGram根據(jù)滑動窗口中的當(dāng)前詞來預(yù)測上下文中各個詞的生成概率。SkipGram的網(wǎng)絡(luò)結(jié)構(gòu)主要包括輸入層、隱含層以及輸出層,如圖2所示。
輸入層中通過One-hot編碼將所有的詞表示成多維向量,在輸出層中向量值通過隱含層以及連接隱含層和輸出層之間的權(quán)重矩陣計算得到,最后輸出層應(yīng)用Softmax激活函數(shù)計算每一個詞的出現(xiàn)概率[18]。Softmax函數(shù)定義為:
P(y=wn|x)=exn∑Nk=1exk
其中x表示N維輸出向量,xn表示輸出向量中與詞wn對應(yīng)的值。
在實(shí)驗(yàn)中進(jìn)行詞向量訓(xùn)練的基本參數(shù)包括網(wǎng)絡(luò)結(jié)構(gòu)SkipGram、詞向量維度300、訓(xùn)練的窗口大小5以及循環(huán)迭代次數(shù)100等。
2.3.2?主題信息提取
本文采用句向量模型來對主題信息進(jìn)行提取。Word2Vec基于詞向量進(jìn)行語義分析,但是并不具有上下文的語義分析能力。該模型可以獲得句子/段落/文本的向量表達(dá),通過計算距離找到句子/段落/文本之間的相似性,該模型的網(wǎng)絡(luò)結(jié)構(gòu)分為PV-DM和PV-DBOW兩種方式[19]。其中PV-DBOW和Word2Vec的SkipGram相似,如圖3所示。
PV-DBOW忽略輸入的上下文,在每次迭代的時候,從文本中抽取得到一個窗口,再從這個窗口中隨機(jī)采樣一個詞作為預(yù)測任務(wù)讓模型預(yù)測。通過生成的文本向量計算句子向量的余弦相似度,最終實(shí)現(xiàn)主題句的抽取。使用的余弦相似度公式為:
cos(θ)=∑ni=1(xi×yi)∑n=1(xi)2×∑ni=1(yi)2
在實(shí)驗(yàn)中進(jìn)行文本向量訓(xùn)練的基本參數(shù)包括網(wǎng)絡(luò)結(jié)構(gòu)PV-DBOW、句向量維度300、訓(xùn)練的窗口大小5以及循環(huán)迭代次數(shù)30等。
2.3.3?卷積神經(jīng)網(wǎng)絡(luò)
CNN模型包括輸入層、隱含層以及輸出層,利用梯度下降法最小化損失函數(shù)對權(quán)重參數(shù)逐層反向調(diào)節(jié)[20],通過迭代訓(xùn)練來提高模型分類效果。本文設(shè)計的CNN模型如圖4所示。
1)輸入層設(shè)計:在利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練過程中由于使用梯度下降方法來進(jìn)行學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò)的輸入特征需要在輸入層進(jìn)行標(biāo)準(zhǔn)化處理。處理過程中將文本中經(jīng)過分詞處理以后的詞對應(yīng)的詞向量依次排列形成特征矩陣作為輸入數(shù)據(jù)傳入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。每個詞向量存儲在利用SkipGram網(wǎng)絡(luò)結(jié)構(gòu)提前訓(xùn)練好的詞向量模型中,假設(shè)文本中有n個詞,每個詞向量維度為v,那么這個特征矩陣就是n*v的二維矩陣。
2)卷積層設(shè)計:通過內(nèi)部包含的卷積核進(jìn)行特征提取,特征提取的計算方法為[21]:
Si=f(Ch*v*Ti∶i+h-1+b)
其中Ch*v為卷積核,行數(shù)h為卷積核窗口大小,列數(shù)v為詞向量維度,T為文本特征矩陣,每個卷積核會依次與h行v列的特征矩陣做卷積操作,b為偏置量。f為神經(jīng)元激活函數(shù),在訓(xùn)練過
程中為了防止神經(jīng)元特征信息丟失以及克服梯度消失問題,設(shè)計中采用LeakyReLU方法[22]作為激活函數(shù):
f(x)=max(0,x)+γmin(0,x)為固定較小常數(shù)
通過卷積核特征提取后得到特征圖:
S=[S1,S2,…,Sm-h+1]
在卷積層的設(shè)計過程中,考慮到一個卷積核提取特征存在不充分性的問題,在卷積層中包含了C3*300、C4*300以C5*3003種不同大小的卷積核,每個卷積核的操作模式設(shè)置為相同,每種特征圖各提取出100張。最終在卷積層的輸出端得到共300張?zhí)卣鲌D。
3)池化層設(shè)計:在卷積層進(jìn)行特征提取后,由于特征圖的維度還是很高,因此需要將特征圖傳遞至池化層通過池化函數(shù)進(jìn)行特征選擇和信息過濾。通過池化函數(shù)將特征圖中單個點(diǎn)的結(jié)果替換為其相鄰區(qū)域的特征圖統(tǒng)計量,池化過程與卷積層掃描特征圖的過程相同[23]。在實(shí)驗(yàn)中采用最大池化函數(shù)(MaxPooling)對卷積核獲取的特征保留最大值同時放棄其它特征值。
4)全連接層設(shè)計:對提取的特征進(jìn)行非線性組合得到輸出,全連接層本身不具有特征提取能力,主要用來整合池化層中具有類別區(qū)分性的特征信息,在實(shí)驗(yàn)中采用LeakyReLU函數(shù)[24]作為全連接層神經(jīng)元的激勵函數(shù)。
5)輸出層設(shè)計:使用多類交叉熵函數(shù)(Multiclass Cross Entropy)作為損失函數(shù)以及歸一化指數(shù)函數(shù)(Softmax)[25]作為激活函數(shù)輸出特征分類標(biāo)簽,完成文本分類任務(wù)。
2.4?評價指標(biāo)
對于分類器性能優(yōu)劣判斷指標(biāo)采用F值,F(xiàn)值能夠較好反映神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中的表現(xiàn),它是精確率和召回率的加權(quán)調(diào)和平均值[26],計算公式為:
F=(α2+1)*P*Rα2*(P+R)
式中:P為精確率(Precision)、R為召回率(Recall)、α為權(quán)重因子。
P表示對于給定測試集的一個分類,分類模型正確判斷為該類的樣本數(shù)與分類模型判斷屬于該類的總樣本數(shù)之比。
R召回率的定義為:對于給定測試集的一個分類,分類模型預(yù)測正確判斷為該類的樣本數(shù)與屬于該類的總樣本數(shù)之比。
當(dāng)α=1時,F(xiàn)值是F1值,表示精確率和召回率的權(quán)重一樣,是最常用的一種評價指標(biāo),F(xiàn)1值越高,分類效果越好。F1的計算公式為:
F1=2*P*RP+R
在對比各組實(shí)驗(yàn)的分類效果時,以CNN模型在政策文本分類上的F1值作為判斷標(biāo)準(zhǔn)。
3?實(shí)驗(yàn)過程
3.1?實(shí)驗(yàn)環(huán)境配置
3.2?實(shí)驗(yàn)設(shè)計
為了驗(yàn)證主題信息對CNN文本分類效果的影響,設(shè)計了4組實(shí)驗(yàn)與融合主題信息的CNN文本分類方法進(jìn)行比較,在實(shí)驗(yàn)過程中CNN超參數(shù)的設(shè)置如表2所示。
實(shí)驗(yàn)1:采用北京師范大學(xué)中文信息處理研究所構(gòu)建的開放中文語言向量資源,考慮到能源政策文本內(nèi)容的語義環(huán)境和人民日報有一定的相似性,選取其中的1946-2017年的人民日報詞向量語料庫做為Word2Vec訓(xùn)練好的模型實(shí)例,分別以字符級的標(biāo)題和全文作為訓(xùn)練集和測試集,評估采用大規(guī)模詞向量語料庫對字符級CNN自動分類模型的性能影響。
實(shí)驗(yàn)2:在實(shí)驗(yàn)1里面的詞向量語料庫,使用了不同的字符以及詞等上下文特征的中文詞向量嵌入訓(xùn)練,因此采用相同的詞向量語料庫,以詞級的標(biāo)題和全文作為訓(xùn)練集和測試集,評估采用大規(guī)模詞向量語料庫對詞級CNN自動分類模型的性能影響。
實(shí)驗(yàn)3:采用16 000篇能源領(lǐng)域政策文本內(nèi)容作為語料生成Word2Vec詞向量,采用SkipGram網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練,分別以字符級的標(biāo)題和全文作為訓(xùn)練集和測試集,評估采用自訓(xùn)練的詞向量模型對字符級CNN自動分類模型的性能影響。
實(shí)驗(yàn)4:與實(shí)驗(yàn)3一樣采用自訓(xùn)練詞向量模型,以詞級的標(biāo)題和全文作為訓(xùn)練集和測試集,評估采用自訓(xùn)練的詞向量模型對詞級CNN自動分類模型的性能影響。
實(shí)驗(yàn)5:在前面4個實(shí)驗(yàn)的基礎(chǔ)上利用Doc2Vec進(jìn)行數(shù)據(jù)集文本向量模型訓(xùn)練,以文本標(biāo)題為核心主題句利用文本向量相似度計算的方法提取與標(biāo)題相似度最高的主題句放入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,評估介于標(biāo)題和全文之間的核心主題內(nèi)容對CNN自動分類模型的性能影響。
3.3?實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果如表3、表4所示。
4?結(jié)果分析
在實(shí)驗(yàn)過程中,通過對能源政策文本的解讀,發(fā)現(xiàn)對于有些文本存在內(nèi)容屬于多個分類的問題,在數(shù)據(jù)集人工標(biāo)注過程中產(chǎn)生了一定的偏差,直接影響到CNN模型的分類效果,針對以上實(shí)驗(yàn)結(jié)果排除這些影響并在相同的迭代次數(shù)下進(jìn)行分析。
4.1?字符級和詞級CNN模型
從表3實(shí)驗(yàn)結(jié)果來看,不管是采用自訓(xùn)練的詞向量語料還是開放的大規(guī)模詞向量語料,詞級CNN模型整體好于字符級CNN模型,F(xiàn)1均值提升范圍約1%~3%。字符級和詞級語言模型的區(qū)別在
于字符級或者詞級的文本信息作為CNN模型的最小處理單元。對于能源政策文本通常具備較強(qiáng)的行文規(guī)范以及上下文之間具備較強(qiáng)的語義關(guān)系,從語義空間的角度,詞級語言模型能夠更好地表達(dá)文本中的語法和上下文語義關(guān)系,然后能夠基于CNN模型去進(jìn)一步放大詞向量的語義表達(dá)能力,而字符級語言模型以單個字符進(jìn)行處理時丟棄了詞所具備的語義信息,因此對于能源政策文本采用詞級CNN模型能夠達(dá)到更好的分類效果[27]。另一方面實(shí)驗(yàn)觀察到從全文的角度采用自定義詞向量的詞級CNN模型使用特定領(lǐng)域內(nèi)的語料進(jìn)行訓(xùn)練,對同領(lǐng)域的文本分類效果有一定的提升,但當(dāng)語料擴(kuò)大到100M以上時,詞級CNN模型的分類效果差異較小,為0.22%。
4.2?標(biāo)題和全文作為數(shù)據(jù)集
從表3實(shí)驗(yàn)結(jié)果來看,在字符級CNN模型分類效果上,采用標(biāo)題作為數(shù)據(jù)集好于采用全文作為數(shù)據(jù)集,F(xiàn)1均值提升了0.58%和0.61%,在詞級CNN模型分類效果上,采用全文作為數(shù)據(jù)集好于采用標(biāo)題作為數(shù)據(jù)集,F(xiàn)1均值提升了1.82%和0.86%。對于第一種情況采用字符級CNN模型,缺乏對于能源政策文本語義特征描述,但是從標(biāo)題的角度,是對能源政策文本內(nèi)容的高度概括,標(biāo)題作為短文本具備明顯的主題性在一定程度上彌補(bǔ)了CNN模型訓(xùn)練特征不足的問題,因此分類效果好于全文。另一方面采用詞級CNN模型時,全文所包含的語義特征高于標(biāo)題所表達(dá)的語義特征,通過CNN模型的特征學(xué)習(xí)能力更容易產(chǎn)生好的分類效果。
4.3?基于Doc2Vec不同的主題句抽取率
抽取率為能源政策文本中主題句占該文本全部句子的比例。從表4的5個實(shí)驗(yàn)結(jié)果來看,以表3的表現(xiàn)最好的第四個實(shí)驗(yàn)作為基準(zhǔn)線進(jìn)行測試,主題句抽取率從10%逐步提升到100%,能源政策文本分類效果呈現(xiàn)出逐步上升隨后下降的正態(tài)分布趨勢,在抽取率為70%的時候,F(xiàn)1均值為83.45%,達(dá)到最高。利用Doc2Vec模型計算每個句子與標(biāo)題的相似度,從高到低進(jìn)行排序和抽取,相似度較高的句子包含更多的主題特征詞,相似度較低的句子包含更多的冗余信息[28],為了使得CNN模型的性能最大化,需要采用與其分類特點(diǎn)相匹配的更多的特征詞進(jìn)行迭代訓(xùn)練來達(dá)到較好的收斂效果。因此主題的特征詞信息和冗余信息的比例對CNN模型的分類效果產(chǎn)生一定的影響,該實(shí)驗(yàn)在70%的時候抽取比例達(dá)到平衡,使得分類效果最佳。
5?結(jié)?語
本文結(jié)合能源政策文本以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行了全面的自動分類模型對比分析,并提出了一種融合主題信息的卷積神經(jīng)網(wǎng)絡(luò)文本分類方法。該方法在能源政策文本自動分類任務(wù)評估上F1均值達(dá)到83.45%,較實(shí)驗(yàn)中的其它CNN分類模型均有所提高。在后續(xù)的工作中將更深入的研究影響模型性能的因素,并且將研究成果應(yīng)用到相關(guān)工作中以提供業(yè)務(wù)服務(wù)。
參考文獻(xiàn)
[1]白璐.基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類器的設(shè)計與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2018.
[2]王星峰.基于CNN和LSTM的智能文本分類[J].遼東學(xué)院學(xué)報:自然科學(xué)版,2019,26(2):126-132.
[3]Kim Y.Convolutional Neural Networks for Sentence Classification[J].Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP 2014),2014:1746-1751.
[4]Johnson R,Zhang T.Effective Use of Word Order for Text Categorization with Convolutional Neural Networks[J].To Appear:NAACL-2015,2015.
[5]Nguyen T H,Grishman R.Relation Extraction:Perspective from Convolutional Neural Networks[J].Workshop on Vector Modeling for NLP,2015:39-48.
[6]Santos C N dos,Gatti M.Deep Convolutional Neural Networksfor Sentiment Analysis of Short Texts[J].In COLING-2014,2014:69-78.
[7]Kalchbrenner N,Grefenstette E,Blunsom P.A Convolutional NeuralNetwork for Modelling Sentences[J].Acl,2014:655-665.
[8]殷亞博,楊文忠,楊慧婷,等.基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類算法研究[J].計算機(jī)工程,2018,44(7):193-198.
[9]Zeng J,Li J,Song Y,et al.Topic Memory Networks for Short Text Classification[J].2018.
[10]賴文輝,喬宇鵬.基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的垃圾短信識別方法[J].計算機(jī)應(yīng)用,2018,38(9):2469-2476.
[11]周冬.能源經(jīng)濟(jì)學(xué)[M].北京:北京大學(xué)出版社,2015.
[12]楊衛(wèi)東,龐昌偉.中國能源政策目標(biāo)及協(xié)調(diào)戰(zhàn)略分析[J].人民論壇·學(xué)術(shù)前沿,2018,(5):62-66.
[13]劉敬學(xué),孟凡榮,周勇,等.字符級卷積神經(jīng)網(wǎng)絡(luò)短文本分類算法[J].計算機(jī)工程與應(yīng)用,2019,55(5):135-142.
[14]齊凱凡.基于卷積神經(jīng)網(wǎng)絡(luò)的新聞文本分類問題研究[D].西安:西安理工大學(xué),2018.
[15]張小川,余林峰,桑瑞婷,等.融合CNN和LDA的短文本分類研究[J].軟件工程,2018,21(6):17-21.
[16]Zhang Y,Wallace B.A Sensitivity Analysis of(and Practitioners Guide to)Convolutional Neural Networks for Sentence Classification[J].2015.
[17]李林.基于Word2vec和卷積神經(jīng)網(wǎng)絡(luò)的文本分類研究[D].重慶:西南大學(xué),2018.
[18]Johnson R,Zhang T.Semi-supervised Convolutional Neural Networks for Text Categorization via Region Embedding[J].2015.
[19]Sun Y,Lin L,Tang D,et al.Modeling Mention,Context and Entity with Neural Networks for Entity Disambiguation,(Ijcai)[J].2015:1333-1339.
[20]Wang P,Xu J,Xu B,et al.Semantic Clustering and Convolutional Neural Network for Short Text Categorization[J].Proceedings ACL 2015,2015:352-357.
[21]孫璇.基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法研究[D].上海:上海師范大學(xué),2018.
[22]盧玲,楊武,楊有俊,等.結(jié)合語義擴(kuò)展和卷積神經(jīng)網(wǎng)絡(luò)的中文短文本分類方法[J].計算機(jī)應(yīng)用,2017,37(12):3498-3503.
[23]Shen Y,He X,Gao J,et al.A Latent Semantic Model withConvolutional-Pooling Structure for Information Retrieval[J].Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management-CIKM 14,2014:101-110.
[24]余本功,張連彬.基于CP-CNN的中文短文本分類研究[J].計算機(jī)應(yīng)用研究,2018,35(4):1001-1004.
[25]夏從零,錢濤,姬東鴻.基于事件卷積特征的新聞文本分類[J].計算機(jī)應(yīng)用研究,2017,34(4):991-994.
[26]蘇金樹,張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報,2006,(9):1848-1859.
[27]Zeng D,Liu K,Lai S,et al.Relation Classification via Convolutional Deep Neural Network[J].Coling,2014:2335-2344.
[28]Weston J,Adams K.# T AG S PACE:Semantic Embeddings from Hashtags[J].2014:1822-1827.
(責(zé)任編輯:郭沫含)