一種深度學(xué)習(xí)的信息文本分類算法

2017-06-10 23:12呂淑寶王明月翟祥陳宇

哈爾濱理工大學(xué)學(xué)報(bào) 2017年2期

呂淑寶+王明月+翟祥+陳宇

摘要：針對傳統(tǒng)文本分類算法準(zhǔn)確率低和正確率分布不均勻的問題，提出了基于深度學(xué)習(xí)的文本分類算法。深度信念網(wǎng)絡(luò)具有強(qiáng)大的學(xué)習(xí)能力，可以從高維的原始特征中提取高度可區(qū)分的低維特征，不僅能夠更全面的考慮到文本信息量，而且能夠進(jìn)行快速分類。采用TFIDF方法計(jì)算文本特征值，利用深度信念網(wǎng)絡(luò)構(gòu)造分類器進(jìn)行精準(zhǔn)分類。實(shí)驗(yàn)結(jié)果表明，與支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和極端學(xué)習(xí)機(jī)等常用分類算法相比，該算法有更高的準(zhǔn)確率和實(shí)用性，為文本的分類研究開拓了新思路。

關(guān)鍵詞：文本分類；深度信念網(wǎng)絡(luò)；分類器

DOI：1015938/jjhust201702020

中圖分類號： TP181

文獻(xiàn)標(biāo)志碼： A

文章編號： 1007-2683（2017）02-0105-07

Abstract：Aiming at the problem of low categorization accuracy and uneven distribution of the traditional text classification algorithms， a text classification algorithm based on deep learning has been put forward Deep belief networks have very strong feature learning ability， which can be extracted from the high dimension of the original feature， so that the text classification can not only be considered， but also can be used to train classification model The formula of TFIDF is used to compute text eigenvalues， and the deep belief networks are used to construct the classifier The experimental results show that compared with the commonly used classification algorithms such as support vector machine， neural network and extreme learning machine， the algorithm has higher accuracy and practicability， and it has opened up new ideas for the research of text classification

Keywords：text classification； deep belief network； classifier

0引言

文本分類是根據(jù)提前建立好的分類器[1-2]，讓計(jì)算機(jī)對給定的未知類別的文本集進(jìn)行分類的過程[3]。一個完整的文本分類過程主要包括以下幾個部分：首先是文本預(yù)處理，將文本表示成易于計(jì)算機(jī)處理的形式；其次是文本向量表示；再次是根據(jù)訓(xùn)練集（具有類標(biāo)簽）學(xué)習(xí)建模，構(gòu)建出分類器；最后利用測試集測試建立好的分類器的性能，并不斷反饋、學(xué)習(xí)提高該分類器性能，直至達(dá)到預(yù)定的目標(biāo)。

常用的文本分類算法包括SVM（support vector machine，支持向量機(jī)） [4]，BP（back propagation）神經(jīng)網(wǎng)絡(luò)[5-6]、ELM（extreme learning machine，極端學(xué)習(xí)機(jī)）算法[4]等[7]，這些方法往往存在著有限樣本或局部最優(yōu)及過學(xué)習(xí)問題[2]，并且這些方法為了避免維度災(zāi)難通常對數(shù)據(jù)做降維處理，此時得到的結(jié)果并不能很好的反應(yīng)文本的特征，最終導(dǎo)致分類準(zhǔn)確率低下。因此，本文主要研究如何文本分類的準(zhǔn)確率和效率。

目前國內(nèi)對于文本分類的研究比較少，因此如何提高文本分類的準(zhǔn)確率，是一項(xiàng)重要的研究內(nèi)容[8] 。

深度學(xué)習(xí)是通過構(gòu)建具有多個隱層的機(jī)器學(xué)習(xí)模型組合低層特征形成更加抽象的高層特征來表示屬性類別，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征[9]。深度學(xué)習(xí)具有很強(qiáng)大的自我學(xué)習(xí)挖掘特征的能力，可以得到最接近數(shù)據(jù)本質(zhì)的表達(dá)和模式，能夠極大的提高預(yù)測、分類等性能[10]。2006年，Geoffrey Hinton提出深度信念網(wǎng)絡(luò)（deep belief network，DBN） [11]。它是一種概率生成模型，通過訓(xùn)練其神經(jīng)元間的權(quán)重可以讓整個網(wǎng)絡(luò)按照最大概率來生成訓(xùn)練數(shù)據(jù)，從而實(shí)現(xiàn)特征識別和數(shù)據(jù)分類。

深度信念網(wǎng)絡(luò)由多層神經(jīng)網(wǎng)絡(luò)構(gòu)成，且這些結(jié)構(gòu)之間均是非線性映射的，這使得它可以很好的完成復(fù)雜函數(shù)的逼近，從而實(shí)現(xiàn)快速的訓(xùn)練。此外，深度信念網(wǎng)絡(luò)輸入數(shù)據(jù)的重要驅(qū)動變量是通過貪心算法逐層訓(xùn)練每一層網(wǎng)絡(luò)得到的，學(xué)習(xí)過程中既保證了數(shù)據(jù)本質(zhì)特征的抽取，同時也避免了過擬合現(xiàn)象的出現(xiàn)。

基于上述原因，提出了基于深度學(xué)習(xí)的文本分類算法。首先，利用中科院中文分詞系統(tǒng)對文本進(jìn)行預(yù)處理；其次，使用TFIDF（Term Frequency–Inverse Document Frequency）公式計(jì)算文本分詞的特征值，構(gòu)成初始特征矩陣[12]；然后，利用DBN良好的特征學(xué)習(xí)能力，從原始的高維特征中自動提取出高度可區(qū)分的低維特征；最后，將得到的特征輸入 softmax回歸分類器實(shí)現(xiàn)分類。

1關(guān)鍵技術(shù)

11文本的獲取

手動建立文本庫，在網(wǎng)絡(luò)上大量搜集資料匯總，總結(jié)出5類文本：花、樹木、蟲、土壤、水類文本，同樣本文研究的算法也適用于其他類型的文本，本文選取的實(shí)驗(yàn)樣本如圖1～3所示（經(jīng)過分詞后的文本）[13]。

從所獲得的數(shù)據(jù)可知，不同類別的樣本含有一些可將該類文本與其他類別文本區(qū)分開的特征詞。由圖2可看出花類文本中，典型特征詞有花、花蕊、花柄等專業(yè)性術(shù)語[13]；由圖2可看出蟲類文本中，含有的關(guān)鍵特征詞包括蟲、觸角、尾須等。由圖3可看出土壤類文本中，含有的關(guān)鍵特征詞包括土、土壤、肥力等。樹木類、水類文本含有的典型特征詞顯然也同樣如此。

通過ICTCLAS系統(tǒng)（institute of computing technology， chinese lexical analysis system）對初始文本進(jìn)行分詞和去停用詞，從而得到實(shí)驗(yàn)所需的文本特征詞，然后使用經(jīng)典的TFIDF公式計(jì)算特征詞的權(quán)值，構(gòu)成文本初始特征矩陣進(jìn)行實(shí)驗(yàn)[13]。

12文本表示

假設(shè)所有的文本共有n個特征，形成n維的向量空間，每一個文本d可用n維的特征向量來表示：

13文本分類算法

傳統(tǒng)的支持向量機(jī)算法、BP神經(jīng)網(wǎng)絡(luò)算法等受樣本影響較大，因此不同樣本分類的正確率差異較大，基于深度學(xué)習(xí)的文本分類算法實(shí)驗(yàn)得到了較好的效果，分類結(jié)果精準(zhǔn)并且正確率分布均勻[8]。

使用深度信念網(wǎng)絡(luò)進(jìn)行文本分類主要包括兩個過程：DBN預(yù)訓(xùn)練和網(wǎng)絡(luò)調(diào)優(yōu)。其他的分類算法為了避免維度災(zāi)難往往需要對數(shù)據(jù)進(jìn)行降維處理，DBN可以自動從高維的原始特征中提取高度可區(qū)分的低維特征，因此不需要對數(shù)據(jù)進(jìn)行降維就可以直接開始訓(xùn)練分類模型，同時也考慮了文本足夠的信息量。在調(diào)優(yōu)DBN的過程中，可以利用DBN的權(quán)值初始化BP神經(jīng)網(wǎng)絡(luò)的各層的權(quán)值，而不是利用隨機(jī)初始值初始化網(wǎng)絡(luò)，將DBN展開成BP神經(jīng)網(wǎng)絡(luò)，最后利用 BP 算法微調(diào)優(yōu)整個網(wǎng)絡(luò)的參數(shù)，從而使得網(wǎng)絡(luò)的分類性能更優(yōu)，這個措施使DBN克服了BP網(wǎng)絡(luò)因隨機(jī)初始化權(quán)值參數(shù)而容易陷入局部最優(yōu)的缺點(diǎn)。

131DBN預(yù)訓(xùn)練

深度信念網(wǎng)絡(luò)是一種深層非線性的網(wǎng)絡(luò)結(jié)構(gòu)，它通過構(gòu)建具有多個隱層的模型來組合低層特征形成更加抽象的高層特征[9]來挖掘數(shù)據(jù)特征實(shí)現(xiàn)文本分類。假設(shè)S是一個系統(tǒng)，它包含有n層（S1，S2，…，Sn），若輸入用I表示，輸出用O表示，則可表示為：I≥S1≥S2≥…≥Sn≥O，不斷調(diào)整系統(tǒng)中的參數(shù)，使得系統(tǒng)的輸出仍然是輸入I，那么我們就可以自動得到輸入I的層次特征，即S1，S2，…，Sn。DBN（深度信念網(wǎng)絡(luò)）是一個概率生成模型，它建立了觀測數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布[15]。

DBN是由一層層的RBM（restricted boltzmann machine，受限玻爾茲曼機(jī)）不斷堆疊而成的。RBM 是一種典型的神經(jīng)網(wǎng)絡(luò)，如圖4所示。

RBM網(wǎng)絡(luò)共有2層，其中第一層稱為可視層，一般來說是輸入層，另一層是隱含層，也就是我們一般指的特征提取層。該網(wǎng)絡(luò)可視層和隱層中神經(jīng)元彼此互聯(lián)，隱層單元被訓(xùn)練去捕捉可視層單元所表現(xiàn)出來的數(shù)據(jù)的高階相關(guān)性[2]。圖4中wn×m為可視層與隱層之間的權(quán)重矩陣；b為可視層節(jié)點(diǎn)的偏移量；c為隱層節(jié)點(diǎn)的偏移量；v為可視層節(jié)點(diǎn)的狀態(tài)向量；h為隱層節(jié)點(diǎn)的狀態(tài)向量。

在訓(xùn)練DBN時，采用貪婪法逐層訓(xùn)練每一層的RBM。前一層的RBM訓(xùn)練完成后，將其結(jié)果作為下一層RBM的輸入來訓(xùn)練該層RBM，以此類推訓(xùn)練完若干RBM，從而構(gòu)建完整的DBN網(wǎng)絡(luò)，其網(wǎng)絡(luò)結(jié)構(gòu)如下圖5所示[2]。

RBM的訓(xùn)練過程，實(shí)際上是求出一個最能產(chǎn)生訓(xùn)練樣本的概率分布。也就是說，要求一個分布，在這個分布里，訓(xùn)練樣本的概率最大。由于這個分布的決定性因素在于權(quán)值w，所以我們訓(xùn)練RBM的目標(biāo)就是尋找最佳的權(quán)值。

Hinton[16]提出了一種快速算法，稱作對比分歧（contrastive divergence，簡稱CD算法）算法。這種算法只需迭代k次，就可以獲得對模型的估計(jì)，而k通常等于1。CD算法開始是用訓(xùn)練數(shù)據(jù)去初始化可視層，然后用條件分布計(jì)算隱層；然后，再根據(jù)隱層用條件分布來計(jì)算可視層。這樣產(chǎn)生的結(jié)果就是對輸入的一個重構(gòu)。具體來說，在這個訓(xùn)練階段，在可視層會產(chǎn)生一個向量v，通過它將值傳遞到隱層。反過來，可視層的輸入會被隨機(jī)的選擇，以嘗試去重構(gòu)原始的輸入信號。最后，這些新的可視的神經(jīng)激活單元將前向傳遞重構(gòu)隱層激活單元，獲得h。這些步驟就是我們熟悉的Gibbs采樣，權(quán)值更新的主要依據(jù)是隱層激活單元和可視層輸入之間的相關(guān)性差別。根據(jù)CD算法：

DBN的預(yù)訓(xùn)練過程：

1）用貪婪算法訓(xùn)練第一個RBM；

2）固定第一個RBM的權(quán)值和偏置值，將其結(jié)果的輸出作為較上一層RBM的輸入；

3）重復(fù)以上步驟任意多次，直到重構(gòu)誤差盡可能的小，此時隱藏層可作為可視層輸入數(shù)據(jù)的特征；

DBN預(yù)訓(xùn)練算法具體步驟如下：

輸入：訓(xùn)練樣本x0，可視層與隱藏層單元個數(shù)n，m ，學(xué)習(xí)率ε，最大訓(xùn)練周期T；

輸出：權(quán)重矩陣w，可視層偏置量a，隱藏層偏置量b；

步驟 1：初始化可視層單元初始狀態(tài)v1=x0，W，a，b為隨機(jī)較小的數(shù)字；

步驟 2：迭代訓(xùn)練周期t；

步驟3：通過可視層v1計(jì)算隱層h1，具體為循環(huán)計(jì)算P（h1j=1|v1）值，并以該概率值為隱藏層第j個單元取值為1的概率；

步驟4：通過隱藏層h1計(jì)算可視層v2 ，具體為循環(huán)計(jì)算P（v2i=1|h1）值，并以該概率值為可視層第i個單元取值為1的概率；

步驟 5：通過可視層v2計(jì)算可視層h2 ，具體為循環(huán)計(jì)算P（h2j=1|v2）值，并以該概率值為可視層第j個單元取值為1的概率；

步驟 6：更新參數(shù)W，a，b

步驟 7：判斷是否達(dá)到迭代次數(shù)，是轉(zhuǎn)到步驟8，否轉(zhuǎn)到步驟2；

步驟 8：輸出參數(shù)w，a，b結(jié)束；

132網(wǎng)絡(luò)調(diào)優(yōu)

在確定了網(wǎng)絡(luò)的各個權(quán)值后，再次根據(jù)樣本，以BP神經(jīng)網(wǎng)絡(luò)的算法，進(jìn)行一次有監(jiān)督的學(xué)習(xí)過程，這一過程被稱為深度信念網(wǎng)絡(luò)的調(diào)優(yōu)。如下圖6所示。

在DBN的最后一層設(shè)置BP網(wǎng)絡(luò)，接收RBM的輸出特征向量作為它的輸入特征向量，有監(jiān)督地訓(xùn)練分類器，然而每一層RBM只能確保自身層內(nèi)的權(quán)值對該層特征向量映射達(dá)到最優(yōu)，并不是對整個DBN的特征向量映射達(dá)到最優(yōu)。BP算法可以利用反向傳播網(wǎng)絡(luò)將錯誤信息自頂向下傳播至每一層RBM來調(diào)整整個DBN網(wǎng)絡(luò)，提高該網(wǎng)絡(luò)的分類性能。

2實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)首先針對文本進(jìn)行樣本選擇，如表1所示。

表1所示，實(shí)驗(yàn)選取5個類別：花、樹木、蟲、土壤、水。訓(xùn)練樣本每個類別選取1200個，共6000個。對訓(xùn)練樣本加高斯白噪聲處理得到測試樣本，每個類別選取200個，共1000個測試樣本，樣本總數(shù)7000個。

對樣本預(yù)處理之后使用TFIDF方法計(jì)算文本特征詞的權(quán)值，構(gòu)成訓(xùn)練樣本的初始特征值矩陣，然后對訓(xùn)練樣本的初始特征值矩陣加高斯白噪聲獲得測試樣本初始特征值矩陣，最后進(jìn)行分類操作。如圖7所示為基于深度學(xué)習(xí)的文本分類的流程圖。

實(shí)驗(yàn)過程中，訓(xùn)練和測試樣本初始特征矩陣維數(shù)均為1127維，文本類別總數(shù)K=5。初始化參數(shù)，DBN網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)分別為1127-1700-1000-25-5，共5層。從圖8中可以看出隨著深度學(xué)習(xí)迭代次數(shù)的增加，目標(biāo)函數(shù)的值（也即重構(gòu)方差的值）在不斷地遞減，逐漸接近最優(yōu)值01。此外，在更新過程中，我們可以看到err（重構(gòu)的方差）明顯在遞減，最開始有40000多（總共1127維，可見最開始重構(gòu)非常差），但最后只有01的err，說明最后重構(gòu)已經(jīng)比較準(zhǔn)確，非常接近原始數(shù)據(jù)的分布狀態(tài)。

表2為DBN算法的迭代次數(shù)所對應(yīng)的重構(gòu)方差數(shù)據(jù)。由表2可見，在隱層節(jié)點(diǎn)數(shù)一定時，隨著迭代次數(shù)的增加，可以降低算法的誤差，但是迭代次數(shù)越多，訓(xùn)練時間也越久。在隱含層節(jié)點(diǎn)數(shù)為1700-1000-25時，迭代次數(shù)為20時，DBN達(dá)到重構(gòu)方差最小值01，并且趨于穩(wěn)定。所以此時訓(xùn)練時間最短，分類性能最好。

表3為實(shí)驗(yàn)的訓(xùn)練時間和實(shí)驗(yàn)誤差對比，由表3可見，DBN與極端學(xué)習(xí)機(jī)算法的測試誤差率較低，分類結(jié)果比較理想，但是DBN優(yōu)于ELM，它以犧牲時間為代價提高了分類的準(zhǔn)確率。

為了對比基于深度信念網(wǎng)絡(luò)的分類效果，我們選取相同數(shù)量的樣本，每類樣本各200個，總共1000個測試樣本，為了避免維度災(zāi)難，使用PCA（主成分分析）的方法處理初始特征矩陣，得到降維后的特征矩陣，然后再用SVM、BP、ELM、這三種方法進(jìn)行分類。其中BP采用是3層的網(wǎng)絡(luò)結(jié)構(gòu)，節(jié)點(diǎn)數(shù)分別為213-12-5，迭代200次。使用libsvm311工具箱，進(jìn)行SVM實(shí)驗(yàn)。ELM選擇隱層數(shù)為40，迭代次數(shù)20[17]。結(jié)果如圖9所示，橫坐標(biāo)代表樣本數(shù)目，縱坐標(biāo)代表分類器分類的正確率。

由圖9可以看出，SVM、BP、ELM、DBN這4種分類算法在處理5種類別文本時所得到的分類正確率。SVM分類時性能比較不穩(wěn)定，5類樣本準(zhǔn)確率分布不均勻，BP和ELM分類時性能較穩(wěn)定，5類樣本的分類正確率比較均勻且數(shù)值都較高，但是從圖9中明顯可以看出DBN分類性能更優(yōu)。

圖10是四種分類算法隨著文本數(shù)量的遞增所顯示的分類正確率，橫坐標(biāo)代表文本的測試樣本個數(shù)，縱坐標(biāo)代表分類器分類的正確率。本實(shí)驗(yàn)五類樣本隨機(jī)各選取10個，合計(jì)50個樣本，從圖10中可看出，每種分類算法是在對第幾個樣本分類時判斷錯誤，也即分類算法的分類正確率的轉(zhuǎn)折點(diǎn)，對比實(shí)驗(yàn)結(jié)果可知4種分類算法中DBN算法分類性能較高。

使用1000個測試樣本，4種分類方法正確率對比結(jié)果如圖11所示，該圖可以看出每個分類器的分類效果。圖11橫坐標(biāo)代表測試樣本的數(shù)目，縱坐標(biāo)代表分類的正確率。

采用相同的訓(xùn)練樣本與測試樣本，使用SVM、BP、ELM這3種分類算法與DBN分類算法作對比，這4種算法實(shí)驗(yàn)結(jié)果如表4所示。

由實(shí)驗(yàn)結(jié)果可知，本文提出的基于深度學(xué)習(xí)的文本分類算法能夠?qū)崿F(xiàn)對上面5類文本的準(zhǔn)確分類，分類效果比基于BP、SVM、ELM的分類算法更好，并且基于深度學(xué)習(xí)的文本分類算法不需要對數(shù)據(jù)進(jìn)行降維處理就可自動從高維的原始特征中提取出高度可區(qū)分的低維特征，顯著提高了分類的效率[18]。此外，當(dāng)樣本數(shù)量達(dá)到上萬時，基于BP、SVM、ELM的分類算法由于樣本過多容易產(chǎn)生“過擬合”情況導(dǎo)致分類效果變差，但是DBN在面對大數(shù)據(jù)時表現(xiàn)出了極強(qiáng)的優(yōu)勢，不但可以考慮到文本更為全面的信息量，而且還可以快速訓(xùn)練分類模型，提高分類效率[19-20]。

3結(jié)語

基于深度學(xué)習(xí)的文本分類算法，文本特征的表達(dá)通過TFIDF方法計(jì)算權(quán)值后得到文本的初始特征矩陣來實(shí)現(xiàn)，之后進(jìn)行DBN訓(xùn)練來構(gòu)建分類器，并通過對其優(yōu)化來實(shí)現(xiàn)文本的快速精準(zhǔn)分類。實(shí)驗(yàn)結(jié)果表明文本的分類可采用深度學(xué)習(xí)的算法，分類正確率明顯高于BP、SVM、ELM分類算法，為文本分類提供了新思路[8]。

參考文獻(xiàn)：

[1]陳宇，許莉薇基于高斯混合模型的林業(yè)信息文本分類算法[J]. 中南林業(yè) 科技大學(xué) 學(xué) 報(bào)，2014，34（8）：114-119

[2]陳翠平基于深度信念網(wǎng)絡(luò)的文本分類算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2015，24（2）：121-126

[3]張浩，汪楠文本分類技術(shù)研究進(jìn)展[J].計(jì)算機(jī)與信息技術(shù)，2007，23（1）：95-96

[4]柳長源，畢曉君，韋琦基于向量機(jī)學(xué)習(xí)算法的多模式分類器的研究及改進(jìn)[J].電機(jī)與控制學(xué)報(bào)，2013，17（1）：114-118

[5]李東潔，李君祥，張?jiān)?，等基?PSO 改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)手套手勢識別[J].電機(jī)與控制學(xué)報(bào)，2014，18（8）：87-93

[6]仲偉峰，馬麗霞，何小溪PCA和改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的大米外觀品質(zhì)識別[J].哈爾濱理工大學(xué)學(xué)報(bào)，2015，20（4）：76-81

[7]李軍，乃永強(qiáng)基于ELM的機(jī)器人自適應(yīng)跟蹤控制[J].電機(jī)與控制學(xué)報(bào)，2015，19（4）：106-116

[8]陳宇，王明月，許莉薇基于DEELM的林業(yè)信息文本分類算法[J].計(jì)算機(jī)工程與設(shè)計(jì)，2015，36（9）：2412-2431

[9]朱少杰基于深度學(xué)習(xí)的文本情感分類研究[D].哈爾濱：哈爾濱工業(yè)大學(xué)，2014

[10]劉樹春基于支持向量機(jī)和深度學(xué)習(xí)的分類算法研究[D].上海：華東師范大學(xué)，2015

[11]HINTON GE，SALAKHUTDINOV RR Reducing the Dimensionality of Data with Neural Networks[J].Science，2006，313（5786）：504-507

[12]戚孝銘基于蜂群算法和改進(jìn)KNN的文本分類研究[D].上海：上海交通大學(xué)，2013

[13]陳宇，許莉薇基于優(yōu)化LM模糊神經(jīng)網(wǎng)絡(luò)的不均衡林業(yè)信息文本分類算法[J]. 中南林業(yè) 科技大學(xué) 學(xué) 報(bào)，2015，35（4）：27-59

[14]段江麗基于SVM的文本分類系統(tǒng)中特征選擇與權(quán)重計(jì)算算法的研究[D].太原：太原理工大學(xué)，2011

[15]陳勇，黃婷婷，張開碧，等結(jié)合Gabor特征和深度信念網(wǎng)絡(luò)的人臉姿態(tài)分類[J]. 半導(dǎo)體光電，2015，36（5）：815-819

[16]HINTON GE， OSINDERO S， TEH Y A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation，2006，18（7）：1527-1554

[17]唐曉明，韓敏一種基于極端學(xué)習(xí)機(jī)的半監(jiān)督學(xué)習(xí)方法[J].大連理工大學(xué)學(xué)報(bào)，2010，50（5）：771-776

[18]BENGIO YLearning deep architectures for Al[J].Foundations and Trends in Machine Learning，2009，2（1）：1-127

[19]侯思耕基于主題模型和深度置信網(wǎng)絡(luò)的文本分類方法研究[D].昆明：云南大學(xué)，2015

[20]魯錚基于TRBM算法的DBN分類網(wǎng)絡(luò)的研究[D].長春：吉林大學(xué)，2014

（編輯：溫澤宇）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

一種深度學(xué)習(xí)的信息文本分類算法