侯慶霖
(廣州杰賽科技股份有限公司,廣東 廣州 510310)
文本分類經(jīng)歷了基于知識(shí)工程向機(jī)器學(xué)習(xí)方法轉(zhuǎn)變的歷程[1]。以知識(shí)工程為主的文本分類算法由于其可移植性和通用性較差,逐漸被機(jī)器學(xué)習(xí)方法所取代。用于文本分類的機(jī)器學(xué)習(xí)方法有:向量機(jī)[2]、神經(jīng)網(wǎng)絡(luò)[3]、貝葉斯[4]及K近鄰[5]等算法,這些算法都在文本分類的領(lǐng)域具有較好的性能。機(jī)器學(xué)習(xí)方法的文本分類研究主要由3方面構(gòu)成:文本表示、空間維度約減以及文本分類器[6]。作為文本分類基礎(chǔ)的文本表示(也稱為特征表示或者特征選擇)是文本分類好壞的基礎(chǔ),成為了當(dāng)前最熱門的研究課題。文本的特征學(xué)習(xí)技術(shù)在21世紀(jì)以來得到廣泛的關(guān)注,詞的分布表示最早由Hinton提出,實(shí)質(zhì)上是將每一個(gè)詞映射成k維實(shí)數(shù)向量[7]。在2013年,谷歌將連續(xù)詞袋的Skip——Gram模型進(jìn)行擴(kuò)展,開源了基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的Woed2vec詞向量學(xué)習(xí)工具,這是自然語(yǔ)言處理歷史上一次重大的變革。但是由于中文文本本身具有近義詞和同義詞數(shù)量眾多的特點(diǎn),單純的詞向量模型已經(jīng)無法滿足文檔的特征表示,因此文本將神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的向量空間模型與卡方檢驗(yàn)算法結(jié)合,形成基于詞向量的文本特征選擇方法,彌補(bǔ)了使用卡方檢驗(yàn)中存在的特征詞“不完備”的特點(diǎn)。考慮到選取的特征詞語(yǔ)集合不能表達(dá)特定學(xué)科領(lǐng)域的概念,本文對(duì)擴(kuò)充后特征詞集合構(gòu)建候選術(shù)語(yǔ)網(wǎng)絡(luò);然后根據(jù)特征詞向量的位置關(guān)系、詞匯信息特征考察特征詞之間的內(nèi)部結(jié)合緊密度;最后,采用詞語(yǔ)的左熵或右熵規(guī)則實(shí)現(xiàn)術(shù)語(yǔ)抽取,形成特定學(xué)科領(lǐng)域內(nèi)能夠反映文本表示的特征詞抽取方法。
特征表示是基于某種評(píng)價(jià)標(biāo)準(zhǔn),對(duì)文本中的特征項(xiàng)進(jìn)行評(píng)估,并對(duì)每一個(gè)特征進(jìn)行評(píng)分,按照分?jǐn)?shù)進(jìn)行排序,選擇Top N特征項(xiàng)作為文本表示的特征集合。因此,針對(duì)中文的特征表示分為3步:
(1)采用中文分詞工具對(duì)文本進(jìn)行分詞,分詞后的結(jié)果作為原始特征集合;
(2)通過某種評(píng)估方法計(jì)算每一個(gè)詞語(yǔ)的特征值(權(quán)值),并按照特征值進(jìn)行排序;
(3)選取若干個(gè)最能代表文本內(nèi)容的特征詞,形成文本的最優(yōu)特征集合。
顯然,不同的特征表示函數(shù)決定了文本分類效果的好壞,下面對(duì)常見的幾種特征函數(shù)進(jìn)行介紹。
(1)卡方檢驗(yàn)
卡方檢驗(yàn)(CHI)是數(shù)理統(tǒng)計(jì)中用來檢查兩個(gè)變量之間獨(dú)立性的一種假設(shè)檢驗(yàn)方法[8]。卡方檢驗(yàn)的假設(shè)是樣本具有獨(dú)立性,樣本的分布遵循卡方分布,通過樣本的實(shí)際觀察值與理論推斷值的偏差來決定卡方檢驗(yàn)之的大小,如果χ2值越大,說明兩者之間的偏差程度越大,待分類文本類別越不可能與語(yǔ)料庫(kù)的分類一致;同理,χ2值越小,說明兩者越趨于相同,待分類文本類別越有可能與語(yǔ)料庫(kù)的類別一致??ǚ綑z驗(yàn)用于文本特征表示方法時(shí),假設(shè)特征詞t與類別ci之間符合卡方(χ2)分布,則特征詞t對(duì)于類別ci的卡方值為:
其中,A表示某一個(gè)類別包含該特征詞t的文檔總數(shù)量;B表示在某一個(gè)類別中,排除該類別后其他類別包含該特征詞t的文檔的數(shù)量;C表示某一個(gè)類別不包含該特征詞t的文檔總數(shù)量;D表示在某一個(gè)類別中,排除該類別后其他類別也不包含該特征詞t的文檔的數(shù)量。從上述公式可知,χ2(t,c)=0時(shí),表示該特征詞t不包含與文本類別相關(guān)的鑒別信息,反之亦然。本文的方法是借助卡方檢驗(yàn)選出若干個(gè)與文本類別有最強(qiáng)相關(guān)性的特征項(xiàng)即可,因此不需要設(shè)置任何閾值。
(2)互信息
互信息(MI, Mutual Information)用來度量?jī)蓚€(gè)對(duì)象之間的相互性,也即一個(gè)隨機(jī)變量包含的另一個(gè)隨機(jī)變量的信息量?;バ畔⑼ǔS脕碜鳛樘卣髟~和類別之間的相關(guān)性度量的標(biāo)準(zhǔn),如果某個(gè)特征詞t屬于某一個(gè)類別的話,那么特征詞t和類別ci的互信息量會(huì)最大。則特征詞t對(duì)于類別ci的互信息計(jì)算公式為:
p(t, ci)表示訓(xùn)練集中包含特征詞t又屬類別ci的概率,P(t)表示包含特征詞t的文本在訓(xùn)練集中出現(xiàn)的概率,p(ci)表示類別ci在訓(xùn)練集中出現(xiàn)的概率。根據(jù)上述的公式,如果該特征詞t在類別ci中出現(xiàn)的頻率越高,而在其他類別中出現(xiàn)的頻率越低,那么特征詞t與類別ci的相關(guān)性越大,特征詞t越有可能屬于類別ci。由于互信息僅僅考慮特征詞在每一個(gè)文本中是否出現(xiàn),而沒有考慮其在文本中出現(xiàn)的次數(shù),因此,在同等條件概率下,稀有詞將高于常用詞的MI值,因此其在文本分類中效果不佳。
(3)文檔頻率法
文檔頻率法(TF-IDF, Term Frequency–Inverse Document Frequency)用來評(píng)估特征詞t對(duì)于某一個(gè)類別ci的重要程度。TF-IDF的主要思想是:如果某個(gè)特征詞ti在某一類別cj出現(xiàn)的頻率TF高,并且在其他類別中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來做類別分類。其公式為:
tfij表示特征詞的詞頻,nij表示特征詞ti在類別cj中出現(xiàn)的次數(shù),而分母是該類別中所有詞語(yǔ)的出現(xiàn)次數(shù)總和。
idfi表示逆文檔頻率, |{j: ti∈ cj}|表示包含該特征詞ti的文件總數(shù),|D|表示語(yǔ)料庫(kù)中的文件總數(shù)。
TF-IDF實(shí)際上是tf × idf,tf表示特征詞在類別cj中出現(xiàn)的頻率。idf的主要思想是:如果包含特征詞t的文檔越少,idf越大,則說明特征詞t具有很好的類別區(qū)分能力。
相關(guān)研究證明,卡方檢驗(yàn)算法在存在類別交叉現(xiàn)象明顯的文本分類中表現(xiàn)出高于其他算法的分類性能,但是由于卡方分類算法不考慮詞頻信息,因此過于倚重低頻詞,不利于文本特征的真實(shí)表示。同理,互信息也是由于沒有考慮特征項(xiàng)的詞頻信息,出現(xiàn)傾向于選擇低頻詞的特點(diǎn)。而文檔頻率法則過于關(guān)注詞頻信息,容易誤刪稀有詞。
詞向量的思想是將一個(gè)詞語(yǔ)采用低維的實(shí)數(shù)向量來表示。詞向量與語(yǔ)言模型有著密不可分的關(guān)系,目前常見的語(yǔ)言模型包括統(tǒng)計(jì)語(yǔ)言模型、n-gram模型、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型等。2013年谷歌公司開源出來的詞向量工具是基于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型進(jìn)行訓(xùn)練的,其詞向量具有優(yōu)良的特性:包含詞語(yǔ)的語(yǔ)義信息可用于同義詞、聚類或者詞性的分析;向量的組合運(yùn)算能夠發(fā)現(xiàn)向量的共同特征。
開源的word2vec訓(xùn)練學(xué)習(xí)的詞向量表示,考慮了詞語(yǔ)之間的語(yǔ)義關(guān)系的特點(diǎn),而卡方檢驗(yàn)方法則具備分類的穩(wěn)定性能特點(diǎn)。因此,本文考慮了訓(xùn)練數(shù)據(jù)集所包含的具有類別表征能力的詞語(yǔ)具有局限性的特點(diǎn),以及其他文本特征表示算法具有獨(dú)立性的假設(shè)的缺陷,采用基于詞向量和卡方檢驗(yàn)相結(jié)合的算法來選取具有表征類別能力的特征詞。具體的步驟為:
(1)計(jì)算每一個(gè)類別所有詞語(yǔ)的CHI值,并對(duì)其進(jìn)行排序,選取Top N的詞語(yǔ)作為特征詞,得到每一個(gè)類別的特征詞集合。假設(shè)類別編號(hào)為i,wij表示類別i的第j個(gè)特征詞,將所有類別的特征詞進(jìn)行合并,假設(shè)類別總數(shù)為D。即{w11, w12, …, w1N}∪{w21, w22, …,w2N}∪…∪{wD1, wD2, …, wDN},得到合并后的特征詞集合w={w1, w2, …, wd},其中d是合并后的維數(shù),根據(jù)實(shí)際的情況決定。
(2)利用word2vec訓(xùn)練所有類別詞語(yǔ)的詞向量,利用余弦相似性計(jì)算特征詞集合w中每一個(gè)詞語(yǔ)與其相似的前M個(gè)詞語(yǔ),并將最相似的詞語(yǔ)加進(jìn)原有的特征詞集合中。
getnearest(wi, M)是利用余弦相似度計(jì)算的與特征詞集合最相似的M個(gè)詞。
以擴(kuò)充后的特征詞集合為基礎(chǔ),構(gòu)造候選術(shù)語(yǔ)網(wǎng)絡(luò),以詞語(yǔ)間詞匯信息特征、詞語(yǔ)的相關(guān)性,評(píng)價(jià)詞匯內(nèi)部結(jié)合的緊密度,結(jié)合詞語(yǔ)間的位置關(guān)系進(jìn)行詞語(yǔ)合并,抽取相關(guān)領(lǐng)域候選的術(shù)語(yǔ),則有:
其中,b∈w,w表示經(jīng)過擴(kuò)充后的特征詞語(yǔ)集合;R(a,b)表示在某一個(gè)類別內(nèi),詞語(yǔ)a與特征詞語(yǔ)集合中任意一個(gè)特征詞的相關(guān)性;a表示詞語(yǔ)a的向量,b表示詞語(yǔ)b的向量。w表示經(jīng)過擴(kuò)充后的特征詞語(yǔ)集合。如果特征詞a的相關(guān)性與特征詞b的相關(guān)性越高,那么兩者越有可能是某領(lǐng)域中的術(shù)語(yǔ)。
其中,PMI(a, b)表示特征詞a與特征詞語(yǔ)集合中任意一個(gè)特征詞的點(diǎn)間互信息,P(a&b)表示兩個(gè)特征詞語(yǔ)a與b在某類別共同出現(xiàn)的概率,即a與b共同出現(xiàn)在某類別中的文檔數(shù),P(a)與P(b)分別表示兩個(gè)特征詞單獨(dú)出現(xiàn)的概率,即詞語(yǔ)出現(xiàn)在某一類別的的文檔數(shù)。若兩個(gè)詞語(yǔ)在某類別中共現(xiàn)概率越大,表明其關(guān)聯(lián)度越大;反之,關(guān)聯(lián)度越小。P(a&b)與P(a)P(b)的比值是詞語(yǔ)a與詞語(yǔ)b兩個(gè)詞語(yǔ)的統(tǒng)計(jì)獨(dú)立性度量。
其中,EL(a, b)表示詞語(yǔ)a的左熵,表示對(duì)特征詞a左邊的詞語(yǔ)b出現(xiàn)的穩(wěn)定性的度量。
同理,ER(a, b)表示詞語(yǔ)a的右熵,表示對(duì)特征詞a左邊的詞語(yǔ)b出現(xiàn)的穩(wěn)定性的度量。
那么,結(jié)合公式(6)和(7),得出擴(kuò)充后的特征集合的每一個(gè)特征詞在每一個(gè)類別中與其他特征詞的內(nèi)部結(jié)合緊密度:
其中,α值根據(jù)實(shí)際決定。本文的α取值采用加權(quán)平均的方式,也就是α1=α2=0.25。術(shù)語(yǔ)抽取的閾值可參考Farkas的派系強(qiáng)度函數(shù)公式計(jì)算得出:
其中,d表示與擴(kuò)充后特征詞的數(shù)量,如果特征詞a與特征詞b之間的內(nèi)部結(jié)合緊密度小于設(shè)定的閾值,那么認(rèn)為特征詞a和特征詞b不能合并成特定領(lǐng)域的術(shù)語(yǔ);反之,特征詞a和特征詞b有可能合成術(shù)語(yǔ)。
經(jīng)過詞語(yǔ)之間的內(nèi)部緊密度篩選后,滿足條件的詞語(yǔ)將會(huì)形成候選術(shù)語(yǔ)集合,本文根據(jù)左熵(公式(8))和右熵(公式(9))的定義,確定術(shù)語(yǔ)的組合。
實(shí)驗(yàn)環(huán)境:windows server 2008 R2 64bit,Inter Xeon 2.50 GHz CPU,16.0 GB 內(nèi)存。仿真環(huán)境:Python 2.7。
在本實(shí)驗(yàn)中,本文通過選取中國(guó)科學(xué)院語(yǔ)言資料研究室提供的文本庫(kù)作為實(shí)驗(yàn)語(yǔ)料,通過人工選取了640篇文章并將其歸為8類,這樣每個(gè)類別包含80篇文章。由于該語(yǔ)料庫(kù)的語(yǔ)料來源多樣、文章體裁多樣,因此該語(yǔ)料庫(kù)能夠在一定程度上代表中文文本分類的準(zhǔn)確性。
(1)分詞系統(tǒng)的選取
本文的實(shí)驗(yàn)過程以結(jié)巴工具作為中文分詞工具,其主要功能包括中文分詞、詞性標(biāo)注以及關(guān)鍵詞抽取。該分詞系統(tǒng)具有3種模式:精確模式,試圖將句子最精確地切開,適合文本分析;全模式,把句子中所有的可以成詞的詞語(yǔ)都掃描出來,速度非常快,但是不能解決歧義問題;搜索引擎模式,在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞,本文的預(yù)處理數(shù)據(jù)階段采用精確模型進(jìn)行中文文本的詞語(yǔ)切分。
(2)文本表示
本文采用谷歌開源的word2vec訓(xùn)練學(xué)習(xí)的詞向量表示方法來獲取詞語(yǔ)信息。采用word2vec方法對(duì)詞信息本身進(jìn)行信息分析并建立索引,借助索引來表示文本的內(nèi)容。
(3)特征選擇與提取
本文采用基于詞向量和卡方檢驗(yàn)相結(jié)合的算法來選取具有表征類別能力的、擴(kuò)展性特征詞集合后;以擴(kuò)充后的特征詞集合為基礎(chǔ),構(gòu)造候選術(shù)語(yǔ)網(wǎng)絡(luò),以特征詞間詞匯信息特征、特征詞的相關(guān)性,評(píng)價(jià)特征詞之間結(jié)合的緊密度,結(jié)合特征詞的位置關(guān)系(左熵或右熵)進(jìn)行特征詞合并,抽取相關(guān)領(lǐng)域候選術(shù)語(yǔ)。而術(shù)語(yǔ)的向量表示可通過兩個(gè)特征詞向量的組合運(yùn)算得出。w表示經(jīng)過擴(kuò)充后的特征詞語(yǔ)集合,s表示在各個(gè)領(lǐng)域的術(shù)語(yǔ)集合,那么最終的特征詞語(yǔ)集合為W=w∪s。計(jì)算特征語(yǔ)集合中每個(gè)特征詞的TF-IDF值,并將其作為分類器輸入數(shù)據(jù)進(jìn)行訓(xùn)練,得到分類器模型。
(4)分類器的選擇
在眾多的文本分類算法中,比較經(jīng)典的就是Rocchio分類器、樸素貝葉斯分類器、基于支持向量機(jī)分類器、基于神經(jīng)網(wǎng)絡(luò)分類器、基于k-最近鄰算法分類器。本文考慮了術(shù)語(yǔ)形成原理以及術(shù)語(yǔ)的詞向量特征,采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行分類的算法[9],卷積神經(jīng)網(wǎng)絡(luò)中卷積層包括三個(gè)部分:卷積、池化、非線性激活函數(shù)層(tanh或者sigmoid)。卷積層通常來說是用來提取特征詞向量的空間特征,然后使用平均池化進(jìn)行下采樣,最后通過多層神經(jīng)網(wǎng)絡(luò)(MLP, Multilayer Perceptron)作為最后的分類器對(duì)本文的特征詞向量進(jìn)行分類。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是層與層之間采用稀疏連接矩陣來保證神經(jīng)網(wǎng)絡(luò)的運(yùn)算速度。其實(shí)卷積神經(jīng)網(wǎng)絡(luò)的系屬性特點(diǎn)主要是用于激活層,它一般取max(0, x),在神經(jīng)網(wǎng)絡(luò)迭代計(jì)算的過程中,實(shí)際上變成它在不斷試探如何用一個(gè)大多數(shù)為0的矩陣來表達(dá)輸入數(shù)據(jù)特征,結(jié)果因?yàn)橄∈杼匦缘拇嬖?,使得?jì)算效果又快又好。除此之外,卷積神經(jīng)網(wǎng)絡(luò)引入“權(quán)值”共享原則,這樣大大減少了神經(jīng)網(wǎng)絡(luò)運(yùn)算的參數(shù),降低了復(fù)雜度。
(1)訓(xùn)練過程
文本自動(dòng)分類之前需要對(duì)文本進(jìn)行訓(xùn)練構(gòu)建分類模型。本文隨機(jī)選取實(shí)驗(yàn)語(yǔ)料的30%作為訓(xùn)練數(shù)據(jù)集,采用卷積神經(jīng)網(wǎng)絡(luò)分類算法訓(xùn)練文本,借助上述提出的方法構(gòu)造文本分類器。按照上面提到的文本分類步驟對(duì)文本進(jìn)行預(yù)處理、詞向量空間構(gòu)建、特征詞提取、分類器構(gòu)造四個(gè)階段,在挖掘特征詞之后把特征詞或者術(shù)語(yǔ)的詞向量輸入到卷積網(wǎng)絡(luò),并按照其對(duì)應(yīng)的人工分類的主題進(jìn)行輸出,訓(xùn)練出一個(gè)特征詞向量與分類主題進(jìn)行非線性映射的模型,形成文本分類模型。
(2)分類過程
分類過程是對(duì)剩下的實(shí)驗(yàn)語(yǔ)料庫(kù)進(jìn)行文本分類的過程,值得注意的是,在分類過程中,文本的詞向量空間構(gòu)建、特征詞提取等步驟與訓(xùn)練過程是相似的,在獲取文本的特征詞向量空間后,把該向量空間輸入已經(jīng)訓(xùn)練好的文本分類模型,最終判別出文本的專題分類。
在文本分類的評(píng)估指標(biāo)中,最常被用來衡量分詞性能的指標(biāo)是召回率和準(zhǔn)確率。
召回率是正確劃分到某一個(gè)主題文檔數(shù)量與文檔庫(kù)中某個(gè)主題所有的相關(guān)文檔的比率,是衡量中文文本分類系統(tǒng)的查全率;正確率是正確劃分到某一個(gè)主題的文檔數(shù)量與被系統(tǒng)劃分到某一個(gè)主題的文檔總數(shù)的比率,是衡量文本分類系統(tǒng)的查準(zhǔn)率。
在本實(shí)驗(yàn)中,首先選取了常見幾種文本分類算法,其中包括CHI算法、MI算法和TFIDF算法,將上述集中幾種分類算法與本文提出的算法對(duì)同一實(shí)驗(yàn)語(yǔ)料庫(kù)進(jìn)行文本分類實(shí)驗(yàn),最后根據(jù)實(shí)驗(yàn)結(jié)果對(duì)各分類算法做性能比對(duì)。詳細(xì)的對(duì)比結(jié)果如圖1至圖4所示:
圖1 CHI分類算法的實(shí)驗(yàn)結(jié)果
圖2 MI分類算法的實(shí)驗(yàn)結(jié)果
圖3 TF-IDF分類算法的實(shí)驗(yàn)結(jié)果
圖4 本文分類算法的實(shí)驗(yàn)結(jié)果
上述實(shí)驗(yàn)所選用的實(shí)驗(yàn)語(yǔ)料庫(kù)均為中科院語(yǔ)言資料研究室提供的實(shí)驗(yàn)語(yǔ)料,在采用中文結(jié)巴分詞以及詞語(yǔ)向量模型構(gòu)建詞語(yǔ)向量空間的基礎(chǔ)上,采用多種文本分類的方法進(jìn)行實(shí)驗(yàn)對(duì)比。由上圖可知,本文采取的算法準(zhǔn)確率最高,其次,CHI和MI的算法準(zhǔn)確率較高,而TF-IDF的算法準(zhǔn)確率略低。
CHI算法雖然能夠選取具有表征類別能力的特征詞集合,但是其所選的特征詞沒有考慮到特征詞和特征類別的相關(guān)性。除此之外,該方法獲取的特征詞不能“完備”表達(dá)特定學(xué)科領(lǐng)域的概念,因此,CHI算法的文本分類準(zhǔn)確率有待提高。
MI算法雖然考慮了特征詞和特征類別的相關(guān)性,但由于不同學(xué)科領(lǐng)域擁有相似的關(guān)鍵詞,而MI算法僅僅對(duì)該領(lǐng)域的特征詞進(jìn)行抽取而沒有將相關(guān)領(lǐng)域的術(shù)語(yǔ)進(jìn)行抽取,因此,MI的文本分類算法準(zhǔn)確率相對(duì)CHI較低。
TF-IDF算法能夠體現(xiàn)特征詞在語(yǔ)料庫(kù)中的重要程度,但是該方法不僅沒有考慮特征詞相關(guān)性和“完備性”的特點(diǎn),也沒有對(duì)特定領(lǐng)域的術(shù)語(yǔ)進(jìn)行抽取,因此,采用該方法提取的特征詞不能很好體現(xiàn)不同的學(xué)科領(lǐng)域特征。
由此看來,不同分類算法的準(zhǔn)確率有明顯的區(qū)別,說明特征詞的選擇至關(guān)重要,本文結(jié)合詞向量和卡方檢驗(yàn)相結(jié)合的方法,通過擴(kuò)充特征詞集合彌補(bǔ)了單純使用卡方檢驗(yàn)中存在的特征詞“不完備”的缺陷。除此之外,本文考慮到擴(kuò)充的特征詞語(yǔ)集合不能表達(dá)特定學(xué)科領(lǐng)域的概念,采用特征詞集合之間的位置關(guān)系、詞匯信息特征考察特征詞之間的內(nèi)部結(jié)合緊密度,結(jié)合詞語(yǔ)的左熵或右熵規(guī)則實(shí)現(xiàn)術(shù)語(yǔ)抽取,形成特定學(xué)科領(lǐng)域內(nèi)能夠反映文本表示的詞語(yǔ)抽取方法,這種方法所抽取的特征詞更能體現(xiàn)特定學(xué)科領(lǐng)域的特征,因此具有更好的分類效果。
本文結(jié)合詞向量和卡方檢驗(yàn)相結(jié)合的方法,通過擴(kuò)充特征詞集合彌補(bǔ)了單純使用卡方檢驗(yàn)中存在的特征詞“不完備”的缺陷,形成更加具有表征類別能力的特征詞集合。在此基礎(chǔ)上,構(gòu)造候選術(shù)語(yǔ)網(wǎng)絡(luò),以詞語(yǔ)間詞匯信息特征、詞語(yǔ)的相關(guān)性,評(píng)價(jià)詞匯內(nèi)部結(jié)合的緊密度,結(jié)合詞語(yǔ)間的位置關(guān)系進(jìn)行詞語(yǔ)合并,抽取該領(lǐng)域的術(shù)語(yǔ)。最后以特征詞和術(shù)語(yǔ)作為文本的特征表示,放入卷積神經(jīng)網(wǎng)絡(luò)分類器中進(jìn)行訓(xùn)練并實(shí)現(xiàn)文本的自動(dòng)分類。實(shí)驗(yàn)表明,本文所采用的方法抽取的特征詞集合更能體現(xiàn)特定學(xué)科領(lǐng)域的特征,具有更好的分類效果。