李波
摘要:隨著信息技術(shù)的不斷發(fā)展,信息量也在呈現(xiàn)爆炸式的增長,對于海量、動態(tài)的文本信息,對其展開自動分類有著極為重要的現(xiàn)實意義。模式識別技術(shù)的進步對文本分類有著促進作用。文本分類由于具有樣本眾多、樣本類別數(shù)目不均、噪音多、類目多等特點,導(dǎo)致各模式識別運用于文本分類中均有著缺點。本文嘗試把蟻群智能算法運用到文本分類中,構(gòu)建以蟻群智能算法為基礎(chǔ)的文本分類模式。
關(guān)鍵詞:群集智能 蟻群智能算法 文本分類
中圖分類號:TP391.1 文獻標(biāo)識碼:A 文章編號:1007-9416(2016)09-0126-01
1 基于蟻群智能算法文本分類模型
1.1 分類流程
基于蟻群智能算法文本分類模型大致上分為訓(xùn)練與測試兩部分。訓(xùn)練部分分為三個階段,規(guī)則構(gòu)造、適應(yīng)的計算、規(guī)則覆蓋訓(xùn)練數(shù)據(jù)。利用訓(xùn)練過程獲取分類規(guī)則,測試過程利用這些分類規(guī)則將文本集加以分類[1]。利用分類規(guī)則將文本加以分類的方法非常簡便,基于蟻群智能算法的訓(xùn)練過程是其中較為重要的組成,其位代碼為:
初始化的規(guī)則集RS是空;訓(xùn)練集含有M類;令TS是訓(xùn)練文本向量集,當(dāng)訓(xùn)練文本向量集中第i個文本向量數(shù)大于閾值,運行ACORuleConstructer( )函數(shù),更新規(guī)則集CTR是發(fā)現(xiàn)規(guī)則所覆蓋的文本向量
1.2 規(guī)則構(gòu)造
偽代碼中涉及的構(gòu)造函數(shù)ACORuleConstructer( )具體運算流程。需要進行如下操作。
第一步,初始化蟻群。將m只螞蟻進行隨機分布與第一個屬性上的某節(jié)點。第二步,初始化信息素。所有路徑包含的節(jié)點所含有的信息素設(shè)置為相同的濃度。其中:τij為條件所具termij有的信息素濃度;α是數(shù)據(jù)庫中不含類別屬性的所有屬性的總數(shù);bi是屬性i全部可能被取的數(shù)據(jù)。第三步,蟻群移動。根據(jù)如下公式對下一節(jié)點進行選擇。
對于每一個屬性而言,它所具有的節(jié)點termij被選取的概率是Pij(t)。那么τij(t)是條件項的啟發(fā)函數(shù)值。α與β是重要的參數(shù),說明的是螞蟻在進行路徑選擇時路徑上所具有的信息數(shù)濃度與termij啟發(fā)函數(shù)值所具備的重要程度。
第四步,規(guī)則修剪。規(guī)則有效性如何根據(jù)如下公式進行計算。
修剪方法的目的是依次去除可以使規(guī)則有效性能夠得到提升的特征節(jié)點,也就是說移去無用的特征節(jié)點,最終使特征節(jié)點的移除均會時規(guī)則有效性得到降低。第五步,若達到規(guī)則足夠良好或者迭代次數(shù)最大時,流程結(jié)束,否則重新從第三步繼續(xù)開始。第六步,更新信息素的濃度。根據(jù)如下公式進行屬性節(jié)點信息素濃度的改變。
2 模型驗證驗證方法及結(jié)果
本文對軍事、交通、經(jīng)濟、教育四類中的數(shù)據(jù)集中隨機選取共計3240篇文本文檔進行測試。首先把全部數(shù)據(jù)平分為訓(xùn)練集A與測試集B。之后將A與B的數(shù)據(jù)輸入到相應(yīng)的程序中,使用χ2統(tǒng)計、信息增益、互信息、期望交叉熵等文本選取方式,取得與選取方式相對應(yīng)的4組訓(xùn)練集的向量矩陣,計作Aj(j=1,2,3,4)。測試集向量矩陣計作 Bj(j=1,2,3,4)[2]。之后將矩陣分別輸入到不同的分類公式中,得到不同的分類結(jié)果Cj(j=1,2,3,4)。選取其中結(jié)果最佳作為評價基準(zhǔn)。最佳結(jié)果對應(yīng)的矩陣輸入到基于蟻群算法中,得到分類結(jié)果,將這兩個結(jié)果進行比較。KNN、NB、SVM分類模型分別實用χ2統(tǒng)計、信息增益、互信息、期望交叉熵等特征選取方式得到MF和mF的憑據(jù)值。通過對測試結(jié)果進行分析發(fā)現(xiàn),基于蟻群算法的分類效果相比于傳統(tǒng)的分類模型的分類效果有著更好的分類分類性能,從比較結(jié)果來看,在數(shù)據(jù)集進行特征選擇時,采用信息增益取得的效果最佳。
參考文獻
[1]李建軍,宋志章.基于混合智能算法的網(wǎng)頁文本分類仿真研究[J].科技通報,2012,06(06):152-154.
[2]杜芳華,冀俊忠,吳晨生,等.基于蟻群聚集信息素的半監(jiān)督文本分類算法[J].計算機工程,2014,11(11):167-171.
[3]楊義先,李麗香,彭海朋,等.群體智能算法及其在信息安全中的應(yīng)用探索[J].信息安全學(xué)報,2016,01(01):39-49.