胡超
摘要:隨著我國信息的不斷膨脹,基于傳統(tǒng)算法模式下的文本分類已經(jīng)不能滿足時代的需求,基于覆蓋算法的構(gòu)造性神經(jīng)網(wǎng)絡(luò)文本分類算法,可以有效地解決因為數(shù)據(jù)量過大而無法實現(xiàn)分類的弊端。因此,本文使用覆蓋性前后神經(jīng)網(wǎng)絡(luò)算法,從文本的預(yù)處理入手,構(gòu)造了文本的自動分類,并且做出了相應(yīng)的實驗,從實驗結(jié)果當(dāng)中來看,覆蓋性前后神經(jīng)網(wǎng)絡(luò)算法無論是對于文本分類的準(zhǔn)確度還是容納的數(shù)據(jù)量都遠(yuǎn)遠(yuǎn)高于傳統(tǒng)算法。
關(guān)鍵詞:覆蓋算法;文本分類;文本預(yù)處理;實驗構(gòu)建
中圖分類號:TP311? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)25-0278-02
隨著我國經(jīng)濟(jì)的高速發(fā)展,科技水平的病毒案提高,我國已經(jīng)全面進(jìn)入了互聯(lián)網(wǎng)時代,以互聯(lián)網(wǎng)為基礎(chǔ)的信息出現(xiàn)了爆炸式的增長,文本信息作為信息的主體,但是目前我國對于文本信息的分類算法還存在各種各樣的不足,文本信息的搜索能夠?qū)崿F(xiàn)文本的分享和查找,是我國廣大人民群眾最實際的需求。要從如此膨脹的文本信息當(dāng)中找到自己所需要的信息,文本的自動分類的處理就顯得尤為重要,基于覆蓋式算法的文本分類可以幫助我們更好地查詢和發(fā)掘信息。但是由于互聯(lián)網(wǎng)產(chǎn)業(yè)的高速發(fā)展,基于傳統(tǒng)算法模式下的文本分類已經(jīng)不能滿足廣大人民群眾的需求,如何利用新型的算法實現(xiàn)更加快速的文本分類,成為目前我國信息產(chǎn)業(yè)最需要解決的問題之一。
1 文本分類
隨著我國經(jīng)濟(jì)水平的不斷發(fā)展,科技水平的日益提高,互聯(lián)網(wǎng)產(chǎn)業(yè)的不斷普及,特別是改革開放以后,我國的信息出現(xiàn)了爆炸式的瘋狂增長,文本信息作為信息當(dāng)中最主要的一部分,在各種各樣的媒體信息當(dāng)中,文本分析的分類也是目前我國廣大人民群眾最需要的地方,但是因為數(shù)據(jù)的日益膨脹,如何在如此多的文本信息實現(xiàn)分類的檢索從而方便客戶找到自己雖需要的資料,算法在文本分類當(dāng)中的作用就顯得越來越重要。在文本的具體分類當(dāng)中,首先需要對于文本實現(xiàn)基本的預(yù)處理,然后通過去除停用詞和去除稀有詞,通過特征提取,構(gòu)造專門的自動分類器實現(xiàn)自動分類文本,大大節(jié)省了人力物力的同時有效地提高的文本分類的效率。
1.1 文本分類的預(yù)處理
目前我國的文本預(yù)處理和歐洲發(fā)達(dá)國家的文本預(yù)處理之間最大的一個差別就是在歐美發(fā)達(dá)國家詞匯之間存在一個明顯的空格,而我國卻規(guī)定了文本的預(yù)處理必須是連續(xù)的字符串,詞匯之間沒有空格,針對這一差別就要去我們在進(jìn)行本文預(yù)處理的時候,必須確定好特征選項,例如字符,詞句,字符串等,現(xiàn)目前最實用的特征類型采用詞為基本單位是最高效的處理方式。從實質(zhì)來看所謂的文本處理和分類就是在某一個特定的文本分類系統(tǒng)下,根據(jù)文本之間內(nèi)容的差距自動分類文本,如果從數(shù)學(xué)的角度來看的話,其實文本的分類屬于一個映射的過程,就是將未標(biāo)注的文本映射到現(xiàn)有的分類體系當(dāng)中,這種分類可以一對一,也可以實現(xiàn)一對多。簡單來說就是一個文本可以對應(yīng)一個分類,也可以對應(yīng)多個分類。而且我們需要理解中英文之間的差距,對于中文的文本分類來說,我們需要基于字符串匹配的方式去實現(xiàn)文本的分類,還需要進(jìn)行標(biāo)注和識別,一般我國對于文本的預(yù)處理一般為以下三種。
1)去除停用詞
具體來說就是在實際根據(jù)文本特征進(jìn)行分類的時候可以根據(jù)此行的標(biāo)識去過濾一部分形容詞或者虛詞,只保留語句當(dāng)中較為重要的名詞動詞。一般來說對于文本中文詞匯的分析分為三個主要階段,分別是詞匯的拆分,未登錄詞匯的識別,標(biāo)注詞匯等三個步驟。進(jìn)行具體的拆分之后將文本當(dāng)中出現(xiàn)頻率較高但是概念模式并且范圍較為廣泛的詞匯停用。對于某一些詞匯使用概率較高的詞匯也可以當(dāng)中停用詞停用。
2)去除稀有詞
所謂稀有詞,顧名思義就是在整個文檔當(dāng)中出現(xiàn)頻率都較高的詞匯,這些詞匯不能作為文本的特征選項,一般我們會選擇設(shè)定一個詞匯數(shù)值,低于這個數(shù)值的詞匯就會當(dāng)作稀有詞匯去除。
3)詞匯合并
詞匯合并就是將詞匯意思相同但是具體表達(dá)不同的詞匯進(jìn)行合并,當(dāng)作同一個詞匯進(jìn)行計算和處理。
1.2 文本的基本表示方法
由于文本的處理和分類不是依靠人工而是使用計算機(jī),所以我們需要將文本轉(zhuǎn)換成計算機(jī)能夠分別和識別的表示模式,因為大部分計算機(jī)不具有智能,不能識別文字,但是我們可以通過將文字轉(zhuǎn)換成0.1模式讓計算機(jī)進(jìn)行識別。我們可以將文本當(dāng)作的詞句拆分之后,通過詞句的組合來代替文本,以計算機(jī)為基礎(chǔ)實現(xiàn)文本的實現(xiàn)和分類。
目前在文本信息的處理上,文本的表示一般采用向量模式VSN,利用向量去表示文本,將文本當(dāng)作的詞句作為特征選項,在實際的實踐當(dāng)中我們發(fā)現(xiàn),詞相對于句或者字來說,具有更好的特征性。所以我們要建立向量模型就必須要對于文本的詞匯進(jìn)行分類,將文本用詞匯組合的方式表達(dá)出來,并且根據(jù)詞匯出現(xiàn)的頻率具體化的表示文本,主要使用TF-IDF公式來建設(shè)和實現(xiàn)文本的表示。
1.3 特征選擇
在信息文本的分類當(dāng)中,特征選擇是最重要的部分,特征選擇就是通過去除不能表達(dá)信息的詞匯,分類和提取重要詞匯。特征選擇可以有效地提高信息文本分類的效率降低所需要的計算量。特征選擇的方式一般是通過構(gòu)建評價函數(shù),然后通過特征集的特征去對于分本進(jìn)行分類,這樣會讓文本得到一個大概的分值,在根據(jù)所得分支大小將文本排序,選擇特征文本當(dāng)中的特征子集,然后通過特征子集實現(xiàn)文本的分類。一般來說,我國目前常用的特征選擇為以下四種。
1)通過文本的頻率實現(xiàn)文本特征的選擇,當(dāng)文檔當(dāng)中某一個詞匯出現(xiàn)的頻率小于某一固定值或者大于某一固定值的時候就可以將該詞匯停用或者去除,提高文檔分類的準(zhǔn)確性。
2)通過信息增益實現(xiàn)文本特征的選擇,所謂的信息增益也就是這個詞對于這個文檔分類的價值,如果該詞匯的價值較低就將詞匯停用。
3)X2統(tǒng)計量,所謂統(tǒng)計來就是文檔當(dāng)中某一個詞匯和文檔的獨(dú)立性以及相關(guān)性,當(dāng)詞匯和文檔的相關(guān)性越高,獨(dú)立性越小那么這個詞就當(dāng)作文檔分類的重點詞匯,如果該詞和文檔的相關(guān)性較低,獨(dú)立性較高那么在文檔分類的時候就刪除或者停用這個詞。
4)期望交叉熵,期望交叉熵的特征選擇是通過鑒定詞匯對于本次分類的影響比重,如果本次詞匯對于文檔分類的影響比重超過某一固定值,那么就將該詞當(dāng)作文檔劃分的重要依據(jù)。
2 覆蓋算法
2.1 前后神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法
如果一個文檔經(jīng)過上述所有預(yù)處理之后,那么這個文檔就變成了一個特征選擇文檔,我們就可以通過前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法去進(jìn)行文檔的分類,所謂前向神經(jīng)神經(jīng)網(wǎng)絡(luò)覆蓋算法就是通過某一個輸入集合例如K(K為N維的歐式空間的集合),然后我們在將集合K細(xì)分成八個不同的小集合K1,K2,K3,K4,K5,K6,K7,K8.然后再具體的網(wǎng)絡(luò)機(jī)構(gòu)實現(xiàn)的時候,建立一個圓球性區(qū)域當(dāng)作一個神經(jīng)元,每一個神經(jīng)元的功能函數(shù)表達(dá)式為
將X,Y分別當(dāng)作內(nèi)積,這時候就可以形成一個以X為主體,以O(shè)為具體值的覆蓋區(qū)域C,將樣品當(dāng)中的每一個點都映射到最開始設(shè)定的神經(jīng)元網(wǎng)絡(luò)當(dāng)中,按照這樣的方法可以得到文檔的全部覆蓋和具體分類。
前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法可以快速地構(gòu)建一個分類正確的神經(jīng)網(wǎng)絡(luò)體系,對比于傳統(tǒng)的文檔分類算法,前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法可以提高效率。
2.2 算法的具體應(yīng)用
要想實現(xiàn)前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法的具體應(yīng)用,那么就必須學(xué)習(xí)算法,首先我們需要設(shè)定一個具體的樣本X并且將它劃分為N類,利用數(shù)學(xué)表達(dá)為X=(X1,X2,X3...XN),具體的應(yīng)用為,先將X樣本當(dāng)中計算得出一個最大的模R,然后將X當(dāng)中的每一個類,映射到半徑為2R的圓球當(dāng)中,分別設(shè)定好覆蓋的數(shù)值和類別的數(shù)值,將類別覆蓋到設(shè)定好的覆蓋數(shù)值當(dāng)中,如果無法覆蓋則將這個類停用,如果可以覆蓋就按照具體構(gòu)造公式計算這個類的覆蓋范圍,實現(xiàn)前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法的具體應(yīng)用。
2.3 算法的準(zhǔn)確性測試
要實現(xiàn)前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法的精準(zhǔn)性測試,就必須通過給定一個具體的測試樣本,若果這個測試樣本符合之前設(shè)定的類別當(dāng)中某一個類別的圓球形區(qū)域,然后將其帶入算法當(dāng)中計算,如果計算結(jié)果和最后的文檔分類正確那么本次前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法準(zhǔn)確性合格,如果帶入算法之后無法計算或者最后的文檔分類出現(xiàn)錯誤,那么本次前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法精準(zhǔn)性測試不合格。
3 實驗結(jié)果和具體分析
本次的前向精神網(wǎng)絡(luò)交叉覆蓋算法的實驗,通過實現(xiàn)基于互聯(lián)網(wǎng)檢索并且人工審核之后確定分類的文檔,本次文檔的類別分別為交通類,體育類,自然類,災(zāi)害類,生活類,娛樂類六個大類,每個大類挑選了200個文檔,將每一個大類的文檔分別挑選出100篇訓(xùn)練和100篇測試。再訓(xùn)練類文檔當(dāng)中,通過稀有詞除去,停用詞去除以及詞匯合并的方式,確定每一個文檔的特征選擇,然后統(tǒng)計總計成為該文檔的特征詞匯表,再將100個測試文檔進(jìn)行計算,通過對于前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法去進(jìn)行分類,然后通過計算準(zhǔn)確率和查全率兩個方法驗證本次覆蓋算法的準(zhǔn)確性。準(zhǔn)確性=正確文檔分類個數(shù)/總文檔個數(shù),查全率=正確文檔分類個數(shù)/屬于該類別的文檔個數(shù)。
具體實驗如下所示:
根據(jù)實驗數(shù)據(jù)表可以看出本次前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法的精準(zhǔn)性較高,可以較為快速快慰準(zhǔn)確的分別出文檔的類別。
4 總結(jié)
文檔的分類實質(zhì)上就是通過文檔的特性詞匯和內(nèi)容的識別,將文檔劃分到不同的類別當(dāng)中,可以讓用戶更加準(zhǔn)確和快速地查找到自己所需要的相關(guān)資料,目前文檔的自動分類已經(jīng)成為我國信息文檔處理最主要的方式之一,本次基于前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法通過去除停用詞和稀有詞以及詞匯合并的方式,構(gòu)建一個類別文檔的選擇標(biāo)準(zhǔn),然后實現(xiàn)對于該類別文檔的選擇和分類。本次基于前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法的文檔分類具有較高的準(zhǔn)確性,而且文檔分類速度較快,比起傳統(tǒng)模式的文檔分類具有較大的優(yōu)勢。
參考文獻(xiàn):
[1] 高潔,吉根林.文本分類技術(shù)研究[J].計算機(jī)應(yīng)用研究,2014(7).
[2] 王灝.文本分類實現(xiàn)技術(shù)[J].廣西師范大學(xué)學(xué)報,2011(9).
【通聯(lián)編輯:李雅琪】