文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用

2016-10-11 09:36法漢英

科技視界 2016年24期

關(guān)鍵詞：文本分類

法漢英

【摘要】高等教育的快速發(fā)展使學(xué)校檔案館要管理的檔案越來越多，許多學(xué)校針對(duì)這種情況采用檔案管理軟件對(duì)檔案進(jìn)行管理，據(jù)調(diào)查在我校沒有對(duì)檔案文件進(jìn)行自動(dòng)分類功能，為減輕檔案工作人員工作量便研究一種適合我校檔案的文本自動(dòng)分類方法。本文大體論述文本分類算法的知識(shí)點(diǎn)和文本分類算法的應(yīng)用。根據(jù)山東女子學(xué)院檔案的重復(fù)性、周期性等特點(diǎn)，詢問檔案館工作人員采用手工對(duì)檔案進(jìn)行分類時(shí)，需要知道檔案主題名和檔案人信息確定歸屬于哪一個(gè)類別。本文將檔案按照主題名看作不同類別應(yīng)用加權(quán)分類算法對(duì)屬于不同的類別的檔案進(jìn)行自動(dòng)分類處理。

【關(guān)鍵詞】文本分類；山東女子學(xué)院檔案；短文本；加權(quán)分類算法

1 研究背景和意義

對(duì)于檔案人員來說文本分類不是一個(gè)陌生的概念，過去用手工進(jìn)行檔案分類。隨著計(jì)算機(jī)快速發(fā)展出現(xiàn)了許多文本文件。對(duì)文本進(jìn)行有效的分類，利用計(jì)算機(jī)進(jìn)行文本分類研究和應(yīng)用尤為重要[2]。

分類的意思是將具有共同特定特征的事物放在一起方便檢索。最典型的分類應(yīng)用是在超市里商品排放，例如把不同品牌薯片放在一個(gè)貨架上，把餅干放在另一貨架上。這種好處是讓顧客在買東西時(shí)能比較品牌信息為購(gòu)買做決定。用戶在下次購(gòu)買東西的時(shí)候會(huì)直接前往該位置。

文本分類是把有相似特征的文本歸納到一起方便查詢。面對(duì)海量的檔案信息，目前的管理模式是依靠專業(yè)人員在檔案管理系統(tǒng)中進(jìn)行手工分類工作，利用文本分類算法對(duì)山東女子學(xué)院檔案系統(tǒng)進(jìn)行管理以提高檔案管理水平。

2 文本分類相關(guān)技術(shù)

2.1 文本分類的概念

文本分類是指在一定的分類體系下根據(jù)文本的內(nèi)容自動(dòng)確定文本類別的過程[1]。文本分類是文本挖掘的一個(gè)分支。

2.2 文本分類和文本挖掘

文本知識(shí)又稱為文本數(shù)據(jù)挖掘。文本挖掘不同于數(shù)據(jù)挖掘，數(shù)據(jù)挖掘面對(duì)的是結(jié)構(gòu)化數(shù)據(jù)。文本挖掘面對(duì)是非結(jié)構(gòu)化的文本，因此決定它采用的方法與數(shù)據(jù)挖掘不同。文本分類屬于文本挖掘的范圍。

2.3 文本預(yù)處理

文本預(yù)處理在分類中很重要。文本預(yù)處理包括以下幾個(gè)方面：1）中文分詞[3]。中文分詞是將句子分為單詞和詞組的過程。2）詞性標(biāo)注[4]。詞性是詞語(yǔ)的屬性，例如名詞，形容詞等。3）停用詞過濾[5]。停用詞指的是輔助詞。如“的”這些詞出現(xiàn)在大量的句子中如不處理會(huì)影響分類效果。4）實(shí)體識(shí)別[6]。實(shí)體識(shí)別是指對(duì)人名、地理位置等實(shí)體名字的識(shí)別。

2.4 文本表示

文本表示就是將文本預(yù)處理得到的特征詞表示成計(jì)算機(jī)所能處理二進(jìn)制數(shù)。

2.5 文本特征選擇與特征抽取

對(duì)文本特征進(jìn)行篩選，選出最能代表文本類別的特征，這個(gè)過程就是特征選擇[7]。對(duì)每個(gè)特征計(jì)算其統(tǒng)計(jì)的度量值，設(shè)定一個(gè)閾值T，把度量值小于T的特征值過濾掉，剩下的是有效特征。特征抽取通過對(duì)初始特征空間進(jìn)行扭曲、拉伸或者旋轉(zhuǎn)等變換得到一個(gè)新的低維數(shù)特征空間的過程。

3 針對(duì)山東女子學(xué)院檔案的基礎(chǔ)詞庫(kù)的創(chuàng)建

根據(jù)學(xué)院檔案管理的特點(diǎn)結(jié)合文本分類技術(shù)的發(fā)展，提出一種用于學(xué)院檔案的基于語(yǔ)義的短文本加權(quán)自動(dòng)分類算法。

3.1 基于山東女子學(xué)院檔案自動(dòng)分類算法的基礎(chǔ)庫(kù)設(shè)計(jì)

對(duì)于一份檔案而言，其名字包括該檔案的所有內(nèi)容，檔案進(jìn)行計(jì)算機(jī)分類無需全文分析，只需對(duì)檔案的名字分析。

本算法通過對(duì)檔案名字信息中特征詞提取和分析來進(jìn)行檔案的歸類。通過對(duì)已分類的檔案名字進(jìn)行統(tǒng)計(jì)分析，將與各個(gè)類別相關(guān)度高的關(guān)鍵詞提取出來建類別詞庫(kù)并根據(jù)關(guān)鍵詞與類別之間的關(guān)聯(lián)度的強(qiáng)弱為其分配相應(yīng)的權(quán)值，可創(chuàng)建詞庫(kù)表。在檔案名字中存在大量的詞如“關(guān)于”、“通知”等與分類無關(guān)詞，為提高文本在提取特征詞的準(zhǔn)確度減少冗余詞的出現(xiàn)，需創(chuàng)建停用詞庫(kù)。通過對(duì)檔案文件責(zé)任者信息提取創(chuàng)建一個(gè)責(zé)任者詞庫(kù)。通過分析確定該檔案所屬的大類類別。

3.2 分類詞庫(kù)的創(chuàng)建

類別詞與類之間的關(guān)聯(lián)度能夠區(qū)分，需要為其類別詞與類之間的關(guān)聯(lián)度建立權(quán)重來表達(dá)這兩者的不同。當(dāng)某一類別詞與類之間的關(guān)聯(lián)度非常緊密時(shí)，需要為其賦予較高的權(quán)重系數(shù)，是該類別詞的檔案文件能夠分到指定的類別。當(dāng)一份檔案中有多個(gè)類別詞，且這些類別詞的檔案有屬于不同的類別號(hào)時(shí)，可以通過權(quán)重計(jì)算來確定該份檔案應(yīng)該分到哪個(gè)類號(hào)中。

4 基于語(yǔ)義的短文本的加權(quán)分類算法

在完成基礎(chǔ)詞庫(kù)的創(chuàng)建后，采用加權(quán)分類算法對(duì)檔案文件進(jìn)行分類。算法的步驟為：

1）在責(zé)任者詞庫(kù)搜索該檔案責(zé)任者信息，確定該檔案屬于的大類類別。2）用停用詞表對(duì)檔案文件名字進(jìn)行遍歷去除停用詞。3）根據(jù)1）確定的類別在類別詞庫(kù)中遍歷，提取文本類別詞及其對(duì)應(yīng)的權(quán)值。4）將獲得的類別詞及其對(duì)應(yīng)權(quán)值進(jìn)行分類加權(quán)匯總并進(jìn)行比較取得最大值即為該份檔案所屬的類別。

4.1 基于語(yǔ)義的短文本加權(quán)自動(dòng)分類算法

經(jīng)過這些工作后，對(duì)檔案文件進(jìn)行自動(dòng)分類可以分為以下步驟：1）獲得待分類檔案責(zé)任者信息，用責(zé)任者信息在責(zé)任者詞庫(kù)中檢索獲得待分類檔案的類別。2）對(duì)名字進(jìn)行停用詞操作，去除文本中的停用詞，將待分類的短文本進(jìn)一步縮短。將相同的分類號(hào)合并并計(jì)算類別詞的權(quán)值進(jìn)行比較確定最大值，最終確定待分類檔案所屬的類別。

4.2 短文本的處理

首先對(duì)短文本進(jìn)行遍歷，去掉其中的停用詞，再根據(jù)類別詞庫(kù)中的詞匯與題名中的內(nèi)容進(jìn)行比較，最后從中提取出的類別詞作為分類結(jié)果。

4.3 合并分類號(hào)并權(quán)值求和

經(jīng)過之前的工作，所有的分類主題詞所歸屬的分類號(hào)及對(duì)應(yīng)的權(quán)重全部得到，即可開始計(jì)算權(quán)重最終確定其類別。最終運(yùn)行步驟如下：1）從待分類檔案表中讀取第一條記錄。2）根據(jù)該條檔案的責(zé)任者信息，判斷其所屬的大類。3）在該大類下的二級(jí)類別詞庫(kù)中對(duì)檔案文件的名字進(jìn)行遍歷，取得類別詞及相應(yīng)的權(quán)值。4）合并相同類號(hào)，對(duì)權(quán)值求和。5）判斷是否存在唯一最大值，若存在則可直接確定類別；若不存在則轉(zhuǎn)入人工處理。6）讀取下一條，循環(huán)直至完成。最終便完成了對(duì)山東女子學(xué)院檔案的分類。

4.4 檔案分類應(yīng)用分析

通過對(duì)山東女子學(xué)院檔案的自動(dòng)分類，可以大大減輕了檔案管理工作人員的工作量，對(duì)文件進(jìn)行分門別類的整理，做到井井有條，層次鮮明。通過文本自動(dòng)分類對(duì)各類文本信息進(jìn)行有效的組織分類，可以高效的為用戶提供信息檢索和信息存儲(chǔ)形成了學(xué)校對(duì)檔案的獨(dú)特管理。

5 總結(jié)

跟其他類的文本分類方法相比較，本文所設(shè)計(jì)的基于山東女子學(xué)院檔案的文本自動(dòng)分類算法的復(fù)雜度大大降低了，取消了文本訓(xùn)練的復(fù)雜過程，直接將學(xué)校檔案的各類關(guān)鍵詞和停用詞依靠人工經(jīng)驗(yàn)學(xué)習(xí)進(jìn)行了手工構(gòu)建，然而詞庫(kù)的構(gòu)建很復(fù)雜，需要根據(jù)分類情況的反饋不斷的調(diào)整補(bǔ)充。由于學(xué)校所管理的檔案內(nèi)容的特殊性，為了提高分類的效率，本文中所采用的這種簡(jiǎn)單實(shí)用的算法經(jīng)過分析可以減少檔案工作人員的工作量，達(dá)到了預(yù)期目的。

【參考文獻(xiàn)】

[1]程傳鵬.中文網(wǎng)頁(yè)分類的研究與實(shí)現(xiàn)[J].中原工學(xué)院學(xué)報(bào)，2007（1）.

[2]中國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心.第三十一次互聯(lián)網(wǎng)發(fā)展統(tǒng)計(jì)報(bào)告[R].2013-01.

[3]龍樹全，趙文正，唐華.中文分詞算法概述[J].電腦科學(xué)與技術(shù)，2009，10：2605-2607.

[4]陳曉文.自動(dòng)詞性標(biāo)注方法的比較[J].溫州大學(xué)學(xué)報(bào)，2009，01：53-57.

[5]化柏林.知識(shí)抽取中的停用詞處理技術(shù)[J].現(xiàn)在圖書館情報(bào)技術(shù)，2010.08：48-51.

[6]孫鎮(zhèn)，王惠臨.命名實(shí)體識(shí)別研究進(jìn)展綜述[J].現(xiàn)在圖書館情報(bào)技術(shù)，2012，06：42-47.

[7]張東禮，汪東升，鄭偉民.基于VSM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[M].清華大學(xué)出版社，2003.

[責(zé)任編輯：李書培]