• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用

      2016-10-11 09:36法漢英
      科技視界 2016年24期
      關(guān)鍵詞:文本分類

      法漢英

      【摘 要】高等教育的快速發(fā)展使學(xué)校檔案館要管理的檔案越來越多,許多學(xué)校針對(duì)這種情況采用檔案管理軟件對(duì)檔案進(jìn)行管理,據(jù)調(diào)查在我校沒有對(duì)檔案文件進(jìn)行自動(dòng)分類功能,為減輕檔案工作人員工作量便研究一種適合我校檔案的文本自動(dòng)分類方法。本文大體論述文本分類算法的知識(shí)點(diǎn)和文本分類算法的應(yīng)用。根據(jù)山東女子學(xué)院檔案的重復(fù)性、周期性等特點(diǎn),詢問檔案館工作人員采用手工對(duì)檔案進(jìn)行分類時(shí),需要知道檔案主題名和檔案人信息確定歸屬于哪一個(gè)類別。本文將檔案按照主題名看作不同類別應(yīng)用加權(quán)分類算法對(duì)屬于不同的類別的檔案進(jìn)行自動(dòng)分類處理。

      【關(guān)鍵詞】文本分類;山東女子學(xué)院檔案;短文本;加權(quán)分類算法

      1 研究背景和意義

      對(duì)于檔案人員來說文本分類不是一個(gè)陌生的概念,過去用手工進(jìn)行檔案分類。隨著計(jì)算機(jī)快速發(fā)展出現(xiàn)了許多文本文件。對(duì)文本進(jìn)行有效的分類,利用計(jì)算機(jī)進(jìn)行文本分類研究和應(yīng)用尤為重要[2]。

      分類的意思是將具有共同特定特征的事物放在一起方便檢索。最典型的分類應(yīng)用是在超市里商品排放,例如把不同品牌薯片放在一個(gè)貨架上,把餅干放在另一貨架上。這種好處是讓顧客在買東西時(shí)能比較品牌信息為購(gòu)買做決定。用戶在下次購(gòu)買東西的時(shí)候會(huì)直接前往該位置。

      文本分類是把有相似特征的文本歸納到一起方便查詢。面對(duì)海量的檔案信息,目前的管理模式是依靠專業(yè)人員在檔案管理系統(tǒng)中進(jìn)行手工分類工作,利用文本分類算法對(duì)山東女子學(xué)院檔案系統(tǒng)進(jìn)行管理以提高檔案管理水平。

      2 文本分類相關(guān)技術(shù)

      2.1 文本分類的概念

      文本分類是指在一定的分類體系下根據(jù)文本的內(nèi)容自動(dòng)確定文本類別的過程[1]。文本分類是文本挖掘的一個(gè)分支。

      2.2 文本分類和文本挖掘

      文本知識(shí)又稱為文本數(shù)據(jù)挖掘。文本挖掘不同于數(shù)據(jù)挖掘,數(shù)據(jù)挖掘面對(duì)的是結(jié)構(gòu)化數(shù)據(jù)。文本挖掘面對(duì)是非結(jié)構(gòu)化的文本,因此決定它采用的方法與數(shù)據(jù)挖掘不同。文本分類屬于文本挖掘的范圍。

      2.3 文本預(yù)處理

      文本預(yù)處理在分類中很重要。文本預(yù)處理包括以下幾個(gè)方面:1)中文分詞[3]。中文分詞是將句子分為單詞和詞組的過程。2)詞性標(biāo)注[4]。詞性是詞語(yǔ)的屬性,例如名詞,形容詞等。3)停用詞過濾[5]。停用詞指的是輔助詞。如“的”這些詞出現(xiàn)在大量的句子中如不處理會(huì)影響分類效果。4)實(shí)體識(shí)別[6]。實(shí)體識(shí)別是指對(duì)人名、地理位置等實(shí)體名字的識(shí)別。

      2.4 文本表示

      文本表示就是將文本預(yù)處理得到的特征詞表示成計(jì)算機(jī)所能處理二進(jìn)制數(shù)。

      2.5 文本特征選擇與特征抽取

      對(duì)文本特征進(jìn)行篩選,選出最能代表文本類別的特征,這個(gè)過程就是特征選擇[7]。對(duì)每個(gè)特征計(jì)算其統(tǒng)計(jì)的度量值,設(shè)定一個(gè)閾值T,把度量值小于T的特征值過濾掉,剩下的是有效特征。特征抽取通過對(duì)初始特征空間進(jìn)行扭曲、拉伸或者旋轉(zhuǎn)等變換得到一個(gè)新的低維數(shù)特征空間的過程。

      3 針對(duì)山東女子學(xué)院檔案的基礎(chǔ)詞庫(kù)的創(chuàng)建

      根據(jù)學(xué)院檔案管理的特點(diǎn)結(jié)合文本分類技術(shù)的發(fā)展,提出一種用于學(xué)院檔案的基于語(yǔ)義的短文本加權(quán)自動(dòng)分類算法。

      3.1 基于山東女子學(xué)院檔案自動(dòng)分類算法的基礎(chǔ)庫(kù)設(shè)計(jì)

      對(duì)于一份檔案而言,其名字包括該檔案的所有內(nèi)容,檔案進(jìn)行計(jì)算機(jī)分類無需全文分析,只需對(duì)檔案的名字分析。

      本算法通過對(duì)檔案名字信息中特征詞提取和分析來進(jìn)行檔案的歸類。通過對(duì)已分類的檔案名字進(jìn)行統(tǒng)計(jì)分析,將與各個(gè)類別相關(guān)度高的關(guān)鍵詞提取出來建類別詞庫(kù)并根據(jù)關(guān)鍵詞與類別之間的關(guān)聯(lián)度的強(qiáng)弱為其分配相應(yīng)的權(quán)值,可創(chuàng)建詞庫(kù)表。在檔案名字中存在大量的詞如“關(guān)于”、“通知”等與分類無關(guān)詞,為提高文本在提取特征詞的準(zhǔn)確度減少冗余詞的出現(xiàn),需創(chuàng)建停用詞庫(kù)。通過對(duì)檔案文件責(zé)任者信息提取創(chuàng)建一個(gè)責(zé)任者詞庫(kù)。通過分析確定該檔案所屬的大類類別。

      3.2 分類詞庫(kù)的創(chuàng)建

      類別詞與類之間的關(guān)聯(lián)度能夠區(qū)分,需要為其類別詞與類之間的關(guān)聯(lián)度建立權(quán)重來表達(dá)這兩者的不同。當(dāng)某一類別詞與類之間的關(guān)聯(lián)度非常緊密時(shí),需要為其賦予較高的權(quán)重系數(shù),是該類別詞的檔案文件能夠分到指定的類別。當(dāng)一份檔案中有多個(gè)類別詞,且這些類別詞的檔案有屬于不同的類別號(hào)時(shí),可以通過權(quán)重計(jì)算來確定該份檔案應(yīng)該分到哪個(gè)類號(hào)中。

      4 基于語(yǔ)義的短文本的加權(quán)分類算法

      在完成基礎(chǔ)詞庫(kù)的創(chuàng)建后,采用加權(quán)分類算法對(duì)檔案文件進(jìn)行分類。算法的步驟為:

      1)在責(zé)任者詞庫(kù)搜索該檔案責(zé)任者信息,確定該檔案屬于的大類類別。2)用停用詞表對(duì)檔案文件名字進(jìn)行遍歷去除停用詞。3)根據(jù)1)確定的類別在類別詞庫(kù)中遍歷,提取文本類別詞及其對(duì)應(yīng)的權(quán)值。4)將獲得的類別詞及其對(duì)應(yīng)權(quán)值進(jìn)行分類加權(quán)匯總并進(jìn)行比較取得最大值即為該份檔案所屬的類別。

      4.1 基于語(yǔ)義的短文本加權(quán)自動(dòng)分類算法

      經(jīng)過這些工作后,對(duì)檔案文件進(jìn)行自動(dòng)分類可以分為以下步驟:1)獲得待分類檔案責(zé)任者信息,用責(zé)任者信息在責(zé)任者詞庫(kù)中檢索獲得待分類檔案的類別。2)對(duì)名字進(jìn)行停用詞操作,去除文本中的停用詞,將待分類的短文本進(jìn)一步縮短。將相同的分類號(hào)合并并計(jì)算類別詞的權(quán)值進(jìn)行比較確定最大值,最終確定待分類檔案所屬的類別。

      4.2 短文本的處理

      首先對(duì)短文本進(jìn)行遍歷,去掉其中的停用詞,再根據(jù)類別詞庫(kù)中的詞匯與題名中的內(nèi)容進(jìn)行比較,最后從中提取出的類別詞作為分類結(jié)果。

      4.3 合并分類號(hào)并權(quán)值求和

      經(jīng)過之前的工作,所有的分類主題詞所歸屬的分類號(hào)及對(duì)應(yīng)的權(quán)重全部得到,即可開始計(jì)算權(quán)重最終確定其類別。最終運(yùn)行步驟如下:1)從待分類檔案表中讀取第一條記錄。2)根據(jù)該條檔案的責(zé)任者信息,判斷其所屬的大類。3)在該大類下的二級(jí)類別詞庫(kù)中對(duì)檔案文件的名字進(jìn)行遍歷,取得類別詞及相應(yīng)的權(quán)值。4)合并相同類號(hào),對(duì)權(quán)值求和。5)判斷是否存在唯一最大值,若存在則可直接確定類別;若不存在則轉(zhuǎn)入人工處理。6)讀取下一條,循環(huán)直至完成。最終便完成了對(duì)山東女子學(xué)院檔案的分類。

      4.4 檔案分類應(yīng)用分析

      通過對(duì)山東女子學(xué)院檔案的自動(dòng)分類,可以大大減輕了檔案管理工作人員的工作量,對(duì)文件進(jìn)行分門別類的整理,做到井井有條,層次鮮明。通過文本自動(dòng)分類對(duì)各類文本信息進(jìn)行有效的組織分類,可以高效的為用戶提供信息檢索和信息存儲(chǔ)形成了學(xué)校對(duì)檔案的獨(dú)特管理。

      5 總結(jié)

      跟其他類的文本分類方法相比較,本文所設(shè)計(jì)的基于山東女子學(xué)院檔案的文本自動(dòng)分類算法的復(fù)雜度大大降低了,取消了文本訓(xùn)練的復(fù)雜過程,直接將學(xué)校檔案的各類關(guān)鍵詞和停用詞依靠人工經(jīng)驗(yàn)學(xué)習(xí)進(jìn)行了手工構(gòu)建,然而詞庫(kù)的構(gòu)建很復(fù)雜,需要根據(jù)分類情況的反饋不斷的調(diào)整補(bǔ)充。由于學(xué)校所管理的檔案內(nèi)容的特殊性,為了提高分類的效率,本文中所采用的這種簡(jiǎn)單實(shí)用的算法經(jīng)過分析可以減少檔案工作人員的工作量,達(dá)到了預(yù)期目的。

      【參考文獻(xiàn)】

      [1]程傳鵬.中文網(wǎng)頁(yè)分類的研究與實(shí)現(xiàn)[J].中原工學(xué)院學(xué)報(bào),2007(1).

      [2]中國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心.第三十一次互聯(lián)網(wǎng)發(fā)展統(tǒng)計(jì)報(bào)告[R].2013-01.

      [3]龍樹全,趙文正,唐華.中文分詞算法概述[J].電腦科學(xué)與技術(shù),2009,10:2605-2607.

      [4]陳曉文.自動(dòng)詞性標(biāo)注方法的比較[J].溫州大學(xué)學(xué)報(bào),2009,01:53-57.

      [5]化柏林.知識(shí)抽取中的停用詞處理技術(shù)[J].現(xiàn)在圖書館情報(bào)技術(shù),2010.08:48-51.

      [6]孫鎮(zhèn),王惠臨.命名實(shí)體識(shí)別研究進(jìn)展綜述[J].現(xiàn)在圖書館情報(bào)技術(shù),2012,06:42-47.

      [7]張東禮,汪東升,鄭偉民.基于VSM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[M].清華大學(xué)出版社,2003.

      [責(zé)任編輯:李書培]

      猜你喜歡
      文本分類
      基于稀疏編碼器與集成學(xué)習(xí)的文本分類
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      不同情境下中文文本分類模型的表現(xiàn)及選擇
      基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注研究與應(yīng)用
      宣化县| 四会市| 盐源县| 濮阳市| 综艺| 东港市| 闵行区| 乌兰浩特市| 台南县| 甘孜| 寻乌县| 嘉鱼县| 阜平县| 南澳县| 麟游县| 蒲江县| 宁夏| 元江| 三门县| 正镶白旗| 新干县| 鄂伦春自治旗| 红河县| 页游| 抚州市| 临汾市| 大冶市| 额尔古纳市| 剑阁县| 石门县| 昆明市| 莒南县| 大关县| 溧阳市| 航空| 保德县| 拉萨市| 娱乐| 兴安盟| 百色市| 拉萨市|