一種基于語(yǔ)義相關(guān)度的特征選擇方法

2013-09-19 09:22:26劉洋

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2013年4期

劉洋

桂林理工大學(xué)信息科學(xué)與工程學(xué)院廣西 541000

0 引言

隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展，網(wǎng)絡(luò)上的信息量呈指數(shù)級(jí)增加，相關(guān)信息處理技術(shù)現(xiàn)已成為人們獲取有用信息時(shí)至關(guān)重要的工具，文本分類(Text Categorization)作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù)應(yīng)運(yùn)而生。因此，研究文本分類成為自然語(yǔ)言處理和數(shù)據(jù)挖掘領(lǐng)域中一項(xiàng)具有重要應(yīng)用和理論價(jià)值的課題。文本分類是在預(yù)定義的分類體系下，根據(jù)文本的特征，將給定文本與一個(gè)或者多個(gè)類別相關(guān)聯(lián)的過(guò)程。文本自動(dòng)分類問(wèn)題的最大特點(diǎn)和困難之一是特征空間的高維性和文檔表示向量的稀疏性。尋求一種有效的特征提取方法，降低特征空間的維數(shù)，提高分類的效率和精度，成為文本自動(dòng)分類中需要首先面對(duì)的重要問(wèn)題。

特征選擇(Feature Selection，F(xiàn)C)作為文本分類關(guān)鍵一步，它的好壞將直接影響文本分類的準(zhǔn)確率，特征空間的降維操作成為了提高文本分類準(zhǔn)確率和效率的關(guān)鍵。好的降維不僅可以提高機(jī)器學(xué)習(xí)任務(wù)的效率，而且還能改善分類性能和節(jié)省大量的存儲(chǔ)空間。在進(jìn)行維數(shù)約簡(jiǎn)時(shí)，實(shí)際是將高維空間映射到一個(gè)小得多的低維空間，同時(shí)希望該低維空間一方面能盡可能多地保留原始信息中的重要信息，另一方面又能有效地把原始信息中的噪音、冗余數(shù)據(jù)過(guò)濾掉。本文提出一種基于《同義詞詞林》的詞語(yǔ)相關(guān)度的特征選擇方法，通過(guò)計(jì)算詞語(yǔ)之間的語(yǔ)義相關(guān)度，進(jìn)行特征取舍，降低特征空間的高維性，并有效減少噪聲，得出最優(yōu)特征空間，從而提高了分類精度。

1 特征選擇方法

傳統(tǒng)的特征選擇相關(guān)研究主要集中在降維的模型算法與比較，特征集與分類效果的關(guān)系，以及降維的幅度3個(gè)方面。在文本分類中，常用的特征選擇方法有基于閾值的統(tǒng)計(jì)方法，如文檔頻率方法(DF)，信息增益方法(IG)，互信息方法(MI)，CHI方法，期望交叉熵，文本證據(jù)權(quán)，優(yōu)勢(shì)率，基于詞頻覆蓋度的特征選擇方法等，以及由原始的低級(jí)特征(比如詞)經(jīng)過(guò)某種變換構(gòu)建正交空間中的新特征的方法，如主分量分析的方法等?；陂撝档慕y(tǒng)計(jì)方法具有計(jì)算復(fù)雜度低，速度快的優(yōu)點(diǎn)，尤其適合做文本分類中的特征選擇。關(guān)于文本分類中的特征選擇問(wèn)題, 比較有代表性的是Yang Yi ming和 Dunja Mladenic的工作(圖1)。

圖1 特征選擇示意圖

(1) 文檔頻率

詞條的文檔頻率(Document Frequency)是指在訓(xùn)練語(yǔ)料中出現(xiàn)該詞條的文檔數(shù)。采用DF作為特征抽取基于如下基本假設(shè)：DF 值低于某個(gè)閾值的詞條是低頻詞，它們不含或含有較少的類別信息。將這樣的詞條從原始特征空間中移除，不但能夠降低特征空間的維數(shù)，而且還有可能提高分類的精度。文檔頻率是最簡(jiǎn)單的特征抽取技術(shù)，由于其具有相對(duì)于訓(xùn)練語(yǔ)料規(guī)模的線性計(jì)算復(fù)雜度，它能夠容易地被用于大規(guī)模語(yǔ)料統(tǒng)計(jì)。

(2) 信息增益

信息增益(Information Gain)在機(jī)器學(xué)習(xí)領(lǐng)域被廣泛使用對(duì)于詞條t和文檔C類，IG考察C中出現(xiàn)和不出現(xiàn)t的文檔頻數(shù)來(lái)衡量t對(duì)于C的信息增益。我們采用如下的定義式：

其中表示類文檔在語(yǔ)料中出現(xiàn)的概率，P(t)表示語(yǔ)料中包含詞條 t的文檔的概率，P(Ci|t)表示文檔包含詞條t時(shí)屬于Ci類的條件概率，P(t)表示語(yǔ)料中不包含詞條 t的文檔的概率,P(Ci|t)表示文檔不包含詞條t時(shí)屬于Ci的條件概率，m表示類別數(shù)。

(3) 卡方(CHI)統(tǒng)計(jì)

(4) 互信息

互信息(Mutual Information)在統(tǒng)計(jì)語(yǔ)言模型中被廣泛采用。如果用A 表示包含詞條t且屬于類別C的文檔頻數(shù)，B為包含t 但是不屬于C的文檔頻數(shù)，C表示屬于C但是不包含t的文檔頻數(shù)，N表示語(yǔ)料中文檔總數(shù)，t和C的互信息可由下式計(jì)算：

2 基于詞匯相關(guān)度計(jì)算的特征選擇

2.1 《同義詞詞林》介紹

《同義詞詞林》是梅家駒等人于1983年編纂而成，這本詞典中不僅包括了一個(gè)詞語(yǔ)的同義詞，也包含了一定數(shù)量的同類詞，即廣義的相關(guān)詞。由于《同義詞詞林》著作時(shí)間較為久遠(yuǎn)，且之后沒(méi)有更新，所以哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室利用眾多詞語(yǔ)相關(guān)資源，完成了一部具有漢語(yǔ)大詞表的《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》。《同義詞詞林?jǐn)U展版》收錄詞語(yǔ)近7萬(wàn)條，全部按意義進(jìn)行編排，是一部同義類詞典。

《同義詞詞林》按照樹(shù)狀的層次結(jié)構(gòu)把所有收錄的詞條組織到一起，把詞匯分成大、中、小 3類，《同義詞詞林》共提供了5層編碼, 第1級(jí)用大寫英文字母表示；第2級(jí)用小寫英文字母表示；第3級(jí)用二位十進(jìn)制整數(shù)表示；第4級(jí)用大寫英文字母表示；第5級(jí)用二位十進(jìn)制整數(shù)表示。例如：“Ae07C01=漁民漁翁漁家漁夫漁父打魚(yú)郎”，“Ae07C01=”是編碼，“漁民漁翁漁家漁夫漁父打魚(yú)郎”是該類的詞語(yǔ)。

2.2 詞匯相關(guān)度計(jì)算

詞匯相關(guān)性計(jì)算在很多領(lǐng)域中都有廣泛應(yīng)用，例如信息檢索、信息抽取、文本分類等等。詞匯相關(guān)性計(jì)算的兩種基本方法是基于世界知識(shí)(Ontology)或某種分類體系(Taxonomy)的方法和基于語(yǔ)料庫(kù)(Corpus-Based)上下文統(tǒng)計(jì)的方法。這兩種方法各有優(yōu)缺點(diǎn)。但從某種意義上來(lái)說(shuō)，專家所劃分的詞匯知識(shí)概念體系應(yīng)該具有權(quán)威性，依賴這樣的概念體系進(jìn)行詞匯相關(guān)性計(jì)算也更加合理。本文采用基于《同義詞詞林》的詞匯相關(guān)性計(jì)算是一種基于世界知識(shí)的方法。

2.3 改進(jìn)的特征選擇方法

本文根據(jù)文獻(xiàn)5中算法指導(dǎo)，通過(guò)查找計(jì)算兩兩特征詞之間的語(yǔ)義關(guān)系(上下義位關(guān)系、整體-部分關(guān)系、反義關(guān)系、包含關(guān)系)，從而確定特征向量的選擇。但是，針對(duì)具有同義關(guān)系的詞，我們就要進(jìn)行合并處理，因?yàn)檫^(guò)多同義詞不但不能提高語(yǔ)義特性，反而會(huì)增加空間維數(shù)。根據(jù)《同義詞詞林》組織編排特點(diǎn)，基于《同義詞詞林》的語(yǔ)義相關(guān)度計(jì)算的主要思想是：基于《同義詞詞林》結(jié)構(gòu)利用詞語(yǔ)中義項(xiàng)的編號(hào)根據(jù)兩個(gè)義項(xiàng)的語(yǔ)義距離，計(jì)算出義項(xiàng)相關(guān)度。

具體步驟如下：

(1) 經(jīng)過(guò)分詞、詞干處理一系列文本預(yù)處理我們得到最初文本特征空間，對(duì)最初的在文本預(yù)處理得到的文本特征集的基礎(chǔ)上，對(duì)于一篇文本而言，首先讀取特征詞，通過(guò)查詢《同義詞詞林》，得到其各自對(duì)應(yīng)分類結(jié)構(gòu)樹(shù)，對(duì)于分類結(jié)構(gòu)樹(shù)，逐一進(jìn)行處理。

(2) 計(jì)算特征詞語(yǔ)義相關(guān)度。首先判斷在同義詞林中作為葉子節(jié)點(diǎn)的兩個(gè)義項(xiàng)在哪一層分支，即兩個(gè)義項(xiàng)的編號(hào)在哪一層不同。相同則乘1，否則在分支層乘以相應(yīng)的系數(shù)，然后乘以調(diào)節(jié)參數(shù)cos(n ×)其中n是分支層的節(jié)點(diǎn)總數(shù)。詞語(yǔ)所在樹(shù)的密度，分支的多少直接影響到義項(xiàng)的相似度，密度較大的義項(xiàng)相似度的值相比密度小的相似度的值精確。再乘以一個(gè)控制參數(shù)(n-k+1)/n，其中n是分支層的節(jié)點(diǎn)總數(shù)，k是兩個(gè)分支間的距離。若兩個(gè)義項(xiàng)的相似度用sim表示。公式(1)、(2)分別對(duì)應(yīng)義項(xiàng)是不是在同一棵樹(shù)上，a、b、c、d、e對(duì)應(yīng)各自層數(shù)，分別取值為0.65，0.8，0.9，0.5，0.1。

(3) 候選特征詞依據(jù)修正后的權(quán)重排序，選取前N個(gè)特征詞形成特征向量空間。

(4) 對(duì)詞形特征向量空間模型的規(guī)范化處理，采用一范數(shù)規(guī)范化處理方式進(jìn)行歸一化處理，經(jīng)過(guò)最后一步規(guī)范化處理后即得到了最終的向量空間模型。

3 實(shí)驗(yàn)結(jié)果

我們?cè)赪eka平臺(tái)上，用譚松波等收集的中文語(yǔ)料集作為語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn)。采用KNN分類器本文提出的基于《同義詞詞林》的文本特征選擇方法的效果進(jìn)行評(píng)估。試驗(yàn)中采用的評(píng)價(jià)參數(shù)如下：

分類準(zhǔn)確率= 該分類的正確文本數(shù)/該分類的實(shí)際文本數(shù)。

表1 特征提取

表2 分類準(zhǔn)確率提高

表1顯示出使用本方法進(jìn)行特征提取時(shí)，最終的特征向量個(gè)數(shù)大幅度減少；從表2能看出分類準(zhǔn)確率有明顯的提高。

4 結(jié)論

在《同義詞詞林》基礎(chǔ)上，我們進(jìn)行了基于語(yǔ)義相關(guān)度的文本特征選擇的研究。與傳統(tǒng)的特征選擇方法進(jìn)行了實(shí)驗(yàn)比較, 實(shí)驗(yàn)結(jié)果表明該方法有效的降低了特征空間的高維稀疏性和減少噪聲，提高了分類精度，體現(xiàn)出更好的分類效果。

[1]宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué).2008.

[2]代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報(bào).2003.

[3]SU Jin-Shu,ZHANG Bo-Feng,XU Xin..Advances in Machine Learning Based Text Categorization[J] Journal of Software, Vol.17, No.9, September 2006.

[4]周茜,趙名生.中文文本分類中的特征選擇研究[J].中文信息學(xué)報(bào).2003.

[5]田久樂(lè),趙蔚.基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào).2010.

[6]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度算[J]. Computational Linguistics and Chinese Language Processing.2002.

[7]http://sourceforge.net/projects/weak.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看