• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融入詞和文本關系的文本表示模型研究

      2015-10-23 09:21:26朱建林彭鯨橋楊小平王倩
      關鍵詞:特征選擇降維語料庫

      朱建林,彭鯨橋,楊小平,王倩

      (1.中國人民大學 信息學院,北京 100083;2.河北金融學院 信息管理與工程系,保定 071051;3.華北電力大學 學生處,保定 071003)

      0 引言

      向量空間模型[1]的形式簡單、表達能力良好,因此在信息檢索、文本挖掘等領域得到了廣泛的應用。但是,它也存在一定的缺陷,例如該模型基于詞間獨立假設,忽略了詞間關系,如同義詞和一詞多義等情況[2]。

      為了彌補向量空間模型的稀疏性,融入詞文本矩陣更多的語義信息,從而改善矩陣的表達能力,研究者做了大量的改進工作。解決策略可分為兩種:引入外部知識和挖掘內(nèi)部知識。

      引入外部知識指將語料庫之外的知識融入向量空間模型,如通用本體、領域詞典等。Hoth等[3]在文本聚類中引入了WordNet[4]的背景知識,彌補了重要詞匯之間的關系,明顯地提高了聚類效果。Bloehdorn[5]等使用醫(yī)療領域本體改善了文本分類和聚類的效果,并比較了人工構建本體和自動構建本體對文本分類和聚類的影響。Gabrilovich[6]和Huang等[7]利用維基百科,構建文本中詞與概念間的關系,改善了文本相似度計算的效果。Cilibrasi等[8]依據(jù)谷歌返回的搜索結果,定義詞的“谷歌相似距離”,并應用于分類和語言翻譯等方面。

      挖掘內(nèi)部知識指的是根據(jù)語料中出現(xiàn)的詞共現(xiàn)和句法分析等方法挖掘詞間和文本間關系,并將其融入向量空間模型。Deerwester等[9]在1990年就提出了潛在語義模型(Latent Semantic Indexing),通過奇異值分解(Singular-Value Decomposition)可挖掘詞間和文本間的內(nèi)在語義關系?;贒eerwester等人的工作,Kontostathis等[10]把詞間關系分為一階共現(xiàn)、二階共現(xiàn)和三階共現(xiàn),發(fā)現(xiàn)二階詞共現(xiàn)和奇異值分解有很強的相關性,并給出了數(shù)學證明。Chen等[11]把語料庫中不常見的詞替換為常見的同義詞,以改善矩陣的高維稀疏性,提高文本分類的效果。Figueiredo等[12]依據(jù)詞的共現(xiàn),把分散的特征詞組合為更具區(qū)分力的“復合特征”,提高了模型的表達能力。Baker等[13]根據(jù)詞的類別聚類,縮小特征空間,并保證分類效果不受影響。Seifert[17]發(fā)現(xiàn)用關鍵句和關鍵短語比用全部內(nèi)容表達文本的效果更好,這也證實了對文本進行特征選擇,過濾掉不相關的特征,既能壓縮特征空間,又能提高文本的表達能力[14-15,18,23-24]。隨著大數(shù)據(jù)時代的到來,在云平臺上處理海量文本分類研究越來越受到重視[22,25-26]。

      Zelikovitz等[16]人把外部領域知識中未在語料庫中出現(xiàn)的特征詞加入詞-文本矩陣,得到一個維度更高的新矩陣,然后用LSI和SVD做降維處理,再用于分類,取得了顯著的效果,尤其在訓練數(shù)據(jù)較少時。本文思路與之相似,即在不引入外部知識的情況下,挖掘語料庫中蘊含的詞間關系和文本間關系,將其融入詞-文本矩陣,以改善向量空間模型的稀疏性,增強模型的表達能力。

      1 融合詞與文本關系的表示模型定義

      本文試圖在不引入外部知識的情況下,根據(jù)已有的詞-文本矩陣,定義詞關系矩陣和文本關系矩陣,然后將其融入原有矩陣,以改善矩陣的稀疏性,增加文本表示的語義信息。

      通過對語料庫中的文本進行分詞,按詞頻做特征選擇等預處理,本文得到了詞-文本矩陣,并作為初始矩陣命名為X0,之后的文本表示方法都是在X0的基礎上融入其他語義關系得到的。

      1.1 詞-詞余弦相似矩陣

      X0表示原始的詞-文本矩陣,其中每一行代表某個詞的向量表示,向量中每個元素表示該詞出現(xiàn)在某文本中的TFIDF值。本文將詞-詞相似度定義為兩個詞向量的夾角余弦,即如果將詞-詞的余弦相似矩陣定義為Y0,矩陣中第i行第j列的元素yij可由式(1)計算得到:

      其中,yij表示的是詞i和詞j的相似度,row_xi、row_xj分別表示矩陣X0中第i和j行的詞向量。因此,詞-詞關系矩陣Y0可由式(1)通過原始詞-文本矩陣計算得到,矩陣的行列數(shù)等于詞的個數(shù)。

      1.2 文本-文本余弦相似矩陣

      與1.1類似,如果將文本-文本余弦相似矩陣表示為Z0,矩陣中的任一元素zrt可由公式2計算得到:

      其中,zrt表示文本r與文本t的相似度,column_xr表示第r列的取值,也就是文本r在詞空間上的向量表示,column_xt是文本t的向量表示。因此,文本-文本關系矩陣Z0可由式(2)通過原始詞-文本矩陣計算得到,矩陣的行列數(shù)等于文本的個數(shù)。

      1.3 加入詞間關系和文本間關系的文本表示模型

      由1.1-1.2可知,本文已得到3個基礎矩陣:X0表示詞-文本矩陣,Y0表示詞-詞關系矩陣,Z0表示文本-文本關系矩陣。為了將Y0和Z0融入X0,本文定義了4個矩陣:

      X1、X2、X3、X4都是X0的變形,它們的維度都與X0一致。X1由詞-詞矩陣乘以詞-文本矩陣得來,相當于將詞的語義關系加入到文本表示中。X2由詞-文本矩陣乘以文本-文本矩陣得來,即將文本-文本關系加入到文本表示中。X3由詞矩陣乘以詞-文本矩陣,再乘以文本-文本矩陣得來,相當于將詞間關系與文本間關系都加入到文本表示中。X4相對較為特殊,文獻[9,19]中,通過對LSI模型的最大似然估計發(fā)現(xiàn)詞間相似矩陣可以近似的用X0X0T表示,文本間相似矩陣可以用X0TX0表示。由矩陣乘法的結合律可知X4=(X0X0T)X0=X0(X0TX0),因此,本文認為矩陣X4也相當于融入了詞間關系和文本間關系的語義信息。X1、X2、X3、X4中因為加入了語義信息,所以改善了矩陣的稀疏性。

      在計算X1、X2、X3、X4時,為了降低文本長短對文本表示的影響,本文在矩陣相乘的步驟中都進行了歸一化處理。例如,在計算X1=Y0X0時,我們先對Y0的每個行向量進行歸一化處理,再對X0的每個列向量做歸一化處理,然后再進行矩陣相乘。對向量vi,歸一化公式如下:

      為了評測歸一化對分類性能的影響,實驗部分進行了兩組數(shù)據(jù)的對比實驗。

      2 實驗

      2.1 實驗設計

      通過語料預處理、詞頻特征選擇和式(3)-(6),本文獲得了法律判決書語料庫和新聞語料庫TanCorpV1.0的X0到X4矩陣。法律判決書語料庫是由作者自制的,TanCorpV1.0[21]是譚松波等提供的一個開放的中文新聞分類語料庫。

      本文選用SVM和KNN兩種分類算法。在用SVM分類時,本文用Lee[20]提出的非負矩陣分解(NMF)對法律矩陣降維,而用奇異值分解(SVD)對TanCorpV1.0矩陣降維。在用KNN分類時,不需要做降維處理,所以用原始矩陣實驗。

      對比實驗采用了交叉驗證的方式。在法律數(shù)據(jù)集中,選擇800篇作為訓練數(shù)據(jù),400篇作為測試數(shù)據(jù),進行多次重復實驗,分類準確率取其平均值;在TanCorpV1.0數(shù)據(jù)集中,選取1039篇作訓練數(shù)據(jù),350篇作測試數(shù)據(jù),依然采用多次隨機重復實驗,求其平均值。

      2.2 實驗結果與分析

      2.2.1 兩個數(shù)據(jù)集上5種文本表示模型的分類效果對比實驗

      為比較這5種文本表示模型的分類效果,做了4組對比實驗,分別如圖1-4所示。其中,4組實驗都用詞頻作為特征選擇方法,X0到X4都做了歸一化處理。當采用SVM分類時,每個維度下進行3次隨機重復實驗,取平均值;當采用KNN分類時,每個K的取值進行5次隨機重復實驗,取平均值。

      從圖1看出,在判決書語料庫上,使用非負矩陣降維,SVM進行分類的效果為:除矩陣X3外,其他3種加入關系的文本表示模型的分類效果都有較大程度的提高,特別是維度較低時效果更突出。其中,X2的分類效果最好,X4次之,然后是X1,尤其在維度較低時差別更明顯。隨著維度的增加,差別逐漸縮小,特別是X1、X4和X0隨著維度的增加,結果相差不多,但X2的分類準確率始終保持在一個較好的水平。

      從圖2看出,在判決書語料庫上,KNN進行分類的效果為:與使用SVM的結果類似,X2的分類準確率較其他矩陣都好。當K小于20時,X3比其余3個表現(xiàn)更好。X1表現(xiàn)更為穩(wěn)定,X2的波動性更大,但整體來看兩者的平均準確率僅差0.2%。對比X0,其余4種融入關系的矩陣都能在不同程度上提高分類的效果,尤其當K的取值較小時。

      從圖3看出,在開放語料庫TanCorpV1.0上,使用奇異值分解進行降維,SVM進行分類的效果為:新構建的矩陣除X3表現(xiàn)不如X0外,其余的3種方式對分類準確率都有不同程度的提高。在維度較小時,X1的表現(xiàn)并不突出,甚至不如原始矩陣X0,但隨著維度的增加,X1的準確率迅速提高,之后一直保持最好的分類效果。X0、X2、X4的準確率相近,X4的結果較X2更為穩(wěn)定,X0的效果最差。

      Fig.1 Classification Performance of SVM with TF Feature Selectiong in Legal Corpus圖1 法律數(shù)據(jù)集上用詞頻做特征選擇的SVM分類效果

      Fig.2 Classification Performance of KNN in Legal Corpus圖2 法律數(shù)據(jù)集上KNN分類效果

      Fig.3 Classification Performance of SVM with TF Feature Selection in TanCorpV1.0圖3 Tan Corp V1.0數(shù)據(jù)集用詞頻做特征選擇的SVM分類效果

      Fig.4 Classification Performance of KNN in TanCorpV1.0圖4 Tan Corp V1.0數(shù)據(jù)集上KNN分類效果

      從圖4看出,在開放語料庫TanCorpV1.0上,使用KNN進行分類的效果為:新構建的矩陣明顯比原始矩陣X0的分類準確率更高。X3、X4的整體表現(xiàn)更優(yōu),兩者維持在50%的水平。X1隨著K的增大準確率下降最快,當K小于30時,X1的結果比X2更好,特別是K=5時,X1的準確率甚至比X3、X4還高,當K大于30后,X2的準確率更高。

      2.2.2 歸一化與否對分類效果的影響

      為驗證構造矩陣過程中,歸一化與否對分類效果的影響,我們選取法律數(shù)據(jù)集X3、X4和TanCorpV1.0數(shù)據(jù)集的X1、X2作歸一化的對比實驗,結果如圖5和圖6所示。其中,法律數(shù)據(jù)集采用SVM分類,非負矩陣分解降維,維度從10到200,每個維度下進行3次重復試驗,取其平均值。在TanCorpV1.0數(shù)據(jù)集,采用KNN進行分類,K的取值從5到50,每個K值下進行5次隨機重復實驗,取其平均值。

      從圖5看出,在法律數(shù)據(jù)集上,使用非負矩陣分解降維,SVM分類的效果為:矩陣X3歸一化后,分類能力有了較大的提高,X4歸一化前分類準確率已達到99%左右,歸一化后準確率略有的下降,整體來看并未影響X4的表達能力,分類的效果依然維持在很高水平。

      從圖6看出,在TanCorpV1.0數(shù)據(jù)集上,使用奇異值分解降維,KNN分類的效果為:X1歸一化后的準確率隨著K的取值明顯遞減,而未歸一化的X1的遞減程度較為緩慢。在K取值小于25時,歸一化對分類的效果有較大改善,K的取值大于25后,未歸一化的X1準確率較高。整體上看,隨著K的增加X2的分類準確率逐漸降低,但歸一化的X2比未歸一化的分類效果更好。

      2.2.3 不同降維方法對SVM分類效果的影響

      SVM分類需要對矩陣降維,為了評測降維方法對分類效果的影響,本文選取了法律數(shù)據(jù)集上的X0、X1、X2用奇異值分解(SVD)方法和主成分分析(PCA)方法做降維處理,分類效果如圖7、圖8所示。

      Fig.5 Classification Performance of SVM in Legal Normalized and Non-normalized Matrix圖5 法律數(shù)據(jù)集歸一化與否的SVM分類效果

      Fig.6 Classification Performance of KNN in Normalized and Non-normalized Matrix of Tan Corp V1.0圖6 Tan Corp V1.0數(shù)據(jù)集歸一化與否的KNN分類效果

      Fig.7 Classification Performance of SVM Reduced the dimension by SVD in Legal Corpus圖7 法律數(shù)據(jù)集上用SVD降維的SVM分類效果

      Fig.8 Classification Performance of SVM with PCA in Legal Corpus圖8 法律數(shù)據(jù)集上用PCA降維的SVM分類效果

      圖1中,用非負矩陣分解降維的SVM分類準確率很高,基本都在90%以上,X2甚至達到了99%左右。圖7中,用SVD降維的SVM分類準確率不超過30%。圖8中,用PCA降維的SVM分類準確率一般都高于95%。這表明,在使用SVM進行分類時,同一數(shù)據(jù)集,同樣的文本表示方式,使用不同的降維方法,分類的效果也不同。

      圖1和3中顯示X3的分類效果不如X0,這好像與我們加入詞或文本關系后能提高分類效果的結論不符。但是,圖8中使用PCA降維時,X3的分類效果不但好于X0,而且達到了最優(yōu)。另一實驗證明,使用多維尺度分析(MDS)降維,X3的效果也優(yōu)于X0。所以,使用NMF和SVD降維時,X3的分類效果劣于X0,但是選擇PCA和MDS降維時,X3的分類效果優(yōu)于X0。可見,同時加入詞間關系和文本間關系時,降維方法對分類效果影響較大。

      2.2.4 不同特征選擇方法對KNN分類效果的影響

      在2.2.1中,兩個數(shù)據(jù)集的特征選擇都是通過詞頻篩選的,為了評測特征選擇方法對分類效果的影響,我們在Tan Corp V1.0語料上選用信息增益和開方檢驗兩種方法進行特征選擇,按文中所述構建好X0、X1、X2、X3、X4,然后,用 KNN進行分類實驗,結果如下:

      Fig.9 Classification Performance of KNN with Information Gain in TanCorpV1.0圖9 TanCorpV1.0使用信息增益進行特征選擇的KNN分類效果

      Fig.10 Classification Performance of KNN with CHI in TanCorpV1.0圖10 Tan Corp V1.0使用開方檢驗進行特征選擇的KNN分類效果

      圖4、圖9、圖10中都是在TanCorpV1.0數(shù)據(jù)集上使用KNN方法,選用不同特征選擇方法進行的對比實驗,圖4中用詞頻方法,圖9中用信息增益方法,圖10中用矢方檢驗方法,其結果都是原始的文本-詞矩陣X0的分類效果最差,其他矩陣的分類效果較X0都有提升。由實驗結果可見:特征選擇方法對分類準確率有較大影響,圖4中選用詞頻方式做特征選擇,分類準確率在25%-55%左右,用信息增益選做特征選擇,準確率能達到90%左右。雖然分類效果不同,但是依然可以證明加入了語義信息的X1-X4對分類效果的提升作用明顯。

      2.3 實驗分析

      通過對上述實驗結果分析可以得出如下結論:

      (1)在用KNN分類時,加入了詞間或文本間關系的矩陣的分類效果都好于原始矩陣,而且提高的幅度較大。在用SVM分類時,加入了詞間或文本間關系的文本表示一般都好于原始矩陣,X3在用NMF和SVD降維時分類效果沒有X0好,但是使用PCA和MDS時X3的分類效果更理想。

      (2)構造文本矩陣時,歸一化后矩陣的分類效果優(yōu)于未做歸一化的,無論SVM還是KNN方法。

      (3)SVM分類時,同一數(shù)據(jù)集,同樣的文本表示方式,使用不同的降維方法,對分類的效果影響較大,在法律數(shù)據(jù)集上用NMF和PCA要明顯優(yōu)于SVD。

      (4)KNN分類時,特征選擇方法對分類準確率有較大影響,但是依然可以證明加入了語義信息的X1到X4對分類效果的提升作用明顯。

      3 結論

      本文通過加入詞和文本關系的方式,構造了新的文本表示模型用于文本分類。實驗證明,SVM和KNN對這些關系的加入反應敏感,能改善分類效果,提高文本的表達能力。

      [1]Salton G,Yang C S.On the Specification of Term Values in Automatic Indexing[J].Journal of documentation,1973,29(4):351-372.

      [2]Alfred R,Anthony P,Alias S,et al.Enrichment of BOW Representation with Syntactic and Semantic Background Knowledge[M].Soft Computing Applications and Intelligent Systems.Springer Berlin Heidelberg,2013:283-292.

      [3]Hotho A,Staab S,Stumme G.Ontologies Improve Text Document Clustering[C]∥Data Mining,2003.ICDM 2003.Third IEEE International Conference on.IEEE,2003:541-544.

      [4]Miller G A.WordNet:a lexical database for English[J].Communications of the ACM,1995,38(11):39-41.

      [5]Bloehdorn S,Cimiano P,Hotho A.Learning Ontologies to Improve Text Clustering and Classification[M].From Data and Information Analysis to Knowledge Engineering.Springer Berlin Heidelberg,2006:334-341.

      [6]Gabrilovich E,Markovitch S.Wikipedia-based Semantic Interpretation for Natural Language Processing[J].Journal of Artificial Intelligence Research,2009,34(2):443.

      [7]Huang A,Milne D,F(xiàn)rank E,et al.Clustering Documents Using a Wikipedia-based Concept Representation[M].Advances in Knowledge Discovery and Data Mining.Springer Berlin Heidelberg,2009:628-636.

      [8]Cilibrasi R L,Vitanyi P M B.The Google Similarity Distance[J].Knowledge and Data Engineering,IEEE Transactions on,2007,19(3):370-383.

      [9]Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by Latent Semantic Analysis[J].JASIS,1990,41(6):391-407.

      [10]Kontostathis A,Pottenger W M.A Framework for Understanding Latent Semantic Indexing(LSI)Performance[J].Information Processing & Management,2006,42(1):56-73.

      [11]Chen M,Weinberger K Q,Sha F.An Alternative Text Representation to TF-IDF and Bag-of-Words[Z/OL].ArXiv Preprint ArXiv:1301.6770,2013.

      [12]Figueiredo F,Rocha L,Couto T,et al.Word Co-occurrence Features for Text Classification[J].Information Systems,2011,36(5):843-858.

      [13]Baker L D,McCallum A K.Distributional Clustering of Words for Text Classification[C]∥Proceedings of the 21stAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,1998:96-103.

      [14]Yang Y,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization[J].ICML.1997,97:412-420.

      [15]Forman G.An Extensive Empirical Study of Feature Selection Metrics for Text Classification[J].The Journal of Machine Learning Research,2003,3:1289-1305.

      [16]Zelikovitz S,Hirsh H.Using LSI for Text Classification in the Presence of Background Text[C]∥Proceedings of the Tenth International Conference on Information and Knowledge Management.ACM,2001:113-118.

      [17]Seifert C,Ulbrich E,Kern R,et al.Text Representation for Efficient Document Annotation[J].J UCS,2013,19(3):383-405.

      [18]Lewis D D.Feature Selection and Feature Extraction for Text Categorization[C]∥Proceedings of the Workshop on Speech and Natural Language.Association for Computational Linguistics,1992:212-217.

      [19]Ding C H Q.A Similarity-based Probability Model for Latent Semantic Indexing[C]∥Proceedings of the 22ndAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,1999:58-65.

      [20]Lee D D,Seung H S.Learning the Parts of Objects by Non-negative Matrix Factorization[J].Nature,1999,401(6755):788-791.

      [21]Tan S B,Wang Y F.Chinese Text Categorization Corps-TanCorpV1.0[DB/OL].http://www.searchforum.org.cn/tansongbo/corpus.htm,2014-04-13.

      [22]Zhang H P.The Chinese Academy of Sciences Segmentation kit[Z/OL].http://www.ictclas.org,2014-04-13.

      [23]He L,Wang Z Y,Jia Y,et al.Category Candidate Search in Large Scale Hierarchical Classification[J].Chinese Journal of Computers,2014,31(1):41-49.

      [24]Zhang Y F,Wang Y,Liu M,et al.New Feature Selection Approach for Text Categorization[J].Computer Engineering and Applications,2013,49(5):132-135.

      [25]Ji S Q,Shi H B,Wei J.Bagging Bayes Text Classification Based on Map Reduce[J].Computer Engineering,2012,38(16):203-221.

      [26]Xiang X J,Gao Y,Shang L.Parallel Text Categorization of Massive text Based on Hadoop[J].Computer Science,2011,38(10):184-188.

      猜你喜歡
      特征選擇降維語料庫
      混動成為降維打擊的實力 東風風神皓極
      車主之友(2022年4期)2022-08-27 00:57:12
      《語料庫翻譯文體學》評介
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      把課文的優(yōu)美表達存進語料庫
      Kmeans 應用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標特征選擇算法
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      拋物化Navier-Stokes方程的降維仿真模型
      計算物理(2014年1期)2014-03-11 17:00:18
      基于特征聯(lián)合和偏最小二乘降維的手勢識別
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      锦屏县| 辽阳县| 上栗县| 平顺县| 大理市| 遂溪县| 富民县| 广灵县| 关岭| 贺兰县| 潮州市| 河西区| 柳河县| 怀柔区| 舞钢市| 天全县| 洪雅县| 定兴县| 察隅县| 交口县| 阜阳市| 彭州市| 烟台市| 万年县| 新丰县| 嵩明县| 磴口县| 乌拉特后旗| 龙泉市| 太和县| 左贡县| 腾冲县| 改则县| 建阳市| 固阳县| 南木林县| 哈密市| 金塔县| 白沙| 湟中县| 会泽县|