郭東峰
(新鄉(xiāng)學院 計算機與信息工程學院,河南 新鄉(xiāng)453000)
Web 信息抽取技術(shù)可以大大的縮短人們對資料的整理時間,為信息檢索提供方便,有利于現(xiàn)實文檔的存檔管理。而Web 信息抽取技術(shù)所抽取的內(nèi)容主要為文本,不斷迅速發(fā)展的互聯(lián)網(wǎng)可以被看作是十分巨大的文檔庫,大量的文檔信息通常分散存放在不同網(wǎng)站上,它們具有不同的表現(xiàn)形式。為實現(xiàn)數(shù)據(jù)抽取,首要任務是需要將文本分類處理。
普通的文本是無結(jié)構(gòu)的,為了讓計算機分析它們所屬的類別,需要將文本轉(zhuǎn)化成可被處理的結(jié)構(gòu)化形式,目前應用最廣泛方法的是向量空間模型,基本思想是把文檔表示向量空間中的一個向量。特征項必須具備一定的特性:
1)特征項要能夠準確標識文本內(nèi)容,表征文本的主題信息;
2)特征項具有將目標文本與其他文本相區(qū)分的能力;
3)特征項的在數(shù)量上不能太多,且出現(xiàn)頻率適中;
4)特征項要容易從文本中分離,具有明確的語義。
在中文文本類中最常用的是采用詞語作為文本的特征項。詞語有幾個優(yōu)點:相對于字具有更強的語義信息歧義較少;相對于短語,詞更容易從文本中進行切分。詞語由于含了多個文字組合,在文本中出現(xiàn)的頻率較低,不適合作為特征項。
文本中關(guān)鍵字出現(xiàn)的頻率統(tǒng)計量用x 表示,最高關(guān)鍵字出現(xiàn)頻率取值為1,其它關(guān)鍵字頻率取其與最高關(guān)鍵字出現(xiàn)次數(shù)的比值。頁面向量空間表達式為:Dt(x1w1,x2w2,…,xnwn),i=1,2,…,n。關(guān)鍵字構(gòu)成的主題向量Dk=(w1,w2,…,wn), i=1,2,…,n。網(wǎng)頁文本Dt 與領(lǐng)域主題Dk之間的內(nèi)容相關(guān)度Sim(Dt,Dk)使用向量夾角余弦值表示:
選擇合適的多個特征詞構(gòu)成特征向量來表征所在的文本主題,使用特征向量作為文檔的中間表示形式進行相互比較,降低了文本相似度算法復雜度。
待分類的網(wǎng)頁文本中往往包括很多詞語,這些詞語對分類沒有太大幫助,未經(jīng)篩選特征項集合規(guī)模較大,文本特征向量維數(shù)較高給計算帶來困難。需要提取一個能夠很好地概括領(lǐng)域相關(guān)網(wǎng)頁內(nèi)容的特征子集,同時該子集要求能很好的區(qū)分領(lǐng)域主題。領(lǐng)域關(guān)鍵詞是從領(lǐng)域文本集中經(jīng)過算法選取出來的,能夠高度概括和體現(xiàn)領(lǐng)域文本基本內(nèi)容的詞語。本文將這些詞語通過特征提取算法選擇出來構(gòu)成空間向量。目前常用的特征選擇方法有CHI 統(tǒng)計、信息增益和互信息等。
CHI 統(tǒng)計方法衡量詞語t 和文檔類別c 之間的依賴關(guān)系,并假設(shè)t 和c 之間的非獨立關(guān)系符合具有一階自由度的x2 分布。詞條對于某類別的x2 統(tǒng)計值越高,表明它們之間的相關(guān)性越大,特征詞t 對類別c 表征能力越強。令N 表示訓練語料中的文檔總數(shù),c 為某一特定類別,t 表示特定的詞條,A 表示屬于類別c 且包含t 的文檔頻數(shù),B表示不屬于類別c 但是包含t 的文檔頻數(shù),C 表示屬于類別c 但不包含t 的文檔頻數(shù),D 是既不屬于c 也不包含t 的文檔頻數(shù)。則t 對于類別c 的CHI 值由下列計算:
互信息的基本思想:以詞條t 和類別ci 之間的共同出現(xiàn)程度來表示詞條t 與類別ci 的相關(guān)程度。詞條對于類別的公共概率越大,它們之間的互信息也越大。假設(shè)p(t,ci)表示訓練集合中既包含特征t 又屬于類別ci 的文本出現(xiàn)的概率,p(t)表示包含特征t 的文本在訓練集合中出現(xiàn)的概率,p(ci)表示訓練集合中屬于類別ci 的文本的概率,A 為包含詞語t 且屬于類別ci 的文本數(shù),B 為為包含詞語t 且不屬于類別ci 的文本數(shù),C 為類別Ci 中不出現(xiàn)特征t 的文本數(shù),N 為文本總數(shù),則特征t 與類Ci 之間的互信息定義為:
為了衡量一個特征在全局特征選擇中的重要性,計算特征提供的關(guān)于類別信息的加權(quán)平均值。
信息增益方法的基本思想是:通過計算某個特征詞語存在與否對文檔的信息熵的差值來判斷該特征詞的類別表征能力。具體方法是把訓練文檔集D 看作按某種概念分布的信息源,依靠文檔集的信息熵和文檔中詞語t 的條件熵之間信息量的增益關(guān)系確定該詞語在文本分類中所能提供的信息量。
文本分類的方法中要有貝葉斯分類、支持向量機、K 近鄰等方法。
貝葉斯分類器其原理是計算文本屬于某個類別的概率,將文本分到概率最大的類別中去,計算時,利用了貝葉斯公式:
P(ci)是類的先驗概率,P(dx|ci)是類的條件概率。對同一篇文本,P(dx)不變。設(shè)dx 表示為特征集合(t1,t2,..,tn),n 為特征個數(shù),假設(shè)特征之間相互獨立,則有:
其中P(tj|ci)為特征詞的條件概率。
貝葉斯分類器因具有容易實現(xiàn),運算速度快的特點而被廣泛使用。
K 近鄰分類算法是一種非參數(shù)的分類技術(shù), 在基于統(tǒng)計的模式識別中非常有效。
基本原理是通過計算待分類文檔與訓練文檔集所有文檔之間的相似度,找出K 個與待分類文檔距離最相近的樣本,即K 個鄰居,并依據(jù)這K 個鄰居所屬的類別來判定待分類文檔的類別。先比較待分類文檔與其k 個鄰居的相似度,并以此作為候選類別的權(quán)重,然后使用預先得到的相似度的閾值,就可以得到文檔的最終所屬類別。
文本分類技術(shù)在自然語言處理、信息檢索、文本挖掘等領(lǐng)域都有著廣泛的應用,其主要任務是在預先給定的主題類別標記集合下,根據(jù)文本內(nèi)容判定它所屬的類別。文本分類是許多數(shù)據(jù)管理任務的重要組成部分,基于文本分類技術(shù)的應用領(lǐng)域越來越多,自動論文摘要,數(shù)字圖書館、網(wǎng)絡(luò)分類新聞組、文本過濾、機器翻譯等獲得大量應用。同時,經(jīng)過分類后的文本可以減少用戶甄別信息時間,滿足不同用戶需求,發(fā)揮信息自身其最大使用價值。
[1]鄭慶華,劉均,田鋒,等.Web 知識挖掘理論、方法與應用[M].科學出版社,2010,6:136-140.
[2]蒲筱哥.基于Web 的信息抽取技術(shù)研究綜述[J].現(xiàn)代情報,2007,10:215-219.
[3]陳釗,張冬梅.Web 信息抽取技術(shù)綜述[J].計算機應用研究,2010,12.
[4]劉偉,孟小峰,孟衛(wèi)一.Deep Web 數(shù)據(jù)集成研究綜述[J].計算機學報,2007,30(9):1475-1489.