成少梅
武漢理工大學(xué)理學(xué)院數(shù)學(xué)系 湖北 430070
互聯(lián)網(wǎng)上 Web文檔的爆炸式增長(zhǎng)不可避免的加強(qiáng)了有效獲取文檔信息的重要程度。Web中99%的可分析信息是以文本形式存在的,為實(shí)現(xiàn)基于內(nèi)容的文本挖掘,把文檔簡(jiǎn)化為以特征項(xiàng)的權(quán)重為分量的向量表示,即以特征項(xiàng)作為文檔代表。一般情況下,字、詞、詞組或者更高層次的語言單位都可做為特征項(xiàng),還可以是相應(yīng)詞語或者短語的語義概念作為特征項(xiàng)。選擇能全面覆蓋文檔信息的特征項(xiàng)能大大提高文檔的檢索效果。但以前的研究大都集中在優(yōu)化文本中出現(xiàn)的特征項(xiàng),局限于作者有限的知識(shí)表述,把文檔看成是孤立的、不相關(guān)的。但Web在發(fā)展過程中存在著大量的社區(qū),這些社區(qū)幫助Internet/Intranet服務(wù)提供者有效地組織門戶。社區(qū)還代表了Web的社會(huì)活動(dòng),因此Web就是一個(gè)社會(huì)性的網(wǎng)絡(luò)。特別是Web2.0及其相關(guān)技術(shù)的出現(xiàn)為整個(gè)互聯(lián)網(wǎng)帶來了一個(gè)新的驚喜,其中最具代表的社會(huì)化標(biāo)注(Social Annotation),特別是以flicker,del.icio.ous(見http://del.icio.ous)等為代表的全民參與的網(wǎng)站,用戶用語義濃縮的標(biāo)簽標(biāo)注自己感興趣的文章。標(biāo)簽不同于關(guān)鍵詞的地方在于其具有靈活性,每個(gè)用戶可根據(jù)自身的喜好對(duì)標(biāo)簽進(jìn)行自由的添加、修改或刪除。社區(qū)中所有用戶的標(biāo)簽極大的豐富了文檔的語義信息,并且社區(qū)元數(shù)據(jù)(特別是標(biāo)簽)就成了鏈接內(nèi)容相關(guān)的Web文檔的語義橋梁。這樣Web文檔就不是孤立的,而是在社區(qū)環(huán)境下的文檔,整個(gè)社區(qū)都隱藏著與文檔相關(guān)的信息。但由于標(biāo)簽的自由性,使對(duì)同一文章的標(biāo)注信息存在大量的噪音數(shù)據(jù),如果直接把語義標(biāo)注作為特征項(xiàng)(檢索項(xiàng))無疑降低文檔的檢索率。據(jù)此本文提出IRF模型,很好的組織了具有語義信息的特征詞,即豐富了文檔的語義代表,同時(shí)又增強(qiáng)了文檔的檢索效果。
向量空間模型(VSM)是20世紀(jì)60年代末由Salton等人提出來的,它是代數(shù)模型的一種,也是目前信息檢索領(lǐng)域中廣泛采用且效果較好的一種模型。其基本思想是:假設(shè)詞與詞之間是不相關(guān)的,以向量來表示文本,從而簡(jiǎn)化了文本中關(guān)鍵詞之間的復(fù)雜關(guān)系,使得模型具備了可計(jì)算性。在VSM中,將文檔可表示為相互獨(dú)立的詞條組(T1,T2,T3…,Tn),對(duì)于每一個(gè)詞條 Ti,根據(jù)其在文檔中的重要程度賦予一定權(quán)值Wi,并將(T1,T2,T3…,Tn)看成是一個(gè)n維坐標(biāo)系的坐標(biāo)軸,(W1,W2,W3,…,Wn)為對(duì)應(yīng)的坐標(biāo)值。這樣由(T1,T2,T3…,Tn)分解得到的正交詞條矢量組就構(gòu)成了一個(gè)文檔向量空間。
特征選擇就是選擇適當(dāng)粒度并且能表征文本主題的語片。語片的粒度越大,概念越確定,但語片的正確識(shí)別和有效計(jì)算語片間的相似度也越困難。粒度過小,語片所含信息量不足以覆蓋文檔信息。所以選取語片粒度要適當(dāng),既要保證語片的相對(duì)簡(jiǎn)單又要保證概念確定和完整。根據(jù)粒度大小,一般可分為字、短語或者句子。
字是最基本也是最簡(jiǎn)單的語言單位,并且為了更好的計(jì)算英文單個(gè)詞間的相似度,利用Porter algoritm提取詞干作為特征項(xiàng)。短語具有更豐富的語義,并且權(quán)威的 TREC會(huì)議的評(píng)測(cè)結(jié)果表明,許多系統(tǒng)使用復(fù)合索引項(xiàng)(短語)可以顯著提高檢索性能。短語抽取技術(shù)包括:用統(tǒng)計(jì)方法抽取短語,利用語言學(xué)方法生成短語。上述兩種文檔代表方法都可采用VSM作為文檔代表模型。字,短語可以表達(dá)概念,但不能表達(dá)知識(shí),句子是表達(dá)知識(shí)的基本單位,利用BOS(a Bag of Sentences)作為文檔代表特征項(xiàng),并在此基礎(chǔ)上提出各種計(jì)算文檔相似度的方法。但這些特征選擇方法都集中研究文本中出現(xiàn)的信息對(duì)文檔的貢獻(xiàn)程度。但在社區(qū)環(huán)境下,社區(qū)元數(shù)據(jù)(錨文本、查詢?cè)~、社區(qū)注解)和文本內(nèi)容都能提供文檔的語義信息。錨文本是對(duì)所指向網(wǎng)頁內(nèi)容最簡(jiǎn)潔最全面的概括,同一文檔的所有歷史查詢?cè)~也表征了文檔的語義信息,用戶可能會(huì)選擇語義相關(guān)的不同詞匯去表述文檔的同一話題。在社區(qū)中,社區(qū)用戶用大量濃縮的詞標(biāo)注了同一文檔。各類用戶對(duì)同一文檔的注解(包括錨文本,查詢?cè)~,社區(qū)注解)從各個(gè)方面補(bǔ)充了文檔的內(nèi)容。但是由于文檔標(biāo)注的自由性和開放性,一些文檔可能含有一些不相關(guān)的甚至是偽造的社區(qū)注解,那么數(shù)據(jù)的質(zhì)量不能得到很好的保證,大量的數(shù)據(jù)屬于噪音數(shù)據(jù)。為了更好的組織這些海量數(shù)據(jù),得到豐富且高質(zhì)量文檔內(nèi)容,并且減少時(shí)間和空間復(fù)雜度,我們采用單個(gè)字作為特征項(xiàng)的粒度,社區(qū)標(biāo)注和文本內(nèi)容作為語義代表候選項(xiàng),采用空間向量模型,利用 IRF(Iterative Reinforcement Framework)方法產(chǎn)生文檔代表。
我們從一個(gè)很流行的社會(huì)化標(biāo)簽網(wǎng)站Del.icio.us上獲取了被標(biāo)注的網(wǎng)頁和注解詞,并且對(duì)文檔詞條和標(biāo)注詞條都進(jìn)行了低頻詞和停用詞的處理。假設(shè)在訓(xùn)練集中,ND:文檔數(shù)目,NA:注解數(shù),NT:文檔詞條數(shù),MAT(NA×NT)是注解詞與文本詞條的關(guān)聯(lián)矩陣。首先我們對(duì)文本中出現(xiàn)的詞條(詞干)t和所有文檔注解a用TFIDF計(jì)算他們?cè)谖闹械臋?quán)重,并作為文檔和注解的初始代表 T0和A0,這兩個(gè)代表向量各分量的權(quán)重值分別為Wt,d和Wa,d。
ct,d和ca,d分別是t和a在文中出現(xiàn)的次數(shù),URL(t)和URL(a)是所有訓(xùn)練集中分別包含t和a的文檔數(shù)目。 Ti和Ai是Web文檔的文本詞條向量和注解向量。
參數(shù)α和β在(0,1)之間,用于調(diào)整初始向量 T0和新增向量為增強(qiáng)文檔代表所作的相對(duì)貢獻(xiàn)i,并取經(jīng)驗(yàn)值都等于 0.3。關(guān)聯(lián)矩陣MAT的每個(gè)元素描述了注解詞a與文本內(nèi)容詞t的關(guān)聯(lián)程度,本文采取典型的概率統(tǒng)計(jì)式(卡方統(tǒng)計(jì)量χ2)
A:在訓(xùn)練集中共同出現(xiàn)ax和 ty的文檔數(shù)目;B:出現(xiàn)ax但沒有出現(xiàn) ty的文檔數(shù)目;C:出現(xiàn) ty但沒有出現(xiàn)ax的文檔數(shù)目;D:既沒有出現(xiàn)ax也沒有出現(xiàn) ty的文檔數(shù)目。由于本文考慮的是兩個(gè)詞之間的相關(guān)度不是獨(dú)立程度,所以當(dāng)AD<CB時(shí),就設(shè)χ2(ax,ty)為0。為了(1)和(2)的收斂,需對(duì)MAT和M'AT進(jìn)行歸一化處理(每一行加起來等于1)變成馬爾科夫隨機(jī)矩陣。從(1)式和(2)式中可以看出文檔的代表不局限于文中出現(xiàn)的詞,還從其他文檔中獲取了與文檔
下面證明(1)和(2)的收斂性。
URL:http://www.protonotes.com/OT team free browser use design prototype note javaScript service annotate ET annotate collaborate web2.0 dynamic online prototype javaScripe note team develope OA Annotate design frame online use collaborate prototype tool note web2.0 EA api collabotate frame web2.0 annotate ptototype tool javaScripe note ajax
[1] 王秀娟.文本檢索中若干問題的研究[D].北京郵電大學(xué).2006.
[2] M.F. PORTER An algorithm for suffix stripping, program 14(3) .1980.
[3] E.D. LIDDY.Enhanced text retrieval using natural language processing.[EB] ASIS Bulletin 1998.5 http://www.asis.org/bulletin/apr.98/liddy.html.
[4] 沈斌.基于分詞的中文文本相似度計(jì)算研究[D].天津財(cái)經(jīng)大學(xué).2006.
[5] S.BRIN AND L.PAGE. The Anatomy of a Large-Scale-Hypertextual Web Search Engine, [J] Computer Networks and ISDN Systems.1998.
[6] G.XUE,H.ZENG,Z.CHEN,Y.YU,W.MA,W.XI,and W.FAN.Optimizing Web Search Using Web Click-through Data[C].ACM Conference on Information and Knowledge Management.2005.
[7] S.BAO,X.WU,B.FEI,G.XUE,Z.SU,and Y.YU. OptimizingWeb Search Using Social Annotations.[C].WWW Conference.2007.
[8] XIAO XUN ZhANG LICHUN YANG AND XIAN WU.sDoc: Exploring Social Wisdom for Document Enhancement in Web Mining,[C].ACM Conference 2009.
[9] C. BROOKS AND N. MONTANEZ. Improved Annotation of theBlogosphere via Autotagging and Hierarchical lustering[C].WWW Conference 2006.