趙士杰 陳秋
摘 要: 基于統(tǒng)計(jì)的TF-IDF相似度計(jì)算方法由于不考慮詞語(yǔ)的語(yǔ)義信息,不能準(zhǔn)確地反映文本間的相似性。針對(duì)該問(wèn)題,提出一種結(jié)合語(yǔ)義理解和TF-IDF的科技項(xiàng)目相似度計(jì)算方法。在項(xiàng)目分詞的基礎(chǔ)上,利用《知網(wǎng)》計(jì)算兩個(gè)項(xiàng)目間的特征項(xiàng)語(yǔ)義相似度,基于TF-IDF計(jì)算每個(gè)特征項(xiàng)的權(quán)重,然后針對(duì)權(quán)重大于給定閾值的特征項(xiàng)進(jìn)行加權(quán)進(jìn)而計(jì)算得到項(xiàng)目相似度值。實(shí)驗(yàn)結(jié)果表明,該方法效果優(yōu)于單純的TF-IDF和語(yǔ)義理解的方法。
關(guān)鍵詞: TF-IDF; 語(yǔ)義理解; 《知網(wǎng)》; 特征項(xiàng)權(quán)重; 相似度計(jì)算
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2015)05-01-03
Abstract: TF-IDF(term frequency - inverse document frequency)is one of the traditional text similarity calculation method based on statistics. Because TF-IDF does not consider the semantic information of words, it can not accurately reflect the similarity between texts. Aiming at this problem, this paper advances a method combined with the semantic understanding and TF-IDF to calculate the similarity of technology project. Based on the word segmentation of the technology project and the information from the HowNet, calculates the feature semantic similarity of the two between, then calculates weight of each feature by using TF-IDF, and finally calculates the similarity value of the technology project according to the weight of the features that their weight is greater than the given threshold. The experimental results show that the method is better than the pure TF-IDF and the method of semantic understanding.
Key words: TF-IDF; semantic understanding; HowNet; weight of feature; similarity calculation
0 引言
我國(guó)每年都有大量的科技項(xiàng)目申報(bào),迫切需要一種智能的項(xiàng)目分析和“查重”的工具防止項(xiàng)目重復(fù)申報(bào)的問(wèn)題。因此,對(duì)項(xiàng)目“查重”系統(tǒng)中的關(guān)鍵技術(shù)——文本相似度計(jì)算的研究非常有必要。
目前常見(jiàn)的文本相似度計(jì)算方法主要有基于概率統(tǒng)計(jì)的和根據(jù)某種世界知識(shí)體系進(jìn)行語(yǔ)義理解的?;诮y(tǒng)計(jì)的方法中一般采用基于向量空間模型的TF-IDF方法。該方法充分考慮了每個(gè)詞項(xiàng)的統(tǒng)計(jì)信息但是缺乏對(duì)詞項(xiàng)的語(yǔ)義的理解,因此無(wú)法準(zhǔn)確的衡量文本之間的相似度。基于語(yǔ)義理解的一般是先利用某種知識(shí)庫(kù)來(lái)計(jì)算詞項(xiàng)之間的語(yǔ)義相似度[1]從而計(jì)算文本之間的相似度。Wang[2]和金博[4]等人分別基于WordNet和《知網(wǎng)》來(lái)計(jì)算文本的相似度。肖志軍等人提出利用《知網(wǎng)》的義原空間來(lái)計(jì)算文本相似度[5]。廖開(kāi)際等人提出通過(guò)加權(quán)語(yǔ)義網(wǎng)來(lái)計(jì)算文本的相似度[6]。這些方法考慮了詞項(xiàng)的語(yǔ)義信息,但忽略了不同特征項(xiàng)對(duì)文本的重要程度是不同的。通過(guò)對(duì)上述文本相似度方法進(jìn)行分析,本文提出一種結(jié)合TF-IDF和語(yǔ)義理解的相似度計(jì)算方法,并用于科技項(xiàng)目的相似度計(jì)算中。
1 相關(guān)工作
1.1 向量空間模型和TF-IDF
向量空間模型(Vector Space Model)由Gerard Salton等人于1975提出。向量空間模型中文本被以形式化的向量的形式給出,然后通過(guò)對(duì)向量的處理來(lái)表示對(duì)文本的處理。向量空間模型最常用也比較有效的是TF-IDF,也就是詞頻-反向文檔頻率方法。
TF-IDF被定義為:TFIDF(wi)=tf(wi)×idf(wi)=tf(wi)×log(N/df(wi))。其中tf(wi)表示詞項(xiàng)wi在文本中出現(xiàn)的頻率,表示的是詞項(xiàng)在文本中的重要性,idf(wi)表示wi的逆向文件頻率,是文本集合總數(shù)和出現(xiàn)當(dāng)前詞項(xiàng)的文本數(shù)的比值,表示的是詞項(xiàng)在文本庫(kù)中的普遍性。TF-IDF就是特征頻率(TF)和逆向文件頻率(IDF)的乘積。
可以看出,TF-IDF綜合考慮特征詞在文檔中的重要性和在語(yǔ)料庫(kù)中的普遍性,TF-IDF值較高的詞項(xiàng)對(duì)文本的語(yǔ)義貢獻(xiàn)較大,重要程度較高,能最大程度代表當(dāng)前的文本。
1.2 基于語(yǔ)義理解的文本相似度計(jì)算
基于語(yǔ)義理解的相似度計(jì)算不需要大規(guī)模的語(yǔ)料庫(kù)訓(xùn)練,一般是利用某種知識(shí)規(guī)則或分類體系來(lái)計(jì)算詞語(yǔ)之間的距離。國(guó)內(nèi)的劉群等人提出了利用《知網(wǎng)》來(lái)計(jì)算詞語(yǔ)之間的義原距離從而計(jì)算詞語(yǔ)之間的相似度[3]。《知網(wǎng)》是一個(gè)描述詞語(yǔ)概念及概念屬性之間關(guān)系的一個(gè)常識(shí)知識(shí)庫(kù)。其中每個(gè)詞語(yǔ)都可以用多個(gè)“概念”進(jìn)行描述,而每個(gè)概念又可以由一種“知識(shí)表示語(yǔ)言”表示為“義原”的樹(shù)狀結(jié)構(gòu)。
劉認(rèn)為兩個(gè)詞語(yǔ)之間的相似度可以通過(guò)其“概念”之間的相似度來(lái)衡量。對(duì)于兩個(gè)詞語(yǔ)W1和W2,W1可以表示為S11、S12、S13…S1n等概念集合,W2可以表示為S21、S22、S23...S2m,那么W1和W2之間的相似度就是“概念”中相似度最大值:
而兩個(gè)概念之間又可以通過(guò)計(jì)算“義原”之間的距離來(lái)計(jì)算其相似度:
其中p1、p2表示兩個(gè)“義原”,d表示在義原層次結(jié)構(gòu)中兩個(gè)“義原”的距離,?是一個(gè)調(diào)節(jié)參數(shù)。
劉等人給出了利用《知網(wǎng)》計(jì)算兩個(gè)詞語(yǔ)之間的相似度的方法,金博等人在此基礎(chǔ)上利用劉的詞語(yǔ)相似度計(jì)算方法提出了基于語(yǔ)義理解的句子的相似度計(jì)算并推廣到文本的相似度計(jì)算。兩個(gè)句子的相似度計(jì)算過(guò)程如下:句子N1和N2可以表示為N1=(w11,w12,w13…w1n)和N2=(w21,w22,w23…w2n),其中w是句子分詞之后的特征項(xiàng)(本文不討論詞性的問(wèn)題),則N1和N2的相似度矩陣為:
其中w1iw2i=sim(w1iw2i),采用劉等人提出的基于語(yǔ)義計(jì)算兩個(gè)詞語(yǔ)之間的相似度。遍歷矩陣選擇相似度最大的詞語(yǔ)之間的相似度值作為計(jì)算因子,并刪除詞語(yǔ)所在的行和列,直到矩陣為0行0列。則N1和N2之間的相似度為:
2 項(xiàng)目相似度計(jì)算方法
在對(duì)項(xiàng)目相似度計(jì)算之前要進(jìn)行一些分詞、去除停用詞等預(yù)處理工作和特征項(xiàng)的選取,接著進(jìn)行項(xiàng)目的知識(shí)表示,然后在此基礎(chǔ)上進(jìn)行文本相似度計(jì)算。
2.1 特征項(xiàng)選取及權(quán)重計(jì)算
首先利用ICTCLAS進(jìn)行科技項(xiàng)目分詞,然后基于哈工大停用詞庫(kù)進(jìn)行停用詞的去除。由于科技項(xiàng)目含有很多專業(yè)名詞,因此把一些對(duì)文本語(yǔ)義沒(méi)有貢獻(xiàn)的名詞放入停用詞庫(kù),并進(jìn)行停用詞庫(kù)的更新。采用基于統(tǒng)計(jì)的方法來(lái)進(jìn)行特征項(xiàng)的選擇。計(jì)算每個(gè)詞項(xiàng)的TF-IDF值,并把該值作為特征項(xiàng)的權(quán)重,然后根據(jù)TF-IDF值進(jìn)行排序,選取值大于閾值Y的詞項(xiàng)作為該科技項(xiàng)目的特征項(xiàng)。這樣既選擇了文檔中最具代表性的詞匯又使特征項(xiàng)的維數(shù)不至于太高,提高計(jì)算效率。
2.2 科技項(xiàng)目的知識(shí)表示
文獻(xiàn)[7]提出了科技項(xiàng)目管理中一種基于可拓學(xué)的知識(shí)表示方法,用來(lái)把科技項(xiàng)目模型化理論化。在此基礎(chǔ)上結(jié)合向量空間模型,提出一種針對(duì)科技項(xiàng)目的知識(shí)表示模型,方便后續(xù)的研究計(jì)算。
科技項(xiàng)目的知識(shí)表示模型表示為項(xiàng)目自身描述向量和屬性描述向量的集合向量??梢杂肞M=(P,T,W)來(lái)表示,其中PM表示科技項(xiàng)目知識(shí)文本,P表示科技項(xiàng)目本身描述向量,T為屬性集合,W為屬性量值向量。向量P可以用P=(x,y,z,…)來(lái)表示,其中x,y,z分別是科技項(xiàng)目類型,項(xiàng)目的惟一標(biāo)示id,申請(qǐng)書(shū)具有的字段個(gè)數(shù)等,如項(xiàng)目P1=(重大專項(xiàng),2882,5,2014)。向量T可以用T=(S1,wS1,S2,wS2,…,Sn,wSn)來(lái)表示,其中Si表示第i個(gè)字段文本內(nèi)容,wSi表示字段的一個(gè)權(quán)重系數(shù)。這里向量W可以用基本的向量空間模型來(lái)表示為W=(W1,W2,…,Wn),其中Wi就是一個(gè)內(nèi)容項(xiàng)的特征向量,Wi=(wi1,wi2,…,win)。這樣PM可以表示為如下:
2.3 項(xiàng)目相似度計(jì)算方法
觀察1.2節(jié)的基于語(yǔ)義理解的句子相似度計(jì)算可以發(fā)現(xiàn),計(jì)算相似度時(shí)只是單純的考慮詞語(yǔ)之間的相似度,然后相加求平均,沒(méi)有考慮到不同的詞項(xiàng)對(duì)整個(gè)文檔語(yǔ)義的貢獻(xiàn)是不同的,關(guān)鍵詞權(quán)重值(也就是TF-IDF值)越大,相應(yīng)在文檔中的重要性就越大,對(duì)文本的相似性影響也越大。反之如果關(guān)鍵詞權(quán)重較小,即使兩個(gè)詞項(xiàng)相似度較高,則對(duì)整個(gè)文本相似度的貢獻(xiàn)也不會(huì)很高。而上述方法在這一點(diǎn)上顯然沒(méi)有區(qū)分關(guān)鍵詞的重要性而直接把詞項(xiàng)之間的相似度加權(quán)平均了。正是基于此,本文提出一種可以根據(jù)詞項(xiàng)的權(quán)重調(diào)整單個(gè)詞語(yǔ)的語(yǔ)義相似度值的文本計(jì)算方法,從而更加準(zhǔn)確的計(jì)算文本之間的相似度。
設(shè)兩個(gè)科技項(xiàng)目一個(gè)內(nèi)容項(xiàng)的特征向量分別為S1=(w11,w12,w13…w1n)和S2=(w21,w22,w23…w2n),其中w1i和w2i表示特征項(xiàng)的權(quán)重值。定義S1和S2的相似度計(jì)算公式為:
其中A表示的是兩個(gè)特征項(xiàng)的權(quán)重滿足⑸時(shí),它們?cè)谒袧M足條件的權(quán)重中所占的比例的平均,(1+A)代表的是對(duì)特征項(xiàng)的權(quán)重較大且滿足式⑸條件時(shí)對(duì)語(yǔ)義相似度的一個(gè)調(diào)整因子。A的定義如下:
式⑷中simi表示的是滿足式⑸且根據(jù)1.2節(jié)提到的相似度矩陣選擇的詞組之間最大的一個(gè)相似度值,整個(gè)公式⑷前半部分表示的是:對(duì)所有滿足式⑸的特征項(xiàng)根據(jù)其對(duì)文檔重要程度對(duì)語(yǔ)義相似度值進(jìn)行增大調(diào)整,調(diào)整因子是(1+A),然后利用調(diào)整之后的詞項(xiàng)的相似度根據(jù)式⑶來(lái)計(jì)算文本之間的相似度。B和A含義相同,定義如下:
B表示的是相似度計(jì)算時(shí)不滿足式⑸的特征性項(xiàng)的相似度值的調(diào)整因子,Λ表示滿足公式⑸的特征項(xiàng)集合。整個(gè)公式⑷后半部分表示:對(duì)于除Λ之外的特征項(xiàng)由于其對(duì)整個(gè)文本的相似性影響較小,降低這部分的詞項(xiàng)的相似度值,然后再進(jìn)行文本相似度計(jì)算,具體計(jì)算方法和前半部分相同。
整個(gè)公式所表達(dá)的含義是進(jìn)行基于語(yǔ)義理解的相似度計(jì)算時(shí),對(duì)于那些比較重要的特性項(xiàng)提高它在相似度計(jì)算中所做的貢獻(xiàn),對(duì)于那些對(duì)文檔不太重要的特征項(xiàng)降低其對(duì)相似度計(jì)算所做的貢獻(xiàn)。
wl+wh>α且wlwh>β表示選取兩個(gè)都比較重要的特征性,也就是當(dāng)兩個(gè)特征性的權(quán)重滿足和、積都大于給定的閾值的時(shí)候增加它們對(duì)整個(gè)相似度計(jì)算的貢獻(xiàn)值,用和和積來(lái)同時(shí)選擇滿足條件的特征性,可以防止出現(xiàn)其中一個(gè)詞語(yǔ)的權(quán)重特別的大但是另一個(gè)權(quán)重比較小的情況,而只選擇權(quán)重都比較大的詞項(xiàng)。通過(guò)分析項(xiàng)目庫(kù)中大量項(xiàng)目的特征項(xiàng)權(quán)重(TF-IDF)分布曲線,擬合和分析拐點(diǎn)得出α、β的經(jīng)驗(yàn)值近似為0.2和0.01。
最后把項(xiàng)目中每個(gè)內(nèi)容項(xiàng)的相似度根據(jù)權(quán)重wSi就行加權(quán)求和得到項(xiàng)目間的相似度計(jì)算公式為:
⑻
3 實(shí)驗(yàn)結(jié)果及分析
本實(shí)驗(yàn)采用浙江省科技項(xiàng)目管理系統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行多次實(shí)驗(yàn),每次抽取12組項(xiàng)目,其中,人工判定為相似的4組,不相似的4組,較為相似的4組。實(shí)驗(yàn)對(duì)比基于TF-IDF的相似度計(jì)算方法、金等人提出的基于語(yǔ)義理解的相似度計(jì)算方法以及本文方法。部分實(shí)驗(yàn)結(jié)果如表1及圖1、圖2、圖3所示。
從表1和圖1、圖2、圖3可以看出,本文方法的結(jié)果具有更好的項(xiàng)目區(qū)分度,使不相似的項(xiàng)目相似度值更小,相似的項(xiàng)目相似度值更大。實(shí)驗(yàn)結(jié)果表明,本文的方法可以更準(zhǔn)確的判斷相似和不相似的項(xiàng)目,相似度計(jì)算效果好于單純的TF-IDF和語(yǔ)義的方法。
4 結(jié)束語(yǔ)
本文針對(duì)基于統(tǒng)計(jì)的TF-IDF的缺點(diǎn),提出了一種結(jié)合TF-IDF和語(yǔ)義理解的文本相似度計(jì)算方法,考慮不同特征項(xiàng)對(duì)相似度計(jì)算貢獻(xiàn)的不同而進(jìn)行加權(quán)調(diào)整,綜合利用文本的統(tǒng)計(jì)信息和詞語(yǔ)的語(yǔ)義信息進(jìn)行相似度計(jì)算。對(duì)科技項(xiàng)目進(jìn)行相似度計(jì)算結(jié)果表明了該算法的有效性。把句子分割成詞語(yǔ)進(jìn)行語(yǔ)義理解和相似度計(jì)算會(huì)把原本完整的句子信息破壞,不能準(zhǔn)確的代表原本句子的語(yǔ)義,因此下一步的研究可以在基于詞項(xiàng)的相似度基礎(chǔ)上考慮句子、段落的語(yǔ)義和結(jié)構(gòu)信息,從而提高文本的相似度計(jì)算效果。
參考文獻(xiàn):
[1] Agirre E, Rigau G. A proposal for word sense disambiguation using conceptual distance, Proc of International Conference Recent Advances in Natural Language Processing (RANLP),1995:258-264
[2] Wang Y ,Julia H . Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Confer-ences on System Sciences.Hawaii,US,2006:54-63
[3] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C].第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集,2002:59-76
[4] 金博,史彥軍,滕弘飛.基于語(yǔ)義理解的文本相似度算法[J].大連理工大學(xué)學(xué)報(bào),2005.45(2):291-297
[5] 肖志軍,馮廣麗.基于《知網(wǎng)》義原空間的文本相似度計(jì)算[J].科學(xué)技術(shù)與工程,2013.13(29):8651-8656
[6] 廖開(kāi)際,楊彬彬.基于加權(quán)語(yǔ)義網(wǎng)的文本相似度計(jì)算的研究[J].情報(bào)雜志,2012.31(7):182-186
[7] 李海峰,黨延忠.科技項(xiàng)目管理中知識(shí)的界定與表示方法研究[J].項(xiàng)目管理技術(shù),2010.8(2):29-34