張碩望,歐陽純萍,陽小華,劉永彬,劉志明
南華大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,湖南 衡陽 421001)(*通信作者電子郵箱ouyangcp@126.com)
融合《知網(wǎng)》和搜索引擎的詞匯語義相似度計算
張碩望,歐陽純萍*,陽小華,劉永彬,劉志明
南華大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,湖南 衡陽 421001)(*通信作者電子郵箱ouyangcp@126.com)
針對當(dāng)前《知網(wǎng)》的詞語語義描述與人們對詞匯的主觀認知之間存在諸多不匹配的問題,在充分利用豐富的網(wǎng)絡(luò)知識的背景下,提出了一種融合《知網(wǎng)》和搜索引擎的詞匯語義相似度計算方法。首先,考慮了詞語與詞語義原之間的包含關(guān)系,利用改進的概念相似度計算方法得到初步的詞語語義相似度結(jié)果;然后,利用基于搜索引擎的相關(guān)性雙重檢測算法和點互信息法得出進一步的語義相似度結(jié)果;最后,設(shè)計了擬合函數(shù)并利用批量梯度下降法學(xué)習(xí)權(quán)值參數(shù),融合前兩步的相似度計算結(jié)果。實驗結(jié)果表明,與單純的基于《知網(wǎng)》和基于搜索引擎的改進方法相比,融合方法的斯皮爾曼系數(shù)和皮爾遜系數(shù)均提升了5%,同時提升了具體詞語義描述與人們對詞匯的主觀認知之間的匹配度,驗證了將網(wǎng)絡(luò)知識背景融入到概念相似度計算方法中能有效提高中文詞匯語義相似度的計算性能。
語義相似度;知網(wǎng);搜索引擎;權(quán)重;網(wǎng)絡(luò)
詞匯語義相似度計算是自然語言處理的一項基本內(nèi)容,被應(yīng)用在眾多重要的領(lǐng)域當(dāng)中。詞匯語義相似度計算方法可以分為兩類: 一類是基于大型語料庫的方法,這類方法通過統(tǒng)計文檔中詞語之間的共現(xiàn)情況來計算詞語之間的相關(guān)性; 另一類則是基于某種世界知識與分類體系的詞匯語義相似度計算方法,根據(jù)語義詞典的語義層次關(guān)系和知識結(jié)構(gòu)來計算詞匯的相關(guān)度?!吨W(wǎng)》(HowNet)[1]系統(tǒng)基于英語和漢語,是一種以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識性網(wǎng)狀知識庫,也是很多學(xué)者在詞匯語義研究中的首要工具,并且?guī)椭麄內(nèi)〉昧撕芎玫男Ч?。主流的基于《知網(wǎng)》的詞匯相似度研究方法都是根據(jù)詞語的語義距離加權(quán)計算得出相似度,其中具有代表性的有劉群等[2]提出的依據(jù)義原間的距離進行計算的方法,以及王小林等[3]提出的變系數(shù)方法等;文獻[4]針對《知網(wǎng)》中存在未登錄詞的問題提出了基于概念切分和語義自動生成的解決方法,該文利用逆向最大匹配法將未登錄詞切分成多個登錄詞,再將登錄詞的義原表達式進行組合,從而獲得未登錄詞的義原表達式,達到對未登錄詞進行相似度計算的目的;文獻[5]提出了基于《知網(wǎng)》的對概念語義相似度的改進方法,該文采用圖論的二部圖最大權(quán)匹配算法來計算其他基本義原描述式的相似度,提高了計算結(jié)果的精度;文獻[6]綜合了《知網(wǎng)》和《同義詞詞林》的相似度計算方法,依據(jù)詞對在兩個知識庫的收錄情況決定融合權(quán)值。
除了上述方法外,也有學(xué)者另辟蹊徑。如文獻[7]利用貝葉斯估計來計算概念語義相似度,文獻[8]利用中文維基百科的結(jié)構(gòu)化信息抽取來進行詞語相似度計算,文獻[9-13]則使用網(wǎng)絡(luò)搜索引擎算法來計算詞語相似度。
基于網(wǎng)絡(luò)搜索引擎的語義相似度算法普遍采用基于查詢返回頁面數(shù)和基于查詢結(jié)果片段的方法來進行語義相似度的計算。文獻[9]使用基于搜索結(jié)果片段的相關(guān)性雙重檢測(Co-Ocurrence Double Check, CODC)算法進行語義相似度計算,該算法對相關(guān)性較高的詞對能得出較好的計算結(jié)果,但是對相關(guān)度較低的詞對的計算結(jié)果為0,單獨依靠語義搜索片段計算相似度得出的結(jié)果存在片面性。文獻[10] 使用基于詞匯搜索頁面數(shù)的點互信息(Pointwise Mutual Information, PMI)法計算語義相似度,該方法無法避免噪聲和冗余數(shù)據(jù)對計算結(jié)果的影響,同樣具有片面性。文獻[11]同時分析了CODC和PMI兩種方法,提出根據(jù)不同情況,使用不同的算法。如果兩個詞的語義相關(guān)性較強則使用CODC算法,否則使用PMI算法,這在一定程度上減輕了CODC和PMI兩種算法各自的局限性,增加了結(jié)果的可信度,相比單一的方法,相似度計算效果有了一定的提升,但是相關(guān)系數(shù)依舊不及《知網(wǎng)》的結(jié)果。文獻[12]利用Google搜索引擎獨有的去除冗余的辦法修改PMI算法,效果提升比較顯著,但是該方法主要針對英文詞匯語義相似度計算,中英文之間的差異和搜索引擎算法之間的差異使得該方法不適用于漢語詞匯語義相似度計算。
基于搜索引擎的算法采用了大量的背景知識庫,召回率較高,但是由于網(wǎng)絡(luò)中的信息雜亂而繁多,噪聲信息對實驗結(jié)果產(chǎn)生影響難以避免。本文在分析和總結(jié)了傳統(tǒng)方法的基礎(chǔ)下,提出了融合《知網(wǎng)》和搜索引擎的詞匯語義相似度算法,通過利用知網(wǎng)系統(tǒng)的層級結(jié)構(gòu)和搜索引擎的搜索庫,使詞匯語義相似度結(jié)果相比傳統(tǒng)方法更加符合人們的主觀判斷。
基于《知網(wǎng)》的語義相似度計算方法主要包括了三個步驟。
步驟1 義原相似度計算。義原的相似度計算主要是利用《知網(wǎng)》中的詞語的義原層次的語義距離來計算相似度,李峰等[14]在劉群等[2]提出的依據(jù)義原間的距離進行計算的方法的基礎(chǔ)上,提出了一種即考慮義原距離又考慮義原層次深度的改進算法,是目前普遍認為的改進算法中效果較好的。
步驟2 概念相似度計算。文獻[2]提出實詞概念按義項表達式細分為第一獨立義原表達式、其他獨立義原表達式、關(guān)系義原表達式和符號義原表達式,并且使用固定大小的參數(shù)來定義4種表達式的權(quán)重,最后其概念語義相似度的計算公式為:
β1+β2+β3+β4=1,β1≥β2≥β3≥β4
其中:βi為可調(diào)節(jié)參數(shù)。該公式確保主要部分概念重要度大于次要部分概念,參數(shù)確定后不再變化,適用于所有類型的詞匯概念相似度計算。文獻[3]在前文的算法基礎(chǔ)上提出了變系數(shù)的概念相似度計算方法,該文認為第一義原表達式的概括性太強,不適合給定較大的權(quán)值,并且《知網(wǎng)》對于第一義原的選取有主觀性因素,然后該文提出將各類型義原集合中所包含的個數(shù)作為參數(shù)權(quán)值的選取標(biāo)準(zhǔn),其具體公式如下:
其中:ki代表兩個概念劃分后第i類義原描述式集合的元素個數(shù)之和;m和n為兩個概念表達式的表達式個數(shù);權(quán)重系數(shù)βi經(jīng)過計算,其值與義項表達式數(shù)量有關(guān)。對比文獻[2]和文獻[3]的兩種方法可看出,文獻[3]方法更加靈活,對不同的詞匯相似度也更加準(zhǔn)確,適用于大部分的詞匯語義相似度比較;但是該方法對于某類字面和現(xiàn)實意義都很相關(guān)的詞匯來說,其計算結(jié)果不夠準(zhǔn)確,例如“阿拉伯”和“阿拉伯人”的相似度結(jié)果就不夠合理。
步驟3 詞語相似度計算。Lin[15]認為任何事物的相似度取決于它們之間的共性與個性,文獻[2]認為詞語之間的相似度即是兩個詞匯在不同的上下文環(huán)境中可以互相替換而不改變其句法結(jié)構(gòu)的程度;文獻[2]還認為實詞與虛詞之間得到相似度為0,實詞與實詞的相似度則取義項所有組合中相似度的最大值,考慮到所用對比詞匯并非從具體的語境中提取,所以使用該方法計算詞語的相似度是合理的。
本文方法分為兩個步驟:首先計算基于《知網(wǎng)》的詞匯語義相似度,且沿用傳統(tǒng)的三個步驟并采用文獻[4]方法計算未登錄詞的相似度,由于《知網(wǎng)》在計算某類特定詞匯的概念相似度時與人們的主觀看法之間存在偏差,所以在此部分中對概念語義相似度進行了改進;然后,在基于《知網(wǎng)》的詞匯語義相似度結(jié)果的基礎(chǔ)上,引入搜索引擎算法,對詞匯語義相似度計算結(jié)果進行修正。
2.1 基于《知網(wǎng)》的詞匯語義相似度算法改進
目前對詞匯語義相似度結(jié)果的評價沒有公認的標(biāo)準(zhǔn),主要依賴人工評測?!吨W(wǎng)》目前主要由人工編寫,部分詞語的相似度計算結(jié)果與人們的主觀判斷偏差較大。其中,本文發(fā)現(xiàn)詞語“阿拉伯人”和“阿拉伯”,“玻利維亞”和“玻利維亞諾”的相似度結(jié)果偏低,原因在于兩對詞語的第一義原表達式相似度較低,阿拉伯人是人,阿拉伯是地名,玻利維亞是國家地名,玻利維亞諾是當(dāng)?shù)赝ㄓ玫呢泿?,所以傳統(tǒng)《知網(wǎng)》的方法得出的相似度很低,其中“阿拉伯人”與“阿拉伯”的相似度為0.270,“玻利維亞”和“玻利維亞諾”的相似度為0.275,這是不合理的;2016年NLPCC評測會議給出了一組測試用例,它選擇20位研究生對詞對的相似度進行主觀判斷并給出一個1~10的分數(shù),最終結(jié)果取他們的平均值,其中他們對詞對“阿拉伯人”和“阿拉伯”的相似度判斷為7.2,轉(zhuǎn)換成0~1的數(shù)值就是0.72,遠高于《知網(wǎng)》給出的0.27。通過分析發(fā)現(xiàn),計算詞語間的相似度時,如果詞對中的一個詞完整地出現(xiàn)在另一個詞的義原解釋當(dāng)中,那么兩個詞應(yīng)該具有較高的相似度,所以,本文在計算概念相似度時添加一條規(guī)則。
規(guī)則1 如果詞對中某詞完整地出現(xiàn)在另一個詞的義原解釋中,則二詞的概念義原相似度結(jié)果提高;如果詞對中某詞只是字面上出現(xiàn)在另一個詞語的組成結(jié)構(gòu)中,則概念語義相似度結(jié)果不產(chǎn)生變化,如詞對“阿拉伯”和“阿拉伯人”,“太平”和“太平洋”,它們在《知網(wǎng)》中的義原解釋如表1所示。
表1 詞對義原描述
詞語“阿拉伯人”不僅在字面上包含了詞語“阿拉伯”,而且在其義原解釋項中也包含了詞語“阿拉伯”;而詞對“太平洋”和“太平”中,詞語“太平洋”僅在字面上包含了詞語“太平”,在義原解釋項中并沒有包含完整的詞語“太平”,因此在計算相似度時不予以添加相似度?;谏鲜隹紤],在原有概念相似度公式基礎(chǔ)上,加入詞語義原數(shù)量與被包含詞之間的比例關(guān)系,用于揭示被包含詞在相似度計算中的重要度。例如,一個詞有8個義原解釋,其中包含了一個計算對象詞,那么可見這個計算對象詞對基于義原的相似度計算結(jié)果影響不大;反之,如果一個詞只有1個義原解釋,而這個義原又恰好是計算對象詞,那么兩者之間的相似度必然很高。
因此改進的概念相似度計算公式如下:
(1)
其中:sj表示s1和s2中義原里包含了另一詞的詞(j取1或2),Num(sj)為詞sj所包含的義原數(shù)。改進后對于某些詞對得出的相似度結(jié)果如表2。
表2 兩種方法詞語相似度結(jié)果
從結(jié)果上看,第1、2組詞的相似度有一定提高,而第3、4組詞的相似度沒有提高,原因在于兩個詞對都只在字面上相似,不滿足規(guī)則1的條件,相似度沒有增加,證明了規(guī)則1的合理性。
2.2 基于搜索引擎的詞匯語義相似度算法改進
在網(wǎng)絡(luò)文化發(fā)展過程中,很多詞匯有了新含義,如“神馬”表示“什么”的意思。傳統(tǒng)《知網(wǎng)》知識庫的更新速度無法趕上網(wǎng)絡(luò)知識增長的速度,而網(wǎng)絡(luò)搜索引擎則可以實時反映網(wǎng)絡(luò)中新增的知識,所以利用搜索引擎修正《知網(wǎng)》的計算結(jié)果是合理的。
本文基于查詢頁數(shù)和頁面片段信息結(jié)合的搜索引擎方法進行詞匯語義相似度計算,查詢頁數(shù)指查詢包含詞匯或詞對的網(wǎng)頁數(shù)目。文獻[12]使用Google搜索引擎,而本文所研究的是中文詞匯語義相似度計算,所以選擇最大的中文搜索引擎百度搜索引擎。
常用的基于查詢頁面的語義相似度計算方法有Jaccard、Overlap、Dice、PMI四種算法,且PMI的算法相對效果最好,PMI算法如下:
其中:N=1011,為Google的索引頁面數(shù)。本文嘗試了PMI算法計算中文語義相似度,效果不理想,究其原因,Google搜索引擎與百度搜索引擎在搜索結(jié)果上存在一定的差異,如Google搜索引擎的搜索頁面數(shù)沒有上限,百度查詢頁面數(shù)上限為108條,在Google上搜索“dog”有14.3億條頁面記錄,搜索“狗”則有5億條,而百度上搜索“狗”結(jié)果為上限1億條。所以本文對該算法進行修改,使得該公式更適合于中文詞匯相似度計算,修改如下:
谷歌搜索頁面數(shù)沒有上限,則變相的其頁面上限數(shù)就是索引頁面數(shù)N,所以公式中使用參數(shù)Nb等于百度查詢頁面上限數(shù)108來代替N,由于查詢“a和b”與查詢“b和a”的頁面結(jié)果數(shù)有一個比較小的差異,這和搜索關(guān)鍵字算法有關(guān),為了計算結(jié)果準(zhǔn)確性,Nb(a,b)取查詢“a和b”和查詢“b和a”的結(jié)果數(shù)的平均值。
文獻[9]提出了基于頁面片段信息的雙重檢測算法CODC,其對于語義相關(guān)性比較強的詞預(yù)測準(zhǔn)確度比較高,計算公式如下:
2.3 融合《知網(wǎng)》與搜索引擎的詞匯語義相似度計算
基于《知網(wǎng)》的詞匯語義相似度計算方法考慮詞對的語義信息,忽略了詞對之間的關(guān)聯(lián)關(guān)系;基于搜索引擎的詞匯語義相似度計算算法考慮詞對之間的關(guān)聯(lián)關(guān)系,忽略了詞對之間的底層語義;而融合兩者的詞匯語義相似度計算結(jié)果可以提高最終結(jié)果的精度。本文研究發(fā)現(xiàn)搜索關(guān)鍵字后查詢返回的頁面結(jié)果數(shù)越多,則該關(guān)鍵字的義原描述越接近義原層次體系樹的根節(jié)點,如:“時間”“空間”等,該類詞在搜索引擎中的搜索頁面結(jié)果數(shù)為上限108條,其在《知網(wǎng)》中的義原定義穩(wěn)定,語義不會偏移,《知網(wǎng)》計算該類詞的語義相似度的準(zhǔn)確度較高。為證明以上猜想,遂構(gòu)造回歸模型求取融合權(quán)值,具體如下:
Sim(a,b)=(1-w1)×SimZ(a,b)+w1×SimS(a,b);w1=sigmod(w2×lgn1+w3×lgn2)
SimS(a,b)=sigmod(w4)×CODCB(a,b)+ (1-sigmod(w4))×PMIB(a,b)
其中:w1表示搜索引擎計算結(jié)果的權(quán)重參數(shù),它由詞對的頁面結(jié)果數(shù)和其相關(guān)系數(shù)w2與w3決定;sigmod函數(shù)保證了權(quán)值結(jié)果的值域在0~1;L(y,w)是均方誤差(Mean Squared Error, MSE),表示相似度結(jié)果的損失函數(shù);m代表樣例數(shù)。本次實驗使用批量梯度下降算法學(xué)習(xí)權(quán)值參數(shù),實驗中設(shè)定步長為0.05。本文選取了2016NLPCC會議提供的中文詞匯語義相似度樣本數(shù)據(jù)40條,以及實驗數(shù)據(jù)10 000條中NLPCC會議提取并標(biāo)注人工評測結(jié)果的500條作為本次實驗數(shù)據(jù),從中隨機選取了270條作為訓(xùn)練數(shù)據(jù)進行實驗。
訓(xùn)練結(jié)果顯示,均方誤差為1.46時收斂,此時CODC方法權(quán)重參數(shù)w4為0.37,搜索引擎權(quán)重的參數(shù)w2為-0.15,w3為-0.14。實驗結(jié)果表明搜索引擎相似度計算結(jié)果的權(quán)值與搜索返回頁面數(shù)呈負相關(guān),驗證了本文觀點。
本次實驗采用基于《知網(wǎng)》的中文詞匯語義相似度計算方法,以及基于搜索引擎的中文詞匯語義相似度算法修正算法。為驗證方法的有效性,實驗選取了NLPCC會議提供的540條數(shù)據(jù)。該樣本數(shù)據(jù)和實驗數(shù)據(jù)的標(biāo)準(zhǔn)語義相似度由20名會議人員人工標(biāo)注并取其平均值得出,可靠性較高。隨機抽取了270條作為權(quán)值訓(xùn)練數(shù)據(jù),將剩下的270條作為測試數(shù)據(jù)。一共選取了三種相似度算法,分別是文獻[5]的改進《知網(wǎng)》算法、文獻[13]的利用搜索引擎的算法以及本文算法,分別對270條測試數(shù)據(jù)進行詞匯語義相似度計算,然后使用斯皮爾曼(Spearman)系數(shù)和皮爾遜(Pearson)系數(shù)評價其準(zhǔn)確性,結(jié)果如表3,可以看出本文方法得出的結(jié)果相對其他算法更好。
表3 相關(guān)系數(shù)
由于篇幅有限,本文選取了樣本數(shù)據(jù)40條中的前20條進行具體分析,結(jié)果如表4所示。
表4 抽樣詞語的相似度結(jié)果
實驗結(jié)果分析:
比較NLPCC評測的人工評測結(jié)果和文獻[5]對《知網(wǎng)》的改進計算,在很多詞對上二者的相似度結(jié)果差異依舊較大,文獻[5]的算法中第11行,第12行結(jié)果為1,偏大,第13行結(jié)果為0,偏小,本文認為原因是《知網(wǎng)》中對11,12行的二詞義原解釋定義完全相同,以及其對于實詞和虛詞的相似度結(jié)果直接判定為0,文獻[5]對概念語義相似度的計算作出了改進,但是依然無法保證該類詞對的相似度的準(zhǔn)確度。
比較《知網(wǎng)》和PMI算法結(jié)果與NLPCC評測最佳結(jié)果之間的差異,傳統(tǒng)的PMI算法對于中文的詞語計算語義相似度整體結(jié)果較高,其算法原理與《知網(wǎng)》不同,二者結(jié)果分歧較大,例如第1行的詞對,《知網(wǎng)》從底層語義的角度考慮,給出了一個較低的相似度,搜索引擎則從二詞的相關(guān)度和聯(lián)系性考慮,給出的相似度結(jié)果較高;PMI算法在某些詞匯上的結(jié)果不合理,如第3行,第13行的結(jié)果過大,本文認為,其原因主要是:“垂涎”和“尊敬”的網(wǎng)頁結(jié)果多出自一篇新聞的兩個分標(biāo)題,屬于噪聲信息,“活該”和“應(yīng)該”在網(wǎng)上經(jīng)常出現(xiàn)在一句話里,并出現(xiàn)在各種微博和短文中,因此PMI給計算結(jié)果很高。最后從整體上看,知網(wǎng)給出的部分結(jié)果偏低,PMI算法給出的部分結(jié)果偏高。
綜合3種方法結(jié)果進行比較,本文總體上結(jié)果比《知網(wǎng)》和搜索引擎算法結(jié)果更加符合NLPCC給出的人工評測結(jié)果。第11行的結(jié)果從知網(wǎng)給出的1.0降到0.8,與NLPCC給出的0.68更為接近;第5行的結(jié)果升高到0.43與會議給出的結(jié)果一致;第16行的相似度從0.06提高到了0.64,與會議給出的0.36還是有部分差距;第14行,第18行的結(jié)果相比過高,本文認為原因在于二詞雖然相似度不高,但存在較強的聯(lián)系性使得人們經(jīng)常將二詞放在一起使用或搜索,從而提高了搜索引擎對二詞的相似度的判斷。作者將在下一個階段對該類問題進行研究。
本文充分考慮《知網(wǎng)》的算法特點,提出一種利用搜索引擎搜索詞匯結(jié)果片段和網(wǎng)頁數(shù)修正《知網(wǎng)》計算結(jié)果的算法,提出了利用回歸函數(shù)訓(xùn)練融合權(quán)值的方法,并對某詞的義原中包含另一個詞的詞對的《知網(wǎng)》概念相似度算法進行改進。從實驗數(shù)據(jù)來看,本文提出的改進算法計算結(jié)果相對《知網(wǎng)》和搜索引擎的算法得到的準(zhǔn)確性更高,更加符合人們的直觀感受。接下來,將深入研究搜索引擎對詞匯相似度的計算機制,并利用搜索引擎完善知網(wǎng)的未登錄詞問題,從而進一步改善詞匯語義相似度的計算合理性。
)
[1] 董強, 董振東.知網(wǎng)簡介[EB/OL]. [2013- 01- 29].http://www.keenage.com/zhiwang/c_zhiwang.html.(DONGQ,DONGZD.HowNetknowledgedatabase[EB/OL]. [2013- 01- 29].http://www.keenage.com/zhiwang/c_zhiwang.html.)
[2] 劉群, 李素建.基于《知網(wǎng)》的詞匯語義相似度的計算[EB/OL]. [2015- 01- 12].http://www.nlp.org.cn/Admin/kindeditor/attached/file/20130508/20130508094157_16839.pdf.(LIUQ,LISJ.WordsimilaritycomputingbasedonHowNet[EB/OL]. [2015- 01- 12].http://www.nlp.org.cn/Admin/kindeditor/attached/file/20130508/20130508094157_16839.pdf.)
[3] 王小林, 王義.改進的基于知網(wǎng)的詞語相似度算法[J]. 計算機應(yīng)用, 2011, 31(11):3075-3077.(WANGXL,WANGY.ImprovedwordsimilarityalgorithmbasedonHowNet[J].JournalofComputerApplications, 2011, 31(11): 3075-3077.)
濾波是將信號中特定波段頻率濾出的操作,是抑制和防止干擾的一項重要措施。在計算機視覺中,常常利用濾波如高斯濾波來對圖像進行處理,當(dāng)然,為了提升運算速度,也會直接使用奇數(shù)階的方陣以用于對圖像進行卷積運算。具體的操作就是對于圖像的每一個像素點,計算他的鄰域像素和濾波器矩陣的對應(yīng)元素的乘積,之后加起來即可,作為該像素點的值。通過這一操作,將灰度圖像執(zhí)行了平滑在操作,如圖1所示。
[4] 夏天.漢語詞語語義相似度計算研究[J]. 計算機工程, 2007, 33(6):191-194.(XIAT.StudyonChinesewordssemanticsimilaritycomputation[J].ComputerEngineering, 2007, 33(6): 191-194.)
[5] 朱征宇, 孫俊華.改進的基于《知網(wǎng)》的詞匯語義相似度計算[J]. 計算機應(yīng)用, 2013, 33(8):2276-2279.(ZHUZY,SUNJH.ImprovedvocabularysemanticsimilaritycalculationbasedonHowNet[J].JournalofComputerApplications, 2013, 33(8): 2276-2279.)
[6] 朱新華, 馬潤聰, 孫柳, 等.基于知網(wǎng)與詞林的詞語語義相似度計算[J]. 中文信息學(xué)報, 2016, 30(4):29-36.(ZHUXH,MARC,SUNL,etal.WordsemanticsimilaritycomputationbasedonHowNetandCiLin[J].JournalofChineseInformationProcessing, 2016, 30(4): 29-36.)
[7] 吳奎, 周獻中, 王建宇, 等.基于貝葉斯估計的概念語義相似度算法[J]. 中文信息學(xué)報, 2010, 24(2):52-57.(WUK,ZHOUXZ,WANGJY,etal.AconceptsemanticsimilarityalgorithmbasedonBayesianestimation[J].JournalofChineseInformationProcessing, 2010, 24(2): 52-57.)
[8] 張春紅.中文維基百科的結(jié)構(gòu)化信息抽取及詞語相關(guān)度計算[D]. 武漢:華中師范大學(xué), 2011.(ZHANGCH.ExtractingstructuredinformationfromtheChineseWikipediaandmeasuringrelatednessbetweenwords[D].Wuhan:CentralChinaNormalUniversity, 2011.)
[9]CHENHH,LINMS,WEIYC.NovelassociationmeasuresusingWebsearchwithdoublechecking[C]//Proceedingsofthe21stInternationalConferenceonComputationalLinguisticsandthe44thAnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA:AssociationforComputationalLinguistics, 2006: 1009-1016.
[10]CILIBRASIRL,VITANYIPMB.TheGooglesimilaritydistance[J].IEEETransactionsonKnowledgeandDataEngineering, 2007, 19(3): 370-383.
[12] 陳海燕.基于搜索引擎的詞匯語義相似度計算方法[J]. 計算機科學(xué), 2015, 42(1):261-267.(CHENHY.MeasuringsemanticsimilaritybetweenwordsusingWebsearchengines[J].ComputerScience, 2015, 42(1):261-267.)
[13]BOLLEGALAD,MATSUOY,ISHIZUKAM.AWebsearchengine-basedapproachtomeasuresemanticsimilaritybetweenwords[J].IEEETransactionsonKnowledgeandDataEngineering, 2011, 23(7): 977-990.
[14] 李峰, 李芳.中文詞語語義相似度計算——基于《知網(wǎng)》2000[J]. 中文信息學(xué)報, 2007, 21(3):99-105.(LIF,LIF.AnnewapproachmeasuringsemanticsimilarityinHowNet2000 [J].JournalofChineseInformationProcessing, 2007, 21(3): 99-105.)
[15]LIND.AninformationtheoreticdefinitionofsimilaritysemanticdistanceinWordNet[C]//ICML1998:Proceedingsofthe15thInternationalConferenceonMachineLearning.SanFrancisco,CA:MorganKaufmann, 1998: 296-304.
[16]FIRTHJR.Asynopsisoflinguistictheory1930—1955 [J].StudiesinLinguisticAnalysis(SpecialVolumeofthePhilologicalSociety), 1957, 41(4): 1-32.
ThisworkispartiallysupportedbyNationalNaturalScienceFoundationofChina(61402220, 61502221),theScientificResearchProjectofHunanProvincialEducationDepartment(16C1378, 14B153, 15C1186),thePhilosophyandSocialScienceFoundationofHunanProvince(14YBA335).
ZHANG Shuowang, born in 1993, M. S. candidate. His research interests include natural language processing.
OUYANG Chunping, born in 1979, Ph. D., associate professor. Her research interests include semantic Web, emotion analysis.
YANG Xiaohua, born in 1963, Ph. D., professor. His research interests include information retrieval, public opinion analysis.
LIU Yongbin, born in 1978, Ph. D., lecturer. His research interests include knowledge graph, natural language processing.
LIU Zhiming, born in 1972, Ph. D., professor. His research interests include information retrieval, big data analysis.
Word semantic similarity computation based on integrating HowNet and search engines
ZHANG Shuowang, OUYANG Chunping*, YANG Xiaohua, LIU Yongbin, LIU Zhiming
(College of Computer Science and Technology, University of South China, Hengyang Hunan 421001, China)
According to mismatch between word semantic description of “HowNet” and subjective cognition of vocabulary, in the context of making full use of rich network knowledge, a word semantic similarity calculation method combining “HowNet” and search engine was proposed. Firstly, considering the inclusion relation between word and word sememes, the preliminary semantic similarity results were obtained by using improved concept similarity calculation method. Then the further semantic similarity results were obtained by using double correlation detection algorithm and point mutual information method based on search engines. Finally, the fitting function was designed and the weights were calculated by using batch gradient descent method, and the similarity calculation results of the first two steps were fused. The experimental results show that compared with the method simply based on “HowNet” or search engines, the Spearman coefficient and Pearson coefficient of the fusion method are both improved by 5%. Meanwhile, the match degree of the semantic description of the specific word and subjective cognition of vocabulary is improved. It is proved that it is effective to integrate network knowledge background into concept similarity calculation for computing Chinese word semantic similarity.
semantic similarity; HowNet; search engine; weight; network
2016- 09- 23;
2016- 10- 26。 基金項目:國家自然科學(xué)基金資助項目(61402220,61502221);湖南省教育廳科研項目(16C1378,14B153,15C1186);湖南省哲學(xué)社會科學(xué)基金資助項目(14YBA335)。
張碩望(1993—),男,湖南湘潭人,碩士研究生,主要研究方向:自然語言處理; 歐陽純萍(1979—),女,湖南衡陽人,副教授,博士,CCF會員,主要研究方向:語義Web、情感分析; 陽小華(1963—),男,湖南衡陽人,教授,博士,CCF會員,主要研究方向:信息檢索、輿情分析; 劉永彬(1978—),男,河北邯鄲人,講師,博士,CCF會員,主要研究方向:知識圖譜、自然語言處理; 劉志明(1972—),男,湖南瀏陽人,教授,博士,CCF會員,主要研究方向:信息檢索、大數(shù)據(jù)分析。
1001- 9081(2017)04- 1056- 05
10.11772/j.issn.1001- 9081.2017.04.1056
TP391.1
A