張曉宇 王永濱 吳林
摘 要:跨語(yǔ)言文本相似度計(jì)算在跨語(yǔ)言信息檢索、數(shù)據(jù)挖掘、抄襲檢測(cè)等領(lǐng)域有著重要應(yīng)用,但是跨語(yǔ)言文本相似度計(jì)算因?yàn)椴煌Z(yǔ)言文法、結(jié)構(gòu)等問題,在空間映射、特征選擇上與單語(yǔ)言文本相似度計(jì)算有很大差異。為解決上述問題,采用一種基于文本加權(quán)詞共現(xiàn)關(guān)系的跨語(yǔ)言文本相似度計(jì)算方法,通過平行語(yǔ)料庫(kù)構(gòu)建跨語(yǔ)言詞共現(xiàn)關(guān)系模型,使用該模型進(jìn)行跨語(yǔ)言文本映射,對(duì)不同語(yǔ)言的文本進(jìn)行相似度計(jì)算。該模型實(shí)際反映了某種語(yǔ)言中某些關(guān)鍵詞共同出現(xiàn)時(shí)映射成另一種語(yǔ)言時(shí)的關(guān)鍵詞概率分布。實(shí)驗(yàn)表明,該方法對(duì)跨語(yǔ)言文本排序的計(jì)算更接近人工評(píng)判標(biāo)準(zhǔn)。
關(guān)鍵詞:詞共現(xiàn);文本相似度;跨語(yǔ)言;統(tǒng)計(jì)翻譯模型
DOI:10. 11907/rjdk. 191233 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)002-0092-04
英標(biāo):Cross-linguistic Text Similarity Analysis Based on Co-occurrence of Text Weighted Words
英作:ZHANG Xiao-yu,WANG Yong-bin,WU Lin
英單:(Key Laboratory of Convergent Media and Intelligent Technology, Communication University of China, Beijing 100024, China)
Abstract:Cross-language text similarity computation has important applications in cross-language information retrieval, data mining, plagiarism detection and other fields. However, cross-linguistic text similarity calculation differs greatly from single-language text similarity calculation in spatial mapping and feature selection due to the different grammar and structure of the languages. In order to solve the above problem, a cross-linguistic text similarity calculation method based on the co-occurrence relationship of text weighted words is adopted. This method constructs a cross-linguistic word co-occurrence relationship model by parallel corpus, and uses this model to map cross-linguistic texts, and calculates the similarity of texts in different languages. The model actually reflects the probability distribution of keywords in one language when some keywords appear together and map to another language. Experimental results show that the calculation of the cross language text sorting method is closer to the artificial evaluation standard.
Key Words:word co-occurrence; text similarity; cross-linguistic; statistical translation model
0 引言
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,信息存儲(chǔ)快速增長(zhǎng),如何從海量的互聯(lián)網(wǎng)信息中獲取需要的信息越來越困難,給信息處理技術(shù)帶來新的挑戰(zhàn)。文本相似度計(jì)算在各種信息處理應(yīng)用中有著重要作用,例如搜索引擎、文本分類、文本聚類、信息檢索等[1-3]?;谕环N語(yǔ)言的文本相似度算法主要分為基于字符串的方法[4-5]、基于語(yǔ)料庫(kù)的方法[6-7]、基于世界知識(shí)的方法[8-9]和其它方法[10-11]?;谕Z(yǔ)言的文本相似度研究趨于成熟,代表算法有向量空間模型[12]、基于文檔結(jié)構(gòu)方法[13]、基于本體知識(shí)[14]等。但是,相對(duì)于同語(yǔ)言的文本相似度研究,跨語(yǔ)言的文本相似度研究很少。跨語(yǔ)言文檔相似度排序難點(diǎn)在于:首先,在跨語(yǔ)言信息檢索過程中,不同語(yǔ)言的文檔不屬于同一特征空間,不能直接對(duì)不同空間的文檔進(jìn)行表示及進(jìn)一步排序;其次,影響排序質(zhì)量的因素十分復(fù)雜,即使同一算法對(duì)不同語(yǔ)言的文檔也不能復(fù)制使用,尤其是針對(duì)現(xiàn)今帶有眾多復(fù)雜特征的互聯(lián)網(wǎng)文檔,不能很好地直接以符合用戶需要的方式對(duì)文檔進(jìn)行排序。
目前,跨語(yǔ)言文本相似度主要有以下幾種方法:
(1)基于全文機(jī)器翻譯方法[15-16]。該方法使用機(jī)器翻譯工具,將待檢索的源語(yǔ)言翻譯成目標(biāo)語(yǔ)言,再使用單語(yǔ)言的文本相似度算法進(jìn)行相似度計(jì)算。或者將源語(yǔ)言和目標(biāo)語(yǔ)言都翻譯成同一種中間語(yǔ)言,再進(jìn)行文本相似度計(jì)算。無論是否借助中間語(yǔ)言計(jì)算,基于機(jī)器翻譯的方法都極其依賴機(jī)器翻譯的質(zhì)量,并且很難應(yīng)用到多種語(yǔ)言。
(2)基于統(tǒng)計(jì)翻譯模型方法[17-18]。該方法需要在兩種語(yǔ)言之間生成翻譯概念詞典,建立翻譯概念詞典需要大規(guī)模對(duì)齊語(yǔ)料。本文使用的方法是基于統(tǒng)計(jì)翻譯模型的文本加權(quán)詞共現(xiàn)的跨語(yǔ)言文本相似度算法。
(3)CL-ESA算法(Cross-Language Explicit Semantic Analysis)。是基于平行語(yǔ)料庫(kù)的跨語(yǔ)言相似度算法,是ESA算法的擴(kuò)展[19-20]。該類算法以兩種語(yǔ)言的平行語(yǔ)料庫(kù)為基礎(chǔ)計(jì)算相似度,其算法準(zhǔn)確度主要依賴語(yǔ)料庫(kù)的規(guī)模和質(zhì)量。要獲得較高的準(zhǔn)確度需要大規(guī)模高質(zhì)量的平行語(yǔ)料,而大規(guī)模的索引語(yǔ)料會(huì)增加算法的計(jì)算量。因此, CL-ESA算法的準(zhǔn)確性和效率很難兼顧。
本文提出的方法屬于基于統(tǒng)計(jì)翻譯模型方法,不同的是,本文對(duì)翻譯概念詞典的建立基于語(yǔ)義思想,即認(rèn)為同一關(guān)鍵字在不同的語(yǔ)義中有不同含義,結(jié)合上下文語(yǔ)義才能得到該關(guān)鍵詞的最佳翻譯結(jié)果。
1 文本相似度計(jì)算過程
1.1 算法總體流程
本文根據(jù)平行語(yǔ)料庫(kù)計(jì)算好關(guān)鍵詞的共現(xiàn)映射模型,并對(duì)待檢測(cè)文章和新加入的文章提取關(guān)鍵詞關(guān)聯(lián)關(guān)系存入數(shù)據(jù)庫(kù),這樣可提高計(jì)算效率。算法應(yīng)用過程分為映射階段和匹配階段,對(duì)目標(biāo)文本進(jìn)行關(guān)鍵詞映射,再通過跨語(yǔ)言的映射模型映射其它語(yǔ)言的關(guān)系矩陣,基于該矩陣對(duì)待匹配文本進(jìn)行計(jì)算匹配,流程如圖1所示。
1.2 跨語(yǔ)言映射關(guān)系模型構(gòu)建
本文基于語(yǔ)義思想構(gòu)建跨語(yǔ)言映射關(guān)系,并且認(rèn)為語(yǔ)義的確定基于語(yǔ)境。語(yǔ)境這一概念是英國(guó)民俗學(xué)家馬林諾斯基首先提出的,他認(rèn)為語(yǔ)境對(duì)于理解語(yǔ)言必不可少。同一個(gè)詞在不同語(yǔ)境中可能代表不同的意思,例如英語(yǔ)中的hang就有“吊死、懸掛”的意思。因此,本文使用句子作為確定語(yǔ)境的最小單位,并使用一個(gè)句子中實(shí)詞的加權(quán)共現(xiàn)關(guān)系作為跨語(yǔ)言關(guān)鍵詞映射關(guān)系模型構(gòu)建的依據(jù)。因此,對(duì)于語(yǔ)料庫(kù)選擇,必須選擇句子對(duì)齊的平行語(yǔ)料,具體方法如下:
(1)統(tǒng)計(jì)[L1]中詞[w1]出現(xiàn)過的所有句子,組成集合[S1]。[S1=s1,s2,s3,?,sn,其中si]是含有[w1]的一個(gè)句子。
(2)統(tǒng)計(jì)[S1]中每個(gè)詞出現(xiàn)的頻率[fi],過濾掉頻率太低的詞,對(duì)篩選得到的詞進(jìn)行排序,得到新的集合:[F1=w1,f1,w2,f2,w3,f3,?,wn,fn]。其中:
(3)找到[L2]中所有與[S1]對(duì)應(yīng)的句子,組成集合[S1'],[S1'=s1',s2',s3',?,sn']。
(4)對(duì)[S1']作與第(2)步相同的處理,得到[F1'。F1'=][w1',f1',w2',f2',w3',f3',?,wn',fn']。
(5)將第(2)步和第(4)步結(jié)果生成的[F1,F(xiàn)1']映射關(guān)系保存。
(6)對(duì)[L1]中的所有詞進(jìn)行第(1)~第(5)步操作,生成[L1]對(duì)[L2]的映射模型。
其中[L1]、[L2]代表不同的兩種語(yǔ)言,[S1]、[S1']分別代表[L1]、[L2]中不同語(yǔ)言對(duì)齊的句子。如上述過程對(duì)平行語(yǔ)料庫(kù)處理完成后,得到[L1]對(duì)[L2]的跨語(yǔ)言映射關(guān)系模型。如需要[L2]對(duì)[L1]的映射關(guān)系模型,則對(duì)[L2]進(jìn)行相同處理。該模型實(shí)際反映了某種語(yǔ)言中某些關(guān)鍵詞共同出現(xiàn)時(shí)映射成另一種語(yǔ)言的關(guān)鍵詞概率分布,能有效解決雙關(guān)鍵詞共現(xiàn)算法中某一句子同時(shí)出現(xiàn)“A B C”時(shí),選用“AB”、“AC”還是“BC”作為共現(xiàn)詞對(duì)進(jìn)行映射的問題??缯Z(yǔ)言文本相似度計(jì)算基于本文所提出的跨語(yǔ)言映射關(guān)系模型實(shí)現(xiàn)。
1.3 文本相似度計(jì)算
本文使用的相似度計(jì)算基于前述構(gòu)建的跨語(yǔ)言映射關(guān)系模型。不同于傳統(tǒng)的文本相似度計(jì)算方法,使用本文算法進(jìn)行計(jì)算之前,要對(duì)待檢索的文檔數(shù)據(jù)庫(kù)進(jìn)行預(yù)處理,將每篇文檔用關(guān)鍵詞分布頻率表示出來,形成檢索匹配向量,具體方法如下:
(1)對(duì)待檢索的[L1]語(yǔ)言[T1]進(jìn)行句子拆分,把[T1]拆分成句子集合表示的形式,即[T1=s1,s2,s3,?,sn]。
(2)去停用詞后對(duì)[T]中的每個(gè)詞按句子統(tǒng)計(jì)共現(xiàn)詞內(nèi)容和頻率。
得[F=w1,w2,fw1,w2,?,wm,wn,fwm,wn]。
(3)設(shè)定頻率閾值[θ],過濾掉[fwx,wy]<[θ]的共現(xiàn)詞對(duì),計(jì)作向量[N],其中[N]的長(zhǎng)度為n。
(4)對(duì)第(3)步中的每個(gè)共現(xiàn)詞對(duì),根據(jù)跨語(yǔ)言關(guān)系映射模型映射成對(duì)應(yīng)語(yǔ)言[L2]的向量,并截取排名前n的結(jié)果,將所有向量組合成矩陣[M]。
(5)計(jì)算矩陣乘積結(jié)果[N?MT],其中[MT]是[M]的轉(zhuǎn)置矩陣。
(6)將乘積結(jié)果相同的關(guān)鍵詞頻率合并,統(tǒng)計(jì)所有[關(guān)鍵詞,頻率],計(jì)作[r,f]并按照頻率從大到小排序,得到[T]的對(duì)應(yīng)[L2]語(yǔ)言共現(xiàn)詞分布概率向量[R]。
(7)計(jì)算數(shù)據(jù)庫(kù)中每篇文章的共現(xiàn)詞分布概率[R'],計(jì)算[R]與每篇文章[R']的歐式距離[d],對(duì)結(jié)果從大到小排序即為相似度計(jì)算結(jié)果。其中:
上述計(jì)算過程的中心思想是根據(jù)關(guān)鍵詞共現(xiàn)映射模型,將[L1]語(yǔ)言的文本[T]映射成[L2]語(yǔ)言的共現(xiàn)詞分布概率,再通過計(jì)算[L2]的每篇文本共現(xiàn)詞分布概率的相似程度,完成文檔間相似度計(jì)算。其中[L2]語(yǔ)言的待檢索文本庫(kù)可以進(jìn)行共現(xiàn)詞分布計(jì)算,將所有文檔用共現(xiàn)詞分布概率表示并存入另一個(gè)共現(xiàn)詞數(shù)據(jù)庫(kù)。當(dāng)進(jìn)行檢索時(shí),可以直接從該數(shù)據(jù)庫(kù)中獲得數(shù)據(jù),從而提升計(jì)算效率。對(duì)于新入庫(kù)的文本,也可直接對(duì)齊進(jìn)行共現(xiàn)詞概率表示,同時(shí)存入兩個(gè)數(shù)據(jù)庫(kù)。
2 實(shí)驗(yàn)
2.1 平行語(yǔ)料庫(kù)構(gòu)建
平行語(yǔ)料庫(kù)是構(gòu)建跨語(yǔ)言關(guān)鍵詞映射模型的基礎(chǔ)。根據(jù)本文的模型構(gòu)建方法,要求平行語(yǔ)料庫(kù)是以句子為對(duì)齊單位的雙語(yǔ)語(yǔ)料庫(kù)。本文實(shí)驗(yàn)采用中文和英文兩種語(yǔ)言,對(duì)齊語(yǔ)料來源于大量的電影字幕文件。由于電影字幕文件有精確的時(shí)間軸和準(zhǔn)確的雙語(yǔ)語(yǔ)義信息,所以用其構(gòu)建句子級(jí)對(duì)齊的平行語(yǔ)料庫(kù)事半功倍。
實(shí)驗(yàn)使用爬蟲工具從字幕網(wǎng)站下載字幕文件,篩選文件格式為.srt的文件下載到本地,在本地對(duì).srt文件進(jìn)行解析,根據(jù)其時(shí)間戳進(jìn)行雙語(yǔ)對(duì)齊,.srt文件格式如圖2所示。
將得到的中英文句子存入數(shù)據(jù)庫(kù)用作對(duì)齊語(yǔ)料庫(kù),最終得到語(yǔ)料庫(kù)規(guī)模為120 994條對(duì)齊語(yǔ)料。
根據(jù)跨語(yǔ)言關(guān)鍵詞共現(xiàn)關(guān)系模型構(gòu)建方法,對(duì)平行語(yǔ)料庫(kù)中的數(shù)據(jù)進(jìn)行處理,構(gòu)建出詞共現(xiàn)關(guān)系模型,存入另一個(gè)數(shù)據(jù)表中。該表保存了詞之間的共現(xiàn)關(guān)系及映射關(guān)系,用來對(duì)檢索文章進(jìn)行映射。
2.2 跨語(yǔ)言文本相似度計(jì)算
本文所使用的文本相似度計(jì)算測(cè)試數(shù)據(jù)與實(shí)驗(yàn)設(shè)備由智能融媒體教育部重點(diǎn)實(shí)驗(yàn)室(中國(guó)傳媒大學(xué))提供。其中,中文新聞文檔1 000篇,英文新聞文檔1 000篇。測(cè)評(píng)方法采用先進(jìn)行機(jī)器計(jì)算,再對(duì)結(jié)果打亂進(jìn)行人工打分。
(1)對(duì)每篇中文文章使用本文提出的方法進(jìn)行跨語(yǔ)言文本相似度計(jì)算排序,即計(jì)算出和該篇中文文本相似的所有英文文章的相似程度并排序,截取其結(jié)果的前30篇作為人工打分備選。
(2)打亂這30篇文章順序,交給人工進(jìn)行標(biāo)注,人工標(biāo)注為:人工認(rèn)為和待檢索文章(即中文文章)相似或相關(guān)的英文文章打1分,認(rèn)為不相似或不相關(guān)的打0分。
(3)定義相似準(zhǔn)確率為[P1=tT],其中[t]表示算法計(jì)算排序?yàn)榍癧T]的文章中,人工標(biāo)注結(jié)果為1的文章數(shù),[T]表示選擇標(biāo)準(zhǔn),本文選用排序的前10位作為標(biāo)準(zhǔn)。同理,不相似準(zhǔn)確率為[P2=fF],其中[f]為排序倒數(shù)[F]的文章中,人工標(biāo)注為0的文章數(shù)。本文依然選擇10作為[F]的具體參數(shù),即認(rèn)為相似度排序的計(jì)算結(jié)果中,排序21-30為不相似文章。
(4)對(duì)[P1]和[P2]進(jìn)行加權(quán)調(diào)和平均處理,得出綜合指標(biāo)[F=2P1P2(P1+P2)]。
該評(píng)估方法參考了機(jī)器學(xué)習(xí)中常用的準(zhǔn)確率/召回率評(píng)估方法,不同的是本文并不同于文本分類問題,無法計(jì)算常規(guī)的準(zhǔn)確率或召回率,轉(zhuǎn)而采用上述方法對(duì)排序結(jié)果進(jìn)行評(píng)估,并且采用先使用算法計(jì)算再進(jìn)行人工打分的方法,減少了人工標(biāo)注時(shí)間。
為了對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析,本文使用基于全文翻譯的文本相似度算法作為對(duì)照實(shí)驗(yàn),并采用上述方法對(duì)結(jié)果進(jìn)行評(píng)估。對(duì)300篇中英文文檔分別進(jìn)行相似度排序計(jì)算,取平均值作為最終實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)結(jié)果如表1所示。
從表1可以看出,本文提出的基于文本加權(quán)詞共現(xiàn)的跨語(yǔ)言文本相似度算法優(yōu)于基于全文翻譯的文本相似度算法,其對(duì)跨語(yǔ)言文本相似度的排序結(jié)果更接近人工排序結(jié)果。
3 結(jié)語(yǔ)
本文提出了一種新的跨語(yǔ)言文本相似度計(jì)算方法,該方法依據(jù)語(yǔ)義思想,基于文本加權(quán)詞共現(xiàn)關(guān)系進(jìn)行跨語(yǔ)言文本相似度計(jì)算。通過使用平行語(yǔ)料庫(kù)實(shí)現(xiàn)跨語(yǔ)言的加權(quán)詞共現(xiàn)關(guān)系模型,通過模型間不同語(yǔ)言共現(xiàn)詞的映射關(guān)系進(jìn)行跨語(yǔ)言文本相似度計(jì)算。本文詳細(xì)闡述了根據(jù)平行語(yǔ)料庫(kù)構(gòu)建詞共現(xiàn)映射模型的過程,以及根據(jù)詞共現(xiàn)映射模型進(jìn)行文本相似度計(jì)算的過程和實(shí)驗(yàn)流程。實(shí)驗(yàn)結(jié)果表明,本文提出的方法相對(duì)于基于機(jī)器翻譯的跨語(yǔ)言文本相似度計(jì)算,更接近于人工判斷標(biāo)準(zhǔn)。但是本文所提出的算法仍然存在改進(jìn)空間:首先,語(yǔ)料庫(kù)的來源沒有針對(duì)性,本文所使用的句子級(jí)對(duì)齊語(yǔ)料庫(kù)來源于電影字幕文件,但是字幕文件往往偏口語(yǔ)化,專業(yè)性較差,沒有話題針對(duì)性;其次,詞共現(xiàn)關(guān)系研究還有待深入,需要挖掘詞之間更緊密的聯(lián)系與關(guān)聯(lián)。
參考文獻(xiàn):
[1] LI H,XU J. Semantic matching in search[J]. Foundations & Trends in Information Retrieval,2014,7(5):343-469.
[2] HALL P,DOWLING G. Approximates string matching[J]. Computing Survey,1980,12(4):381-402.
[3] 吳多堅(jiān). 基于 Word2Vec 的中文文本相似度研究與實(shí)現(xiàn)[D]. 西安:西安電子科技大學(xué),2016.
[4] 秦春秀,趙捧未,劉懷亮. 詞語(yǔ)相似度計(jì)算研究[J]. 情報(bào) 理 論 與 實(shí) 踐,2007,30(1):105-108.
[5] 劉萍,陳燁. 詞匯相似度研究進(jìn)展綜述[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2012(7-8):82-89.
[6] LANDAUER T K,DUMAIS S T. A solution to Plato's problem: the latent semantic analysis theory of acquisition, induction, and representation of knowledge[J]. Psychological Review,1997,104(2): 211-240.
[7] BLEI D M,NG A Y,JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research,2003(3):993-1022.
[8] 劉群,李素建. 基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J]. 中文計(jì)算語(yǔ)言學(xué),2002,7(2):59-76.
[9] 孫琛琛,申德榮,單菁,等. WSR:一種基于維基百科結(jié)構(gòu)信息的語(yǔ)義關(guān)聯(lián)度計(jì)算算法[J]. 計(jì)算機(jī)學(xué)報(bào),2012,35(11):2361-2370.
[10] 李彬,劉挺,秦兵,等. 基于語(yǔ)義依存的漢語(yǔ)句子相似度計(jì)算 [J]. 計(jì)算機(jī)應(yīng)用研究,2003,20(12): 5-17.
[11] JIANG J J,CONRATH D W. Semantic similarity based on corpus statistics and lexical taxonomy[C]. Taiwan:Proceedings of the International Conference on Research in Computational Linguistics,1997.
[12] 胡吉明,肖璐. 向量空間模型文本建模的語(yǔ)義增量化改進(jìn)研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2014(10):49-55.
[13] ZHANG X L,YANG T,F(xiàn)AN B Q,et al. Novel method for measuring structure and semantic similarity of xml documents based on extended adjacency matrix[J]. Physics Procedia,2012(24):1452-1461.
[14] WACHE H,VOGELE T,VISSER U,et al. Ontology based integration of information a survey of existing approaches[C]. Seattle Proceedings of the IJCAI01 Workshop on Ontologies and Information Sharing,2001:108-117.
[15] OARD D W,HACKETT P. Document translation for cross-language text retrival at the university of Maryland[J]. Journal of Computer Science & Technology,1998,30(2):259-272.
[16] MAIKE ERDMANN,ANDREW FINCH. Calculating Wikipedia article similarity using machine translation evaluation metrics[C]. Procedings of the 2011 IEEE Workshops of International Conference on Advanced Information Networking and Applications,2011:620-625.
[17] WESSEL KRAAIJ,NIE J Y,MICHEL SIMARD. Embedding web- based statistical translation model in cross-language information retrieval[J]. Computational Linguistics,Sep,2003,29(3):381-491.
[18] ALBERTO BARRON-CEDENO, PAOLO ROSSO, DAVID PINTO,et al. On cross-lingual plagiarism analysis using a statistical model[C]. ECAI 2008 Workshop on Uncovering Plagiarism, Authorship, and Social Software Misuse,2008:9-13.
[19] MARTIN POTTHAST,BENNO STEIN,MAIK ANDERKA. A Wikipedia-based multilingual retrieval model[C]. Proceedings of 30th European Conference on IR Research,ECIR 2008, Glasgow, LNCS, Berlin Heidelberg, New York, 2008: 522-530.
[20] YANG Y M,JAIME G,CARBONELL, et al. Translingual information retrieval: learning from bilingual corpora[J]. Artificial Intelligence,1998,103(1-2):323-345.
(責(zé)任編輯:杜能鋼)