一種基于語義擴展的跨語言自動檢索方法的設(shè)計

2015-01-09 10:03寧琳

現(xiàn)代情報 2014年1期

關(guān)鍵詞：查全率信息檢索詞典

寧琳

〔摘要〕跨語言檢

索是一種重要的信息檢索手段之一?為了提高跨語言檢索效率，采用語義擴展的方法，通過

分析其設(shè)計思想和工作流程，構(gòu)建出一種基于語義擴展的跨語言自動檢索模型，重點對其語

義擴展?知識庫和結(jié)果聚類等設(shè)計進行了闡述，提出了語義理解切分法的分詞方法，采用了

Single-Pass算法進行聚類，實驗結(jié)果表明，該模型能有效提高跨語言檢索的查全率和查準

率?

〔關(guān)鍵詞〕跨語言信息檢索；語義

擴展；分詞

DOI：10.3969/j

.issn.1008-0821.2014.01.033

〔中圖分類號〕G252.7 〔文獻標識碼〕B 〔文章編號

〕1008-0821（2014）01-0155-04

A Kind of Design of the Cross-La

nguage Information

Retrieval on the Basis of the Semantic Extension

Ning Lin

（Library，Chongqing Jiaotong University，Chongqing 400074，China）HT〗

〔Abstract〕”BZ〗The Cross-language retrieval is an important method of information retri

eval.In order to improve the cross-language retrieval efficiency，it adapts the m

ethod of semantic extension.By analyzing the design idea and workflow，it builds

a kind of cross-language automatic retrieval model based on semantic extension.F

ocusing on its semantic extension，knowledge base and expounding the result clust

ering design，the semantic understanding segmentation method of word segmentation

method is proposedand adapts the Single-Pass clustering algorithm.The experimen

tal results show that this model can effectively improve the cross-language retr

ieval recall and precision.

〔Key words〕CLIR（Cross-Lang

uage Information Retrieval）；semantic extension；segmentation

隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展，信息檢索已成為我們利用網(wǎng)絡(luò)獲取信息的必備工具?但是，

通常的信息檢索技術(shù)只對自然語言作處理，而自然語言之間在語義和語言結(jié)構(gòu)上差異很大，

這給人們進行檢索時帶來很大語言障礙?跨語言信息檢索（CLIR）技術(shù)的出現(xiàn)，為網(wǎng)絡(luò)信息

搜集提供了新的方式，用戶只需輸入一種語言的查詢，就能檢索出其他多種語言的文檔，實

現(xiàn)信息獲取的目的?目前，跨語言信息檢索的實現(xiàn)策略很多，但普遍存在查全率和查準率較

低的情況，采用語義擴展的跨語言檢索方式，通過對用戶輸入的原始搜索指令進行跨語言的

語義擴展，擴展出查詢詞的潛在語義相關(guān)詞，并對擴展后的內(nèi)容進行自動聚類分析處理，可

以實現(xiàn)多語言的同步搜索并提高跨語言檢索的查全率和查準率，為解決網(wǎng)絡(luò)上語言差異的問

題提出很好的思路?

1 跨語言信息檢索及其主要方法跨語言信息檢索是指用戶以一種語言提問，檢出另一種語言或多種語言描述的相關(guān)信息?在

跨語言檢索中，不同語言之間的“翻譯”是跨語言信息檢索的核心問題，也是跨語言信息檢

索的研究熱點與難點?目前，有3種公認的主要翻譯方法：機器翻譯技術(shù)?基于詞典的方法

?基于語料庫的方法^[1]?

1.1 機器翻譯技術(shù)

機器翻譯是將跨語言檢索系統(tǒng)直接應(yīng)用于檢索過程中?主要有兩種方法：一是將用戶的查詢

翻譯為與文檔相同的語種；另一種是將文檔翻譯為與查詢相同的語種，然后再用單語種的信

息檢索系統(tǒng)進行檢索^[6]?但是，由于機器翻譯技術(shù)通常是基于整句翻譯的，不能

進行語境信息和領(lǐng)域知識的處理，很難消除翻譯歧義，在實際檢索過程中會產(chǎn)生大量冗余文

檔，結(jié)果不夠精確?

1.2 基于詞典的策略

其基本思路在于，利用一部雙語詞典，將用戶提出的查詢檢索詞交換為目標語言的檢索詞，

然后再在文檔集中查詢相關(guān)信息?這種方法缺點在于翻譯時是以詞為單位，而在各種語言中

普遍存在的一詞多義現(xiàn)象，導致大大增加了翻譯的復雜性?

1.3 基于語料庫的策略

基于語料庫的方法從大規(guī)模的語料入手，從中抽取所需的信息，自動構(gòu)建與應(yīng)用有關(guān)的翻譯endprint

技術(shù)?語料庫分為兩種：比較語料庫和平行語料庫?比較語料庫內(nèi)每種語言文獻集內(nèi)的文獻

并非一一對應(yīng)，而僅僅是討論相同主題而已?平行語料庫強調(diào)兩種語言文獻的一一對應(yīng)，而

這種相互對譯的雙語語料庫并不容易實現(xiàn)?

目前，跨語言信息檢索最常用的是基于詞典的策略和基于語料庫的策略?在基于詞典的跨語

言信息檢索中，未知詞的處理一直困擾著人們，對于不在詞典中的詞就無法翻譯?語料庫建

設(shè)難度較大，規(guī)模通常也較有限?因此利用查詢擴展技術(shù)將兩種方法進行整合是解決翻譯問

題的一種有效方法，即利用語義詞典對查詢語句進行語義擴展，再將擴展詞匯與語料庫對比

分析，分析該語義段落中的潛在目標對象和查詢請求的語義相關(guān)性，從而決定是否將其作為

結(jié)果返回，查詢擴展可分別在查詢翻譯前或查詢后進行，也可以同時在查詢翻譯前?后進行

，這種方法可以減少與詞典翻譯有關(guān)的錯誤，部分地解決詞匯問題中“多詞同義或近義”的

問題?

2.2.1 知識庫模塊

該模塊主要是對輸入的原始搜索指令進行分析，利用知識庫和通用語義詞典，對搜索指令進

行跨語言擴展，語義詞典為知識庫信息搜索提供了語義擴展的基本素材，由于語義詞典與具

體應(yīng)用無關(guān)，因此存在專用術(shù)語不全?領(lǐng)域語義模糊?新詞匯和特殊的詞匯沒有收錄等問題

，因此，有必要設(shè)計針對用戶需求的專業(yè)知識庫，該庫收錄的內(nèi)容包括：專業(yè)信息搜集中常

用詞的中英文同義詞，地名?機構(gòu)名?術(shù)語的全稱?簡稱?縮寫等中英文的表述，網(wǎng)絡(luò)中新

出現(xiàn)的詞匯的中英文表述，人名的中英文各種譯法等?

2.2.2 搜索指令的跨語言語義擴展模塊

該模塊是實現(xiàn)跨語言擴展的核心部分，它主要包括數(shù)據(jù)預處理?特征提取?特征權(quán)重的計算

和查詢擴展等部分?

（1）數(shù)據(jù)預處理

數(shù)據(jù)預處理是對搜索的原始數(shù)據(jù)進行提取?分解?合并，最后轉(zhuǎn)化為適合進行數(shù)據(jù)挖掘的數(shù)

據(jù)格式?它包括兩個解析過程：一是將包含標記符號的Web文檔解析成只含有用信息的文本

文檔，利用抓取工具把檢索的結(jié)果抓取到數(shù)據(jù)庫，然后利用HTML解析工具對Web文本進行分

析，進行去HTML標記的處理?二是對文本文檔進行分詞處理?分詞就是將中文或其它語言的

詞句按照一定序列切分成有意義的詞^[5]，目前，分詞的方法有很多，如機械匹配

法?特征詞庫法?約束矩陣法等，在這里，我主要提出了一種具有“理解”功能的切分法—

—語義理解切分法，其基本思想是：先建立一個詞庫，其中包含所有可能出現(xiàn)的詞和它們的

各種語義信息，對給定的待分詞的詞句S，按照某種確定的原則切取S的子串，若該子串與詞

庫中的某詞條相匹配，則從詞庫中取出該詞的所有語義信息，然后調(diào)用語義分析程序進行語

義分析（包括形成理解結(jié)果和檢索約束條件）?若分析正確，則該子串是詞，記下理解結(jié)果

作為后繼切分的基礎(chǔ)，繼續(xù)分割余下部分，直到余下部分為空?否則該子串不是詞，轉(zhuǎn)上重

新切取S的子串進行匹配?理解切分法的優(yōu)點在于它的最終結(jié)果包括理解結(jié)果的內(nèi)部表示，

為后繼的處理提供很大的幫助?

對數(shù)據(jù)預處理后的信息提供兩種聚類對象集，當用戶想要快速地進行檢索時，可以選擇標題

和摘要作為對象集的處理結(jié)果，當用戶想要得到更加準確的結(jié)果，可以選擇原始網(wǎng)頁作為對

象集?

（2）特征提取

在提取文本特征時，剔除對文本分類沒有用處的虛詞，而在實詞中，主要提取類別特性的表

現(xiàn)力最強的名詞和動詞作為文本的特征詞?

對于同義詞，首先是對文本進行部分語義分析，利用語義詞典獲取詞匯的語義信息，將語義

相同的詞匯映射到同一概念，進行概念聚類，并將概念相同的詞合并成同一詞?用聚類得到

的詞作為文檔向量的特征項，能夠比普通詞匯更加準確地表達文檔內(nèi)容，減少特征之間的相

關(guān)性和同義現(xiàn)象，這樣可以有效降低文檔向量的維數(shù)，減少文檔處理計算量，提高特征提取

的精度和效率?

（3）特征權(quán)重的計算

利用分詞工具對中英文的文檔進行分詞處理并進行詞性標注，標注主要用于特征提取?而特

征詞在不同的標記符中對內(nèi)容的反映程度不同，其權(quán)重的計算方法也不同，本文采用的是常

用的TFIDF（詞頻——逆文檔頻度）加權(quán)法?

通常來說，對區(qū)別文檔最有意義的詞應(yīng)是在文檔中出現(xiàn)頻率高，而在整個文檔集合的其他文

檔中出現(xiàn)頻率少的詞，因此采用TF詞頻作為測度來體現(xiàn)同類文本的特點?另外，TFIDF法認

為一個單詞出現(xiàn)的文本頻數(shù)越小，它區(qū)別不同類別文本的能力就越大，因此采用逆文本頻度

IDF，以TF和IDF的乘積作為特征空間的取值測度，并用它完成對權(quán)值TF的調(diào)整，從而實現(xiàn)突

出重要單詞的目的?其過程如下：

（4）查詢擴展

查詢擴展技術(shù)是語義檢索的一個重要方面?查詢擴展把與原查詢相關(guān)的詞語或者語言查詢語

義相關(guān)的概念添加到原查詢，得到比原查詢更長的新查詢，然后檢索文檔，以提高信息檢索

的查全率和查準率^[4]?

①手工查詢擴展：人工挑選與查詢詞相關(guān)的其它特征詞，將其加入到原始查詢中構(gòu)成新的查endprint

詢?

②自動查詢擴展：使用語法分析?統(tǒng)計等技術(shù)從文檔集合中自動學習，獲得詞與詞間的相關(guān)

信息^[3]?

本模塊采用自動查詢擴展和手工查詢擴展相結(jié)合的方法，即將經(jīng)過語義詞典擴展的詞以選擇

項的方式提供給用戶，供用戶進行選擇，從而解決同義詞擴展過多，詞語相似度低的問題?

對于新出現(xiàn)的詞匯?地名?機構(gòu)名，通過定期更新知識庫記錄的方法加以解決?專業(yè)術(shù)語通

常采用與專業(yè)詞典相結(jié)合的辦法，首先在通用語義詞典中查找詞意，當其無法滿足要求時，

再轉(zhuǎn)向?qū)I(yè)詞典進行查找?

2.2.3 跨語言文本自動聚類模塊分析

搜索引擎是以關(guān)鍵字匹配的檢索方式，導致搜索引擎返回的結(jié)果中有許多是與用戶的查詢不

相關(guān)的文檔，因此需要對返回的結(jié)果進行篩選?通過對檢索結(jié)果的上下文進行分析，以文檔

的相似度為基礎(chǔ)，對結(jié)果進行聚類，能自動地對檢索結(jié)果進行篩選，從而解決查詢文檔過多

的問題?本模塊在對搜索引擎返回的結(jié)果進行聚類處理時，通過計算結(jié)果文檔與設(shè)定模板的

相似度，根據(jù)相似度閾值，分批對結(jié)果進行聚類，大于閾值的文檔則搜集進信息資料數(shù)據(jù)庫

，小于閾值的文檔則直接舍棄，當滿足一定的條件時，停止聚類，完成篩選?

（1）文本聚類

按照數(shù)據(jù)的相似性和差異性，將數(shù)據(jù)劃分為若干簇，同簇的盡量相似，不同簇的盡量相異，

這種對數(shù)據(jù)進行自動組織的方法稱為聚類^[2]?聚類通過比較數(shù)據(jù)的相似性和差異

性，能發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在特征及分布規(guī)律，從而獲得對數(shù)據(jù)更深刻的理解和認識?

聚類分為兩種：檢索前聚類和檢索后聚類?檢索前聚類是在檢索之前對全部文檔進行聚類，

使相關(guān)的文檔在同一類中，在檢索過程中，每個文檔類以一個向量來表示，查詢向量先與各

個類向量逐一進行比較，最后得到相關(guān)度較高的類?檢索后聚類是在檢索之后對查詢相關(guān)的

文檔進行聚類?與檢索前聚類相比，檢索后聚類能夠分析相關(guān)文檔集合的特征，提高檢索效

果?

（2）聚類的過程

該設(shè)計的聚類主要采用了Single-Pass啟發(fā)式聚類算法，首先，按照一定的次序，將第

一篇文檔作為聚類依據(jù)，將其余文檔按次序依次對其進行相似性比較，如相似性達到系統(tǒng)設(shè)

定的要求，即將其歸入該類，并重新計算其類心，作為其他文檔的匹配依據(jù)，如未達到系統(tǒng)

要求的閾值，則直接將該文檔作為新類的聚類依據(jù)，所有文檔均依次按這一方式聚類?除此

之外，為了提高聚類的效率，減少對原始網(wǎng)頁的處理時間，該聚類還對搜索引擎返回的結(jié)果

進行分批次聚類處理，每次聚類的過程相同，前一批次的聚類結(jié)果作為后一批次的聚類模板

具體過程：設(shè)每一批次處理的文檔數(shù)量為N，在算法中，設(shè)計了一個計數(shù)器K，用于計算每一

批處理的文檔中歸入類中的數(shù)量，如果K=0，表示在這一批次中符合要求的文檔數(shù)為0，則停

止聚類，算法中模板的向量用模板集中向量的平均值來表示，平均值的計算公式為：

mi=∑ni=1xi/n

xi為模板集中的隨機向量，n為模板集中對象的個數(shù)?文檔與模板間的相似度用余弦公式

來定義?

在聚類中閾值的設(shè)定很關(guān)鍵，閾值設(shè)定過大，導致查全率的降低，閾值設(shè)定過小，則導致查

準率的降低?

3 跨語言語義擴展檢索結(jié)果分析TBZ〗

本文實驗設(shè)計了10組中英文查詢進行檢索，利用百度?中搜?Google搜索引擎進行原始指令

搜索和擴展后的指令搜索，并對前100個檢索結(jié)果采用查全率和查準率進行統(tǒng)計，將統(tǒng)計結(jié)

果進行平均，然后得到評估結(jié)果（表1）：

表1 原始檢索和語義擴展檢索結(jié)果評估

實驗結(jié)果表明，3個普通搜索引擎采用原始檢索的查全率和查準率平均值分別為0.18和

0.34，而采用語義擴展檢索的查全率和查準率平均值分別為0.35和0.53，通過語義擴展

對普通搜索引擎進行跨語言語義擴展的二次優(yōu)化，可以有效地提高跨語言檢索的查全率和查

準率，提高了網(wǎng)絡(luò)信息搜集的效率?

4 結(jié)束語

解決網(wǎng)絡(luò)語言差異的障礙，采用語義擴展的跨語言檢索是一種較好的方法?該方法通過構(gòu)建

跨語言語義擴展檢索模型，對原始搜索指令進行跨語言的語義擴展，將傳統(tǒng)搜索進行二次優(yōu)

化，實現(xiàn)多語言的同步搜索，然后，利用Single-Pass聚類算法對返回的結(jié)果進行聚類分析

，實現(xiàn)搜索結(jié)果的自動取舍，為用戶進行信息檢索提供有力幫助?該設(shè)計下一步研究：一是

提取更準確的文本特征，整理出更完善的語義資源庫?二是嘗試對文本以外的多媒體資料進

行自動分析，擴大語義檢索的范圍?

參考文獻

[1]楊麗.國外跨語言信息檢索的技術(shù)研究綜述[J].情報雜志，2008，

（7）：38.

[2]鄒良群.互聯(lián)網(wǎng)公開情報跨語言搜集自動化處理研究[C].國際關(guān)系學院論文集，

2009.

[3]郭文.跨語言信息檢索中的查詢擴展[J].心智與計算，2009，（1）：1-8.

[4]李莉，高慶獅.一種基于語義單元的查詢擴展方法[J].計算機科學，2008，35（

2）：201-204.

[5]Metzler D，Croft W B.Latent Concept Expansion Using Markov Random Fields[

C].Proceedings of the 30th annual international ACM SIGIR conference on Resea

rch and developm ent in information retrieval.New York：ACM Press，2007：311-314.

[6]Gey F C，Jiang H，Chen A.Manual Queries and Machine Translation in Cross

—Language Retrieval and Interactive Retrieval With Cheshire 2 atTREC—7[M].

InProc.ofthe 7thTextRetrievalE.valuation Conf，2005.

（本文責任編輯：孫國雷）endprint

詢?

②自動查詢擴展：使用語法分析?統(tǒng)計等技術(shù)從文檔集合中自動學習，獲得詞與詞間的相關(guān)

信息^[3]?

本模塊采用自動查詢擴展和手工查詢擴展相結(jié)合的方法，即將經(jīng)過語義詞典擴展的詞以選擇

項的方式提供給用戶，供用戶進行選擇，從而解決同義詞擴展過多，詞語相似度低的問題?

對于新出現(xiàn)的詞匯?地名?機構(gòu)名，通過定期更新知識庫記錄的方法加以解決?專業(yè)術(shù)語通

常采用與專業(yè)詞典相結(jié)合的辦法，首先在通用語義詞典中查找詞意，當其無法滿足要求時，

再轉(zhuǎn)向?qū)I(yè)詞典進行查找?

2.2.3 跨語言文本自動聚類模塊分析

搜索引擎是以關(guān)鍵字匹配的檢索方式，導致搜索引擎返回的結(jié)果中有許多是與用戶的查詢不

相關(guān)的文檔，因此需要對返回的結(jié)果進行篩選?通過對檢索結(jié)果的上下文進行分析，以文檔

的相似度為基礎(chǔ)，對結(jié)果進行聚類，能自動地對檢索結(jié)果進行篩選，從而解決查詢文檔過多

的問題?本模塊在對搜索引擎返回的結(jié)果進行聚類處理時，通過計算結(jié)果文檔與設(shè)定模板的

相似度，根據(jù)相似度閾值，分批對結(jié)果進行聚類，大于閾值的文檔則搜集進信息資料數(shù)據(jù)庫

，小于閾值的文檔則直接舍棄，當滿足一定的條件時，停止聚類，完成篩選?

（1）文本聚類

按照數(shù)據(jù)的相似性和差異性，將數(shù)據(jù)劃分為若干簇，同簇的盡量相似，不同簇的盡量相異，

這種對數(shù)據(jù)進行自動組織的方法稱為聚類^[2]?聚類通過比較數(shù)據(jù)的相似性和差異

性，能發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在特征及分布規(guī)律，從而獲得對數(shù)據(jù)更深刻的理解和認識?

聚類分為兩種：檢索前聚類和檢索后聚類?檢索前聚類是在檢索之前對全部文檔進行聚類，

使相關(guān)的文檔在同一類中，在檢索過程中，每個文檔類以一個向量來表示，查詢向量先與各

個類向量逐一進行比較，最后得到相關(guān)度較高的類?檢索后聚類是在檢索之后對查詢相關(guān)的

文檔進行聚類?與檢索前聚類相比，檢索后聚類能夠分析相關(guān)文檔集合的特征，提高檢索效

果?

（2）聚類的過程

該設(shè)計的聚類主要采用了Single-Pass啟發(fā)式聚類算法，首先，按照一定的次序，將第

一篇文檔作為聚類依據(jù)，將其余文檔按次序依次對其進行相似性比較，如相似性達到系統(tǒng)設(shè)

定的要求，即將其歸入該類，并重新計算其類心，作為其他文檔的匹配依據(jù)，如未達到系統(tǒng)

要求的閾值，則直接將該文檔作為新類的聚類依據(jù)，所有文檔均依次按這一方式聚類?除此

之外，為了提高聚類的效率，減少對原始網(wǎng)頁的處理時間，該聚類還對搜索引擎返回的結(jié)果

進行分批次聚類處理，每次聚類的過程相同，前一批次的聚類結(jié)果作為后一批次的聚類模板

具體過程：設(shè)每一批次處理的文檔數(shù)量為N，在算法中，設(shè)計了一個計數(shù)器K，用于計算每一

批處理的文檔中歸入類中的數(shù)量，如果K=0，表示在這一批次中符合要求的文檔數(shù)為0，則停

止聚類，算法中模板的向量用模板集中向量的平均值來表示，平均值的計算公式為：

mi=∑ni=1xi/n

xi為模板集中的隨機向量，n為模板集中對象的個數(shù)?文檔與模板間的相似度用余弦公式

來定義?

在聚類中閾值的設(shè)定很關(guān)鍵，閾值設(shè)定過大，導致查全率的降低，閾值設(shè)定過小，則導致查

準率的降低?

3 跨語言語義擴展檢索結(jié)果分析TBZ〗

本文實驗設(shè)計了10組中英文查詢進行檢索，利用百度?中搜?Google搜索引擎進行原始指令

搜索和擴展后的指令搜索，并對前100個檢索結(jié)果采用查全率和查準率進行統(tǒng)計，將統(tǒng)計結(jié)

果進行平均，然后得到評估結(jié)果（表1）：

表1 原始檢索和語義擴展檢索結(jié)果評估

實驗結(jié)果表明，3個普通搜索引擎采用原始檢索的查全率和查準率平均值分別為0.18和

0.34，而采用語義擴展檢索的查全率和查準率平均值分別為0.35和0.53，通過語義擴展

對普通搜索引擎進行跨語言語義擴展的二次優(yōu)化，可以有效地提高跨語言檢索的查全率和查

準率，提高了網(wǎng)絡(luò)信息搜集的效率?

4 結(jié)束語

解決網(wǎng)絡(luò)語言差異的障礙，采用語義擴展的跨語言檢索是一種較好的方法?該方法通過構(gòu)建

跨語言語義擴展檢索模型，對原始搜索指令進行跨語言的語義擴展，將傳統(tǒng)搜索進行二次優(yōu)

化，實現(xiàn)多語言的同步搜索，然后，利用Single-Pass聚類算法對返回的結(jié)果進行聚類分析

，實現(xiàn)搜索結(jié)果的自動取舍，為用戶進行信息檢索提供有力幫助?該設(shè)計下一步研究：一是

提取更準確的文本特征，整理出更完善的語義資源庫?二是嘗試對文本以外的多媒體資料進

行自動分析，擴大語義檢索的范圍?

參考文獻

[1]楊麗.國外跨語言信息檢索的技術(shù)研究綜述[J].情報雜志，2008，

（7）：38.

[2]鄒良群.互聯(lián)網(wǎng)公開情報跨語言搜集自動化處理研究[C].國際關(guān)系學院論文集，

2009.

[3]郭文.跨語言信息檢索中的查詢擴展[J].心智與計算，2009，（1）：1-8.

[4]李莉，高慶獅.一種基于語義單元的查詢擴展方法[J].計算機科學，2008，35（

2）：201-204.

[5]Metzler D，Croft W B.Latent Concept Expansion Using Markov Random Fields[

C].Proceedings of the 30th annual international ACM SIGIR conference on Resea

rch and developm ent in information retrieval.New York：ACM Press，2007：311-314.

[6]Gey F C，Jiang H，Chen A.Manual Queries and Machine Translation in Cross

—Language Retrieval and Interactive Retrieval With Cheshire 2 atTREC—7[M].

InProc.ofthe 7thTextRetrievalE.valuation Conf，2005.

（本文責任編輯：孫國雷）endprint

詢?

②自動查詢擴展：使用語法分析?統(tǒng)計等技術(shù)從文檔集合中自動學習，獲得詞與詞間的相關(guān)

信息^[3]?

本模塊采用自動查詢擴展和手工查詢擴展相結(jié)合的方法，即將經(jīng)過語義詞典擴展的詞以選擇

項的方式提供給用戶，供用戶進行選擇，從而解決同義詞擴展過多，詞語相似度低的問題?

對于新出現(xiàn)的詞匯?地名?機構(gòu)名，通過定期更新知識庫記錄的方法加以解決?專業(yè)術(shù)語通

常采用與專業(yè)詞典相結(jié)合的辦法，首先在通用語義詞典中查找詞意，當其無法滿足要求時，

再轉(zhuǎn)向?qū)I(yè)詞典進行查找?

2.2.3 跨語言文本自動聚類模塊分析

搜索引擎是以關(guān)鍵字匹配的檢索方式，導致搜索引擎返回的結(jié)果中有許多是與用戶的查詢不

相關(guān)的文檔，因此需要對返回的結(jié)果進行篩選?通過對檢索結(jié)果的上下文進行分析，以文檔

的相似度為基礎(chǔ)，對結(jié)果進行聚類，能自動地對檢索結(jié)果進行篩選，從而解決查詢文檔過多

的問題?本模塊在對搜索引擎返回的結(jié)果進行聚類處理時，通過計算結(jié)果文檔與設(shè)定模板的

相似度，根據(jù)相似度閾值，分批對結(jié)果進行聚類，大于閾值的文檔則搜集進信息資料數(shù)據(jù)庫

，小于閾值的文檔則直接舍棄，當滿足一定的條件時，停止聚類，完成篩選?

（1）文本聚類

按照數(shù)據(jù)的相似性和差異性，將數(shù)據(jù)劃分為若干簇，同簇的盡量相似，不同簇的盡量相異，

這種對數(shù)據(jù)進行自動組織的方法稱為聚類^[2]?聚類通過比較數(shù)據(jù)的相似性和差異

性，能發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在特征及分布規(guī)律，從而獲得對數(shù)據(jù)更深刻的理解和認識?

聚類分為兩種：檢索前聚類和檢索后聚類?檢索前聚類是在檢索之前對全部文檔進行聚類，

使相關(guān)的文檔在同一類中，在檢索過程中，每個文檔類以一個向量來表示，查詢向量先與各

個類向量逐一進行比較，最后得到相關(guān)度較高的類?檢索后聚類是在檢索之后對查詢相關(guān)的

文檔進行聚類?與檢索前聚類相比，檢索后聚類能夠分析相關(guān)文檔集合的特征，提高檢索效

果?

（2）聚類的過程

該設(shè)計的聚類主要采用了Single-Pass啟發(fā)式聚類算法，首先，按照一定的次序，將第

一篇文檔作為聚類依據(jù)，將其余文檔按次序依次對其進行相似性比較，如相似性達到系統(tǒng)設(shè)

定的要求，即將其歸入該類，并重新計算其類心，作為其他文檔的匹配依據(jù)，如未達到系統(tǒng)

要求的閾值，則直接將該文檔作為新類的聚類依據(jù)，所有文檔均依次按這一方式聚類?除此

之外，為了提高聚類的效率，減少對原始網(wǎng)頁的處理時間，該聚類還對搜索引擎返回的結(jié)果

進行分批次聚類處理，每次聚類的過程相同，前一批次的聚類結(jié)果作為后一批次的聚類模板

具體過程：設(shè)每一批次處理的文檔數(shù)量為N，在算法中，設(shè)計了一個計數(shù)器K，用于計算每一

批處理的文檔中歸入類中的數(shù)量，如果K=0，表示在這一批次中符合要求的文檔數(shù)為0，則停

止聚類，算法中模板的向量用模板集中向量的平均值來表示，平均值的計算公式為：

mi=∑ni=1xi/n

xi為模板集中的隨機向量，n為模板集中對象的個數(shù)?文檔與模板間的相似度用余弦公式

來定義?

在聚類中閾值的設(shè)定很關(guān)鍵，閾值設(shè)定過大，導致查全率的降低，閾值設(shè)定過小，則導致查

準率的降低?

3 跨語言語義擴展檢索結(jié)果分析TBZ〗

本文實驗設(shè)計了10組中英文查詢進行檢索，利用百度?中搜?Google搜索引擎進行原始指令

搜索和擴展后的指令搜索，并對前100個檢索結(jié)果采用查全率和查準率進行統(tǒng)計，將統(tǒng)計結(jié)

果進行平均，然后得到評估結(jié)果（表1）：

表1 原始檢索和語義擴展檢索結(jié)果評估

實驗結(jié)果表明，3個普通搜索引擎采用原始檢索的查全率和查準率平均值分別為0.18和

0.34，而采用語義擴展檢索的查全率和查準率平均值分別為0.35和0.53，通過語義擴展

對普通搜索引擎進行跨語言語義擴展的二次優(yōu)化，可以有效地提高跨語言檢索的查全率和查

準率，提高了網(wǎng)絡(luò)信息搜集的效率?

4 結(jié)束語

解決網(wǎng)絡(luò)語言差異的障礙，采用語義擴展的跨語言檢索是一種較好的方法?該方法通過構(gòu)建

跨語言語義擴展檢索模型，對原始搜索指令進行跨語言的語義擴展，將傳統(tǒng)搜索進行二次優(yōu)

化，實現(xiàn)多語言的同步搜索，然后，利用Single-Pass聚類算法對返回的結(jié)果進行聚類分析

，實現(xiàn)搜索結(jié)果的自動取舍，為用戶進行信息檢索提供有力幫助?該設(shè)計下一步研究：一是

提取更準確的文本特征，整理出更完善的語義資源庫?二是嘗試對文本以外的多媒體資料進

行自動分析，擴大語義檢索的范圍?

參考文獻

[1]楊麗.國外跨語言信息檢索的技術(shù)研究綜述[J].情報雜志，2008，

（7）：38.

[2]鄒良群.互聯(lián)網(wǎng)公開情報跨語言搜集自動化處理研究[C].國際關(guān)系學院論文集，

2009.

[3]郭文.跨語言信息檢索中的查詢擴展[J].心智與計算，2009，（1）：1-8.

[4]李莉，高慶獅.一種基于語義單元的查詢擴展方法[J].計算機科學，2008，35（

2）：201-204.

[5]Metzler D，Croft W B.Latent Concept Expansion Using Markov Random Fields[

C].Proceedings of the 30th annual international ACM SIGIR conference on Resea

rch and developm ent in information retrieval.New York：ACM Press，2007：311-314.

[6]Gey F C，Jiang H，Chen A.Manual Queries and Machine Translation in Cross

—Language Retrieval and Interactive Retrieval With Cheshire 2 atTREC—7[M].

InProc.ofthe 7thTextRetrievalE.valuation Conf，2005.

（本文責任編輯：孫國雷）endprint

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

一種基于語義擴展的跨語言自動檢索方法的設(shè)計