基于語義相似度的領(lǐng)域知識推薦研究

2013-09-28 09:46:02李燕妮李海生

復(fù)雜系統(tǒng)與復(fù)雜性科學(xué) 2013年3期

關(guān)鍵詞：短句信息內(nèi)容短文

李燕妮，李海生，蔡強(qiáng)

（北京工商大學(xué)計算機(jī)與信息工程學(xué)院，北京 100048）

基于語義相似度的領(lǐng)域知識推薦研究

李燕妮，李海生，蔡強(qiáng)

（北京工商大學(xué)計算機(jī)與信息工程學(xué)院，北京 100048）

提出一種基于語義的領(lǐng)域知識推薦方法，通過判斷用戶輸入類型，分別進(jìn)行概念相似度和短句相似度的計算。其中概念相似度計算是通過計算概念的信息內(nèi)容值進(jìn)行的，短句相似度計算分為語義相似度和句法結(jié)構(gòu)相似度。實驗結(jié)果表明，該方法有效地對用戶的查詢請求進(jìn)行概念擴(kuò)充，提高了搜索的查全率與查準(zhǔn)率。

信息內(nèi)容；相似度；語義；知識推薦

0 引言

知識在人們的生活和工作中發(fā)揮著巨大的作用。隨著互聯(lián)網(wǎng)的進(jìn)一步發(fā)展，知識傳播更新的速度也會越來越快。通過搜索引擎從互聯(lián)網(wǎng)獲取所需信息的方式，顯然不符合人類的習(xí)慣。研究顯示，用戶查詢經(jīng)常含有歧義或意圖不清，這導(dǎo)致用戶經(jīng)常搜索失?。?］。查詢推薦是一種能夠有效提高用戶搜索體驗的信息檢索交互技術(shù)［2］，目的在于推測用戶多種可能的意圖。推薦查詢應(yīng)該盡量涵蓋各種可能的查詢，因此召回率就顯得更為重要［3］。生活中的實際問題大都來自于特定的領(lǐng)域，因此領(lǐng)域知識與領(lǐng)域智能的應(yīng)用在實現(xiàn)知識推送中也就非常重要，而且領(lǐng)域知識的劃分也可以提高知識推送的精度。

與傳統(tǒng)依賴關(guān)鍵詞的推薦相比，領(lǐng)域信息推薦是根據(jù)用戶提交的領(lǐng)域關(guān)鍵字或短句，再結(jié)合具體領(lǐng)域本體進(jìn)行推薦，而不是簡單地按字面意思匹配，具有更高的查準(zhǔn)率與查全率。其中，概念的相似度計算決定了語義匹配的精確度，是語義推薦的基礎(chǔ)，所以提高概念相似度計算的精確度成為本體應(yīng)用的關(guān)鍵。

本文結(jié)合WordNet［4］詞典本身結(jié)構(gòu)，綜合考慮概念在分類樹中的子節(jié)點信息、深度信息、公共父節(jié)點信息，提出了一個新的基于信息內(nèi)容的概念語義相似度算法，這種基于WordNet本身結(jié)構(gòu)的求解方法不需要其他語料庫的參與，簡單易行。在此基礎(chǔ)上，對句子結(jié)構(gòu)進(jìn)行分析，通過語義相似度與結(jié)構(gòu)相似度計算句子相似度。最后本文利用WordNet詞典及專家知識，構(gòu)建了旅游領(lǐng)域本體，對實驗結(jié)果的統(tǒng)計分析表明，該方法更好地滿足了用戶的檢索需求。

1 信息內(nèi)容計算

根據(jù)信息理論中的定義，信息內(nèi)容表示為-logP（c），含義是一個概念的出現(xiàn)的概率越大，則該概念的自信息量就越?。?］。

概念信息內(nèi)容的精確與否直接影響到概念間相似度的比較。經(jīng)過分析，本文認(rèn)為影響概念信息內(nèi)容及概念間相似度的因素有：

1）被比較概念在本體樹中的深度。概念深度越小，出現(xiàn)頻率越高，越抽象，所涵蓋的信息內(nèi)容越少。底層概念間的語義相似度一般大于高層概念間的相似度。

2）被比較概念在本體樹中所在簇［6］的密度。簇中概念節(jié)點越多，密度越大，說明對該簇根節(jié)點概念的細(xì)化程度越大，所對應(yīng)的子節(jié)點的信息內(nèi)容就越大，相似度越高。

3）被比較概念最近祖先節(jié)點（Least Common Subsumer，LCS）的信息內(nèi)容。在密度、深度及路徑長度相同的情況下，被比較概念最近祖先節(jié)點的信息內(nèi)容越大，概念的信息內(nèi)容也就越大。

基于以上分析，提出了基于信息內(nèi)容特征參數(shù)求解的新模型：

其中，Cnode＿max為概念c所在簇的概念節(jié)點總個數(shù)，Tnode＿max為本體樹所有概念節(jié)點的個數(shù)，AIC為概念c最近公共祖先節(jié)點的IC值，Hnode為概念c最近祖先節(jié)點擁有的與c深度相同的子節(jié)點個數(shù)，hypo（c）為概念c的所有子節(jié)點，depth（c）為概念c的深度，Tdepth＿max為本體樹的最大深度。

式（1）的分母把信息內(nèi)容值約束在［0，1］之間，本體樹中頂層概念節(jié)點信息內(nèi)容值為0，底層概念節(jié)點信息內(nèi)容值為1，如此規(guī)律遞增。概念節(jié)點越向上，說明概念出現(xiàn)的頻率越高，所包含的信息內(nèi)容越少，反之亦然。同樣，概念節(jié)點所包含的子節(jié)點越多，則出現(xiàn)的頻率越高，涵蓋的信息內(nèi)容也少。在深度、密度、子節(jié)點數(shù)都相同的情況下，如果父節(jié)點的信息內(nèi)容值越大，則子節(jié)點的信息內(nèi)容值也越大。

2 短句相似度計算

目前基于相關(guān)詞匯的算法在長文本的語義匹配方面取得了不錯的效果，然而在短句相似度方面，由于簡單的幾個詞匯不足以完全概括短文的意思，因此傳統(tǒng)的計算方法就失去了意義［7］。本文通過采用對短文進(jìn)行分詞，分別從詞匯相似度和句子的句法結(jié)構(gòu)兩方面來計算短文的相似度。詞匯相似度計算的是將詞匯按照一定的順序組成向量，分別計算詞匯之間的語義相似度，然后運用余弦公式計算兩個句子的語義相似度［8］；句法結(jié)構(gòu)是將詞匯按照句子的順序組成向量，計算句子間結(jié)構(gòu)之間的相似度。最終短文相似度算法模型通過采用加權(quán)的算法綜合兩方面的因素去計算所得的最終短句相似度值，具體如圖1所示。

2.1 語義相似度計算

1）給定兩個短句S1和S2，短句所包含的詞語構(gòu)成聯(lián)合集S，并將此聯(lián)合集定義為語義詞匯向量。

2）如果這個語義詞匯向量中存在的詞匯，在短文S1中存在，則在此位置上S1的語義向量取值為1；如果在S1中不存在語義詞匯向量中包含的詞匯，則在S1的語義向量上計算此詞匯與S1中所有的詞匯之間的相似度，取最大值。

然后利用余弦算法計算兩篇短文的相似度：

圖1 短句相似度計算Fig.1 Short sentences semantic similarity

其中，wk，d1為詞匯Wk在向量d1中的權(quán)重，計算所得的值越大，表明兩篇短文越相似。

2.2 句法結(jié)構(gòu)相似度計算

給定兩個句子：

兩個句子中的詞匯組成集合：

分別對每個句子中的詞匯順序進(jìn)行標(biāo)注，以S1中的詞匯順序為參照，可以得到：

然后通過句法結(jié)構(gòu)計算公式可得到S1與S2兩個句子句法結(jié)構(gòu)的相似度：

2.3 短句相似度計算

最后本文的短文相似度算法模型通過采用加權(quán)的算法綜合兩方面的因素去計算所得的最終短文相似度值：

3 基于語義相似度的知識推薦

推薦知識主要是依據(jù)用戶輸入的關(guān)鍵詞或短句進(jìn)行的。在推薦過程中，通過對用戶提交的關(guān)鍵字的理解，以此作為推薦的依據(jù)，結(jié)合領(lǐng)域本體，通過計算本體樹中概念之間的相似度，找出該詞的同義詞、近義詞，達(dá)到概念擴(kuò)充的目的。從而選出與概念相關(guān)的文檔，并推薦給用戶。同時，如果用戶輸入的是短句形式，可對該短句進(jìn)行預(yù)處理后計算該短句與庫中短句間的語義相似度和句法結(jié)構(gòu)相似度，設(shè)定相似度閾值并進(jìn)行相應(yīng)的推薦。

流程圖如圖2所示，首先判斷用戶輸入是概念或短句。若為概念，在領(lǐng)域本體中進(jìn)行查找，如果關(guān)該鍵字不存在于本體中，計算該關(guān)鍵字與領(lǐng)域本體中其它概念的相似度，計算出相似度后，取相似度大于某一閾值的概念，得到一組擴(kuò)展概念集合，計算關(guān)鍵字與這一組擴(kuò)展概念的相似度，根據(jù)相似度大小把知識推薦給用戶。同理，若用戶輸入為短句，先在庫中查找有無此短句，沒有再計算該短句與庫中短句間的語義相似度及結(jié)構(gòu)相似度，最后根據(jù)相似度值進(jìn)行推薦。

圖2 推薦流程圖Fig.2 Recommendation process

4 實驗結(jié)果與分析

在驗證知識推薦時，本文的實驗數(shù)據(jù)采用旅游領(lǐng)域100篇文章，抽取其主題，并用Stanford parser［9］解析成概念集合；在計算用戶關(guān)鍵字與概念結(jié)合的相似度時，構(gòu)建了旅游領(lǐng)域本體，如圖3所示。依據(jù)旅游本體擴(kuò)展后的概念相似度大于設(shè)定閾值的文章推薦給用戶，同時，主題與用戶輸入短句相似度大于閾值的文章也進(jìn)行推薦。這里用查全率和查準(zhǔn)率來判定推薦結(jié)果（見表1）。

圖3 旅游本體片段Fig.3 Travel ontology

實驗結(jié)果表明，本文基于信息內(nèi)容特征參數(shù)的領(lǐng)域知識推薦方法獲得了比較高的查全率和查準(zhǔn)率，提高了檢索結(jié)果與用戶需求的相關(guān)性，進(jìn)而提高了用戶的滿意度。

表1 推薦結(jié)果比較Tab.1 Recommendation results comparison

5 結(jié)論

Internet越來越重視用戶的個性化需求，在基于關(guān)鍵字的知識推薦中，關(guān)鍵字是被孤立的，僅僅靠用戶輸入的關(guān)鍵字并不能很好地表達(dá)用戶的真正需求。利用本體進(jìn)行語義擴(kuò)展，能夠很好地描述概念與概念之間、短句與短句之間的關(guān)系。在計算概念間的語義相似度中，本文結(jié)合一些經(jīng)典的基于領(lǐng)域本體的語義相似度計算方法，在此基礎(chǔ)上將概念所處于樹中最近公共祖先節(jié)點、簇中同深度的節(jié)點數(shù)等納入模型當(dāng)中，使得概念的信息內(nèi)容值和概念間相似度更為精確，從而也就使得檢索結(jié)果更能滿足用戶需求。

［1］Song R，Luo Z，Wen J R，et al.Identifying ambiguous queries in web search［C］//Proceedings of the 16th International World Wide Web Conference（WWW2007）.Banff，Alberta，Canada：ACM，2007：1169-1170.

［2］Huang C K，Chien L F，Oyang Y J.Relevant term suggestion in interactive web search based on contextual information in query session logs［J］.Journal of the American Society for Information Science and Technology，2003，54（7）：638-649.

［3］李亞楠，王斌，李錦濤，等.給互聯(lián)網(wǎng)建立索引：基于詞關(guān)系網(wǎng)絡(luò)的智能查詢推薦［J］.軟件學(xué)報，2011，22（8）：1771-1784.

Li Ya’nan，Wang Bin，Li Jintao，et al.Indexing the world wide web：intelligent query suggestion based on term relation network［J］.Journal of Software，2011，22（8）：1771-1784.

［4］Princeton University.Wordnet：a lexical datebase for English［DB/OL］.［2011-10-10］.http：//wordnet.princeton.edu/.

［5］Resnik P.Using information content to evaluate semantic similarity in a taxonomy［DB/OL］.［2012-11-10］.http：//citeseerx.ist.psu.edu/viewdoc/summary？doi=10.1.1.55.5277.

［6］Gómez-Pérez A，F(xiàn)ernández-López M，Corcho O.Ontological Engineering［M］.2nd ed.Berlin：Springer-Verlag，2004.

［7］李海生.知識管理技術(shù)與應(yīng)用［M］.北京：北京郵電大學(xué)出版社，2012.

［8］Tian Y，Li H SH，Cai Q，et al.Measuring the similarity of short texts by word similarity and tree kernels［DB/OL］.［2012-11-10］.http：//d.wanfangdata.com.cn/Conference＿WFHYXW442849.aspx.

［9］The Stanford Natural Language Processing Group.The Stanford parser：a statistical parser［DB/OL］.［2012-10-10］.http：//nlp.stanford.edu/software/lex-parser.shtml.

Research on Knowledge Recommendation for Domain Ontology Based on Semantic Similarity

LI Yan-ni，LI Hai-sheng，CAI Qiang
（College of Computer and Information Engineering，Technology and Business University，Beijing 100048，China）

With the explosive growth of web resource，it is difficult for keyword-based knowledge recommendation to meet the professional needs of users.In this paper，a knowledge recommandation calculation algorithm based on semantic similarity method is proposed.According to the style of user’s input，we calculate similarity of concepts based on information content and similarity of sentences based on semantic similarity and structure similarity.Experiment results show that the user’s inquiry request has been expanded its concept effectively，and the recall and accuracy of retrieval have been improved obviously.

information content；similarity；semantic；knowledge recommendation

TP391.1

1672-3813（2013）03-0050-05

2012-12-04

北京市教委科技發(fā)展計劃面上項目（KM200910011007）；北京市屬高等學(xué)校人才強(qiáng)教計劃資助項目（PHR201108075）

李燕妮（1986-），女，山東濰坊人，碩士研究生，主要研究方向為本體與知識管理。

李海生（1974-），男，山東寧津人，博士，教授，主要研究方向為本體與知識管理，可視化。

（責(zé)任編輯李進(jìn)）