基于科技文獻引用關系擴展的信念網(wǎng)絡模型

2013-10-28 05:12:26徐建民王丹青謝朋林

河北大學學報（自然科學版） 2013年1期

關鍵詞：信息檢索關注度術語

徐建民，王丹青，謝朋林

(河北大學數(shù)學與計算機學院，河北保定 071002)

基于科技文獻引用關系擴展的信念網(wǎng)絡模型

徐建民，王丹青，謝朋林

(河北大學數(shù)學與計算機學院，河北保定 071002)

信念網(wǎng)絡信息檢索模型提供了一個可以組合不同證據(jù)的基本框架，通過組合證據(jù)可有效提高檢索效果.科技文獻之間的引用關系是一種有價值的信息.本文把這種引用關系量化為文獻關注度和文獻價值度，并將其作為證據(jù)擴展基本信念網(wǎng)絡模型.考慮到文檔內(nèi)容證據(jù)、關注度和價值度對查詢結(jié)果排序的影響不同，引入了2個系數(shù)α和β來調(diào)整3種證據(jù)在排序中的作用大小.實驗通過樣本訓練確定了α和β的最優(yōu)值，驗證了擴展模型的有效性，并分析了擴展模型用and和or方式組合證據(jù)的優(yōu)劣.

信念網(wǎng)絡；信息檢索；引用關系

信念網(wǎng)絡模型[1](belief network model)是由Ribeiro和Muntz在1996年提出的信息檢索模型，該模型具有很大的靈活性，可用于表示任何經(jīng)典的信息檢索模型，即布爾模型、向量模型和概率模型.此外，該模型可以方便地組合不同的證據(jù)信息，形成擴展模型.

提取并組合合理的證據(jù)信息是對基本信念網(wǎng)絡模型進行擴展的基本方法.文獻[1]將用戶過去的查詢結(jié)果作為證據(jù)擴展了基本信念網(wǎng)絡模型，得到了良好的檢索效果.Kleinberg的研究[2]定義了表示鏈接信息的網(wǎng)頁權威度和中心度概念，并提出了著名的HITS算法，這些信息已被Silva和Ribeiro應用于Web信息檢索[3-4]，同樣得到了很好的效果.在信息檢索中，合理考慮術語之間的關系是一種有效地提高檢索性能的方法[5]，如文獻[6]依據(jù)同義詞詞林得到術語的同義詞，并將其作為證據(jù)擴展基本信念網(wǎng)絡模型.文獻[7]依據(jù)領域本體得到了術語的本體關聯(lián)詞，將其作為證據(jù)對基本信念網(wǎng)絡模型進行擴展.

科技文獻的引用關系是一種類似于網(wǎng)頁間鏈接關系的有價值信息[8]，這種信息應用于信息檢索同樣會起到積極作用.本文將量化的科技文獻引用關系作為證據(jù)擴展基本信念網(wǎng)絡模型，得到了基于科技文獻引用關系擴展的信念網(wǎng)絡模型，并通過實驗驗證了其有效性.

1 基本信念網(wǎng)絡模型

如圖1所示，基本信念網(wǎng)絡模型包括3類節(jié)點：查詢節(jié)點q、術語節(jié)點ki(1≤i≤t)和文檔節(jié)點dj(1≤j≤n).有向邊用于表示索引關系，如果從術語節(jié)點ki指向查詢節(jié)點q，則表明該用戶查詢中包含索引術語ki，從術語節(jié)點ki指向文檔節(jié)點dj表示術語ki是文檔dj的索引術語之一.

圖1 基本信念網(wǎng)絡模型

基本信念網(wǎng)絡模型的樣本空間由所有索引術語組成，即U={k1,k2，…,kt}，其中t為U中術語的個數(shù).每一個術語稱為一個基本概念，若干個術語的集合稱為概念.用戶查詢q和每個文檔dj都是由1個或多個術語構成的，都可以看作是U中的一個概念，因此U也被稱為概念空間.

信息檢索的過程可以看作是用戶查詢q與文檔概念dj的匹配過程，由式(1)可得查詢結(jié)果的排序依據(jù).

(1)

在具體實施中，對P(dj|u)和P(q|u)的計算做出不同的規(guī)定將得到不同的經(jīng)典信息檢索模型，如令

(2)

(3)

P(u)=(1/2)t,

(4)

其中，wi,d是術語ki在文檔d中的tf-idf權重，wi,u是術語ki在概念u中的權重.將公式(2),(3),(4)代入公式(1)即可得到向量模型的計算式.

2 科技文獻引用關系

2.1引用關系分析

科技文獻間的引用關系具有以下4個特點：

1)存在引用關系的科技文獻多數(shù)情況下屬于同一個主題，但也存在跨主題的情況；

2)科技文獻之間的引用關系是跨越一定時間段的，即一個文獻只能引用比它更早發(fā)表的文獻，該文獻和其引用的文獻在時間上跨越了一定時間段；

3)科技文獻發(fā)表后，它的內(nèi)容是無法修改的，它的引用關系也就不能改變；

4)引用關系隱含著文獻的重要程度.如果一篇文獻被許多同領域的文獻引用說明該文獻受到了廣泛的關注，是該領域重要的文獻.如果一篇文獻引用了若干同領域的重要文獻，則通過它可以找到重要文獻，說明此文獻在該領域中也是有價值的.因此，通過引用關系可以知道一篇文獻在該領域中的重要程度.

圖2描述了科技文獻引用關系，圖中節(jié)點表示文獻，越靠上，發(fā)表時間越早.引用關系用帶權重的有向邊表示，例如文獻2指向了文獻1，說明文獻2引用了文獻1.邊的權重代表2篇文獻主題的緊密程度，權值越大，說明2篇文獻主題越緊密.

圖2 引用關系示意

2.2引用關系的定義

文獻[9]給出了關注度和價值度的定義，但不夠規(guī)范，下面重新給出二者的定義：

定義1 關注度:科技文獻D在其所屬領域的關注度定義為它被該領域其他文檔引用的程度，記為attention.

定義2 價值度: 科技文獻d在其所屬領域的價值度定義為它對該領域其他文檔的參考程度，記為value.

由引用關系的分析和關注度、價值度的定義可知，一篇文獻被同領域價值度高的文獻引用次數(shù)越多，則該文獻的關注度越大；一篇文獻引用的同領域關注度高的文獻數(shù)量越多，則該文獻的價值度越大.綜上，文獻的關注度受到3個因素的影響：1)文獻被引用的次數(shù)；2)引用該文獻的文獻的價值度；3)引用文獻和被引用文獻之間的主題緊密程度.同樣，文獻的價值度也受到3個因素的影響：1)文獻的引用文獻數(shù)量；2)該文獻引用文獻的關注度；3)引用文獻和被引用文獻之間的主題緊密程度.

每篇文獻都會引用其他文獻，也可能被其他文獻引用，所以每篇文獻都有一個關注度值和一個價值度值.本文將科技文獻的關注度和價值度作為證據(jù)對基本模型進行擴展，得到了擴展的信念網(wǎng)絡檢索模型.

3 基于引用關系擴展信念網(wǎng)絡模型

3.1拓撲結(jié)構

基于引用關系擴展的信念網(wǎng)絡模型拓撲結(jié)構如圖3所示，左側(cè)部分是基本信念網(wǎng)絡模型.文檔節(jié)點di改寫為dcj，表示以文檔內(nèi)容為證據(jù)得到的查詢結(jié)果.右側(cè)增加了一組關注度節(jié)點daj和一組價值度節(jié)點dvj，它們組成的空間A和V分別代表文獻的關注度和價值度證據(jù).

當用戶提出查詢時，依據(jù)拓撲結(jié)構將結(jié)合證據(jù)C、證據(jù)A和證據(jù)V計算每篇文檔和查詢的相關度，對于證據(jù)的結(jié)合可以采用析取、合取2種方法[10]，后面的實驗將對2種方式的優(yōu)劣進行驗證.

圖3 基于引用關系擴展的信念網(wǎng)絡模型

3.2概率推導

本文的擴展模型仍采用P(dj|q)作為最終排序依據(jù).由于擴展模型的證據(jù)來自3方面，即基于文檔內(nèi)容、基于文檔關注度和基于文檔價值度，因此公式(1)中的P(dj|u)在擴展模型中需要賦予新的含義.

在擴展模型中，令P(daj|u)表示關注度證據(jù)，取值為文獻dj的關注度值；令P(dvj|u)表示價值度證據(jù)，取值為文獻dj的價值度值；仍令P(dcj|u)表示基于文獻內(nèi)容的證據(jù)，其計算方法同公式(3).3種證據(jù)均為0到1之間的數(shù)值，可以單獨作為排序依據(jù)，也可以將其進行組合.如果進行組合，組合方式有2種，即：合取和析取.合取用and表示，含義是集合求交；析取用or表示，含義是集合求并.采用不同的組合方式可以得到不同的排序計算式.

當使用and方式組合證據(jù)時，含義是如果一篇文獻的3種證據(jù)值都相對比較大，它的最終排序就應當更靠前.依據(jù)這個思想和條件概率可得以下公式：

P(dj|u)=P(dcj|u)×P(daj|u)×P(dvj|u).

(6)

代入公式(1)可得

P(dj|q)=η∑u[P(dcj|u)×P(daj|u)×P(dvj|u)]×P(q|u)×P(u).

(7)

此公式存在一個問題，即擴展進來的關注度證據(jù)和價值度證據(jù)如果有1個取值為0，即使文獻內(nèi)容證據(jù)很大，P(dj|q)值也將為0，這明顯是不合理的.針對這個問題，對公式(7)進行如下修正：

(8)

當使用or方式組合證據(jù)時，含義是如果一篇文獻3種證據(jù)中有一種的值比較大，它的最終排序應當靠前些.此操作相當于求3個集合的并集，由條件概率可得公式

P(dj|u)=1-[(1-P(dcj|u))×(1-P(dcj|u))×(1-P(dvj|u))],

(9)

代入公式(1)可得

P(dj|q)=η∑u{1-[(1-P(dcj|u))×(1-P(daj|u))×(1-P(dvj|u))]}×P(q|u)×P(u).

(10)

信息檢索就是要查找同查詢術語匹配的文檔，內(nèi)容的相似程度是最重要的因素，對最終排序起主要作用，文檔關注度和價值度只能作為輔助證據(jù)，對最終排序起次要作用.由關注度和價值度的定義可知，關注度高的文獻被廣泛引用，一定是重要的；價值度高的文獻引用了很多有重要的文獻，但它本身內(nèi)容不一定很重要.因此，關注度所起的作用應當大于價值度.

考慮到文檔內(nèi)容、關注度和價值度對查詢結(jié)果排序的影響大小不同，故增加了2個系數(shù)α和β來調(diào)整3種證據(jù)在排序中所起作用的大小.α代表關注度相對于內(nèi)容證據(jù)作用的大小，β代表價值度相對于關注度證據(jù)作用的大小，其值均在0到1之間.由于公式(8)乘以任何系數(shù)都不會影響最終排序結(jié)果，因此and組合方式?jīng)]有辦法調(diào)整3種證據(jù)的作用大小.對于or組合方式，公式(10)加上調(diào)節(jié)系數(shù)后變?yōu)?/p>

P(dj|q)=η∑u{1-[(1-P(dcj|u))×(1-α×P(daj|u))×(1-α×β×P(dvj|u))]}×P(q|u)×P(u).

(11)

公式(8)和公式(11)中P(q|u),P(dcj|u),P(u)可分別由公式(2)，(3)，(4)計算.

4 實驗

4.1測試集

實驗采用的測試集是從中國知網(wǎng)下載的679篇科技文獻，其內(nèi)容涉及計算機技術、數(shù)據(jù)挖掘、軟件工程、計算機網(wǎng)絡、信息檢索等領域.測試集中的文獻在邏輯上形成多個文獻簇，每個文獻簇內(nèi)的所有文獻之間都存在著直接或間接的引用關系.在程序中每篇文獻以文檔向量的形式出現(xiàn)，即di={(ki1,wi1),(ki2,wi2),…,(kit,wit)}.文檔di的關注度和價值度表示為di(attentioni,valuei).

測試集還包括10個由自然語言構成的查詢，對于這些查詢分別構建了相關文檔集，即通過人工主觀判斷的方式為每個查詢找出相關文檔集合.程序通過對查詢結(jié)果文檔集中每篇文檔與相關文檔集進行對比，就可以判斷檢出的文檔是否為相關文檔，從而可以計算查準率/查全率[11].

4.2實驗過程

圖4 查準率/查全率曲線Fig.4 Precision/Recall curve

在實驗過程中，程序分別按基本模型、擴展模型的and和or組合方式進行.每種方式都輸入準備好的10個查詢，并將結(jié)果從大到小排序顯示到一個表格中，結(jié)合排序結(jié)果和該查詢的相關文檔集計算出對應的查準率/查全率.然后對這10個查詢的查準率/查全率求取平均值，該平均值連成的曲線即代表指定方式的檢索效果.圖4直觀地顯示出了3種方式的優(yōu)劣.

對于or組合方式，需要找出其調(diào)節(jié)系數(shù)α和β的最優(yōu)值.因此，在運用or組合方式進行計算時，實驗對α和β選取不同的值進行多次驗證，最終找出其最優(yōu)值.

4.3實驗結(jié)果及分析

由于α和β不同值的組合方式非常多，依次測試每種組合不是科學的方法.本文考慮到關注度作用大于價值度，故先令β=0，α分別取值0.9到0.1，先找出關注度的最優(yōu)系數(shù).此時or組合方式的查準率/查全率值如表1.

表1 α不同取值情況下的查準率/查全率值

觀察可知，當α=0.5時，檢索效果最優(yōu).然后再令α=0.5，β分別取值0.8，0.6，0.5，0.4，0.2，0.1.由結(jié)果可知，當β=0.5時，檢索效果最好.因此選定α=0.5，β=0.5作為最優(yōu)調(diào)節(jié)系數(shù).

當α=0.5，β=0.5時，擴展模型同基礎模型的比較如圖4所示.

圖4顯示的and組合方式僅在查全率低的情況下具有比較高的查準率，其他情況下的查準率都比原始模型和or組合方式低.原因是由于它的計算方式?jīng)]有辦法調(diào)整3種證據(jù)影響作用的大小，無法使內(nèi)容證據(jù)起主要作用，一些具有較高關注度或價值度而內(nèi)容證據(jù)不高的文檔排到了前面，導致了整體查準率都比較低.

or組合方式在所有查全率情況下幾乎都具有比原始模型更高的查準率.or組合方式加上調(diào)節(jié)系數(shù)后，考慮了內(nèi)容證據(jù)起主要作用，關注度和價值度證據(jù)起次要作用，并且關注度作用大于價值度作用，所以檢索性能最優(yōu).因此擴展模型的or組合方式在一定的調(diào)節(jié)參數(shù)范圍內(nèi)檢索性能是優(yōu)于原始模型的，調(diào)節(jié)參數(shù)的最優(yōu)值為α=0.5，β=0.5.

5 結(jié)束語

將科技文獻的關注度和價值度作為證據(jù)應用到信念網(wǎng)絡模型的擴展中，分析了擴展模型的2種組合證據(jù)的方法，并通過實驗證明or組合方式在一定的調(diào)節(jié)系數(shù)作用下，可以有效提高檢索性能.但本文仍有一些不足之處需要在以后的研究中繼續(xù)完善，如實驗中使用的測試集規(guī)模不夠大、求取α和β的過程比較繁瑣等.

[1]BERTHIER RIBEIRO-NETO, RICHARD MUNTZR.A belief network model for IR[Z].Proceedings of the 19th ACM SIGIR Conference on Research and Development in Information Retrieval,Zurich,Switzerland,1996.

[2]KLEINBERG.Authoritative sources in a hyperlinked environment[Z].Proceedings of the 9th Annual ACM-SIAM Symposium on Discrete Algorithms, San Francisco, California, 1998.

[3]SILVA I,RIBEIRO B,CALADO P, et al.Link-based and content-based evidential information in a belief network Model[Z].Proceedings of 23rd annual international ACM SIGIR conference on Research and development in information retrieval, New York,USA,2000.

[4]CALADO P, ZIVIANI N.Local versus global Link information in the web[J].ACM Transactions on Information Systems, 2003(1):42-63.

[5]徐建民,唐萬生,陳振亞.貝葉斯網(wǎng)絡在信息檢索中的應用[J].河北大學學報:自然科學版,2007,27(1):93-98.

XU Jianmin,TANG Wansheng,CHEN Zhenya.Application of Bayesian network for information retrieval[J].Journal of Hebei University:Natural Science Edition,2007,27(1):93-98.

[6]徐建民,吳樹芳,白彥霞.一個基于同義詞證據(jù)擴展的信念網(wǎng)絡檢索模型[J].廣西師范大學學報:自然科學版,2006,24(4):9-13.

XU Jianmin,WU Shufang,BAI Yanxia.A belief network retrieval model expanded with Synonym-based evidence[J].Journal of Guangxi Normal University:Natural Science Edition,2006,24(4):9-13.

[7]XU Jianmin, TIAN Jinkun, ZHANG Yanchun,et al.Using ontology evidences to extend belief network IR model[J].Proceedings of 10th Computer Application and System Modeling(ICCASM),2010,10:31-35.

[8]XU Jianmin, FU Tingting, LI Huan.Application of extended belief network model for scientific document retrieval[Z].Proceedings of 6th International Conference on Fuzzy Systems and Knowledge Discovery(FSKD’09) , Tianjin,2009.

[9]付婷婷.用于科技文獻檢索的擴展信念網(wǎng)絡模型[D].保定:河北大學,2010.

FU Tingting.Application of extended belief network model for scientific document retrieval[D].Baoding: Hebei University ,2010.

[10]吳樹芳,劉永立,朱杰,等.信念網(wǎng)絡檢索模型擴展研究[J].計算機工程與應用,2009,45(10):151-153.

WU Shufang, LIU Yongli, ZHU Jie, et al.Extended research on belief network retrieval model[J].Computer Engineering and Applications,2009,45(10):151-153.

[11]RICARDO BAEZA-YATES,BERTHIER RIBEIRO-NETO,等.現(xiàn)代信息檢索[M].北京：機械工業(yè)出版社,2005.

Extendedbeliefnetworkmodelbasedonreferencerelationshipofscientificliteratures

XUJianmin,WANGDanqing,XIEPenglin

(College of Mathematics and Computer, Hebei University, Baoding 071002, China)

The belief network retrieval model which provides a framework for combining different evidences is advantageous to improve retrieval effectiveness.The reference relationship between scientific literatures is a kind of valuable information.This reference relationship was quantified as attention and value in this paper, and it was the evidence for extending the belief network model.Consider the affections of the document content, attention and value were different for the sort of query results, we introduced two coefficients and to adjust the role of the three kinds of evidence for the sort.In our experiments, we determined the optimal value of and through certain sample training, testified the effectiveness of our extending model, and we also analyzed the advantages and disadvantages of the evidences combined byandandor.

belief network; information retrieval; reference relationship

10.3969/j.issn.1000-1565.2013.01.015

2012-09-10

中國博士后科學基金資助項目(20070420700)

徐建民(1966-)，男，河北館陶人，河北大學教授，主要從事信息檢索、不確定信息處理方向研究.

E-mail:hbuxjm@hbu.cn

TP391

1000-1565(2013)01-0077-07

(責任編輯孟素蘭)