• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      搜索引擎指標(biāo)綜合特性的評價

      2015-12-22 03:27:28吳勝利譚延之施化吉
      關(guān)鍵詞:搜索引擎分值文檔

      吳勝利,譚延之,施化吉

      搜索引擎指標(biāo)綜合特性的評價

      吳勝利,譚延之,施化吉

      (江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院,江蘇鎮(zhèn)江212013)

      對搜索引擎的檢索性能進(jìn)行評價是信息檢索的一個重要方面,目前已經(jīng)提出和使用許多各有特色的評價指標(biāo).對于如何選擇出綜合特性最優(yōu)的評價指標(biāo),需要準(zhǔn)確、可靠的判斷方法.文中提出基于t檢驗(yàn)的方法,并使用該方法對5種常用的評價指標(biāo)進(jìn)行了試驗(yàn)研究,包括平均查準(zhǔn)率(average precision,AP)、前10個文檔的查準(zhǔn)率(precision at10 document level,P@10)、可查全水平查準(zhǔn)率(recall-level precision,RP)、第1位相關(guān)文檔的倒數(shù)(reciprocal ranking,RR)、規(guī)范化帶折扣的累積收益(normalized discounted cumulative gain,NDCG).結(jié)果表明NDCG的綜合特性最好,其次是AP,然后是RP和P@10,RR最差.對于任意2個評價指標(biāo)所提出的方法可以給出定量的比較結(jié)果.

      搜索引擎;檢索性能;評價指標(biāo);穩(wěn)定性;敏感性

      對搜索引擎的結(jié)果進(jìn)行性能評價是信息檢索的重要組成部分,它用以保證準(zhǔn)確地判定不同的檢索系統(tǒng)、模型、或者其他組件的有效性,是信息檢索技術(shù)能夠不斷發(fā)展的必要條件.檢索評價是一項(xiàng)有挑戰(zhàn)性的工作,一般需要投入很多的人力物力;另一方面要得到比較準(zhǔn)確的結(jié)果也有相當(dāng)?shù)碾y度.為了評價一個或多個搜索引擎的有效性,需要一個參考數(shù)據(jù)集.參考數(shù)據(jù)集由文檔集合、一組查詢和相關(guān)性判斷組成.其中相關(guān)性判斷是指對于任一個查詢,需通過人工判斷文檔集合中哪些文檔是相關(guān)的,哪些文檔是不相關(guān)的.相關(guān)性判斷又可分為二分相關(guān)和多分相關(guān).二分相關(guān)是指將文檔分成相關(guān)和不相關(guān)2種情況,如可用數(shù)字0表示不相關(guān),數(shù)字1表示相關(guān).多分相關(guān)是指文檔分成n+1(n+1>2)種情況.除了毫不相關(guān)的文檔(用數(shù)字0表示),對于相關(guān)的文檔還細(xì)分為n種情況,比如用數(shù)字n表示最相關(guān)的文檔,n-1表示第二等相關(guān)的文檔,等等.

      到目前為止,人們已經(jīng)提出了許多不同的評價指標(biāo).明確各個評價指標(biāo)的優(yōu)劣以及有關(guān)特性有利于用戶選擇與使用,而且有利于對這些指標(biāo)本身進(jìn)行改進(jìn).在評價指標(biāo)的特性中,穩(wěn)定性和敏感性最為重要.對于這個問題C.Buckley和E.M.Voorhees[1]于2000年在ACM SIGIR會議上發(fā)表了一篇代表作“Evaluating evaluation measure stability”,對搜索引擎評價指標(biāo)的穩(wěn)定性和敏感性進(jìn)行了試驗(yàn)研究.他們使用TREC(text rEtreival conference,每年由美國國立標(biāo)準(zhǔn)與技術(shù)研究所舉辦)中用過的一數(shù)據(jù)集(TREC 8 query track)來評估幾個評價指標(biāo)的穩(wěn)定性和敏感性.所采用的方法是:對于一個給定的評價指標(biāo)(比如平均查準(zhǔn)率,average precision,AP),計(jì)算出所有提交的檢索結(jié)果在該指標(biāo)上對50個查詢的平均得分值;然后設(shè)定一個閾值,比如5%,對于任意2個檢索結(jié)果的平均得分值之間的差異,檢查是否大于或小于所設(shè)定的閾值(5%).假設(shè)共有a對檢索結(jié)果,其中b對的平均得分值之間的差異小于所設(shè)定的閾值,則平局率定義為a/b.而對于平均得分值之間的差異大于閾值的結(jié)果對子,則通過如下方法計(jì)算誤差率:假設(shè)2個結(jié)果為A和B,且對于所有s個查詢A的平均得分值比B多5%或以上.在其中的s1個查詢中,A的得分值比B多5%或以上;但在其中的s2個查詢中,B的得分值比A多5%或以上(s≥s1+s2).在此情形下,誤差率定義為s2/(s1+s2).這是因?yàn)榭偣灿衧1次單個查詢得出的結(jié)論和所有查詢的平均得出的結(jié)論是一致的,而有s2次單個查詢得出的結(jié)論和所有查詢的平均得出的結(jié)論是相反的.

      誤差率和平局率可用以表示評價指標(biāo)的特性.如果在相同的數(shù)據(jù)集中用同樣的閾值計(jì)算出一組評價指標(biāo)的誤差率和平局率,那么就可以用來比較各個評價指標(biāo).通常較低的誤差率代表較高的穩(wěn)定性,而較低的平局率代表較高的敏感性.然而評價指標(biāo)通常在其中一個特性上表現(xiàn)良好而在另一個特性上表現(xiàn)較差.比如,在C.Buckley和E.M.Voorhees的試驗(yàn)中,他們發(fā)現(xiàn)前1 000個文檔的查全率(Recall@1000)的誤差率最低,但是它的平局率高于P@5(前5個文檔的查準(zhǔn)率)、RP(recall-level precision,可查全水平查準(zhǔn)率)、AP和RP.另一方面,P@5的平局率最低,但是它的誤差率卻高于P@100,AP,RP,P@1000(前1 000個文檔的查準(zhǔn)率)和Recall@1 000.

      在這種情況下,如果同時考慮穩(wěn)定性和敏感性,則需要一種合適的方法選出綜合特性好的評價指標(biāo).C.Buckley和E.M.Voorhees的文章已發(fā)表十多年,但對于該問題仍一直延用他們的方法,未有更妥善的方法.在統(tǒng)計(jì)學(xué)中,t檢驗(yàn)是一種成熟的統(tǒng)計(jì)檢驗(yàn)方法,它已被廣泛地應(yīng)用于各種領(lǐng)域中.主要用于比較2個樣本均值的差異性.筆者意識到該方法也可用于評估2種或多種評價指標(biāo),它可有機(jī)地將穩(wěn)定性和敏感性糅合在一起.t檢驗(yàn)具有理論性和系統(tǒng)性強(qiáng)、計(jì)算過程簡單、結(jié)果可靠的特點(diǎn).該方法不僅能應(yīng)用于二分相關(guān)的情形,也能應(yīng)用于多分相關(guān)的情形.這是文中主要創(chuàng)新之處.

      1 研究背景

      在信息檢索領(lǐng)域,對搜索引擎的檢索結(jié)果進(jìn)行評價是很關(guān)鍵的問題.人們提出了許多評價指標(biāo),而其中一些評價指標(biāo)在研究試驗(yàn)中以及一些信息檢索評價活動(比如TREC,CLEF等)中經(jīng)常被使用到.

      為了研究評價指標(biāo)的特性,C.Voorhees和E. M.Buckley[1]通過對評價指標(biāo)的穩(wěn)定性和敏感性的研究來衡量評價指標(biāo)的優(yōu)劣.T.Sakai[2]使用同樣的試驗(yàn)方法研究了基于多值相關(guān)的一組評價指標(biāo).Lin Weihao和A.Hauptmann[3]對C.Voorhees和E.M. Buckley的試驗(yàn)方法給出了理論上的意義.

      Wu Shengli和Sally McClean[4]通過對多個TREC數(shù)據(jù)集的試驗(yàn),研究了非完整相關(guān)判斷情況對評價指標(biāo)的評價質(zhì)量的影響.文中通過對基于多分相關(guān)的評價指標(biāo)的誤差率和平局率進(jìn)行線性組合以得到綜合特性最好的評價指標(biāo).

      t檢驗(yàn)、Wilcoxon檢驗(yàn)和sign檢驗(yàn)均可用于判斷2組結(jié)果之間的差異是否在統(tǒng)計(jì)意義上顯著.J.Zobel[5]發(fā)現(xiàn)t檢驗(yàn)比Wilcoxon檢驗(yàn)和sign檢驗(yàn)更可靠.因此文中試驗(yàn)中選用了t檢驗(yàn)而不是其他的統(tǒng)計(jì)方法.

      近年來對檢索評價的研究一直很活躍.如文獻(xiàn)[6]討論如何評估檢索結(jié)果的多樣性與新穎性,文獻(xiàn)[7]和[8]討論如何評估多樣化的檢索結(jié)果.多樣化的檢索結(jié)果是指結(jié)果中不僅有文字信息,也包含聲音、圖像等.文獻(xiàn)[9]探討了支持交互式信息檢索的評估問題,文獻(xiàn)[10]討論了信息檢索系統(tǒng)的基于概念和偽相關(guān)性反饋的性能評估,文獻(xiàn)[11]介紹了一種通過減少性能評估的風(fēng)險(xiǎn)以達(dá)到優(yōu)化信息檢索系統(tǒng)的方法.

      為便于閱讀,下面對5種評價指標(biāo)的擴(kuò)充形式進(jìn)行簡單的介紹,使它們能適用于多分相關(guān)的情況.對于一給定的查詢,一查詢結(jié)果包含一派序的文檔序列<d1,d2,…,dm>.理想結(jié)果是指結(jié)果中所有文檔根據(jù)相關(guān)度從高向低排列,此時各種評價指數(shù)會達(dá)到最大值.以下數(shù)學(xué)式子中的gr(di)是指搜索引擎返回的結(jié)果列表中第i個文檔di的相關(guān)度.

      式中:tj為第j個相關(guān)文檔在結(jié)果列表中的位置;為位置ti之前所有文檔的相關(guān)度之和;為理想結(jié)果中位置tj之前所有文檔的相關(guān)度之和;total-n為文檔集合中所有相關(guān)文檔的數(shù)目.且有:

      式中n為最大相關(guān)度.而且

      在一個結(jié)果中,如相關(guān)度為n的文檔第1次出現(xiàn)的位置為tn,相關(guān)度為n-1的文檔第1次出現(xiàn)的位置為tn-1,…,相關(guān)度為1的文檔第1次出現(xiàn)的位置為t1,則RR可定義為

      函數(shù)max(v1,v2,..,vn)返回集合中最大的值.

      式中:m為結(jié)果列表中所要考慮的文檔數(shù);wi為與位置有關(guān)的權(quán)值,如i≤2,則wi=1,否則DCG-best則為DCG在所屬查詢中的最大可能取值,亦即DCG-best是理想結(jié)果的DCG值,文中用它來規(guī)范化DCG的值.可以驗(yàn)證當(dāng)相關(guān)度為2時,除去NDCG(normalized discounted cumulative gain,規(guī)范化帶折扣的累積收益)外的4個評價指標(biāo)即蛻化為原先定義的形式.以上所介紹的AP,P@10和RP在[4]中給出,而NDCG由K.J?rvelin和J. Kek?l?inen在文獻(xiàn)[12]中提出.

      2 試驗(yàn)環(huán)境和試驗(yàn)方法

      t檢驗(yàn)是用t分布理論來推論差異發(fā)生的概率,從而比較2個樣本平均值的差異是否顯著.t檢驗(yàn)分為單總體檢驗(yàn)和雙總體檢驗(yàn).雙總體t檢驗(yàn)是檢驗(yàn)2個樣本平均值與其各自所代表的總體的差異是否顯著.雙總體t檢驗(yàn)又分為2種情況,獨(dú)立樣本t檢驗(yàn)和配對樣本t檢驗(yàn).本試驗(yàn)采用配對樣本t檢驗(yàn),即為

      式中:X1和X2為樣本平均值;和分別為2個樣本方差的無偏估計(jì);n為樣本容量.對于一個給定的顯著性水平(比如0.05),可以計(jì)算出t的值來觀察2個樣本的平均值之間的差異是否顯著.

      試驗(yàn)使用TREC中的4個數(shù)據(jù)集,他們是一些研究組提交到TREC 2000 web track,TREC 2004 robust track,TREC 2008 blog opinion track和TREC 2012 medical track的結(jié)果.所有這些數(shù)據(jù)集來自不同的年份,所用的文檔集合不同,所涉及的任務(wù)類型不一樣,所采用的查詢數(shù)目也有較大差異.另外,TREC 2000和TREC 2012支持三分相關(guān),文檔分為高度相關(guān)、低度相關(guān)和不相關(guān)3種情況;而另2個數(shù)據(jù)集只支持二分相關(guān).TREC 2008 blog opinion track將相關(guān)文檔按照意見的觀點(diǎn)分成正向、反向、混合等幾種情況.這里無需區(qū)分,只作二分相關(guān)處理.這些數(shù)據(jù)集的異構(gòu)特質(zhì)有利于判別所試驗(yàn)方法的健壯性.在提交的結(jié)果中,有一些性能很差,幾乎未檢索到任何相關(guān)文檔.這些多是由于在運(yùn)行一些搜索引擎系統(tǒng)時出現(xiàn)了這樣或那樣的錯誤.為避免這些非正常的數(shù)據(jù)影響試驗(yàn)結(jié)果的準(zhǔn)確性,除去了一些提交的結(jié)果(評價指標(biāo)AP的平均得分值小于0.05者).此外,在數(shù)據(jù)集TREC 2012中,有3個查詢沒有檢索出任何相關(guān)文檔,TREC 2004中,有1個查詢沒有檢索出任何相關(guān)文檔,在試驗(yàn)中也去掉了.這樣最終選擇的試驗(yàn)數(shù)據(jù)集的情況如表1所示.

      表1 試驗(yàn)中所用的4組數(shù)據(jù)的信息

      文中在二分和三分相關(guān)情況下對5種評價指標(biāo)進(jìn)行試驗(yàn),它們是AP,RP,NDCG,P@10和RR.試驗(yàn)方法如下:

      1)首先在一個數(shù)據(jù)集中,對所有的檢索結(jié)果使用一給定評價指標(biāo)(比如AP)計(jì)算出其在每個查詢上的得分值.比如在TREC 2000中,使用評價指標(biāo)AP計(jì)算出結(jié)果acsys9mw0在查詢1和查詢8下的得分值分別為0.569 8和0.135 6.

      2)對于數(shù)據(jù)集中的所有檢索結(jié)果,兩兩之間進(jìn)行配對.比如在數(shù)據(jù)集TREC 2000中,因?yàn)樵囼?yàn)用到的檢索結(jié)果總共有89個,所以總共有89× 88/2=3 916個配對.

      3)對于每個配對結(jié)果和給定的顯著性水平(比如0.05),使用配對樣本的t檢驗(yàn)進(jìn)行分析計(jì)算,觀察2個檢索結(jié)果用所給定的評價指標(biāo)評價出的有效性之間的差異是否顯著.比如在TREC 2000中,對acsys9mw0和apl9all的2組50個AP得分值之間使用雙尾的t檢驗(yàn)計(jì)算.結(jié)果為0.042,小于顯著性水平0.05,所以acsys9mw0和apl9all(基于50個查詢的AP平均值)之間的差異在0.05水平上是顯著的.

      4)在得到所有配對結(jié)果之間的t檢驗(yàn)值后,計(jì)算出有顯著性差異的檢索結(jié)果配對所占的比例.比如在TREC 2000中,顯著性水平為0.05時,使用評價指標(biāo)AP得出有顯著性差異的檢索結(jié)果對所占的比例為56.19%,而使用評價指標(biāo)P@10得出有顯著性差異的檢索結(jié)果對所占的比例為49.68%

      5)分別在15個顯著性水平下重復(fù)以上步驟.它們是0.001,0.002,0.003,0.004,0.005,0.006,0.007,0.008,0.009,0.010,0.015,0.020,0.025,0.050,0.100.

      6)分別使用AP,P@10,RP,RR,NDCG這5種評價指標(biāo)重復(fù)以上步驟.

      7)分別在4個數(shù)據(jù)集TREC 2000 web track,TREC 2004 robust track,TREC 2008 blog opinion track和TREC 2012 medical track中重復(fù)以上步驟.其中TREC 2000和TREC 2012為二分相關(guān)情形,而TREC 2000和TREC 2012采用二分相關(guān)和三分相關(guān)2種情形.采用二分相關(guān)時將高度相關(guān)和低度相關(guān)均視作相關(guān).

      通過以上步驟可以計(jì)算出有顯著性差異的配對結(jié)果所占的比例.一方面有顯著性的差異表明該指標(biāo)可準(zhǔn)確地評價檢索結(jié)果和比較不同的檢索結(jié)果,即為穩(wěn)定性的保證;而另一方面,所占的比例高說明了該指標(biāo)區(qū)分檢索結(jié)果有效性的能力明顯,即為高敏感性,因此,通過該試驗(yàn)可以綜合考慮這2方面以判斷評價指標(biāo)的好壞.

      3 試驗(yàn)結(jié)果

      第2節(jié)中所述試驗(yàn)結(jié)果如圖1所示.

      圖1 在6個數(shù)據(jù)集上5種評價指標(biāo)的綜合特性曲線

      在圖1的6組數(shù)據(jù)曲線中,可以觀察到在最上面的曲線始終是評價指標(biāo)NDCG,其次是AP,然后是RP和P@10,RR始終在最下面.只有1處例外.在2000 web track數(shù)據(jù)集上采用二分相關(guān)時,RP和P@10的曲線非常接近.這說明了如果同時考慮評價指標(biāo)的穩(wěn)定性和敏感性,那么NDCG是綜合特性最好的評價指標(biāo),其次是AP,然后是RP和P@10,RR最差.從另一方面說,RR只考慮一個有關(guān)的文檔,P@10只考慮排在前10位的文檔,而其余3個要考慮更多的文檔,各指標(biāo)所需的代價差異很大,所以這樣的結(jié)果并不意外.

      進(jìn)一步還可以量化出評價指標(biāo)之間的優(yōu)劣,比如在數(shù)據(jù)集TREC 2000 web track數(shù)據(jù)集上采用二分相關(guān)時,當(dāng)顯著性水平為0.05時,使用NDCG和P@10得到的百分比結(jié)果分別是68.30和53.68,因此,在這個試驗(yàn)環(huán)境下,NDCG的綜合特性比RP好27.24%(因?yàn)椋?8.30-53.68)/53.68=27.24%).

      另外,筆者也希望知道查詢的數(shù)量是否對于評價指標(biāo)的綜合性能有影響.一個較為合理的假設(shè)是:如果查詢數(shù)量越多,結(jié)果會越可靠.在選擇數(shù)據(jù)集時,筆者就對于此方面有所考慮,所選4個數(shù)據(jù)集中查詢數(shù)量不等,從最少的47個到最多的249個(見表1).由于在4個數(shù)據(jù)集上的結(jié)果相似,所以認(rèn)為結(jié)果是比較可靠的.由于TREC 2004數(shù)據(jù)集上有249個查詢,可以進(jìn)一步在該數(shù)據(jù)集上進(jìn)行試驗(yàn)觀察.

      試驗(yàn)的方法是:對于TREC 2004中的249個查詢,筆者將它們分成2,3,5,10等份.如為3等份時,每一個含83個查詢.在其他情形,其中一份較其他的等份少一個查詢.對于每一份中的查詢,按前述方法進(jìn)行試驗(yàn).圖2顯示該試驗(yàn)的采用AP的結(jié)果.圖中的曲線顯示的是所有等份的平均值.對于其他的評價指標(biāo),結(jié)果相似所以未給出.

      圖2 在TREC 2004 robust track數(shù)據(jù)集上AP指標(biāo)的綜合特性曲線

      從圖2可見,分成的等份越多,查詢數(shù)越少,則對于給定的顯著水平,較少對子之間的差異能達(dá)到.這和之前的假設(shè)是一致的,因此可認(rèn)為該假定成立.

      4 評價指標(biāo)的得分困難度

      對于同樣的結(jié)果,每一種評價指標(biāo)計(jì)算得分的方法不同,因此得分能力也就不同,筆者將采用這種評價指標(biāo)的得分能力定義為該評價指標(biāo)的得分困難度.當(dāng)對同樣的結(jié)果進(jìn)行評價時,使用困難度較大的評價指標(biāo)進(jìn)行評價得到的值較低,而使用困難度較小的評價指標(biāo)進(jìn)行評價后得到的值較高.進(jìn)行這樣的研究可有助于在不同的檢索評價間的交叉比較,尤其是采用不同的評價指標(biāo)或采用不同的數(shù)據(jù)集時.例如,對于數(shù)據(jù)集C1,一組查詢Q1,檢索結(jié)果集R1,采用評價指標(biāo)I1在所有查詢中的平均得分為S1;對于數(shù)據(jù)集C2,一組查詢Q2,檢索結(jié)果集R2,采用評價指標(biāo)I2在所有查詢中的平均得分為S2.如要比較R1和R2,則要找到S1和S2可比較的方法.為了計(jì)算出各評價指標(biāo)的困難度指數(shù),筆者仍采用前述4個數(shù)據(jù)集.試驗(yàn)方法如下:

      1)首先在一個數(shù)據(jù)集中,對檢索結(jié)果R1中的第1個查詢結(jié)果r11使用一評價指標(biāo)(比如RP)計(jì)算出其得分值,記為a11;繼續(xù)對此檢索結(jié)果的第2個查詢的結(jié)果r12使用此評價指標(biāo)計(jì)算出其得分值,記為a12;依次類推,可得到此搜索引擎對于所有查詢的得分值,即a11,a12,a13,…,a1n,其中n為查詢個數(shù).

      2)對于此數(shù)據(jù)集中的每個搜索引擎重復(fù)步驟a),這樣可以得到基于此評價指標(biāo)的所有搜索引擎的結(jié)果R1,R2,…,Rm在所有查詢中的得分值.

      3)計(jì)算出此數(shù)據(jù)集中第1個搜索引擎的結(jié)果R1應(yīng)用此評價指標(biāo)的得分值:,第2個搜索引擎的結(jié)果R2應(yīng)用此評價指標(biāo)的得分值:,直到最后一個搜索引擎的結(jié)果Rm應(yīng)用此評價指標(biāo)的得分值:,,其中m是搜索引擎的個數(shù),n是查詢個數(shù).

      5)分別使用AP,P@10,RP,RR,NDCG這5種評價指標(biāo)重復(fù)以上步驟.

      6)分別在不同的數(shù)據(jù)集中重復(fù)以上步驟,試驗(yàn)的最終結(jié)果如表2所示.

      表2 5種評價指標(biāo)的困難度指數(shù)

      從表2可見,在所有6個數(shù)據(jù)集中,RR的困難度最低,其次是NDCG,RP和P@10,困難度最高的是AP.唯一的例外是TREC 2012中采用三分相關(guān)的情形.此時NDCG的困難度大于RR.當(dāng)然,在各個數(shù)據(jù)集中,同一評價指標(biāo)的困難度并不相同.這是因?yàn)樵诟鱾€數(shù)據(jù)集中,文檔集合中的文檔不同,特別是所用的查詢不同,查詢的難易程度不同,這會對所有指標(biāo)的得分值有直接影響.要比較不同數(shù)據(jù)集中的搜索引擎的性能,需要考慮查詢的難易程度.參考文獻(xiàn)[13]中給出了一些估計(jì)查詢復(fù)雜度的方法.

      5 結(jié) 論

      2)試驗(yàn)結(jié)果表明綜合考慮敏感性和穩(wěn)定性,NDCG是最好的評價指標(biāo),其次是AP,然后是RP和P@10,RR最差.同時,也可以量化出各評價指標(biāo)之間的優(yōu)劣.

      3)文中提出了困難度的新概念,它反映了用一指標(biāo)做檢索評價所需的代價.試驗(yàn)結(jié)果表明困難度從低到高的次序是RR,NDCG,RP,P@10,AP.

      4)綜合考慮敏感性、穩(wěn)定性和困難度,NDCG是最好的評價指標(biāo),它困難度較低,敏感性和穩(wěn)定性很好.

      [1] Buckley C,Voorhees E M.Evaluating evaluation measure stability[C]∥Proceedings of the23rd International ACM SIGIR Conference on Research and Development in Infornation Retrieval.Athens,Greece:ACM,2000: 33-40.

      [2] Sakai T.Evaluating evaluation metrics based on the bootstrap[C]∥Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Seattle:ACM,2006:525-532.

      [3] Lin W H,Hauptmann A.Revisiting the effect of topic set size on retrieval error[C]∥Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Salvador,Brazil:ACM,2005:637-638.

      [4] Wu Shengli,McClean Sally.Evaluation of system measures for incomplete relevance judgment in IR[C]∥Proceedings of 7th International Conference on Flexible Query Answering Systems.Milan,Italy:Springer Verlag,2006:245-256.

      [5] Zobel J.How reliable are the results of large-scale information retrieval experiments?[C]∥Proceedings of the 1998 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Melbourne,Vic.,Aust:ACM,1998:307-314.

      ●用有機(jī)硅功能肥與硅谷農(nóng)科院培育的“硅谷829”高產(chǎn)小麥新品種,在2017年試驗(yàn)田畝產(chǎn)達(dá)到974公斤,創(chuàng)中國小麥歷史最高紀(jì)錄。

      [6] Clarke C L A,Craswell N,Soboroff I,et al.A comparative analysis of cascade measures for novelty and diversity[C]∥Proceedings of the 4th ACM International Conference on Web Search and Data Mining.Hong Kong:ACM,2011:75-84.

      [7] Zhou K,Lalmas M,Sakai T,et al.On the reliability and intuitiveness of aggregated search metrics[C]∥Proceedings of the 22nd ACM International Conference on Information and Knowledge Management.San Francisco:ACM,2013:689-698.

      [8] Chuklin A,Schuth A,Hofmann K,et al.Evaluating aggregated search using interleaving[C]∥Proceedings of the22nd ACM International Conference on Information and Knowledge Management.San Francisco:ACM,2013:669-678.

      [9] Belkin N J.Supporting and evaluating whole-session interactive information retrieval[C]∥Proceedings of the MindTheGap′14Workshop,2014.

      [10] Abderrahim M A.Concept based vs.pseudo relevance feedback performance evaluation for information retrieval system[J].International Journal of Computational Linguistics Research,2013,4(4):149-158.

      [11] Din?er B T,Ounis I,Macdonald C.Tackling biased baselines in the risk-sensitive evaluation of retrieval systems[C]∥Proceedings of the 36th European Conference on Information Retrieval.Amsterdam,Netherlands:Springer Verlag,2014:26-38.

      [12] J?rvelin K,Kek?l?inen J.Cumulated gain-based evaluation of IR techniques[J].ACM Transactions on Information Systems,2002,20(4):422-446.

      [13] Hauff C,Hiemstra D,de Jong F.A survey of pre-retrieval query performance predictors[C]∥Proceedings of the 17th ACM Conference on Information and Knowledge Management.Napa Valley:ACM,2008:1419-1420.

      (責(zé)任編輯 梁家峰)

      Evaluation on metric characteristics of search engines

      Wu Shengli,Tan Yanzhi,Shi Huaji
      (School of Computer Science and Communication Engineering,Jiangsu University,Zhenjiang,Jiangsu 212013,China)

      Performance evaluation of search engines is an important aspect of information retrieval.Many evaluation metrics have been proposed with different characteristics.Accurate and reliable judgment is required to select an optimal metric among many candidates.Based on t test,a method was proposed,and empirical investigation was conducted to compare five commonly used metrics of average precision(AP),precision at 10 document level(P@10),recall-level precision(RP),reciprocal ranking(RR)and normalized discounted cumulative gain(NDCG).The results show that NDCG is the best,which is followed by AP,RP and P@10 with the worst of RR.The proposed method is able to provide quantitative conclusion for the comparison of any two metrics.

      search engine;retrieval performance;evaluation metric;stability;sensitivity

      TP311.135

      A

      1671-7775(2015)02-0181-06

      吳勝利,譚延之,施化吉.搜索引擎指標(biāo)綜合特性的評價[J].江蘇大學(xué)學(xué)報(bào):自然科學(xué)版,2015,36(2):181-186,214.

      10.3969/j.issn.1671-7775.2015.02.011

      2014-07-16

      江蘇特聘教授項(xiàng)目;江蘇大學(xué)特聘教授啟動基金資助項(xiàng)目

      吳勝利(1963-),男,江蘇南京人,教授,博士生導(dǎo)師(swu@ujs.edu.cn),主要從事數(shù)據(jù)庫與信息系統(tǒng)研究.譚延之(1989-),男,安徽合肥人,碩士研究生(1585579087@126.com),主要從事數(shù)據(jù)庫與信息系統(tǒng)研究.

      猜你喜歡
      搜索引擎分值文檔
      一起來看看交通違法記分分值有什么變化
      工會博覽(2022年8期)2022-06-30 12:19:30
      有人一聲不吭向你扔了個文檔
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      宿遷城鎮(zhèn)居民醫(yī)保按病種分值結(jié)算初探
      病種分值結(jié)算模式下的醫(yī)療監(jiān)管之實(shí)踐與啟示
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      武乡县| 海原县| 忻城县| 六安市| 望谟县| 涟源市| 布拖县| 苏尼特右旗| 沭阳县| 资兴市| 广南县| 麻阳| 百色市| 武义县| 长治县| 革吉县| 万宁市| 张家界市| 景谷| 自治县| 苏尼特左旗| 宽甸| 鄂伦春自治旗| 昌都县| 资兴市| 肇州县| 曲沃县| 馆陶县| 吉林市| 普定县| 广昌县| 富锦市| 昌都县| 黑水县| 永安市| 巨鹿县| 和平县| 仙桃市| 屏东市| 阜南县| 富宁县|