蔣大平
(綏化學(xué)院圖書館 黑龍江綏化 152061)
Web上的充斥著大量信息,我們急需一個有效的信息系統(tǒng),能夠定位和檢索與用戶興趣相關(guān)的信息。而相關(guān)性評價通常基于多個標(biāo)準(zhǔn)的評價,也就是相關(guān)性維度,旨在捕獲所考慮的文檔或文檔上下文的不同方面或?qū)傩裕?]。相關(guān)性維度應(yīng)估計(jì)文檔對于用戶的查詢效用,例如,搜索引擎中頁面熱度概念有效利用了文檔相關(guān)性評估的評價標(biāo)準(zhǔn)。具體而言,與每個檢索到的文檔相關(guān)聯(lián)的總體相關(guān)性的得分計(jì)算,是基于表示評價標(biāo)準(zhǔn)滿意度的若干得分的計(jì)算。作為直接結(jié)果,需要將與單個標(biāo)準(zhǔn)評估相關(guān)的得分聚合為表示總體相關(guān)性估計(jì)的總體得分。盡管這個聚合步驟在文檔的最終排名中起著重要的作用,但在一些研究中,并沒有引起應(yīng)有的重視。
傳統(tǒng)的平均聚合算子是完全補(bǔ)償?shù)模慈狈M意度評價標(biāo)準(zhǔn),可以通過另一個剩余滿足來補(bǔ)償[2]。這種性質(zhì)在許多實(shí)際應(yīng)用中并不現(xiàn)實(shí),特別是在信息檢索(IR)領(lǐng)域。
為了說明和評估優(yōu)先級聚合算子,我們使用一個信息檢索個性化設(shè)置,信息檢索IR 的個性化設(shè)置使用用戶興趣的正式表示即用戶資料,來評估信息檢索相關(guān)性與用戶查詢的關(guān)系。這種方式特別有效,如果用戶經(jīng)常公式化他的個人資料中固有的興趣查詢,搜索個性化就能戰(zhàn)勝傳統(tǒng)檢索方法,這種方法不考慮用戶的背景和檢索目的,用相同的檢索表達(dá)式,面對不同的用戶產(chǎn)生相同的檢索結(jié)果。近年來,越來越多的研究致力于使信息檢索技術(shù)盡可能地利用上下文因素,以便為特定用戶定制搜索結(jié)果[3]。
在多準(zhǔn)則決策設(shè)置中,考慮多維標(biāo)準(zhǔn)之間優(yōu)先關(guān)系是典型的問題。在缺乏更高優(yōu)先級標(biāo)準(zhǔn)滿意度的情況下,不可能用較低優(yōu)先級的標(biāo)準(zhǔn)滿意度來補(bǔ)償。我們給出下面一個簡單的現(xiàn)實(shí)生活中的例子,對其進(jìn)行解釋。
讓假設(shè)李女士正在尋找件羽絨服。她的選擇基于兩種標(biāo)準(zhǔn)。第一個標(biāo)準(zhǔn)是“保暖”,第二標(biāo)準(zhǔn)是“不貴”。對李女士來說,更重要的是保暖,而不是便宜。因此,他想買一件首先是保暖的羽絨服,然后,如果可能的話便宜一些。我們可以考慮兩種情況。
a如果李女士沒有找到任何便宜的保暖羽絨服,他可以買到保暖昂貴的羽絨服(因此,廉價標(biāo)準(zhǔn)的不滿足可以在某種程度上通過保暖標(biāo)準(zhǔn)的滿足來補(bǔ)償)。
b李女士沒有多少錢。她仍然認(rèn)為保暖比成本更重要,然而,她負(fù)擔(dān)不起巨額費(fèi)用。在這種情況下,李女士首先會找一件比較保暖又便宜的羽絨服。因此,在這種情況下,廉價標(biāo)準(zhǔn)的不滿足不能通過保暖標(biāo)準(zhǔn)的滿足來補(bǔ)償。
要注意到,在這兩種情況下,先需要一個優(yōu)先聚合算子,然而,對于第一個合適的算子不同于對于第二種情況合適的算子。與相對于第一種情況,第二種情況的是,羽絨服是保暖的,但不夠便宜,李女士不會考慮;相反,相對于第二種情況第一種情況是,一件便宜但不保暖的羽絨服不會被考慮,因?yàn)楸E亲钪匾臏?zhǔn)則。明顯看到,這個問題是一個多準(zhǔn)則決策問題,從現(xiàn)實(shí)生活實(shí)例到信息檢索語境,所考慮的標(biāo)準(zhǔn)是不同的關(guān)聯(lián)維度。
這里涉及兩個優(yōu)先聚合運(yùn)算符(‘score’運(yùn)算符和‘a(chǎn)nd’運(yùn)算符),于2009年由佩雷拉等人首次提出,主要是將所提出的算子應(yīng)用加權(quán),聚合中與所考慮的標(biāo)準(zhǔn)即關(guān)聯(lián)性維數(shù)相關(guān)的重要性權(quán)值基于指定的優(yōu)先級順序。這意味著與標(biāo)準(zhǔn)相關(guān)的權(quán)重取決于更高的滿意度[4]。
(一)問題表征。
首先,假設(shè)C 集合是評價標(biāo)準(zhǔn)集合,有n 個評價標(biāo)準(zhǔn)組成,即C={C1,C2,…,Cn},
其中,Ci表示對第i個標(biāo)準(zhǔn)的評價函數(shù)。
然后,用D 表示文件集合,d∈D 表示文件元素。聚合函數(shù)F用于計(jì)算文件d的對于給定標(biāo)準(zhǔn)的總評分。
Score F(C1(d),C2(d),…,Cn(d))=RSV(d)
這意味著通過考慮同一組標(biāo)準(zhǔn),對于不同的用戶,給定文檔查詢的相關(guān)性評估,可能會產(chǎn)生不同的分?jǐn)?shù)(不同的RSV)。并且對于同一用戶具有不同搜索意圖的檢索也會產(chǎn)生不同的分?jǐn)?shù)。這是因?yàn)闃?biāo)準(zhǔn)的優(yōu)先級順序是用戶依賴的,因此,要對每個標(biāo)準(zhǔn)賦予不同的重要性權(quán)值,使得不同的用戶有不同的標(biāo)準(zhǔn)優(yōu)先級排序,盡可能做到對于同一篇文件不同的用戶使用不同的重要性權(quán)值[5]。
這里,選擇用C1表示最重要標(biāo)準(zhǔn),用Cn表示最不重要的標(biāo)準(zhǔn),假設(shè)Ci重要性優(yōu)先于Cj,i<j。假設(shè)序列“C0,C1,C2,…,Cn”被看做是用戶定義的標(biāo)準(zhǔn)序列,對于用戶來說,C0是最重要的條件,Cn是最不重要的條件。定義的計(jì)算與每個準(zhǔn)則Cj相關(guān)聯(lián)的權(quán)重?cái)?shù)值的方法既依賴于文檔的滿意度又依賴于用戶興趣。它實(shí)際上首先取決于用戶表達(dá)的標(biāo)準(zhǔn)偏好順序,并且還取決于文檔對標(biāo)準(zhǔn)Cj-1的滿意度,Cj-1的權(quán)值。
假設(shè)對于文件d,標(biāo)準(zhǔn)Ci的重要性權(quán)值λi∈[0,1]。對不同的用戶,任意的文件d,設(shè)λ1=1。Ci,i∈[2,n]。λi=λi-1·Ci-1(d)。Ci-1(d)是由文件d確定的標(biāo)準(zhǔn)Ci-1的滿意度。λi-1是標(biāo)準(zhǔn)Ci-1的重要性權(quán)值。
(二)優(yōu)先得分模型。即給出“score”優(yōu)先聚合算子Fs的表達(dá)式和性質(zhì)。這個聚合算子允許從多個標(biāo)準(zhǔn)評價中計(jì)算總體得分,其中每個標(biāo)準(zhǔn)的權(quán)重取決于滿意度,在最重要的標(biāo)準(zhǔn)上滿意度越高,權(quán)重越高。更重要的標(biāo)準(zhǔn)是,一個不太重要的標(biāo)準(zhǔn)的滿意度越大,對總成績的影響越大。
(三)“and”算子。2009年由Pereira等人提出的優(yōu)先聚合算子“and”。此運(yùn)算符允許建模,總體滿意度強(qiáng)烈地依賴于最不滿意標(biāo)準(zhǔn)的滿意度[6]。這種算子的與傳統(tǒng)的“and”算子不同。它的特征在于考慮最不重要準(zhǔn)則對用戶的滿足程度。如果它根本不重要,則在聚合過程中不應(yīng)該考慮它的滿意度,而如果它是用戶最重要的標(biāo)準(zhǔn),則只考慮它的滿意度。標(biāo)準(zhǔn)越不重要,代表整體滿意度的機(jī)會就越低。
聚合算子算法:
RSVa(d)=Fa(C1(d),C2(d),…,Cn(d))=min({C1(d),C2(d),…,Cn(d)})
對于上例中,設(shè)C1(d)代表“保暖”,C2(d)代表“不貴”,C1(d)=0.9,C2(d)=0.2,λ1=1,λ2=0.9。
RSVs(d)=λ1·C1(d)+λ2·C2(d)=0.9+0.18=1.08
RSVa(d)=min({C1(d),C2(d)})=min(0.91+0.180.9)=0.213
RSVs(d)∈[0,2]優(yōu)于RSVa(d)∈[0,1]的結(jié)果。
評估信息檢索算法有效性的傳統(tǒng)方法是基于Cranfield范式的,該范式允許所謂的基于實(shí)驗(yàn)室的評估。實(shí)際上,當(dāng)應(yīng)用優(yōu)先級聚合策略時,根據(jù)所采用的依賴于用戶的優(yōu)先級化方案,針對相同查詢評估的相同文檔可以產(chǎn)生不同的評估分?jǐn)?shù)[7]。
相關(guān)標(biāo)準(zhǔn)的優(yōu)先級順序取決于用戶的搜索意圖。為了進(jìn)行有意義的評估,基于相關(guān)性維度的語義,我們識別出與不同的搜索意圖相對應(yīng)的三個用戶類別,在所考慮的相關(guān)性維度上歸納出三個不同的優(yōu)先級順序,所識別的類別構(gòu)成了需要考慮到評價目標(biāo)的評價情景[8]。
第一個評估場景,主要考慮當(dāng)用戶制定僅關(guān)注他/她的興趣的查詢時的情況;在這種情況下,假設(shè)用戶旨在定位首先與他/她的興趣相關(guān)的文檔,同時要求搜索的文檔do不要關(guān)注除了查詢所表示的其他主題之外的其他主題。
比如,假設(shè)用戶正在尋找關(guān)于“金”的文檔,他/她感興趣的是化學(xué)而不是經(jīng)濟(jì)學(xué)。這意味著用戶正在查找“金”作為化學(xué)元素的文檔,而不是“金”作為存儲的價值。根據(jù)這個搜索場景,繼續(xù)識別第一個用戶類別,我們稱之為“覆蓋搜索器”。使用該用戶類別,我們將以下優(yōu)先級順序與四個考慮的關(guān)聯(lián)維度關(guān)聯(lián):
coverage appropriateness aboutness reliability
很重要的一點(diǎn)是,稍微不同的優(yōu)先級順序可以與這個用戶類別相關(guān)聯(lián),以及與以下兩個用戶類別一起指定。
第二種情況,當(dāng)用戶的意圖是找到文件,完全適合他/她的興趣。我們將此第二用戶命名為“適當(dāng)性搜索者”,我們認(rèn)為它在四種標(biāo)準(zhǔn)中處于最高優(yōu)先級。
appropriateness aboutness coverage reliability;
我們介紹的第三個用戶類別是指優(yōu)先考慮檢索到的文檔的信息源的可靠性的用戶;我們稱屬于該類別的用戶是謹(jǐn)慎的;這些用戶給予可靠性標(biāo)準(zhǔn)比其他標(biāo)準(zhǔn)更大的優(yōu)先級。使用這個用戶類別,我們將以下優(yōu)先級順序與四個考慮的關(guān)聯(lián)維度關(guān)聯(lián)起來。
reliability aboutness appropriateness coverage
不同類型的用戶,具有不同的搜索意圖。優(yōu)先排序聚合方案特點(diǎn)是,對于相同的查詢和相同的用戶,可以根據(jù)相關(guān)維度的不同優(yōu)先級順序,獲得不同的文件排序。本文提出的聚合模型是通用的,因此可以應(yīng)用于任何相關(guān)維度的集合。實(shí)例證明,優(yōu)先聚合算子的有效性。優(yōu)先級“score”算子塑造了一種情況,不太重要標(biāo)準(zhǔn)的權(quán)值與比較重要標(biāo)準(zhǔn)的滿意度成比例。評估實(shí)驗(yàn)表明,優(yōu)先聚合算子“score”,符允許當(dāng)用戶制定與興趣相關(guān)的查詢時,以及當(dāng)用戶沒有興趣或制定與用戶興趣無關(guān)的查詢時,改變與用戶興趣相關(guān)的文檔優(yōu)先級排序。文檔的排序類似于使用平均算子獲得的排序[9]。而優(yōu)先聚合算子“和”的特性也是它與傳統(tǒng)的“和”算子的區(qū)別,即最不滿意標(biāo)準(zhǔn)程度被考慮在總體滿意度中,并且該程度取決于它的滿意度和對用戶的重要性。該模型適用于當(dāng)每個標(biāo)準(zhǔn)是必不可少的,并且在不影響用戶興趣目的情況下不能丟棄任何需求時,以及根據(jù)這些需求處理用戶偏好順序時,改進(jìn)文檔的排序。所執(zhí)行的評估表明,當(dāng)用戶制定與興趣相關(guān)的查詢時,所提出的操作符提高了與用戶興趣相關(guān)的文檔的排序,否則該操作符不適合。所提出的算子的優(yōu)點(diǎn)是,它們允許以簡單的方式計(jì)算標(biāo)準(zhǔn)的權(quán)重。