劉 健,劉奕群,馬少平,張 敏,茹立云,張 闊
(智能技術(shù)與系統(tǒng)國家重點實驗室;清華信息科學與技術(shù)國家實驗室(籌);清華大學 計算機系,北京 100084)
隨著互聯(lián)網(wǎng)信息資源的迅猛增長,快速準確地從互聯(lián)網(wǎng)海量數(shù)據(jù)中獲取用戶所需的信息資源使得搜索引擎已經(jīng)成為現(xiàn)代生活中不可或缺的工具。據(jù)最新CNNIC中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[1]顯示,截止2012年12月底,中國網(wǎng)民規(guī)模已達到5.64億,其中搜索引擎用戶的數(shù)量為4.51億,使用率達到80.0%,與此同時,搜索引擎用戶市場也逐漸從單一用戶規(guī)模增長向用戶體驗提升發(fā)展。如何提高搜索引擎以用戶為中心的網(wǎng)絡(luò)檢索服務(wù)質(zhì)量,提高用戶對搜索結(jié)果的滿意程度,一直是研究界與產(chǎn)業(yè)界關(guān)注的重點。搜索引擎用戶行為是搜索引擎以用戶為中心,獲取用戶反饋信息的重要載體?;谟脩粜袨榉治鰜慝@取用戶對搜索引擎性能評價的顯性或隱性反饋信息,進而分析用戶對搜索引擎的整體滿意度情況以及對于單個查詢結(jié)果的滿意度,也因此成為搜索引擎性能評價研究的熱點。
傳統(tǒng)的基于Cranfield體系下的搜索引擎性能評價[2-4]中,查詢與文檔之間的相關(guān)性由于其具有可復(fù)用性以及人工標注的可靠性等優(yōu)點,其評價方法直到現(xiàn)在仍在被使用。盡管如此,單個查詢與文檔對之間的相關(guān)性評判,并不能反映用戶查詢過程中的整體查詢體驗。在用戶查詢過程中,用戶為滿足自身的信息需求,可能需要進行不同的查詢操作,譬如點擊查詢推薦、修改查詢詞、點擊查詢翻頁等。為此,Jane R等人[5-8]提出了以“用戶為中心”(user-centered)的搜索引擎性能評價方法,區(qū)別于傳統(tǒng)的查詢與文檔對之間的相關(guān)性評判方法,以“用戶為中心”的評價方法能夠直接地通過用戶的查詢體驗來評價搜索引擎的性能。2007年,Scott B H等人提出了“用戶查詢滿意度”的概念,對其進行建模,并提出了相關(guān)的用戶查詢滿意度評價方法。對應(yīng)于“查詢與文檔相關(guān)性度量”,用戶查詢滿意度研究也成為搜索引擎性能評價中另一個重要的分支。
盡管如此,以往用戶滿意度研究工作很少有對中文搜索引擎的用戶行為與用戶滿意度關(guān)聯(lián)關(guān)系進行深入研究的,同時也缺乏對多個搜索引擎的性能對比。前人的工作也僅限于片面行為特征分析,缺乏對用戶查詢/點擊行為特征進行全面的分析。為此,本文設(shè)計了專門的搜索平臺,在盡量不影響用戶搜索體驗的前提下,對用戶查詢/點擊行為數(shù)據(jù)以及用戶滿意度評價情況進行收集,并在此基礎(chǔ)上,分析用戶查詢滿意度的分布情況以及用戶行為特征與用戶查詢滿意度之間的關(guān)聯(lián)關(guān)系,比較全面、系統(tǒng)地揭示了“用戶查詢滿意度”分別與用戶點擊行為、用戶查詢行為等的關(guān)聯(lián)情況。本文工作的主要貢獻體現(xiàn)在以下幾個方面。
(1) 針對中文搜索引擎,詳細研究了用戶行為與用戶滿意度之間的關(guān)聯(lián)關(guān)系;
(2) 對比分析了不同搜索引擎用戶查詢滿意度的差別,整體上從用戶滿意度評價的角度對不同搜索引擎的性能差異進行評價;
(3) 比較全面地對不同用戶查詢行為(查詢詞長短、查詢詞頻率、查詢歧義等)、用戶點擊行為(點擊位置、點擊次數(shù)等)分別與用戶查詢滿意度的關(guān)聯(lián)關(guān)系進行分析。
本文剩余部分的內(nèi)容組織如下: 第2節(jié)對相關(guān)研究工作進行調(diào)研;第3節(jié)介紹用戶行為數(shù)據(jù)收集情況;第4、5、6節(jié)分別從用戶查詢滿意度分布、用戶查詢滿意度與用戶查詢行為以及用戶點擊行為相互關(guān)系進行分析; 第7節(jié)對本文工作的總結(jié)及展望。
搜索引擎的用戶行為日志記錄著用戶和搜索引擎進行交互時所留下的一系列操作行為信息,是研究用戶查詢體驗,分析用戶查詢滿意度的主要信息載體。近年來,用戶行為數(shù)據(jù)中蘊含的隱性反饋信息在搜索引擎結(jié)果排序、查詢推薦、查詢糾錯、網(wǎng)頁質(zhì)量評估、垃圾網(wǎng)頁識別、搜索引擎性能評價等搜索引擎研究方向中具有不可替代的作用。本文主要介紹搜索引擎性能評價中用戶查詢滿意度研究相關(guān)的工作。
用戶查詢滿意度的概念是以用戶為中心、強調(diào)用戶查詢體驗的一種搜索引擎性能評價方式,區(qū)別于傳統(tǒng)的查詢與文檔相關(guān)性度量的基于Cranfield體系的搜索引擎性能評價方式。1999年,Jane R等人[5]就提出了以用戶為中心、面向整個查詢?nèi)蝿?wù)而非單個查詢的性能評價方式,除了關(guān)注查詢與文檔之間相關(guān)性度量的非交互式信息外,同時也將用戶與搜索引擎之間的交互信息加入到整個性能評價方法當中。2002年,Amanda S等人[6]提出了搜索引擎性能評價中“有效性”(effectiveness)與“可用性”(usability)的概念,以用戶為中心的搜索引擎評價方式不僅跟搜索結(jié)果本身的“有效性”(滿足用戶信息需求)相關(guān),同時也跟用戶與搜索引擎交互體驗的“可用性”(界面的友好性等)相關(guān)。2007年,Scott B H等人[7]結(jié)合傳統(tǒng)的查詢與文檔相關(guān)性度量,對用戶查詢滿意度與相關(guān)性度量之間進行建模,并利用該模型預(yù)測用戶查詢過程的滿意度情況。2011年,Ahmed H等人[8],通過挖掘用戶行為模式的方法,構(gòu)建了面向查詢?nèi)蝿?wù)的用戶滿意度模型,文章研究了大規(guī)模的用戶行為模式,通過分析不同的行為模式下,用戶“滿意”與“不滿意”的行為模式,構(gòu)建了依靠用戶行為來預(yù)測查詢是否滿意的模型。國內(nèi)也有不少研究人員對搜索引擎用戶滿意度研究做了大量的工作,王惠等人[9]也嘗試通過費耐爾(Fornell)等提出的用戶滿意理論模型——ACSI模型來構(gòu)建搜索引擎用戶滿意度評價指標體系。朱彤等人[10-12]也提出了按照不同查詢分類來定義不同的用戶查詢滿意度,并通過機器學習的方法,結(jié)合用戶行為日志數(shù)據(jù)對查詢詞層面的用戶滿意度進行自動評價。
本文通過搜索結(jié)果頁面真實重現(xiàn)的方式,組織被試人員進行用戶查詢滿意度實驗。為分析真實搜索引擎網(wǎng)絡(luò)用戶的搜索行為,在某國內(nèi)一家大型商用搜索引擎的幫助下,從連續(xù)3天的用戶查詢?nèi)罩局?,隨機抽取200個查詢,作為此次實驗中使用的查詢。為驗證隨機抽取的查詢是否具有代表性,人工對這200個查詢的查詢類型按照導航與非導航查詢[13]進行標注,其中導航類查詢?yōu)?6個,非導航類查詢?yōu)?64個,基本滿足導航與非導航查詢1∶4比例分布,進而保證了所選查詢的代表性。
為保證用戶行為與用戶查詢滿意度之間的關(guān)聯(lián)關(guān)系獨立于搜索引擎本身的差異,本文對200個隨機抽取的查詢分別從兩個不同搜索引擎A以及B上各自抓取了搜索結(jié)果。對應(yīng)于A與B搜索的結(jié)果,實驗分成兩組,每組實驗的200個查詢平均分成4個小組,每個小組50個查詢,同一個小組均由兩名被試人員分別獨立完成。因此,整個實驗參與的被試人員為16人。這16人均來自同一個專業(yè),擁有相同的文化程度與專業(yè)背景。
為研究用戶行為與用戶查詢滿意度之間的關(guān)聯(lián)關(guān)系,收集了搜索行為數(shù)據(jù)所記錄的信息,其中包括時間、用戶標示、查詢情況、用戶點擊情況、查詢對應(yīng)的滿意度情況等,數(shù)據(jù)條目和相應(yīng)的說明如表1所示。
表1 用戶行為信息
從表1可以看到,為了保護用戶隱私,本文在采集用戶行為數(shù)據(jù)時,進行了匿名化處理,并沒有包括用戶的IP,登錄用戶名等個人隱私信息。
不同用戶使用搜索引擎時,對整個搜索過程的滿意度評價,不僅受用戶自身的因素包括用戶知識背景、信息處理能力、搜索結(jié)果相關(guān)程度的要求差異等影響,同時也因不同搜索引擎本身對于同一查詢的內(nèi)容差異、排序差異以及其他顯示差異而不一致。
本文比較了8個實驗小組,對于每個實驗小組中的每兩名用戶對相同的50個查詢的滿意度差異情況,分別計算了用戶滿意度評價觀測一致性系數(shù)以及用戶查詢滿意度用戶差異Cohen’s Kappa[14]系數(shù),如表2、表3所示。
表2 用戶查詢滿意度評價觀測一致性系數(shù)
表3 用戶查詢滿意度用戶差異Cohen’s Kappa系數(shù)
表2中,用戶查詢滿意度觀測一致性系數(shù)為計算每組用戶兩兩之間關(guān)于滿意度評價一致的查詢數(shù)目占總體查詢數(shù)目的比例。不難發(fā)現(xiàn),盡管同一實驗分組編號所對應(yīng)查詢詞是一致的,但對于不同搜索引擎A與B,各自的一致性系數(shù)也存在著明顯差異。這也反應(yīng)了不同用戶對于不同搜索引擎的查詢滿意度評價中存在明顯的差異。
Cohen’s Kappa系數(shù)是測量不同用戶對于同一批數(shù)據(jù)進行操作之后,相互之間一致性程度的重要標尺之一。盡管表2中同一組查詢的用戶滿意度評價觀測一致性系數(shù)維持在70%左右,但從表3的結(jié)果整體分布來看,8組結(jié)果中,其中7組結(jié)果的Cohen’s Kappa值位于(0,0.4]之間,表明每組用戶兩兩之間對于同一組查詢的滿意度評價情況存在明顯的個體差異,這表明了同一組實驗的兩名不同被試人員實驗結(jié)果的相互獨立性,同時也表明了實驗數(shù)據(jù)的可靠性。
客觀上,不同搜索引擎對于用戶提交的同一查詢,返回的結(jié)果文檔集、文檔排序以及文檔顯示方式等存在明顯的差異。這種差異的存在,勢必帶來用戶不同的查詢體驗,對用戶查詢滿意度的評價也因此千差萬別。圖1顯示了兩個不同的搜索引擎SE A以及SE B各自總體用戶查詢滿意度的差別。
如圖1所示,對于同一批查詢,分別從兩個不同的搜索引擎獲取查詢結(jié)果,并對查詢結(jié)果進行用戶查詢滿意度的統(tǒng)計,對于這兩個不同的搜索引擎,用戶查詢滿意度的差別相對比較明顯。對于同樣的查詢,不同的搜索引擎用戶查詢滿意度并不一致,這兩個搜索引擎的整體用戶查詢滿意度只有75%,這也說明了搜索引擎對于用戶查詢滿意度具有很大的提升空間。
圖1 不同搜索引擎用戶查詢滿意度
對于熱門查詢,搜索引擎會給與更多的關(guān)注[3-4],自然也會使查詢結(jié)果的相關(guān)性更好。對于不同頻度的查詢詞,搜索引擎反饋的結(jié)果存在差異。為研究查詢詞頻度對用戶查詢滿意度的影響,將查詢詞分為高頻、中頻、低頻三個頻度等級。其中低頻查詢?yōu)?19個,占整個查詢數(shù)目的59.5%;中頻查詢?yōu)?6個,占整個查詢數(shù)目的23%;高頻查詢?yōu)?5個,占整個查詢數(shù)目的17.5%,整體約為3∶1∶1的分布。從整個查詢的獨特性來說,80%的用戶常用查詢通常只占總體查詢數(shù)目的20%,低頻查詢的查詢詞數(shù)目相對所占比例大。
本文分析了三個不同頻度的查詢所對應(yīng)的用戶查詢滿意度分布情況,圖2顯示查詢頻度與用戶查詢滿意度之間的相互關(guān)系。
圖2 用戶查詢滿意度隨查詢詞頻率的變化情況
從圖2顯示結(jié)果,不難發(fā)現(xiàn)“滿意”與“不滿意”查詢數(shù)目之比隨著查詢詞詞頻的降低而降低。盡管查詢詞詞頻劃分的標準存在差異,但從總體上,對于高頻查詢,搜索引擎返回的檢索結(jié)果更容易滿足用戶的查詢需求,查詢過程越容易使用戶滿意,相反,對于用戶輸入的低頻查詢,搜索引擎更難獲取準確相關(guān)的查詢結(jié)果,因而大大降低了用戶查詢滿意度。這種現(xiàn)象的出現(xiàn),一方面是由于熱門查詢,無論從查詢詞本身,還是從檢索結(jié)果,搜索引擎都能很好地理解用戶的查詢需求,并返回較好的查詢結(jié)果;另一方面,查詢的用戶行為對搜索引擎正確答案的檢索是一個正反饋的過程。因此,對于熱門查詢,之前用戶的點擊行為能夠在一定程度上幫助搜索引擎將正確的結(jié)果排在更靠前的位置上,從而更好更快地滿足用戶的信息需求。
用戶在使用搜索引擎進行信息檢索時,由于查詢詞自身簡短的因素[2](通常3~4個漢字),不可避免地導致信息需求存在歧義性。因此不同的用戶在輸入同一個查詢詞時,由于信息需求的差異導致用戶對該查詢的查詢滿意度評價存在差異。
本部分主要考察查詢詞歧義與用戶查詢滿意度之間的關(guān)系,分析查詢詞歧義對用戶查詢滿意度的影響情況。首先本文采用人工標注的方法、結(jié)合搜索引擎反饋的查詢結(jié)果對實驗中涉及的200個查詢進行人工的“查詢詞歧義”標注。標注的結(jié)果中存在“查詢詞歧義”的查詢詞為38個,非歧義的查詢詞162個。共有三個標注人員進行標注,其標注結(jié)果的Cohen’s Kappa系數(shù)平均值為0.72。各個標注人員之間的標注結(jié)果,具有較好的一致性。
對于同一查詢,有兩名被試人員分別對其用戶查詢滿意度進行評價,為更加清晰地認識“查詢詞歧義”對用戶查詢滿意度評價的影響,本文沒有剔除用戶滿意度評價存在差異的查詢,也就是說對于這類查詢,其中一名被試者評價為“滿意”,而另外一名被試者評價為“不滿意”。因此,本文將用戶查詢滿意度分為三種情況: “滿意”(兩者均“滿意”)、“不滿意”(兩者均“不滿意”)以及“不確定”(一個“滿意”,另一個“不滿意”)。相關(guān)統(tǒng)計結(jié)果,如圖3所示。
圖3 查詢歧義與否對用戶查詢滿意度的影響
圖3展示“查詢詞歧義”和用戶查詢滿意度變化的情況,由于歧義查詢本身蘊含有不同的子信息需求,不同用戶的信息需求理解存在差別,使得不同用戶在對檢索過程是否滿意進行評價時,出現(xiàn)更大的差異,也正如圖3所示,對于“不確定”的用戶滿意度評價,歧義查詢所占比例高出非歧義查詢所占比例約15.0%。與此同時,對于非歧義查詢,用戶的滿意百分比要高于歧義查詢的滿意百分比,其中歧義查詢?yōu)?4.6%,而非歧義查詢?yōu)?5.4%。圖3表明查詢詞歧義與否對于用戶查詢滿意度的評判存在明顯的影響,對于查詢需求越明確的查詢,用戶查詢滿意度越高。
用戶根據(jù)自身信息需求,瀏覽查詢結(jié)果,并對認為與信息需求相關(guān)的查詢結(jié)果進行點擊。通常情況下,用戶的平均點擊次數(shù)為2.0~2.5次[2]。為研究結(jié)果點擊次數(shù)與用戶查詢滿意度評價的關(guān)系,本文統(tǒng)計了不同平均結(jié)果點擊次數(shù)下,用戶查詢滿意度的變化情況。
通常意義上,導航類查詢點擊次數(shù)為1。盡管如此,因為導航類查詢只占20%[13],80%的查詢?yōu)榉菍Ш筋?,其點擊次數(shù)大于1。由圖4用戶查詢滿意度隨點擊次數(shù)的變化情況,本文發(fā)現(xiàn),點擊次數(shù)越多,用戶滿意查詢所占的比例越低,也就是說,對于滿意的查詢,用戶的點擊次數(shù)相對較少,而點擊次數(shù)越多,用戶越傾向于不滿意。這種現(xiàn)象一方面因為對于能使用戶滿意的查詢,搜索引擎必然是能夠提供較好結(jié)果列表,用戶所需的點擊次數(shù)較少;另一方面,用戶點擊次數(shù)越多,表明用戶越需要花更多的代價來獲取滿意的結(jié)果,用戶對于整個搜索過程越不滿意。
圖4 查詢點擊次數(shù)對用戶查詢滿意度的影響
用戶點擊位置的變化,在一定程度上反應(yīng)用戶需要花費多大的代價來滿足自身的信息需求,同時也影響著用戶對于用戶查詢滿意度的評價。本節(jié)將探討平均點擊位置的變化對用戶查詢滿意度的影響。
本文分別統(tǒng)計了用戶評價“滿意”與“不滿意”的查詢數(shù)目在不同平均點擊位置下占整個查詢數(shù)目的比例,圖5統(tǒng)計了平均點擊位置從1到7所對應(yīng)的查詢數(shù)目比例的分布情況。
圖5 查詢平均點擊位置對用戶查詢滿意度的影響
無論是對于“滿意”查詢還是“不滿意”查詢,平均點擊位置越靠后,查詢所占的比例越少,也和通常的“懶人原則”相符合,也就是說用戶總是希望通過最少的努力獲取最好的結(jié)果。從圖5,本文發(fā)現(xiàn),對于平均點擊位置少于4時,用戶“滿意”查詢數(shù)目所占比例要普遍高于“不滿意”查詢數(shù)目所占比例,而當平均點擊位置大于等于4時,用戶對于查詢的不滿意比例普遍要高于“滿意”查詢比例。這也說明了對于滿意的查詢,用戶只點擊了位置靠前的幾個文檔,而用戶的點擊位置越靠后,用戶查詢滿意度越低。
本文主要研究搜索引擎用戶行為與用戶查詢滿意度之間的關(guān)聯(lián)關(guān)系,分析了不同搜索引擎用戶查詢滿意度的差異,通過研究用戶查詢行為的不同特征,分析了查詢詞頻度、查詢詞歧義等對用戶查詢滿意度的影響。此外,本文從用戶點擊行為幾個不同的群體行為特征出發(fā),分別分析了查詢點擊次數(shù)以及查詢點擊位置等對用戶查詢滿意度評價的影響。從上面的用戶行為與用戶滿意度關(guān)聯(lián)研究,本文發(fā)現(xiàn):
(1) 不同的搜索引擎對于同一批查詢,用戶整體的查詢滿意度存在差異。與此同時,本文發(fā)現(xiàn)兩個搜索引擎的用戶滿意度均只有75%左右,這也說明了搜索引擎從提高用戶查詢體驗上,依舊還有很大的提升空間;
(2) 對于用戶的查詢行為,用戶使用的查詢詞頻度越高,用戶越能夠獲得滿意的查詢體驗,而對于越冷門查詢,用戶的查詢滿意度越低,這也說明了搜索引擎在提高冷門查詢的檢索性能上還需要加強;同時研究發(fā)現(xiàn),搜索引擎也需要提升對歧義查詢的檢索性能;
(3) 對于用戶的點擊行為,本文發(fā)現(xiàn)用戶點擊次數(shù)越少,用戶查詢滿意度越高,點擊次數(shù)為2的用戶查詢滿意度最高。而對于用戶滿意的查詢,用戶平均點擊位置都比較靠前,對于平均點擊位置大于3時,用戶查詢“不滿意”的概率要普遍大于“滿意”的概率。
用戶行為是承載用戶與搜索引擎查詢交互行為的重要媒介,用戶的查詢體驗直接反應(yīng)在用戶的交互行為數(shù)據(jù)中。本文通過專門的實驗設(shè)計,利用宏觀用戶行為分析的方法,獲得了一些有關(guān)用戶行為特征與用戶查詢滿意度的重要關(guān)聯(lián)關(guān)系。由于實驗用戶群體背景單一性的限制,進一步改進被試人員群體背景的多樣性,并通過這些重要的關(guān)聯(lián)關(guān)系,構(gòu)建一種自動評價用戶查詢滿意度的方法是本文下一步工作的方向。
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心,中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告(2013年1月)[DB/OL]. http://www.cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201301/P020130122600399530412.pdf.
[2] 馬少平, 劉奕群, 劉健,等. 中文搜索引擎用戶行為的演化分析[J],中文信息學報, 2011, 25(6):90-97.
[3] 余慧佳, 劉奕群, 張敏,等. 基于大規(guī)模日志分析的網(wǎng)絡(luò)搜索引擎用戶行為研究[J],中文信息學報, 2007, 21(1): 109-114.
[4] 岑榮偉, 劉奕群, 張敏,等. 基于日志挖掘的搜索引擎用戶行為分析[J],中文信息學報, 2010, 24(3): 49-54.
[5] Jane R. A task-oriented non-interactive evaluation methodology for information retrieval systems. Information Retrieval[J],2000, 2(1):115-129.
[6] Amanda S. A user-centered approach to evaluating human interaction with web search engines: an exploratory. Process Manage[J], 2002, 38(3):401-406.
[7] Scott B H, Michael H. How well does result relevance predict session satisfaction[C]//Proceedings of SIGIR 2007, 2007, 24(3):567-573.
[8] Ahmed H, Yang S, Li-wei H. A task level metric for measuring web search satisfaction and its application on improving relevance estimation[C]//Proceedings of CIKM 2011, October 24-28, Glasgow, 2011: 125-134.
[9] 王惠. 搜索引擎用戶滿意度研究[J],圖書情報研究, 2009, 4(2):33-37.
[10] 朱彤,劉奕群,張敏,等. 基于用戶行為的長查詢用戶滿意度分析[C]. 第六屆全國信息檢索學術(shù)會議論文集,CCIR’10. 2010.
[11] Yiqun Liu, Junwei Miao, Min Zhang, et al. How Do Users Describe Their Information Need: Query Recommendation based on Snippet Click Model[J], Expert Systems With Applications, 2011, 38(11): 13847-13856.
[12] Bo Zhou, Min Zhang, Shaoping Ma, et al. Log-Mining Based Query Spelling Correction for Chinese Search Engines[J], Journal of Computational Information Systems, 2009, 5(3): 1225-1234.
[13] Broder A. A taxonomy of Web search[C]//Proceedings of SIGIR Forum 36, 2002: 3-10.
[14] Cohen’s Kappa. Wikipedia, The Free Encyclopedia[DB/OL]. http://en.wikipedia.org/wiki/Cohen’s_kappa.