• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Skyline Query的高聲譽(yù)用戶識(shí)別方法研究

      2019-01-03 08:02:06劉曉露賈書(shū)偉王建民
      關(guān)鍵詞:聲譽(yù)支配度量

      劉曉露,賈書(shū)偉,王建民

      (1.復(fù)旦大學(xué)a.經(jīng)濟(jì)學(xué)院,b.泛海國(guó)際金融學(xué)院,上海 200433;2.河南農(nóng)業(yè)大學(xué)信息與管理科學(xué)學(xué)院,鄭州 450002;3.安徽理工大學(xué)經(jīng)濟(jì)與管理學(xué)院,安徽淮南 232001)

      0 引言

      準(zhǔn)確評(píng)估用戶聲譽(yù)對(duì)在線評(píng)分系統(tǒng)的產(chǎn)品質(zhì)量排名具有重要意義[1-3]。隨著科學(xué)技術(shù)的發(fā)展,許多在線網(wǎng)站都使用評(píng)分系統(tǒng),用戶在網(wǎng)上瀏覽、購(gòu)買(mǎi)產(chǎn)品后,可以根據(jù)產(chǎn)品的質(zhì)量對(duì)產(chǎn)品的體驗(yàn)給出一個(gè)打分[4-5]。由于系統(tǒng)中用戶的不誠(chéng)實(shí)或不熟悉,通過(guò)簡(jiǎn)單地對(duì)評(píng)分取平均來(lái)排列產(chǎn)品可能不那么準(zhǔn)確[6-7]。因此,建立用戶聲譽(yù)系統(tǒng)是非常重要的一環(huán)[8-10]。本文給出在線評(píng)分系統(tǒng)中的聲譽(yù)(reputation)的定義:一個(gè)用戶的聲譽(yù)是在特定的時(shí)間段和上下文環(huán)境中,依據(jù)用戶對(duì)產(chǎn)品的歷史評(píng)分,對(duì)該用戶可以對(duì)相應(yīng)產(chǎn)品做出準(zhǔn)確評(píng)價(jià)(符合大眾認(rèn)知)的感知?;谟脩魧?duì)產(chǎn)品的評(píng)分對(duì)用戶聲譽(yù)的研究近幾年取得了非常顯著的成果。目前三種主要的用戶聲譽(yù)度量方法有:聲譽(yù)和質(zhì)量不斷迭代的方法[6,11-16]、分組方法[17-18]和貝葉斯方法[19]。聲譽(yù)和質(zhì)量不斷迭代的方法中用戶聲譽(yù)和產(chǎn)品質(zhì)量是相互影響、相互依賴的;在分組方法和貝葉斯方法中,用戶聲譽(yù)通過(guò)評(píng)分計(jì)算得到,不依賴于產(chǎn)品質(zhì)量。

      不同的方法從不同角度對(duì)用戶聲譽(yù)進(jìn)行度量,同時(shí)不同方法度量用戶聲譽(yù)和產(chǎn)品質(zhì)量的效果也是不同的。如何綜合不同方法的結(jié)果對(duì)用戶聲譽(yù)有一個(gè)總體的認(rèn)識(shí)是一個(gè)很重要的問(wèn)題,最直接的處理方法就是給每一個(gè)度量方法的結(jié)果賦予一個(gè)權(quán)重,用權(quán)重平衡每一種方法的聲譽(yù)結(jié)果,最終得到一個(gè)加權(quán)平均的用戶聲譽(yù)。然而,這樣處理的前提是每個(gè)方法的聲譽(yù)值是可以歸一化的,這樣各個(gè)方法是可比較的。這幾乎是不可能的,因?yàn)橛械姆椒ǖ玫降穆曌u(yù)值是沒(méi)有上限的。同時(shí),每種方法的權(quán)重的設(shè)置沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),隨意的設(shè)置顯然是不合理的。還有一種方法就是解決“排序聚合”問(wèn)題[20-21],選擇適合的調(diào)整方法將不同方法計(jì)算得到的排序列表融合成一種排序結(jié)果,同樣的問(wèn)題是所選取的調(diào)整方法存在是否適合和公平的問(wèn)題。同時(shí),隨著科學(xué)技術(shù)的發(fā)展,在線評(píng)分系統(tǒng)中海量的數(shù)據(jù)被采集和記錄,無(wú)時(shí)無(wú)刻不在增加海量數(shù)據(jù),世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生出來(lái)的,大數(shù)據(jù)時(shí)代的到來(lái)對(duì)在線用戶聲譽(yù)的總體認(rèn)知提出了更多的挑戰(zhàn)。

      海量數(shù)據(jù)爆炸式增長(zhǎng),不同聲譽(yù)度量方法產(chǎn)生不同的排序列表,可以不必生成一個(gè)總的排序列表,根據(jù)不同方法度量得到的用戶聲譽(yù)找到一部分聲譽(yù)高的用戶,這部分用戶不被其他用戶所支配。鑒于此,本文引入有效處理海量數(shù)據(jù)的SkylineQuery的方法來(lái)解決這個(gè)問(wèn)題,提出一種基于Skyline Query的高聲譽(yù)用戶識(shí)別方法,找到的Skyline集合中不被其他用戶所支配的用戶,即為高聲譽(yù)用戶。同時(shí)在實(shí)證數(shù)據(jù)集中分析不同時(shí)間段上得到的集合Skyline中高聲譽(yù)用戶的規(guī)律,實(shí)驗(yàn)結(jié)果表明基于SkylineQuery得到的高聲譽(yù)用戶對(duì)于大家公認(rèn)的質(zhì)量比較高的產(chǎn)品可以給予更高的評(píng)價(jià)。

      1 Skyline Query方法

      Skyline Query(Skyline查詢)是一種典型的多目標(biāo)優(yōu)化的問(wèn)題[22-24],也稱為帕累托最優(yōu)(在不損害他方利益的情況下,自身已達(dá)最優(yōu))或極大向量問(wèn)題。在數(shù)據(jù)庫(kù)領(lǐng)域中,Skyline查詢最早是由Borzsony等[25]在2001年提出,自此一直是研究的熱點(diǎn)之一。Skyline查詢是在給定的n維數(shù)據(jù)集合U中選擇一個(gè)子集,這個(gè)子集中的任何一個(gè)點(diǎn)都不能被U中的其他點(diǎn)所控制,也叫支配。所謂的支配關(guān)系是指U中的兩個(gè)點(diǎn)p和q,p在每一維上都優(yōu)于或等于q,并且p至少在其中某一維上優(yōu)于q,則稱p支配q,這里的優(yōu)于并不是嚴(yán)格意義上的大小,而是根據(jù)實(shí)際需要而定。Skyline查詢返回的是一個(gè)集合,其中的每一點(diǎn)都稱為SP(Skyline Point),這些SP的集合稱為Skyline。

      圖1 飯店的選擇入住的skyline查詢問(wèn)題[25]Fig.1 Skyline query of hotel choice

      Skyline查詢問(wèn)題在生活中是很常見(jiàn)的,如學(xué)校的選擇、股票的選擇、房子的選擇等等。以一個(gè)經(jīng)典的例子——飯店的選擇入住問(wèn)題[25]來(lái)說(shuō)明Skyline方法的應(yīng)用。假設(shè)某個(gè)游客到一個(gè)地方旅游時(shí),想找一家價(jià)格便宜且距海濱近的飯店入住。圖1中的每個(gè)小圓點(diǎn)都代表一家飯店,X軸表示飯店的價(jià)格,單位是美元,Y軸表示飯店到海濱的距離,單位是千米??梢钥闯觯撚慰椭恍枰紤]位于折線上的那些點(diǎn)就可以了。至于不在折線上的點(diǎn),總是可以在折線上找到一點(diǎn),價(jià)格上更便宜或者距海濱更近。折線上的點(diǎn)支配了所有其他不在折線上的點(diǎn),而折線上的點(diǎn)之間不存在支配關(guān)系。位于折線上的點(diǎn)就是Skyline查詢的結(jié)果集。

      下面介紹一下關(guān)于Skyline查詢的定義和性質(zhì)。

      1)支配:給定一組n維空間D中數(shù)據(jù)點(diǎn)的集合U,數(shù)據(jù)集中的任意兩個(gè)點(diǎn)p(p[1],p[2],…,p[n])和q(q[1],q[2],…,q[n]),如果在所有維度上p[i]≥q[i],(1≤i≤n),并且至少在某一維j上p[j]>q[j],則稱p支配q。

      2)Skyline:給定一組n維空間D中數(shù)據(jù)點(diǎn)的集合U,Skyline就是所有不被其他點(diǎn)支配的點(diǎn)的集合。

      Skyline查詢有以下性質(zhì):

      1)反自反:數(shù)據(jù)集U中的兩個(gè)點(diǎn)p(p[1],p[2],…,p[n])和q(q[1],q[2],…,q[n]),如果在所有維度上p[i]=q[i],(1≤i≤n),那么這兩個(gè)點(diǎn)不存在支配關(guān)系。

      2)反對(duì)稱:數(shù)據(jù)集U中的兩個(gè)點(diǎn)p(p[1],p[2],…,p[n])和q(q[1],q[2],…,q[n]),如果p支配q,那么q不支配p。

      3)傳遞性:數(shù)據(jù)集U中的3個(gè)點(diǎn)p(p[1],p[2],…,p[n])和q(q[1],q[2],…,q[n])以及r(r[1],r[2],…,r[n]),如果p支配q,q支配r,那么p支配r。

      Skyline查詢依據(jù)不同的條件從集合中得到候選集合,即滿足人們條件的最佳的結(jié)果集,從結(jié)果集中再根據(jù)自身喜好選擇最想要的結(jié)果。在數(shù)據(jù)庫(kù)領(lǐng)域中,Skyline查詢得到了廣泛的關(guān)注和研究。文獻(xiàn)[24]是對(duì)于數(shù)據(jù)量小、可以放入內(nèi)存時(shí)的Skyline查詢提出的算法。在數(shù)據(jù)量大、無(wú)法放入內(nèi)存的情況下,為準(zhǔn)確高效解決Skyline查詢的問(wèn)題,研究學(xué)者提出了諸多Skyline查詢方法,包括集中式Skyline算法和分布式Skyline算法。其中集中式Skyline算法有塊嵌套循環(huán)算法BN[25]、分治算法D&C[25]、位圖算法Bitmap[26]、最近鄰算法NN[27]、排序過(guò)濾算法SFS[28]、分枝界限算法BBS[29]、BBS+算法[30]等。分布式Skyline算法主要有P2P對(duì)等網(wǎng)絡(luò)環(huán)境下的Skyline算法、Web應(yīng)用環(huán)境下的Skyline算法[31,32]和基于MapReduce的Skyline算法[33,34]。P2P對(duì)等網(wǎng)絡(luò)環(huán)境下的Skyline算法有基于CAN網(wǎng)絡(luò)拓?fù)涞腄SL算法[35]、基于BATON網(wǎng)絡(luò)拓?fù)涞腟SP算法[36]、iSky算法[37]、SSW算法[38]、基于路由索引DDS算法[39]等。

      下面介紹一些本文中基于Skyline查詢方法尋找高聲譽(yù)用戶時(shí)采用的排序過(guò)濾算法SFS[28]:

      1)將所有數(shù)據(jù)先進(jìn)行一次預(yù)排序,當(dāng)數(shù)據(jù)點(diǎn)全部按單調(diào)函數(shù)排序時(shí),排在前面的點(diǎn)便不會(huì)被排在后面的點(diǎn)所支配,提前剪枝掉不可能屬于Skyline結(jié)果的數(shù)據(jù)點(diǎn),此時(shí)數(shù)據(jù)點(diǎn)集合設(shè)為T(mén);

      2)在內(nèi)存中用一個(gè)窗口S保存暫時(shí)不被其它點(diǎn)所支配的點(diǎn),初始設(shè)S=0;

      3)依次遍歷每一個(gè)數(shù)據(jù)點(diǎn),使之與窗口S內(nèi)的所有的點(diǎn)一一比較,最終窗口S中的點(diǎn)集合即為Skyline。

      2 二部分網(wǎng)絡(luò)中聲譽(yù)度量算法

      2.1 聲譽(yù)度量算法

      在復(fù)雜網(wǎng)絡(luò)中,在線評(píng)分系統(tǒng)可以建模成用戶—產(chǎn)品二部分網(wǎng)絡(luò),結(jié)構(gòu)圖如圖2所示。其中有兩類(lèi)節(jié)點(diǎn),圓圈代表用戶,方框代表產(chǎn)品,用戶和產(chǎn)品之間的連線表示用戶對(duì)產(chǎn)品的打分,也可表示用戶瀏覽、購(gòu)買(mǎi)或收藏過(guò)產(chǎn)品。下面介紹目前在線評(píng)分系統(tǒng)中三種主要的用戶聲譽(yù)度量方法:聲譽(yù)和質(zhì)量不斷迭代的方法[6,11-16]、分組方法[17,18]和貝葉斯方法[19]。

      圖2 用戶—產(chǎn)品二部分網(wǎng)絡(luò)的結(jié)構(gòu)圖Fig.2 Structure diagram of the user-object bipartite networks

      1)聲譽(yù)和質(zhì)量不斷迭代的方法。用戶聲譽(yù)和產(chǎn)品質(zhì)量是相互影響、相互依賴的。假設(shè)產(chǎn)品有其內(nèi)在的質(zhì)量,通過(guò)用戶評(píng)分與產(chǎn)品質(zhì)量的關(guān)系(距離或相關(guān)系數(shù))度量用戶的聲譽(yù),再通過(guò)用戶聲譽(yù)和評(píng)分(以用戶聲譽(yù)為權(quán)重)度量產(chǎn)品質(zhì)量,如此迭代直到用戶聲譽(yù)和產(chǎn)品質(zhì)量達(dá)到穩(wěn)定為止。代表性方法有:Iterative refinement algorithm[11](簡(jiǎn)稱IR方法)、Correlation-based ranking algorithm[6](簡(jiǎn)稱CR方法)、Iterative algorithm with reputation redistribution[13](簡(jiǎn)稱IARR方法)、IARR2方法[13]和Iterative ranking algorithm via user activity[16](簡(jiǎn)稱IRUA方法)等。聲譽(yù)和質(zhì)量不斷迭代的方法利用用戶聲譽(yù)和產(chǎn)品質(zhì)量相互依賴的迭代過(guò)程來(lái)計(jì)算,優(yōu)點(diǎn)是計(jì)算用戶聲譽(yù)和產(chǎn)品質(zhì)量的準(zhǔn)確性高,不足之處在于迭代方法的時(shí)間比較長(zhǎng),且這幾種方法在某些數(shù)據(jù)集上不收斂。

      2)分組方法。用戶聲譽(yù)的度量是通過(guò)評(píng)分計(jì)算得到,不依賴于產(chǎn)品質(zhì)量,從打分分組的角度度量聲譽(yù)。通過(guò)評(píng)分分組的方法,把對(duì)某一產(chǎn)品做出相同評(píng)分的用戶分組,用組數(shù)來(lái)表示這一評(píng)分的可信度,每個(gè)用戶的聲譽(yù)用該用戶的每一個(gè)評(píng)分的可信度的均值與標(biāo)準(zhǔn)差的比值來(lái)表示。代表性方法是Group-based method[17](簡(jiǎn)稱GR方法)和Iterative Group-based method[18](簡(jiǎn)稱IGR方法)。GR方法突破了已有迭代方法中用戶聲譽(yù)與產(chǎn)品質(zhì)量相互依賴的思想,提出分組的方法度量用戶的聲譽(yù),計(jì)算時(shí)間較短。缺點(diǎn)是用做出相同評(píng)分的用戶個(gè)數(shù)所占的比例表示這一評(píng)分的可信度容易造成民主暴力,且該方法在度量用戶聲譽(yù)時(shí)只考慮了相同評(píng)分的用戶個(gè)數(shù),沒(méi)有考慮具體的評(píng)分。

      3)基于貝葉斯分析的方法。貝葉斯方法是用概率論來(lái)度量用戶聲譽(yù)。用戶聲譽(yù)表示成一種概率,被評(píng)價(jià)者下次提供滿意服務(wù)/做出合理評(píng)分的概率(表示成參數(shù)θ),用戶聲譽(yù)可以根據(jù)參數(shù)θ的后驗(yàn)分布得到的期望來(lái)度量。參數(shù)θ的后驗(yàn)分布綜合了總體信息,樣本信息和先驗(yàn)信息。二部分網(wǎng)絡(luò)中的代表性方法是Ranking algorithm via the Beta probability distribution[19](簡(jiǎn)稱RBPD方法)。其中每一個(gè)打分用一個(gè)二進(jìn)制來(lái)刻畫(huà):“合理打分”(表示為1)和“不合理打分”(表示為0)。合理打分(Fair rating)的定義是:用戶i對(duì)產(chǎn)品γ有一個(gè)打分riγ,這個(gè)打分將會(huì)被判斷是否與對(duì)產(chǎn)品γ打分的大部分觀點(diǎn)一致,這里的大部分取過(guò)半數(shù)即可。同時(shí),參數(shù)θ的先驗(yàn)概率分布設(shè)定為Beta概率分布。RBPD方法的時(shí)間復(fù)雜度與網(wǎng)絡(luò)規(guī)模(打分總數(shù))呈線性關(guān)系,在處理增量數(shù)據(jù)及大規(guī)模數(shù)據(jù)上可以快速有效地度量用戶聲譽(yù)。略顯不足之處在于度量聲譽(yù)的準(zhǔn)確性與傳統(tǒng)的迭代方法相比差別不大,沒(méi)有明顯的準(zhǔn)確性上的優(yōu)勢(shì)。

      2.2 聲譽(yù)度量方法分類(lèi)

      在上述聲譽(yù)度量方法中,有的方法之間存在聯(lián)系,因此綜合多種聲譽(yù)度量方法進(jìn)行用戶行為分析時(shí),先對(duì)上述幾種方法[6,11,13,16-17,19]用K-means算法來(lái)得到聲譽(yù)度量方法的分類(lèi),選取代表性的算法用于本文的分析。

      2.2.1 數(shù)據(jù)集

      本文為了分析用Skyline查詢識(shí)別高聲譽(yù)用戶的結(jié)果,采用一個(gè)對(duì)電影評(píng)分的網(wǎng)站的數(shù)據(jù)集來(lái)進(jìn)行實(shí)證研究:MovieLens。MovieLens是一個(gè)對(duì)電影進(jìn)行在線評(píng)分的網(wǎng)站(http://www.grouplens.org),用戶可以對(duì)電影進(jìn)行打分,網(wǎng)站可以對(duì)用戶提供個(gè)性化推薦服務(wù)。用戶對(duì)自己瀏覽、收藏過(guò)的產(chǎn)品按照5分制進(jìn)行打分,其中最低分1分表示最不喜歡,最高分5分表示最喜歡。如果用戶看了一部電影并且對(duì)它進(jìn)行了打分,用戶與電影之間就會(huì)產(chǎn)生一條連邊。本文需要分析隨時(shí)間變化的Skyline查詢結(jié)果,選取的MovieLens數(shù)據(jù)集中共包含69878個(gè)用戶、10677個(gè)電影和10000054條打分,時(shí)間跨度為13年,統(tǒng)計(jì)特性如表5-1所示。

      表1 Skyline查詢識(shí)別高聲譽(yù)用戶采用的MovieLens數(shù)據(jù)集的統(tǒng)計(jì)特性Tab.1 Basic statistical properties of the MovieLens date set

      表2 對(duì)聲譽(yù)度量方法進(jìn)行K-means算法聚類(lèi)的結(jié)果Tab.2 The clustering results by K-means for reputation measurement algorithms

      2.2.2 聲譽(yù)度量方法聚類(lèi)結(jié)果

      本文將聲譽(yù)度量算法分為三類(lèi):迭代方法、分組方法和貝葉斯方法。在MovieLens數(shù)據(jù)集上根據(jù)多種聲譽(yù)度量方法(IR、CR、IARR、IARR2、IRUA、RBPD、GR方法)分別進(jìn)行用戶聲譽(yù)度量,根據(jù)得到的各方法上的用戶聲譽(yù)進(jìn)行K-means算法[22]聚類(lèi)的結(jié)果與本文的分類(lèi)一致,K-means算法聚類(lèi)的結(jié)果如表2所示。表2中可以看出,分類(lèi)1有多種方法,從中取一種典型的方法CR方法來(lái)代表這一類(lèi)方法,分類(lèi)2和分類(lèi)3中只有一種方法,所以本文取CR、RBPD和GR方法作為下面分析中用到的用戶聲譽(yù)度量方法。

      3 基于Skyline查詢方法識(shí)別高聲譽(yù)用戶

      3.1 基于Skyline查詢方法識(shí)別高聲譽(yù)用戶基本思想

      本文用CR、RBPD和GR方法分別計(jì)算MovieLens數(shù)據(jù)集上用戶的聲譽(yù),用Skyline查詢的方法找到高聲譽(yù)用戶。其中,每個(gè)用戶可以看成是一個(gè)三維空間的點(diǎn),而三個(gè)維度上的數(shù)據(jù)分別是CR、RBPD和GR方法計(jì)算得到的用戶聲譽(yù)。所有用戶的集合用U表示,Skyline查詢是在用戶集合U中選擇一個(gè)子集,這個(gè)子集中的任何一個(gè)用戶都不能被U中的其他用戶所支配。所謂的支配關(guān)系是指集合U中的兩個(gè)用戶p和q,p在CR、RBPD和GR方法中任意一種方法上得到的用戶聲譽(yù)都高于或等于q,并且p至少在其中某一種方法上得到的用戶聲譽(yù)高于q,則稱p支配q。Skyline查詢返回的集合稱為Skyline,即為高聲譽(yù)用戶。

      3.2 實(shí)證數(shù)據(jù)集中高聲譽(yù)用戶識(shí)別結(jié)果

      Skyline查詢方法采用SFS方法,將MovieLens數(shù)據(jù)集按照時(shí)間標(biāo)以1年為時(shí)間間隔取出多個(gè)數(shù)據(jù)子集,如1997年的數(shù)據(jù)集為1997年之前的打分?jǐn)?shù)據(jù)構(gòu)成的集合;2009年的數(shù)據(jù)集為2009年之前的打分?jǐn)?shù)據(jù)構(gòu)成的集合(總的數(shù)據(jù)集)。這樣從1997年到2009年可以按時(shí)間取出13個(gè)數(shù)據(jù)子集。分別在劃分的數(shù)據(jù)子集上計(jì)算得到的集合Skyline即為不同時(shí)間段上的高聲譽(yù)用戶,如表3所示。從表3可以看出,不同時(shí)間段上得到的集合Skyline中高聲譽(yù)用戶的數(shù)量和用戶都不完全一樣,發(fā)現(xiàn)以下規(guī)律:

      1)會(huì)有新的用戶加入到Skyline中;如2384、3854號(hào)用戶等。

      2)有的用戶會(huì)離開(kāi)Skyline;如71、1466號(hào)用戶等。

      3)Skyline不會(huì)每年都會(huì)有大的變化,而是會(huì)一個(gè)周期變化;大約三四年一個(gè)周期。

      4)有一些用戶一直在Skyline中;如12776號(hào)用戶。

      接下來(lái),類(lèi)似于第三章和第四章中選取數(shù)據(jù)集中的benchmark產(chǎn)品,在本文采用的MovieLens數(shù)據(jù)集中選擇獲得奧斯卡最佳影片獎(jiǎng)提名的電影歸類(lèi)到benchmark產(chǎn)品集合,共選取277個(gè)benchmark產(chǎn)品。benchmark產(chǎn)品是大家公認(rèn)的質(zhì)量比較高的產(chǎn)品,比較Skyline用戶對(duì)benchmark產(chǎn)品打4分或5分的平均比例與所有用戶對(duì)benchmark產(chǎn)品打4分或5分的平均比例[τ],如圖3a所示。從中可以看出,Skyline用戶對(duì)benchmark產(chǎn)品打4分或5分的平均比例高于所有用戶對(duì)benchmark產(chǎn)品打4分或5分的平均比例,表明從集群行為層面來(lái)看,Skyline查詢得到的高聲譽(yù)用戶對(duì)于大家公認(rèn)的質(zhì)量比較高的產(chǎn)品給予更高的評(píng)價(jià)。

      表3的實(shí)驗(yàn)結(jié)果中Skyline查詢中數(shù)據(jù)維度為3,不同維度不同聲譽(yù)度量方法得到的Skyline集合會(huì)有所不同,用兩種聲譽(yù)度量方法(RBPD和GR方法)得到的用戶聲譽(yù)作為用戶在兩個(gè)維度上的數(shù)據(jù)進(jìn)行Skyline查詢得到的集合Skyline(高聲譽(yù)用戶)如表4所示。而用CR和RBPD方法得到的用戶聲譽(yù)作為用戶在兩個(gè)維度上的數(shù)據(jù)進(jìn)行Skyline查詢得到的集合Skyline(高聲譽(yù)用戶)如表5所示??梢钥闯?,表4和表5中的結(jié)果(高聲譽(yù)用戶)中也存在上述四種規(guī)律。而且兩種Skyline結(jié)果中高聲譽(yù)用戶的數(shù)量和用戶也有區(qū)別,可以看出當(dāng)聲譽(yù)度量方法的數(shù)量和方法不同時(shí),Skyline查詢的結(jié)果(高聲譽(yù)用戶)也是不同的。而且,聲譽(yù)度量方法的數(shù)量越多,即Skyline查詢中數(shù)據(jù)維度越大時(shí),得到的集合Skyline中高聲譽(yù)用戶越多。同時(shí),比較表4和表5中的Skyline用戶對(duì)benchmark產(chǎn)品打4分或5分的平均比例與所有用戶對(duì)benchmark產(chǎn)品打4分或5分的平均比例,如圖3b所示,結(jié)果同圖3a結(jié)果一致,表明Skyline查詢得到的高聲譽(yù)用戶對(duì)于大家公認(rèn)的質(zhì)量比較高的產(chǎn)品會(huì)給予更高的評(píng)價(jià)。同時(shí),本文以CR、RBPD和GR方法作為用戶聲譽(yù)度量的代表性算法基于Skyline查詢方法來(lái)識(shí)別高聲譽(yù)用戶,也可以將基于Skyline查詢的高聲譽(yù)識(shí)別推廣到其他聲譽(yù)度量算法,如IR、IARR、IARR2、IRUA方法等。

      圖3 Skyline用戶與所有用戶對(duì)benchmark產(chǎn)品打4分或5分的比例Fig.3 The ratio of rating 4 or 5 to benchmark objets for users in skyline set and all users

      表4根據(jù)RBPD和GR方法計(jì)算得到的用戶聲譽(yù)進(jìn)行Skyline查詢得到的集合Skyline
      Tab.4SkylinesetbasedonuserreputationobtainedbyRBPDandGRmethod

      年份Skyline用戶1997718 358 12 77614 58616 78017 01022 86322 96423 68428 34733 62919982 9037 1499 52011 16013 28614 58616 27317 18033 62950 097199925 42137 09337 54144 48650 0972000712574792 384 3 1729 52011 16012 77613 28614 24215 07316 78016 83219 06737 33720012 384 3 698 5 8197 80410 51411 16012 77614 34016 780 18 75826 6082002712 384 4 35212 776 13 05213 22714 3402003712 384 3 854 5 8197 11811 16012 77613 22714 34020043 854 4 953 7 14410 09812 77613 06631 30620054 953 7 52210 09810 51412 77616 78021 65631 30620067120621129630142747031 30620073 510 5 68631 30631 59835 71637 54156 35620081 652 3 5105 68616 78031 30631 59835 71644 48620091 652 3 510 5 686 9 671 17 19131 306 31 598 35 716 44 486

      表5 根據(jù)CR和RBPD方法計(jì)算得到的用戶聲譽(yù)進(jìn)行Skyline查詢得到的集合SkylineTab.5 Skyline set based on user reputation obtained by CR and RBPD method

      4 結(jié)語(yǔ)

      不同聲譽(yù)度量方法從不同角度對(duì)用戶聲譽(yù)進(jìn)行度量,同時(shí)不同方法度量用戶聲譽(yù)和產(chǎn)品質(zhì)量的效果也是不同的。為了在海量數(shù)據(jù)中綜合不同方法的聲譽(yù)結(jié)果對(duì)用戶聲譽(yù)有一個(gè)總體的認(rèn)識(shí),本文引入Skyline查詢方法綜合不同聲譽(yù)度量方法,將選取的有代表性的算法得到的用戶聲譽(yù)用到Skyline查詢中,找到的集合Skyline(不被其他用戶所支配的用戶)即為高聲譽(yù)用戶。分析不同時(shí)間段上得到的集合Skyline中高聲譽(yù)用戶的規(guī)律,實(shí)證實(shí)驗(yàn)結(jié)果可以看出,得到的Skyline集合受不同維度不同聲譽(yù)度量方法影響。所以選擇合適的聲譽(yù)度量方法應(yīng)用到Skyline查詢中是一個(gè)重要的問(wèn)題。同時(shí),以獲獎(jiǎng)電影作為benchmark產(chǎn)品,發(fā)現(xiàn)Skyline查詢得到的高聲譽(yù)用戶對(duì)于大家公認(rèn)的質(zhì)量比較高的產(chǎn)品會(huì)給予更高的評(píng)價(jià)。本文的工作為在線評(píng)分系統(tǒng)中用戶聲譽(yù)的定性研究提供了一個(gè)新的思路。

      猜你喜歡
      聲譽(yù)支配度量
      有趣的度量
      模糊度量空間的強(qiáng)嵌入
      被貧窮生活支配的恐懼
      意林(2021年9期)2021-05-28 20:26:14
      Top 5 World
      迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
      跟蹤導(dǎo)練(四)4
      基于決策空間變換最近鄰方法的Pareto支配性預(yù)測(cè)
      隨心支配的清邁美食探店記
      Coco薇(2016年8期)2016-10-09 00:02:56
      聲譽(yù)樹(shù)立品牌
      地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
      区。| 大城县| 宽甸| 金沙县| 桐城市| 车致| 南溪县| 若羌县| 蒙自县| 门源| 寻乌县| 英吉沙县| 博爱县| 怀来县| 潜江市| 平潭县| 乡城县| 宾川县| 武功县| 姚安县| 云安县| 岗巴县| 定州市| 黔西| 阿城市| 淅川县| 潼南县| 瑞金市| 永定县| 保靖县| 化州市| 邛崃市| 定远县| 彰武县| 额敏县| 阿勒泰市| 板桥市| 日土县| 南安市| 双桥区| 浦北县|