• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于相似度的混合推薦方法

      2015-06-05 08:56:50胡三寧
      關(guān)鍵詞:標簽聚類個性化

      ◎胡三寧

      (三門峽職業(yè)技術(shù)學(xué)院教務(wù)處,河南三門峽472000)

      一種基于相似度的混合推薦方法

      ◎胡三寧

      (三門峽職業(yè)技術(shù)學(xué)院教務(wù)處,河南三門峽472000)

      提出了一種基于用戶興趣及標簽相似度的混合推薦算法,構(gòu)建基于標簽的用戶興趣模型,通過計算與資源相似度完成推薦,同時融合時間因素研究用戶興趣變化,提高了基于內(nèi)容的推薦中相似度計算的準確率;根據(jù)用戶興趣相似度聚類用戶,通過興趣協(xié)同推薦減少對評分矩陣的依賴,一定程度上解決了協(xié)同過濾中推薦數(shù)據(jù)缺失問題;同時,結(jié)合用戶基本信息有望緩解冷啟動問題。實驗表明該算法具有一定的有效性及可行性。

      用戶興趣;標簽;相似度;混合推薦

      在Web技術(shù)高速發(fā)展的今天,互聯(lián)網(wǎng)上的信息呈指數(shù)級劇增[1]。然而面對海量的、分散的數(shù)字化資源,渴望進行網(wǎng)絡(luò)學(xué)習(xí)的用戶卻往往無法準確獲得滿足其需要的資源。即盡管“資源海洋”表現(xiàn)為“信息過載”,但由于海量資源與學(xué)習(xí)者個性化需求之間存在的較大的供需矛盾,仍不可避免的造成了有用信息的“匱乏”[2]。為解決這一矛盾,個性化推薦技術(shù)應(yīng)用而生,并逐漸成為領(lǐng)域研究熱點。筆者在總結(jié)現(xiàn)有個性化推薦技術(shù)的基礎(chǔ)上,提出一種基于用戶及標簽相似度的混合推薦方法。經(jīng)過實驗驗證,該方法具有一定的可行性。

      1 個性化推薦技術(shù)

      文獻[3]給出推薦系統(tǒng)的非形式化概念:“利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助客戶完成購買過程?!毕鄳?yīng)的,文獻[4,5,6]給出推薦系統(tǒng)的形式化定義:設(shè)C是所有用戶(user)的集合,S是所有可以推薦給用戶的對象(object)的集合,實際中,C和S集合的規(guī)模通常很大,如上百萬的顧客以及上億種歌曲等。設(shè)效用函數(shù)u()可以計算對象s對用戶c的推薦度(如提供商的可靠性和產(chǎn)品的可得性等),即u:C×S→R,R是一定范圍內(nèi)的全序的非負實數(shù),推薦要研究的問題就是找到推薦度R最大的那些對象S*,如式(1):

      綜合兩種理解可以發(fā)現(xiàn),個性化推薦旨在通過建立用戶與產(chǎn)品之間的二元關(guān)系,利用規(guī)則計算或挖掘用戶的潛在興趣對象,從而進行個性化推薦,其本質(zhì)仍為信息過濾[7,8]。隨著互聯(lián)網(wǎng)的發(fā)展,個性化推薦的應(yīng)用范圍不斷擴展,但一個完整的推薦系統(tǒng)主要可抽象為三部分[5,6,7],分別是用戶建模模塊、推薦對象建模模塊、推薦算法模塊。

      整個推薦過程可描述為:通過用戶的基本信息及歷史行為記錄進行用戶建模,抽象出用戶的潛在興趣模型;結(jié)合領(lǐng)域特征,提取推薦對象特征;結(jié)合推薦算法,完成用戶需求與推薦對象的有效對接,最終實現(xiàn)個性化推薦。

      進一步的,根據(jù)側(cè)重內(nèi)容的不同,推薦算法可以分為基于規(guī)則的推薦、基于內(nèi)容的推薦、協(xié)同過濾以及混合推薦等四種[5,7,9]。其中,基于規(guī)則的推薦以關(guān)聯(lián)規(guī)則為基礎(chǔ),以知識推理為目標,但規(guī)則發(fā)現(xiàn)及推理演化效率較低;基于內(nèi)容的推薦源于信息的檢索與過濾,重點與難點均是用戶與內(nèi)容間的特征提取與匹配;協(xié)同過濾采用最近鄰策略,但依賴于用戶對資源的評分;混合推薦采取多種推薦方法的組合,以彌補單一推薦技術(shù)的弱點。

      個性化推薦自被提出,得到了廣泛關(guān)注與發(fā)展。文獻[1]提出二分網(wǎng)絡(luò)協(xié)同過濾算法,結(jié)合灰色關(guān)聯(lián)相似度實現(xiàn)個性化推薦;文獻[2]采用基于二部圖的協(xié)同推薦,整合協(xié)同標注中標簽的潛在語義進行音樂推薦;文獻[9]通過分析用戶行為模式及瀏覽內(nèi)容,提出基于用戶行為的興趣度模型,并采用EM算法聚類興趣相似用戶進行協(xié)同推薦;文獻[10]利用統(tǒng)計分析構(gòu)建用戶偏好模型,進而結(jié)合網(wǎng)絡(luò)推薦模型進行線性組合推薦。文獻[11]通過單值分解對評分矩陣進行降維處理,利用近鄰粗糙集理論獲取最近鄰居,最終提出一種基于最近鄰居的協(xié)同過濾推薦算法。

      2 基于相似度的混合推薦算法

      2.1 推薦對象特征建模

      獲取結(jié)構(gòu)化資源的內(nèi)容特征可以采用TF-IDF等特征提取技術(shù),而對于半結(jié)構(gòu)化、非結(jié)構(gòu)化資源的特征提取,社會化標簽出現(xiàn)為其提供了一種行之有效的解決途徑。

      協(xié)同標注的標簽(Tag)含有豐富的信息描述對象內(nèi)容[2],即由用戶標注的標簽Tagi可以作為資源的特征,多個標簽即可構(gòu)成該資源的特征向量Vres={Tag1,Tag2,…,Tagn}。

      在實際推薦過程中發(fā)現(xiàn),多個標簽之間存在同義及近義現(xiàn)象;盡管不同標簽含有不同詞義,但仍存在較強的語義相關(guān)性。采用互信息衡量標簽Tagi與Tagj間相似度Sim(Tagi,Tagj),具體如式(2)所示:

      其中,P(Tagi)、P(Tagj)分別表示標簽Tagi、Tagj所在文檔中出現(xiàn)的概率;P(Tagi,Tagj)為Tagi與Tagj同時出現(xiàn)在同一文檔的概率。相似度較高的標簽之間,具有較大的語義相關(guān)性,在興趣推薦過程中,更容易獲得目標用戶的關(guān)注。

      進一步的,資源Resp與Resq之間的相似度定義為其所含標簽間的相似度之和,具體如式(3):

      其中,Tagi,Tagj分別Resp與Resq的項。

      2.2 用戶興趣建模

      用戶興趣是推薦系統(tǒng)的需求驅(qū)動,文獻[9,12,13]針對用戶興趣挖掘進行了大量研究。其中,文獻[9]定義了11種用戶瀏覽行為,并選取7種構(gòu)建用戶的興趣行為集合;文獻[12]采用基于本體論及概率頻繁興趣簇的用戶模型并引入興趣衰減;文獻[13]引入局部興趣相似指導(dǎo)用戶建模。

      考慮到推薦系統(tǒng)實時性、可操作性要求,采用基于向量空間的用戶模型。根據(jù)用戶歷史記錄,主要關(guān)注用戶的關(guān)鍵字檢索及瀏覽歷史等。用戶針對關(guān)鍵字的檢索所表現(xiàn)出的是對該關(guān)鍵字key具有較高的關(guān)注,可以抽象為<關(guān)鍵詞,瀏覽次數(shù)>二元組,而對資源(主題title)的瀏覽可以進一步抽象為<主題,駐留時間>二元組。通常意義上,檢索次數(shù)愈多、駐留時間愈長,表明用戶對該資源愈感興趣。即用戶檢索及瀏覽歷史可分別用向量V(searchinfo)、V(browseInfo)、表示:

      其中,為所檢索關(guān)鍵字及其權(quán)重構(gòu)成的向量,且某關(guān)鍵字keyi權(quán)重由檢索該關(guān)鍵字的次數(shù)numi在整個檢索過程總次數(shù)中的比確定,即

      由用戶瀏覽的信息titlei及該條信息的權(quán)重組成,瀏覽某信息titlej的權(quán)重為瀏覽該信息占總瀏覽時間的比,即

      而結(jié)合資源由標簽標注,將關(guān)鍵詞key、主題title替換為標簽Tag,同時經(jīng)歸一化處理,用戶的興趣向量可以表示為Vu={<Tag1,w1>,<Tag2,w2>,…,<Tagm,wm>}。

      考慮到用戶興趣是隨時間變化的量,且用戶最近的興趣更能反映其當(dāng)前需求[14]。引入時間函數(shù)標識用戶的興趣演化,可以更準確的衡量當(dāng)前資源對目標用戶當(dāng)前興趣需求的契合程度。因此,在用戶檢索及瀏覽過程中,必須考慮時間對Tag權(quán)重的影響。通過式(7)衡量時間對用戶興趣的效用衰減:

      其中,ti為Tagi標簽發(fā)生時刻,to為時間原點,δ為衰減因子。

      2.3 基于相似度的混合推薦算法

      協(xié)同推薦依賴于評分矩陣,而當(dāng)評分數(shù)據(jù)過于稀疏甚至缺失時,將影響近鄰用戶的挖掘。為解決該問題,采用基于用戶行為相似度的聚類。監(jiān)督學(xué)習(xí)需要人工干預(yù),而無監(jiān)督學(xué)習(xí)準確率偏低,故筆者采用KMeans與SVM相結(jié)合的方法,同時引入GSA計算質(zhì)點間相互作用,具體算法描述及流程圖如下:

      算法3-1.用戶聚類分析算法

      輸入:用戶興趣向量

      輸出:聚類完成的k個簇識別與標記離群點,剩余點執(zhí)行(2);利用文獻[15]中提出算法得出最佳聚類數(shù)k;利用KMeans算法進行聚類,至滿足終止條件;根據(jù)GSA計算質(zhì)點與當(dāng)前簇之質(zhì)心的相互作用,標記作用最強的數(shù)據(jù)作為訓(xùn)練樣本;通過SVM對樣本數(shù)據(jù)進行分類,從而得到SVM分類器;利用上一步得到的SVM分類器對原數(shù)據(jù)(包含(1)的離群點)重新分類。

      其中,因KMeans對離群點極為敏感,故在(1)中,采用基于密度的離群噪聲點檢測[16]標記離群點。步驟(3)中定義的終止條件(或目標函數(shù))為:簇中心不變,或最小化對象到其所在簇的質(zhì)心的距離平方和,即滿足式(9)時,停止聚類。

      獲取了資源的特征向量Vres、用戶的興趣向量Vu,用戶興趣與資源特征間的相似度(S)定義為:

      其中,Tagi,Tagj分別Vres及Vu的項,Wj為用戶對標簽,Tagj的興趣權(quán)重。

      進一步結(jié)合相似用戶的聚類,算法3-2給出基于相似度的混合推薦算法偽代碼:

      算法3-2.基于相似度的混合推薦算法

      即對用戶Ui,計算其與資源Resj(1≤j≤m)的相似度S;取與Ui具有S最大的、且大于閾值φ的w個資源向其推薦;若滿足條件的資源count<w,則補增與該count個資源相似度大于閾值θ的資源,直至w個;若資源數(shù)仍少于w,則補增與該用戶最相似用戶的興趣資源向其推薦,直至w個。其中,資源Resj(1≤j≤m)為聚類后該簇用戶感興趣的資源集合,通過縮小用戶的興趣范圍,減少相似度計算,從而提高算法的實時性。閾值φ的設(shè)定,旨在最大限度地保證推薦結(jié)果的準確率。推薦資源的補增按照相似資源-相似用戶的順序排列,主要考慮用戶潛在興趣對資源內(nèi)容更加關(guān)注。

      3 實驗與分析

      以某學(xué)習(xí)資源推薦系統(tǒng)數(shù)據(jù)為基礎(chǔ),從正確推薦數(shù)C、準確率P、召回率R、推薦覆蓋率COV等[8,17]方面,結(jié)合以下三種算法進行比較:

      (1)Base_Com:根據(jù)用戶注冊信息聚類而進行的推薦;

      (2)Act_Com:根據(jù)用戶歷史行為聚類而進行的推薦;

      (3)HAS_Com:筆者提出基于相似度的混合推薦算法。

      進一步的,為更準確的評價系統(tǒng)推薦結(jié)果,系統(tǒng)在引入標簽機制的基礎(chǔ)上,允許用戶對資源按5分制[18]進行評分,以作為用戶對該資源感興趣程度。下表給出三種實驗方法在向系統(tǒng)用戶推薦資源的平均結(jié)果對比。

      鑒于該系統(tǒng)使用面向?qū)I(yè)、主題明確,故區(qū)別于其他三個指標,COV定義為聚類后簇內(nèi)用戶推薦資源所占系統(tǒng)內(nèi)全部資源的比例。但由下表可知,盡管筆者提出的方法在準確率與召回率等方面較Base_Com、Act_Com均有改善,但基于用戶興趣的聚類導(dǎo)致推薦多樣性的降低及覆蓋率的降低。

      表3 Top20實驗結(jié)果

      4 結(jié)束語

      筆者提出的基于相似度的混合推薦算法,通過用戶行為挖掘構(gòu)建基于標簽的興趣模型,結(jié)合社會化標簽、引入標簽相似度概念,融合時間影響以考慮用戶興趣變化,提高了基于內(nèi)容的推薦中相似度計算的準確率;而根據(jù)興趣相似度進行協(xié)同推薦,使得推薦不局限于評分矩陣,一定程度上解決了協(xié)同過濾中推薦數(shù)據(jù)集稀疏及缺失的問題。若結(jié)合用戶注冊信息,可以緩解冷啟動問題。實驗表明,該算法在準確率、召回率等方面具有良好表現(xiàn)。在今后的工作中,將重點研究用戶潛在興趣變化,并在保證算法準確率的基礎(chǔ)上提高推薦的覆蓋率。

      [1]李霞,李守維.面向個性化推薦系統(tǒng)的二分網(wǎng)絡(luò)協(xié)同過濾算法研究[J].計算機應(yīng)用研究,2013,30(7):1946-1949.

      [2]李瑞敏,林鴻飛,嚴俊,等.基于用戶-標簽-項目的語義挖掘的個性化音樂推薦[J].計算機研究與發(fā)展, 2014,51(10):2270-2276.

      [3]R esn ickP,Varian HR.Recommendersystems[J].Communications ofthe ACM,1997,40(3):56-58.

      [4]Ad o mavicius G,Tuzhilin A.Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].Daa,2005,17(6):734-749.

      [5]許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報,2009,20(2):350-362.

      [6]王國霞,劉賀平.個性化推薦系統(tǒng)綜述[J].計算機工程與應(yīng)用,2012,48(7):66-76.

      [7]劉建國,周濤,汪秉宏,等.個性化推薦系統(tǒng)的研究進展[J].自然科學(xué)進展,2009,19(1):1-15.

      [8]劉建國,周濤,郭強,等.個性化推薦系統(tǒng)評價方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,6(3):1-10.

      [9]王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度模型[J].計算機工程與應(yīng)用,2012,48(8):148-151.

      [10]張新猛,蔣盛益,李霞,等.基于網(wǎng)絡(luò)和標簽的混合推薦算法[J].計算機工程與應(yīng)用,2015,51(1):119-124.

      [11]李慧,胡云,李存華,等.基于近鄰關(guān)系的個性化推薦算法研究[J].計算機工程與應(yīng)用,2012,48(36):205-209.

      [12]石林,徐飛,徐守坤.基于用戶興趣建模的個性化推薦[J].計算機應(yīng)用與軟件,2013,30(12):211-214.

      [13]吳發(fā)青,賀樑,夏薇薇,等.一種基于用戶興趣局部相似的推薦算法[J].計算機應(yīng)用,2008,28(8):1981-1985.

      [14]趙婷,肖如良,孫聰,等.融合時間綜合影響的輪盤賭游走個性化推薦算法[J].計算機應(yīng)用,2014,34(4):1114.

      [15]周世兵,徐振源,唐旭清,等.Kmeans算法最佳聚類數(shù)確定方法[J].計算機應(yīng)用,2010,30(8):1995-1998.

      [16]張毅,劉旭敏,關(guān)永,等.基于密度的離群噪聲點檢測[J].計算機應(yīng)用,2010,30(3):802-805.

      [17]朱郁筱,呂琳媛.推薦系統(tǒng)評價指標綜述[J].電子科技大學(xué)學(xué)報,2012,41(2):163-175.

      (責(zé)任編輯 卞建寧)

      TP391

      A

      1671-9123(2015)02-0140-05

      2015-02-11

      胡三寧(1983-),男,河南洛寧人,三門峽職業(yè)技術(shù)學(xué)院教務(wù)處教師。

      猜你喜歡
      標簽聚類個性化
      堅持個性化的寫作
      文苑(2020年4期)2020-05-30 12:35:12
      新聞的個性化寫作
      新聞傳播(2018年12期)2018-09-19 06:27:10
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      上汽大通:C2B個性化定制未來
      標簽化傷害了誰
      基于改進的遺傳算法的模糊聚類算法
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      永吉县| 五台县| 随州市| 通州区| 滕州市| 岑溪市| 互助| 靖远县| 黄陵县| 碌曲县| 阿坝| 广河县| 友谊县| 宜阳县| 济阳县| 赞皇县| 岢岚县| 苏尼特左旗| 平南县| 揭阳市| 涪陵区| 华宁县| 天柱县| 武汉市| 全南县| 阿尔山市| 苏尼特左旗| 呈贡县| 贡觉县| 安阳县| 黎城县| 陇南市| 宁都县| 冀州市| 芒康县| 安阳市| 广元市| 宜黄县| 玉树县| 鸡泽县| 郁南县|