麥英健
(深圳供電局有限公司,廣東,深圳 518048)
混合推薦算法往往是基于內(nèi)容推薦實(shí)現(xiàn)的,這也造成協(xié)同過(guò)濾推薦的數(shù)據(jù)稀疏性問(wèn)題無(wú)法解決[1]。而稀疏性評(píng)分矩陣與混合推薦算法之間不存在相似性,當(dāng)混合推薦算法與推薦算法的傳統(tǒng)評(píng)級(jí)出現(xiàn)偏差時(shí),用戶相似性協(xié)同內(nèi)容也會(huì)受到影響[2-3]。如果推薦內(nèi)容的相似性存在本質(zhì)區(qū)別,則推薦內(nèi)容出現(xiàn)偏差,個(gè)性化推薦內(nèi)容的準(zhǔn)確率下降,根據(jù)偏差推薦內(nèi)容相似性推薦的內(nèi)容大概率與內(nèi)容特征相悖[4]。因此,除了依靠近鄰小概率點(diǎn)擊計(jì)算內(nèi)容個(gè)性化特征外,還需要篩選個(gè)性化推薦的關(guān)鍵性內(nèi)容,通過(guò)預(yù)測(cè)評(píng)分的準(zhǔn)確性因子確定統(tǒng)計(jì)信息的協(xié)作結(jié)果[5]。
因此,為了保證推薦算法的準(zhǔn)確性,要讓特殊數(shù)據(jù)項(xiàng)與過(guò)濾內(nèi)容保持一致[6]。在推薦內(nèi)容列表中找到內(nèi)容推薦的屬性信息,以屬性信息為基礎(chǔ)制定篩選項(xiàng)目列表的文本內(nèi)容[7]。在統(tǒng)計(jì)信息中不斷增加新的特征因數(shù),利用這些特征因數(shù)確定推薦項(xiàng)目的內(nèi)容。借助推薦內(nèi)容的補(bǔ)充項(xiàng)確定預(yù)測(cè)置信度的屬性信息,在保證推薦項(xiàng)目列表符合同類項(xiàng)基本特征的同時(shí),通過(guò)內(nèi)容推薦重新過(guò)濾準(zhǔn)確率推薦的篩選內(nèi)容,以完成個(gè)性化內(nèi)容的推薦。
文獻(xiàn)[8]更新了模型基礎(chǔ)增量,并提供電子商務(wù)平臺(tái)用戶相異度參數(shù)用于相異度矩陣,根據(jù)電子商務(wù)平臺(tái)用戶模型增量構(gòu)建分布式數(shù)據(jù)增量模型。通過(guò)擴(kuò)展學(xué)習(xí)算法良好的相異度增量,計(jì)算大數(shù)據(jù)推薦的增量?jī)?nèi)容,但缺少對(duì)分布式數(shù)據(jù)擴(kuò)展增量的計(jì)算。文獻(xiàn)[9]針對(duì)混合多因子建立序列模型,并根據(jù)推薦內(nèi)容協(xié)同過(guò)濾出混合多因子,根據(jù)混合多因子稀疏性做出序列建模,提取推薦內(nèi)容的多維度興趣點(diǎn),但缺少對(duì)推薦內(nèi)容相關(guān)性的計(jì)算。文獻(xiàn)[10]通過(guò)個(gè)性化推薦算法構(gòu)建推薦對(duì)象的模型,根據(jù)個(gè)性化推薦算法分析建模的體系結(jié)構(gòu),同時(shí)計(jì)算個(gè)性化結(jié)構(gòu)性能評(píng)價(jià)指標(biāo)的相似性,并根據(jù)性能評(píng)價(jià)指標(biāo)的特征確定推薦內(nèi)容的合理性,但缺少對(duì)推薦系統(tǒng)關(guān)鍵性技術(shù)的總結(jié)。
綜合現(xiàn)有文獻(xiàn)研究,本文計(jì)算了分布式數(shù)據(jù)擴(kuò)展增量,分析推薦內(nèi)容的相關(guān)性,總結(jié)并評(píng)判推薦系統(tǒng)的關(guān)鍵性技術(shù)。據(jù)此建立個(gè)性化內(nèi)容推薦算法持久化層,并完成個(gè)性化內(nèi)容推薦。
優(yōu)化聚類個(gè)性化內(nèi)容簇集劃分結(jié)果的信息量巨大,要計(jì)算劃分結(jié)果的信息量,先要確定個(gè)性化內(nèi)容推薦特征向量。因此,在推薦過(guò)程中首先需要整合現(xiàn)有個(gè)性化內(nèi)容的數(shù)據(jù)特征,同時(shí)利用腳本獲取個(gè)性化信息的調(diào)用內(nèi)容,以部分函數(shù)中的分詞特征為主,清洗過(guò)濾個(gè)性化內(nèi)容推薦特征向量,由此得到強(qiáng)關(guān)聯(lián)性的特征內(nèi)容。
設(shè)個(gè)性化內(nèi)容的向量維數(shù)為k,此時(shí)個(gè)性化內(nèi)容的詞向量維數(shù)為固定數(shù)值,在固定的向量維數(shù)范圍內(nèi)提取特征值。根據(jù)特征值輸入的數(shù)據(jù)大小,確定優(yōu)化聚類的特征值提取結(jié)果,公式如下:
Ci=f(w×xi+h-1+b)
(1)
其中,xi+h-1為優(yōu)化聚類的詞向量,i為目標(biāo)興趣相似度近似的項(xiàng)目編號(hào),h為優(yōu)化聚類的詞向量所屬的項(xiàng)目編號(hào),w為詞向量的特征維度,b為提取的特征維數(shù)。降低優(yōu)化聚類中特征詞向量的維度,并根據(jù)輸出的線性函數(shù)計(jì)算降維的特征相關(guān)性。將特征值提取結(jié)果做分割處理,設(shè)C為Ci中的最大值,則有:
C(n-h+1)/m=[cm+1,cm+2,cm+3,…,c2 m]
(2)
根據(jù)優(yōu)化聚類的特征值總結(jié)特征范圍內(nèi)輸出數(shù)據(jù)的處理結(jié)果,設(shè)定個(gè)性化內(nèi)容特征值窗口步幅大小。針對(duì)步幅的特征信息提取特征值,匹配特征值高度與縮放窗口比例。由此得到優(yōu)化聚類個(gè)性化內(nèi)容推薦的最終輸出數(shù)據(jù)。根據(jù)相同高度的特征值首層數(shù)據(jù),過(guò)濾個(gè)性化內(nèi)容的特征向量,確定過(guò)濾部分神經(jīng)元數(shù)據(jù)的擬合特征。連接個(gè)性化內(nèi)容的步幅內(nèi)容,并整合維度向量與輸出數(shù)據(jù),通過(guò)主要函數(shù)確定設(shè)定取值的連接單元?;诖丝蓮膫€(gè)性化內(nèi)容詞窗口的第一個(gè)詞單位大小,確定詞單位的取值范圍為[1,n-k+1]。在個(gè)性化內(nèi)容詞單位的范圍內(nèi)尋找維度向上的個(gè)性化內(nèi)容偏置項(xiàng),表達(dá)式為c=[c1,c2,…,cn-h+1]。根據(jù)對(duì)應(yīng)個(gè)性化內(nèi)容的連接層元素,將提取的特征拼接成為獨(dú)立的偏置向量,得到偏置向量的表達(dá)式為B=[b1,b2,…,bn-h+1],據(jù)此設(shè)個(gè)性化內(nèi)容連接權(quán)重的表達(dá)式如下:
W=(wi)n×m∈Rn×m
(3)
根據(jù)連接權(quán)重的大小,判斷隱藏在個(gè)性化內(nèi)容中的未知參數(shù),計(jì)算組合長(zhǎng)向量的其他分量,在給定狀態(tài)下確定個(gè)性內(nèi)容推薦特征向量的函數(shù)表達(dá)式如下:
(4)
其中,wi與wj分別為分量組合中的長(zhǎng)向量,bi和bj分別為聯(lián)合分布概率的特征權(quán)重與層內(nèi)連接權(quán)重,Ii(t)為個(gè)性化內(nèi)容推薦項(xiàng)目類別,β為推薦內(nèi)容的信息評(píng)價(jià)指標(biāo)值。根據(jù)個(gè)性化內(nèi)容特征正態(tài)分布的隱藏層,確定單元激活條件與內(nèi)容特征的相關(guān)度,根據(jù)對(duì)稱的輸出向量確定觀測(cè)數(shù)據(jù)的原始輸入樣本。根據(jù)修正參數(shù)不斷橫向比較樣本向量,同時(shí)針對(duì)樣本向量的修正內(nèi)容確定分布采樣的規(guī)律,得到個(gè)性化內(nèi)容層向量的原始輸入樣本集合。在確定誤差分布與采樣效果持平的同時(shí),針對(duì)輸入樣本向量的范圍,重新確定訓(xùn)練樣本的個(gè)性化內(nèi)容參照標(biāo)準(zhǔn),并利用更新的參數(shù)估計(jì)采樣內(nèi)容[11]。在保證計(jì)算采樣內(nèi)容運(yùn)算量不變的前提下,修正處理概率公式得到的個(gè)性化內(nèi)容向量可見(jiàn)層,總結(jié)得到個(gè)性化內(nèi)容推薦特征向量的計(jì)算式如下:
(5)
其中,v為個(gè)性化內(nèi)容屬性編號(hào)的信息向量。利用個(gè)性化內(nèi)容推薦特征向量,構(gòu)建優(yōu)化聚類的個(gè)性化內(nèi)容推薦模型,并計(jì)算個(gè)性化內(nèi)容過(guò)濾參數(shù)。利用輸入樣本向量的大小,根據(jù)計(jì)算個(gè)性化內(nèi)容推薦模型的分布效果,完成對(duì)個(gè)性化內(nèi)容推薦算法的設(shè)計(jì)。
通過(guò)個(gè)性化內(nèi)容推薦特征向量的計(jì)算,完成對(duì)個(gè)性化內(nèi)容特征參數(shù)融合處理,將計(jì)算得到的個(gè)性化內(nèi)容推薦特征向量整合為特征集合,并通過(guò)拼接融合處理個(gè)性化內(nèi)容。利用個(gè)性化內(nèi)容訓(xùn)練集合調(diào)整推薦概率值,針對(duì)出現(xiàn)文本信息特征的內(nèi)容做融合屬性處理,并計(jì)算出推薦概率值排序,確定個(gè)性化內(nèi)容推薦的嵌入式向量。針對(duì)含義相近的特征向量,構(gòu)建個(gè)性化內(nèi)容推薦模型。
根據(jù)個(gè)性化內(nèi)容向量的特征表達(dá),對(duì)嵌入的個(gè)性化內(nèi)容做編碼處理,同時(shí)利用千萬(wàn)量級(jí)的編碼維度計(jì)算個(gè)性化內(nèi)容的稀疏特征。由此得到個(gè)性化內(nèi)容融合特征的表達(dá)式x0=(P(v,h),E(w,b)),將拼接過(guò)的個(gè)性化內(nèi)容融合特征代入特征輸出公式中,如下:
x1=f(Wx0+b1)
(6)
其中,f為拼接特征的激活函數(shù),W為個(gè)性化內(nèi)容連接權(quán)重,b1為提取的特征維數(shù)。由此得到個(gè)性化內(nèi)容推薦輸出層的隱藏矩陣,利用矩陣確定輸出層的損失內(nèi)容。并計(jì)算輸出層損失內(nèi)容的稀疏性,公式如下:
(7)
根據(jù)個(gè)性化內(nèi)容項(xiàng)目特征的指標(biāo)召回強(qiáng)度,判斷屬于個(gè)性化內(nèi)容測(cè)試中的列表位置,根據(jù)個(gè)性化內(nèi)容相關(guān)性結(jié)果確定個(gè)性化內(nèi)容指標(biāo)。按照等級(jí)關(guān)聯(lián)性確定個(gè)性化內(nèi)容推薦集合的歸一化結(jié)果,分別根據(jù)樣本比例確定參考個(gè)性化內(nèi)容的個(gè)性化內(nèi)容推薦模型,公式如下:
P(W1|W1-L,Wx1-(1-L),…,Wx1+L-1,Wx1+L)
(8)
根據(jù)優(yōu)化聚類的個(gè)性化內(nèi)容推薦模型實(shí)現(xiàn)個(gè)性化內(nèi)容推薦。
根據(jù)優(yōu)化聚類的個(gè)性化內(nèi)容推薦模型,對(duì)推薦的個(gè)性化內(nèi)容做過(guò)濾處理,并將處理結(jié)果轉(zhuǎn)化為個(gè)性化預(yù)測(cè)矩陣。根據(jù)相關(guān)度取值波動(dòng),濾除[-1,1]范圍內(nèi)的平均值,整合正負(fù)相關(guān)度不高的個(gè)性化內(nèi)容。根據(jù)個(gè)性化內(nèi)容推薦模型計(jì)算組合分量,并根據(jù)獨(dú)立的單元確定個(gè)性化內(nèi)容的對(duì)稱參數(shù)。保證個(gè)性化參數(shù)特征與原始輸入樣本向量相似的情況下,根據(jù)輸入樣本向量與個(gè)性化內(nèi)容推薦的偏離系數(shù),確定修正參數(shù)的大小。利用輸出向量的可見(jiàn)層參數(shù)重新確定樣本向量,由此得到個(gè)性化內(nèi)容的參數(shù)更新公式,如下:
(9)
其中,g為集合樣本的個(gè)數(shù),a和e分別為隱藏單元中的數(shù)值,η為偏置向量中的初始值,Δa和Δe分別為隱藏層單元數(shù)目的初始值。根據(jù)偏置結(jié)果計(jì)算權(quán)重矩陣中的隨機(jī)數(shù),并根據(jù)偏置初始化的值計(jì)算個(gè)性化內(nèi)容比例,公式如下:
(10)
針對(duì)個(gè)性化內(nèi)容比例確定物品偏好的關(guān)系,通過(guò)分解梯度計(jì)算適合的矩陣因子與收斂模型,根據(jù)個(gè)性化內(nèi)容的推薦排序值做上升數(shù)據(jù),得到分解后的梯度上升公式,如下:
(11)
根據(jù)分解后的梯度上升數(shù)據(jù)篩選個(gè)性化內(nèi)容中的推薦值,根據(jù)個(gè)性化內(nèi)容中的關(guān)鍵詞完成第一輪篩選,設(shè)關(guān)鍵詞的集合為(cd1,cd2,…,cdn),將個(gè)性化內(nèi)容中詞頻較高的部分標(biāo)記為(tf1,tf2,…,tfn),得到優(yōu)化聚類的個(gè)性化內(nèi)容推薦值的計(jì)算式如下:
(12)
其中,cdk為關(guān)鍵詞集合中的值,k為優(yōu)化聚類的個(gè)性化內(nèi)容關(guān)鍵詞出現(xiàn)次數(shù)。按照優(yōu)化聚類的個(gè)性化內(nèi)容推薦值,排列優(yōu)化聚類的個(gè)性化內(nèi)容的序次,并按照序次完成個(gè)性化內(nèi)容推薦。算法實(shí)現(xiàn)偽代碼如下。
輸入:內(nèi)容信息表CUser
輸出:用數(shù)字代表的內(nèi)容信息表NCUser
① 從CUser表中查詢n個(gè)類別內(nèi)容,記為U={u1,…,un}
② For allui∈U
For(j=0;j<3;j++)
分別判斷每個(gè)ui(j)的特征信息
If
ui(j)∈{0-17‖18-24‖25-34‖45-49‖50-55‖56-}
then int flagfirst:={0‖1‖2‖3‖4‖5‖6}
else ifui(j+1)∈{Q‖P}
then int flagfirst:={0‖1}
else ifui(j+2)∈{某一類別}
then int flagfirst:={0‖1‖2‖3}
end if
end if
End
為驗(yàn)證個(gè)性化內(nèi)容推薦算法的功能性,設(shè)計(jì)對(duì)比實(shí)驗(yàn),對(duì)比文獻(xiàn)[8]電子商務(wù)平臺(tái)個(gè)性化推薦強(qiáng)化學(xué)習(xí)算法、文獻(xiàn)[10]基于用戶行為數(shù)據(jù)分析的個(gè)性化推薦算法分析與基于優(yōu)化聚類的個(gè)性化內(nèi)容推薦算法的性能。其中,文獻(xiàn)[8]基于強(qiáng)化學(xué)習(xí)中的內(nèi)容推薦和協(xié)同過(guò)濾2種推薦算法,完成電子商務(wù)平臺(tái)個(gè)性化推薦,文獻(xiàn)[10]基于用戶行為數(shù)據(jù)時(shí)間效應(yīng)的推薦算法,實(shí)現(xiàn)了個(gè)性化推薦算法。
實(shí)驗(yàn)中使用的數(shù)據(jù)集為某數(shù)字博物館中的瀏覽數(shù)據(jù),其中部分?jǐn)?shù)據(jù)信息經(jīng)過(guò)數(shù)字博物館系統(tǒng)處理導(dǎo)出,主要包括部分瀏覽游客的基礎(chǔ)信息和瀏覽內(nèi)容,并包括數(shù)字博物館中藏品的編號(hào)和游客類型等信息。導(dǎo)出獨(dú)立瀏覽游客的瀏覽記錄,并保留瀏覽游客的重復(fù)瀏覽數(shù)據(jù),利用數(shù)據(jù)清洗預(yù)處理瀏覽數(shù)據(jù),如圖1所示。
圖1 清洗預(yù)處理瀏覽數(shù)據(jù)集
統(tǒng)計(jì)數(shù)據(jù)集中的瀏覽數(shù)據(jù),得到瀏覽游客信息2487條,瀏覽藏品基礎(chǔ)信息79 551條,游客瀏覽記錄169 427條。游客類型為1的是登錄實(shí)名游客,游客類型為2的是普通未實(shí)名游客,在測(cè)試集中保留單個(gè)瀏覽游客的一次瀏覽記錄,在訓(xùn)練集中保留該游客剩余的瀏覽記錄。在負(fù)樣本中隨機(jī)抽選數(shù)字博物館中99個(gè)無(wú)關(guān)藏品的信息,與其他游客瀏覽藏品組成測(cè)試樣本100個(gè),排列樣品順序,按照設(shè)定指標(biāo)判斷排序列表的性能。
為保證推薦算法的推薦排序精度,需要衡量推薦元素與個(gè)性化內(nèi)容的相關(guān)性,并根據(jù)推薦結(jié)果的位置,判斷推薦算法的排序質(zhì)量,由此得到衡量推薦算法召回率的指標(biāo),計(jì)算式如下:
(13)
設(shè)訓(xùn)練數(shù)據(jù)集為實(shí)驗(yàn)中的負(fù)樣本,則正樣本為瀏覽游客的瀏覽藏品記錄,分別根據(jù)單獨(dú)游客的瀏覽量,在未被瀏覽的藏品信息中隨機(jī)抽取,經(jīng)過(guò)15輪次的迭代后,分別按照1∶1比例的正負(fù)樣本計(jì)算采樣數(shù)據(jù)集的指標(biāo)大小,如圖2所示。
圖2 正負(fù)樣本比例1∶1的個(gè)性化內(nèi)容推薦召回率
分析圖2可知,基于優(yōu)化聚類的個(gè)性化內(nèi)容推薦算法的個(gè)性化內(nèi)容推薦召回率在負(fù)樣本個(gè)數(shù)為1時(shí)最低為0.42,后隨負(fù)樣本個(gè)數(shù)增多而增多,其個(gè)性化內(nèi)容推薦召回率最高為0.62,較其他算法更趨近于1,因此,基于優(yōu)化聚類的個(gè)性化內(nèi)容推薦算法的推薦效果更精準(zhǔn)。
設(shè)定目標(biāo)推薦內(nèi)容數(shù)量為500條,分別采用文獻(xiàn)[8]算法、文獻(xiàn)[10]算法以及本文方法向目標(biāo)群體進(jìn)行推薦,統(tǒng)計(jì)3種方法推薦500條內(nèi)容的完成時(shí)間,以驗(yàn)證不同算法的復(fù)雜度,如圖3所示。
圖3 個(gè)性化內(nèi)容推薦時(shí)間
分析圖3可知,基于優(yōu)化聚類的個(gè)性化內(nèi)容推薦算法的個(gè)性化內(nèi)容推薦時(shí)間最高為4.5 min,文獻(xiàn)[8]算法和文獻(xiàn)[10]算法的個(gè)性化內(nèi)容推薦時(shí)間高于4.5 min。因此,基于優(yōu)化聚類的個(gè)性化內(nèi)容推薦算法的復(fù)雜度更低,推薦效率更高。
為了提高個(gè)性化內(nèi)容推薦召回率,以博物館數(shù)據(jù)為樣本,研究了基于優(yōu)化聚類的個(gè)性化內(nèi)容推薦算法。經(jīng)過(guò)本文研究,確定了推薦算法與負(fù)樣本的相關(guān)性,在保證迭代次數(shù)不變的情況下,提高了個(gè)性化內(nèi)容特征屬性的提取率。今后應(yīng)繼續(xù)以提高個(gè)性化內(nèi)容推薦效果為目標(biāo),借助導(dǎo)出的推薦數(shù)據(jù)樣本生成推薦列表,分析并處理嵌入式推薦內(nèi)容的關(guān)系特征。