◎劉亞卓 劉海燕 鄭斯文
新聞個性化推薦的模型設(shè)計
◎劉亞卓 劉海燕 鄭斯文
用戶在面對海量新聞時,個性化的推薦系統(tǒng)可以通過分析用戶行為來預(yù)測用戶的閱讀偏好,使其能夠盡快地找到用戶可能感興趣的信息。本文圍繞新聞推薦系統(tǒng)中文本內(nèi)容挖掘和用戶興趣表達(dá)的問題,應(yīng)用混合模型對新聞個性化推薦的模型設(shè)計進行了研究。
隨著網(wǎng)絡(luò)信息化的飛速發(fā)展,信息的數(shù)量和種類均呈爆炸式增長,逐步出現(xiàn)信息過載和泛濫的現(xiàn)象,用戶難以從海量信息中及時找到自己關(guān)注的內(nèi)容。個性化推薦理論和技術(shù)的誕生,為解決該問題提出了很好的解決辦法,它是一種嶄新的智能﹑高效的信息服務(wù)方式,通過分析用戶的歷史行為數(shù)據(jù),預(yù)測用戶可能感興趣的需求,準(zhǔn)確為用戶提供個性化的信息推薦服務(wù)。
新聞的文本特征可以通過新聞隱藏的主題﹑關(guān)鍵詞﹑標(biāo)簽來表示,新聞主題聚類通過LDA挖掘得到。通過LDA主題模型訓(xùn)練出新聞主題分類,以及每篇文本的主題分布和主題的詞分布。實現(xiàn)步驟為先做分詞處理,然后生成向量,根據(jù)向量去做主題聚類。
數(shù)據(jù)預(yù)處理。新聞文本是以網(wǎng)頁html標(biāo)簽的形式存在的,由于格式﹑規(guī)范等各種不一致,通過文本預(yù)處理,轉(zhuǎn)化為計算機可直接處理的規(guī)范化格式。最關(guān)鍵的步驟就是分詞,提取有價值的詞,去除停用詞,降低數(shù)據(jù)維度,為后續(xù)的文本分類工作減輕壓力,提高效率。中文分詞相對英文分詞要復(fù)雜,本文通過現(xiàn)有CJK規(guī)范為每個詞之間插入空格,然后通過Mahout自帶英文分詞技術(shù)完成該過程。
LDA主題聚類模型。LDA是一個三層貝葉斯模型,主題的分布和詞的分布不是確定的,是一種對文本進行無監(jiān)督聚類的方法。假設(shè)文本是由一系列潛在主題隨機混合而成,主題是由詞匯表中所有的詞混合而成,不同文本的主要區(qū)別在于其主題混合比例不同 。在訓(xùn)練集合中,通過LDA模型計算每個文本都包含一個主題數(shù)維度的向量,這個向量表示每個主題在該篇文章中的出現(xiàn)概率,概率越高,這個主題在該文章中的權(quán)重就越大。并通過對每個詞在主題中的概率計算,完成關(guān)鍵詞的概率分布。根據(jù)以上原理計算入庫新聞的主題分布,表示為:z={(主題1,概率1),(主題2,概率2),…,(主題p,概率p)}
混合模型生成。為了更準(zhǔn)確計算新聞的相似性,引入關(guān)鍵詞和標(biāo)簽屬性生成向量。關(guān)鍵詞可以通過TF-IDF(詞頻-逆向文檔頻率)的方法,計算特征詞權(quán)重,表示為:d={(關(guān)鍵詞1,概率1),(關(guān)鍵詞2,概率2),…, (關(guān)鍵詞n,概率n)} ,n代表所有關(guān)鍵詞的個數(shù)。標(biāo)簽屬性按照欄目類別劃分,欄目的新聞內(nèi)容具有一定的相似性,標(biāo)簽向量表示為:t={標(biāo)簽1,標(biāo)簽2,…,標(biāo)簽m} ,m代表所有標(biāo)簽的個數(shù)。
結(jié)合以上內(nèi)容設(shè)計新聞內(nèi)容的混合模型如下所示:M=k1zi+ k2dj+ k3tm(1)其中,k1代表主題模型計算得信息主題特征的權(quán)值,k2代表關(guān)鍵詞特征的權(quán)值,k3代表標(biāo)簽的權(quán)值。
將用戶的隱含主題偏好與關(guān)鍵詞興趣相結(jié)合,考慮新聞的時效性,構(gòu)建完整的個性化興趣偏好的用戶興趣模型,準(zhǔn)確﹑完整的用戶興趣模型可以很好的提高推薦準(zhǔn)確性。用戶興趣模型表示方式為:F={Z,K,T }(2)其中,Z﹑K﹑T分別表示用戶主題偏好向量﹑關(guān)鍵詞權(quán)值序列和新聞標(biāo)簽關(guān)注程度,取值范圍為0到1的實數(shù)。下面對模型的主要內(nèi)容進行介紹:
(1)用戶主題偏好。用戶主題偏好通過訪問過的新聞主題聚類得出,由一組向量表示:Z={主題1,主題2,…,主題y},其中,y代表所有主題的個數(shù),屬性值代表用戶對各主題的偏好程度。
(2)關(guān)鍵詞權(quán)值序列。用戶在瀏覽新聞的過程中,會對含有某些關(guān)鍵詞的新聞感興趣,通過向量空間和TF-IDF計算關(guān)鍵詞的序列及其權(quán)值,表示為:
K={(關(guān)鍵詞1,概率1),( 關(guān)鍵詞2,概率2),…,( 關(guān)鍵詞j,概率j)}
其中,j代表用戶感興趣的關(guān)鍵詞的個數(shù),并用權(quán)值表示用戶對各關(guān)鍵詞的感興趣的程度。
(3)新聞標(biāo)簽關(guān)注程度。用戶對新聞標(biāo)簽的關(guān)注程度由一組向量表示:T={標(biāo)簽1,標(biāo)簽2,…標(biāo)簽q},其中,q代表所有標(biāo)簽的個數(shù),Tc代表用戶對第c個標(biāo)簽的關(guān)注程度,是一個權(quán)值,計算公式表示為:Tc=,So表示用戶對該標(biāo)簽下新聞的閱讀量,S表示用戶全部的閱讀量。
(4)用戶興趣度更新。用戶瀏覽網(wǎng)頁的行為和習(xí)慣反映了用戶的興趣特征,興趣偏好是一個逐漸變化的過程,當(dāng)某一個興趣得不到加強,隨著時間的推移興趣會逐漸減弱,而且很難與用戶偶然性的瀏覽相區(qū)分,通過添加衰減因子更新新聞興趣主題特征權(quán)重的方法更新用戶對新聞主題的新鮮度,公式如下所示:Zi=λ(t)Z′i其中,Zi表示主題i新的權(quán)值;λ(t)為時間衰減因子;Z′i表示其原有權(quán)值。定義用戶的興趣衰減系數(shù)如下公式所示:λ(t)=ek(t-t0)(0<k<1)
k值的大小決定了特征值權(quán)重的衰減速度。k值越大,衰減速度越快。t表示現(xiàn)在訪問時間,t0表示上次訪問時間。
用戶推薦新聞列表由新聞內(nèi)容模型與用戶興趣模型計算向量相似性,通過余弦相似度方法實現(xiàn),計算結(jié)果在0~1之間,結(jié)果越接近1,相似度越大,通過定義一個閾值判斷新聞的推薦結(jié)果。本文定義閾值為0.7,通過有效新聞的推薦效果來驗證閾值是否正確,如果對用戶推薦新聞篇數(shù)過少或者推薦用戶范圍過小,將值調(diào)整為0.6,以此類推進行判斷。
另外,在新聞推薦中,為用戶推薦還未產(chǎn)生興趣偏好的新聞(未通過主題模型計算出的新聞),防止推薦主題過分收斂,增加推薦的多樣性和新穎性?;贗temCF的關(guān)鍵是找到與被訪問新聞a“最近鄰”的相似的新聞b。相似度的值越大,則新聞a與新聞b就越相似,那么在預(yù)測的新聞推薦的過程中,新聞b的評分的權(quán)重值就越大。同樣采用余弦相似度算法來計算新聞之間的相似度。計算結(jié)果按權(quán)值從高到低排序,推薦其中的前3個插入新聞興趣推薦列表中一同給用戶。如果用戶對這類新聞非常感興趣,會隨著用戶的訪問行為改變用戶的主題偏好。
文章簡要描述了一個新聞推薦系統(tǒng)的主要架構(gòu)和模塊,新聞文本特征模型﹑用戶興趣模型和新聞推薦的生成。本文所做的工作十分有限,要進一步完善用戶興趣表達(dá),提高新聞文本主題隱形含義的更精準(zhǔn)表達(dá),滿足用戶對新聞推薦服務(wù)的差異化需求,提高個性化新聞推薦的準(zhǔn)確率及用戶滿意度,還有很多問題有待研究。
陸軍裝甲兵學(xué)院信息管理中心)