藍友樞 張章學(xué)
摘 要:社交網(wǎng)絡(luò)中各種推廣應(yīng)用都依賴于用戶興趣的獲取。用戶興趣獲取方法多種多樣,但大多集中于用戶關(guān)注信息、用戶瀏覽網(wǎng)頁的分析,用戶發(fā)表的語義信息與興趣的潛在聯(lián)系很少被深度發(fā)掘。提出基于標(biāo)簽的話題分割模型,將所有文本轉(zhuǎn)化為帶標(biāo)簽的文本以便聚類。通過分析話題變化狀態(tài)推測用戶興趣遷移狀況,注重社交網(wǎng)絡(luò)用戶興趣及遷移狀況與話題動態(tài)變化過程的潛在關(guān)聯(lián),利用Word2vec對話題進行相似度分析,充分利用詞的上下文信息表征豐富的語義信息,通過分析社交網(wǎng)絡(luò)平臺數(shù)據(jù),得到用戶興趣分布、興趣動態(tài)變化過程以及話題遷移狀況。將結(jié)果進行擬合后發(fā)現(xiàn),用戶的興趣及變化狀況很大程度上取決于用戶發(fā)表的話題。
關(guān)鍵詞:社交網(wǎng)絡(luò);用戶興趣;話題模型
DOI:10.11907/rjdk.172859
中圖分類號:TP302
文獻標(biāo)識碼:A 文章編號:1672-7800(2018)006-0049-04
Abstract:A variety of applications in social network are dependent on user interest. To obtain user interest diversity, a large number of methods are focused on those information that users pay attention or the semantic information is ignored. In this paper, we focus on the social network interest of user and migration status about topics.We obtain the migration status of interest by analyzing the changes of the topics. By Word2vec model similarity of the topic is analysed. This model makes full use of the word context information to characterize semantic information. Then we put forward the model of partition based on topics that convert all texts into tagged texts. Finally, We observe the changes of the topics when interests change. By analyzing the data obtained from the social networking ,we get the distribution of user interest, the dynamic process of interest change and the migration of topics. It is found that topics largely depend on the user's interests.
Key Words:social network; interest; topic model
0 引言
社交網(wǎng)絡(luò)與現(xiàn)實生活越來越重合,而社交網(wǎng)絡(luò)平臺的大量推廣使人們在虛擬網(wǎng)絡(luò)中得到的信息越來越貼合現(xiàn)實需求,主題探測及追蹤技術(shù)旨在找到并追蹤人們感興趣的話題[1],讓人們了解這些信息或事件的后續(xù)發(fā)展,以便用戶能更全面地分析事件[2]。社交網(wǎng)絡(luò)中用戶興趣極為重要,大部分研究都涉及到用戶興趣,例如社交網(wǎng)絡(luò)推薦服務(wù)就是與用戶興趣息息相關(guān)的[3]。對信息傳播而言,若用戶對該信息有興趣,那么傳播率就會很高[4]。因此,用戶興趣獲取是社交網(wǎng)絡(luò)中一切應(yīng)用的基石。
本文采用經(jīng)典的Word2vec話題模型對話題進行相似度分析。話題模型最早產(chǎn)生于1996年,由當(dāng)時美國國防高級研究計劃署(簡稱DARPA)提出,用于判斷在沒有人工干預(yù)的情況下新聞的主題趨勢[5]。隨著技術(shù)的不斷進步,許多研究將概率主題模型用來識別大規(guī)模文檔集或主題信息[6-7]。由于社交網(wǎng)絡(luò)用戶發(fā)表文檔的局限性(簡短且包含許多表情符號),導(dǎo)致傳統(tǒng)的VSM(Vector Space Model,簡稱向量空間模型)無法處理含有該類特性的微博文本[8]。相對于經(jīng)典的潛在語義分析(Latent Semantic Index,簡稱 LSI)[9]、潛在狄立克雷分配(Latent Dirichlet Allocation,簡稱LDA)[10]過程而言,本文采用的模型充分利用詞的上下文信息,能更加豐富地表征語義信息。本文提出了基于標(biāo)簽的話題分割模型,利用標(biāo)簽文本對所有文本進行聚類劃分。在以下兩方面進行研究:①利用話題模型將用戶信息標(biāo)簽化,從而達到簡化信息聚類文本的效果;②采用Word2vec話題模型對話題進行相似度分析,以了解用戶的話題遷移狀況。
1 模型建立
1.1 模型架構(gòu)
為得到用戶話題與興趣的聯(lián)系,需要對用戶發(fā)表的文本信息進行處理,本文采用Word2vec話題模型對用戶發(fā)表的信息進行語義處理。社交網(wǎng)絡(luò)用戶發(fā)表微博的文本存在分類標(biāo)簽,為便于話題聚類,本文建立一個半監(jiān)督話題模型,將所有文本都生成帶標(biāo)簽文本。模型基本原理如圖1所示。從這些話題得到用戶的興趣并根據(jù)話題變化分析用戶的興趣遷移現(xiàn)象。
根據(jù)圖1的基本原理作出以下假設(shè):①任意用戶發(fā)表的文本可存在多個標(biāo)簽,但標(biāo)簽間概率相等;②興趣分為6大類:美食、休閑、時尚、購物、文化、旅游;③聚類允許存在重疊部分。
1.2 Word2vec話題模型建立
Distributed representation 是Word2vec 使用的詞向量表示方式,最早由 Hinton在 1986 年提出[11],目的是通過訓(xùn)練將每個詞映射成K維實數(shù)向量,通過詞與詞之間的關(guān)系判斷它們之間的語義相似度。本文采用連續(xù)詞袋模型(Continuous Bag-of-Word Model, 簡稱CBOW),將每個詞映射成K維實數(shù)向量。
Hierarchical Softmax本質(zhì)是優(yōu)化CBOW的輸出層。傳統(tǒng)的CBOW輸出層利用softmax計算概率值,而Hierarchical Softmax利用Huffman樹計算概率值。Hierarchical Softmax將詞表中的全部詞看成葉子節(jié)點,詞頻作為節(jié)點的權(quán)重,構(gòu)建一棵Huffman樹。Huffman樹是二叉樹,如圖2所示。直觀上可以看出,葉子節(jié)點的權(quán)重越大,該葉子節(jié)點離根節(jié)點越近。因此,對于模型來說,若一個詞的詞頻越高,它距離根節(jié)點就越近。從圖中能發(fā)現(xiàn)它的最優(yōu)路徑是唯一的,Hierarchical Softmax利用最優(yōu)路徑計算指定詞概率。
1.3 聚類分析
社交網(wǎng)絡(luò)中存在帶標(biāo)簽文本,建立一個半監(jiān)督的話題模型是為了將所有文本都生成帶標(biāo)簽文本,以便進行話題聚類,從這些話題中得到用戶興趣,并根據(jù)話題變化分析用戶的興趣遷移現(xiàn)象。
根據(jù)話題間相似度實驗,本文設(shè)置一個初始閾值δ,當(dāng)未標(biāo)簽文本D-i與標(biāo)簽文本D-j之間的相似度大于等于初始閾值δ,就可將未標(biāo)簽文本同化為D-j的同一類標(biāo)簽文本。一直重復(fù)該步驟直到所有文本皆被標(biāo)記,再進行文本間的聚類分析。最后將標(biāo)簽進行大類劃分為美食、休閑、時尚、購物、文化、旅游。
1.4 興趣及話題動態(tài)狀況
社交網(wǎng)絡(luò)用戶的興趣會隨著時間的改變而發(fā)生變化,本文利用用戶關(guān)注信息監(jiān)測用戶興趣狀況,根據(jù)用戶不同時間關(guān)注的用戶列表變化狀況分析用戶興趣變化狀況。用戶興趣變化是一個緩慢的過程,用戶興趣很少會突然發(fā)生改變,因此,本文設(shè)置一個興趣狀態(tài)量表示這個動態(tài)變化過程。設(shè)F-t、L-t、S-t、P-t、C-t、T-t分別是t時刻用戶關(guān)注美食相關(guān)、休閑相關(guān)、時尚相關(guān)、購物相關(guān)、文化相關(guān)、旅游相關(guān)的博主數(shù)量,定義對任意用戶i在t時刻都存在一個興趣狀態(tài)量S-it,如下式:
設(shè)置一個興趣狀態(tài)量表示興趣變化的動態(tài)過程,對于話題同樣設(shè)置一個話題狀態(tài)量表示話題的動態(tài)遷移過程。在上述的聚類過程中將用戶話題進行聚類,設(shè)DF-t、DL-t、DS-t、DP-t、DC-t、DT-t分別是t時刻用戶發(fā)表的美食相關(guān)、休閑相關(guān)、時尚相關(guān)、購物相關(guān)、文化相關(guān)、旅游相關(guān)的文本數(shù)量。
2 實驗驗證與結(jié)果分析
以用戶發(fā)表的微博信息以及用戶關(guān)注的內(nèi)容進行實驗。生活中存在一些用戶基本不發(fā)微博也不關(guān)注其他用戶情況,在數(shù)據(jù)處理時過濾掉這部分?jǐn)?shù)據(jù)。首先隨機抽取1 000個微博,去除兩周內(nèi)發(fā)表微博數(shù)少于3條的用戶,分別采集他們兩周內(nèi)的微博數(shù)據(jù)。對話題進行聚類之后發(fā)現(xiàn)微博中興趣的分布情況如圖3所示。由圖(3)可知用戶興趣主要集中在名人明星、生活娛樂以及時事新聞3方面。
本文目的是得到用戶間的興趣變化狀況與話題變化狀況之間的關(guān)聯(lián),任意選擇微博中的一個用戶,根據(jù)模型定義得到興趣變化狀況及話題變化狀況。
用戶的實際興趣獲取來自于微博用戶關(guān)注情況分析,根據(jù)分析提取出用戶的真實興趣狀況。將用戶間的興趣變化狀況和話題變化狀況(見圖4、圖5)進行擬合,如圖6所示。由于初始閾值的不確定性,因此對不同閾值狀態(tài)下的結(jié)果都進行分析。實際操作中初始閾值高于0.8的基本沒有,因此將其分成6段:[0,0.2),[0.2,0.4),[0.4,0.5),[0.5,0.6),[0.6,0.7),[0.7,0.8)。從圖6可發(fā)現(xiàn)初始閾值越大,興趣與話題的擬合度就越高。但當(dāng)?shù)竭_一定值之后,變化卻不明顯。
3 結(jié)語
本文對社交網(wǎng)絡(luò)中用戶興趣及遷移狀況對話題的影響進行了研究。針對話題間的相似度進行分析,采用傳統(tǒng)的Word2vec模型,充分利用詞的上下文信息及該模型豐富的表征語義信息,提出基于標(biāo)簽的話題分割模型。通過話題改變過程中興趣的動態(tài)變化過程,分析興趣及遷移狀況對話題的影響。實驗數(shù)據(jù)表明,用戶發(fā)表的話題很大程度上取決于用戶的興趣變化狀況。
參考文獻:
[1] ZHANG X, GUO Z, LI B. An effective algorithm of news topic tracking[C].Intelligent Systems, 2009. GCIS '09. WRI Global Congress on. IEEE, 2009:510-513.
[2] PON R K, CARDENAS A F, CRITCHLOW T, et al. Tracking multiple topics for finding interesting articles[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2007:560-569.
[3] 張曉婕.基于微博用戶興趣模型的個性化廣告推薦研究[D].上海:華東師范大學(xué),2014.
[4] ZHAO N, CUI X, DAWSON K A, et al. Impact of individual interest shift on information dissemination in modular networks[J]. Physica A Statistical Mechanics & Its Applications, 2017(466):232-242.
[5] 李樹平,張偉,楊柳,等.話題跟蹤技術(shù)的研究綜述[J].赤子,2014(21):130-131.
[6] 陳文濤,張小明,李舟軍.構(gòu)建微博用戶興趣模型的主題模型的分析[J].計算機科學(xué),2013,40(4):127-130.
[7] BERRY, MICHAEL W, KOGAN, et al. Text Mining: applications and theory[J]. John Wiley & Sons, 2010(1):29-33.
[8] MELUCCI M. Vector-Space Model[M]. Springer US, 2009.
[9] HEISTERKAMP D R. Building a latent semantic index of an image database from patterns of relevance feedback[C].16 Th International Conference on Pattern Recognition. IEEE Computer Society, 2002:40134.
[10] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.
[11] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013(6):1257-1262.
(責(zé)任編輯:杜能鋼)