馬曉峰 王 磊 陳觀淡
1(上海數(shù)據(jù)分析與處理技術(shù)研究所 上海 201112)2(中國(guó)科學(xué)院自動(dòng)化研究所復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京 100190)
?
基于混合特征學(xué)習(xí)的微博轉(zhuǎn)發(fā)預(yù)測(cè)方法
馬曉峰1王 磊2陳觀淡2
1(上海數(shù)據(jù)分析與處理技術(shù)研究所 上海 201112)2(中國(guó)科學(xué)院自動(dòng)化研究所復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京 100190)
微博轉(zhuǎn)發(fā)預(yù)測(cè)是研究信息傳播的關(guān)鍵問(wèn)題之一,對(duì)于輿情監(jiān)控、廣告投放、商業(yè)決策具有重要意義。用戶(hù)興趣、微博作者影響力及微博內(nèi)容等信息均影響信息傳播過(guò)程。轉(zhuǎn)發(fā)行為預(yù)測(cè)的挑戰(zhàn)性問(wèn)題在于如何捕獲更多有意義的影響因素以提高預(yù)測(cè)性能。提出基于混合特征學(xué)習(xí)的轉(zhuǎn)發(fā)預(yù)測(cè)方法,該方法首先引入并分析了局部社會(huì)影響力特征、用戶(hù)特征、微博內(nèi)容特征的計(jì)算方法;接著,基于分類(lèi)器建立預(yù)測(cè)模型;最后,比較了不同類(lèi)型微博的轉(zhuǎn)發(fā)預(yù)測(cè)效果。在新浪微博平臺(tái)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,局部社會(huì)影響力特征、用戶(hù)特征、微博內(nèi)容特征都對(duì)轉(zhuǎn)發(fā)預(yù)測(cè)有較大影響,其中微博內(nèi)容特征的影響最大。隨機(jī)森林預(yù)測(cè)效果最好,準(zhǔn)確率達(dá)到83.1%;與樸素貝葉斯、邏輯回歸、支持向量機(jī)模型相比,準(zhǔn)確率平均提高約7.4%,最高提高約10.8%。另外,該方法對(duì)自然災(zāi)害、環(huán)境、審判、維權(quán)等類(lèi)型的微博進(jìn)行轉(zhuǎn)發(fā)預(yù)測(cè)時(shí),效果更加明顯,說(shuō)明這類(lèi)事件轉(zhuǎn)發(fā)的規(guī)律性更強(qiáng)。
微博 混合特征學(xué)習(xí) 轉(zhuǎn)發(fā)預(yù)測(cè)
隨著Web2.0技術(shù)的快速發(fā)展,以微博等為代表的社會(huì)媒體平臺(tái)以其內(nèi)容豐富、交互性強(qiáng)、實(shí)時(shí)便捷等特點(diǎn)深受用戶(hù)喜愛(ài)。截至2015年9月30日,國(guó)內(nèi)最大的微博平臺(tái)之一的新浪微博的月活躍人數(shù)達(dá)到2.22億,較2014年同期相比增長(zhǎng)33%,日活躍用戶(hù)達(dá)到1億,較去年同期增長(zhǎng)30%??梢?jiàn),微博用戶(hù)群保持著持續(xù)快速增長(zhǎng)[1]。當(dāng)某一社會(huì)事件發(fā)生后,人們可以通過(guò)該平臺(tái)第一時(shí)間獲取事件信息,發(fā)表自己的觀點(diǎn),轉(zhuǎn)發(fā)感興趣的信息等。用戶(hù)的轉(zhuǎn)發(fā)行為影響著微博中信息的傳播趨勢(shì),具有傳播快、覆蓋廣的特點(diǎn)。通過(guò)轉(zhuǎn)發(fā),某些微博可快速成為關(guān)注,造成影響。如何有效從轉(zhuǎn)發(fā)行為中學(xué)習(xí)用戶(hù)的興趣和行為規(guī)律,挖掘影響用戶(hù)轉(zhuǎn)發(fā)行為的重要要素,進(jìn)而充分利用這些要素對(duì)未知的用戶(hù)轉(zhuǎn)發(fā)行為進(jìn)行準(zhǔn)確預(yù)測(cè),對(duì)于熱點(diǎn)話題檢測(cè)與跟蹤、輿情監(jiān)管及商業(yè)營(yíng)銷(xiāo)至關(guān)重要。這是當(dāng)前的研究熱點(diǎn),具有廣闊的應(yīng)用前景[2,3]。
基于混合特征學(xué)習(xí)的預(yù)測(cè)方法將轉(zhuǎn)發(fā)行為預(yù)測(cè)作為二元分類(lèi)問(wèn)題,具有簡(jiǎn)單、直觀的特點(diǎn)。其關(guān)鍵挑戰(zhàn)性問(wèn)題是分析影響用戶(hù)轉(zhuǎn)發(fā)行為的因素,將其作為特征,然后訓(xùn)練分類(lèi)器得到分類(lèi)模型進(jìn)行預(yù)測(cè)。目前,微博轉(zhuǎn)發(fā)行為預(yù)測(cè)模型所采用的特征集中在用戶(hù)特征及微博內(nèi)容特征。社會(huì)影響力反映了人們間觀點(diǎn)、行為的相互影響方式,用戶(hù)在社交網(wǎng)絡(luò)中的社會(huì)關(guān)系,即與其關(guān)聯(lián)較緊密的其他人的行為對(duì)該用戶(hù)的轉(zhuǎn)發(fā)行為也有重要影響。新近研究表明,根據(jù)用戶(hù)自我網(wǎng)絡(luò)計(jì)算得到的用戶(hù)成對(duì)影響力和結(jié)構(gòu)影響力有效量化了局部社會(huì)影響力,具有較強(qiáng)的預(yù)測(cè)能力[4]。同時(shí),面向領(lǐng)域的不同社會(huì)事件類(lèi)型對(duì)于轉(zhuǎn)發(fā)預(yù)測(cè)也有影響。因此,本文首先設(shè)計(jì)了有效融合用戶(hù)特征、微博內(nèi)容特征及體現(xiàn)局部社會(huì)影響力的自我網(wǎng)絡(luò)特征的集成化微博轉(zhuǎn)發(fā)行為預(yù)測(cè)方法。以周邊用戶(hù)的影響力特征為基礎(chǔ),輔以其他類(lèi)型的社會(huì)特征、話題特征、微博特征、作者特征和時(shí)間特征,再結(jié)合機(jī)器學(xué)習(xí)方法對(duì)人物的轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測(cè)。接著,基于面向領(lǐng)域的事件分類(lèi)體系,在新浪微博的實(shí)際數(shù)據(jù)集上進(jìn)行了測(cè)試,并細(xì)致分析了不同事件的轉(zhuǎn)發(fā)預(yù)測(cè)效果,以便于更深層次理解用戶(hù)轉(zhuǎn)發(fā)行為的深層次原因,為輿情監(jiān)管提供有效的輔助決策支持。
微博轉(zhuǎn)發(fā)預(yù)測(cè)依賴(lài)于對(duì)轉(zhuǎn)發(fā)影響因素的分析,Guan等分析了熱點(diǎn)事件中用戶(hù)轉(zhuǎn)發(fā)行為的影響因素,包括微博用戶(hù)性別、身份、是否插入圖片、URL等[5];Rudat等分析了用戶(hù)引導(dǎo)、微博主題以及信息量因素對(duì)微博轉(zhuǎn)發(fā)行為的影響[6];Morchid等從微博內(nèi)容和用戶(hù)方面采用PCA多微博轉(zhuǎn)發(fā)的主要影響因素進(jìn)行了分析[7];吳凱等構(gòu)建了基于興趣相似度、社會(huì)關(guān)系、文本特征與用戶(hù)屬性影響、用戶(hù)受激活次數(shù)的影響4種指標(biāo)的信息傳播模型[8]。
微博轉(zhuǎn)發(fā)預(yù)測(cè)方面,Petrovic等對(duì)Twitter平臺(tái)的轉(zhuǎn)發(fā)預(yù)測(cè)進(jìn)行研究,考慮了粉絲數(shù)、關(guān)注數(shù)、tweet發(fā)布量等在內(nèi)的用戶(hù)相關(guān)特征以及標(biāo)簽、URL、tweet長(zhǎng)度等微博本身特征,基于passive-aggressive算法構(gòu)建轉(zhuǎn)發(fā)預(yù)測(cè)模型[9];張旸等采用特征加權(quán)算法構(gòu)建了微博轉(zhuǎn)發(fā)預(yù)測(cè)模型[10];Suh等人選取了URL、標(biāo)簽、關(guān)注人數(shù)等因素,使用主成份分析方法(PCA)分析了影響用戶(hù)轉(zhuǎn)發(fā)的主要因素,最后結(jié)合所選因素應(yīng)用廣義線性模型分析影響因素與轉(zhuǎn)發(fā)行為之間的關(guān)系。但這些研究?jī)H僅是對(duì)轉(zhuǎn)發(fā)行為的統(tǒng)計(jì)分析,缺少對(duì)用戶(hù)行為的預(yù)測(cè)[11]。文獻(xiàn)[3]提出融合背景熱點(diǎn)信息的轉(zhuǎn)發(fā)興趣、轉(zhuǎn)發(fā)活躍度、行為模式等特征,基于分類(lèi)算法構(gòu)建了面向熱點(diǎn)話題相關(guān)微博的轉(zhuǎn)發(fā)預(yù)測(cè)模型;文獻(xiàn)[12]提取了用戶(hù)間的微網(wǎng)絡(luò)結(jié)構(gòu)、權(quán)重比率、用戶(hù)個(gè)人信息等特征,提出了一個(gè)隨機(jī)森林微博轉(zhuǎn)發(fā)預(yù)測(cè)算法;文獻(xiàn)[13,14]選取用戶(hù)名、關(guān)注人數(shù)、微博包含的單詞個(gè)數(shù)等特征,采用基于概率的協(xié)同過(guò)濾模型對(duì)用戶(hù)的轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測(cè);文獻(xiàn)[15,16]選取了22個(gè)影響因素,并采用因子圖模型進(jìn)行預(yù)測(cè)分析,對(duì)于用戶(hù)轉(zhuǎn)發(fā)行為預(yù)測(cè)取得了較高的精度。李英樂(lè)等從5個(gè)影響指標(biāo)出發(fā)提出了基于支持向量機(jī)(SVM)的微博轉(zhuǎn)發(fā)規(guī)模預(yù)測(cè)模型[17]。Bandari等將微博轉(zhuǎn)發(fā)數(shù)量劃分為(1~20,20~100,100~2400)不同等級(jí),以此為基礎(chǔ)構(gòu)建多分類(lèi)模型來(lái)預(yù)測(cè)微博轉(zhuǎn)發(fā)規(guī)模[18]。文獻(xiàn)[19]采用BP神經(jīng)網(wǎng)絡(luò)對(duì)突發(fā)事件下的微博轉(zhuǎn)發(fā)量進(jìn)行了預(yù)測(cè),并通過(guò)改變樣本數(shù)對(duì)預(yù)測(cè)結(jié)果的穩(wěn)定性進(jìn)行了測(cè)試,得到了有一定參考價(jià)值的預(yù)測(cè)結(jié)果。
微博轉(zhuǎn)發(fā)行為預(yù)測(cè)可形式化地定義為如下問(wèn)題:給定微博m,用戶(hù)v,預(yù)測(cè)用戶(hù)v是否會(huì)對(duì)微博m進(jìn)行轉(zhuǎn)發(fā)。用sv,m代表用戶(hù)的轉(zhuǎn)發(fā)狀態(tài),sv,m=1代表已轉(zhuǎn)發(fā),sv,m=0代表尚未轉(zhuǎn)發(fā),轉(zhuǎn)發(fā)行為預(yù)測(cè)問(wèn)題即對(duì)sv,m的狀態(tài)進(jìn)行預(yù)測(cè)。
3.1 方法框架
預(yù)測(cè)方法整體框架如圖1所示。
圖1 微博轉(zhuǎn)發(fā)行為預(yù)測(cè)框架
3.2 特征選取
本文設(shè)計(jì)了考慮局部社會(huì)影響力特征、用戶(hù)特征及微博內(nèi)容特征的集成化的特征選取體系,如表1所示。
表1 微博特征選取體系
各特征的計(jì)算描述方法如下:
1) 用戶(hù)影響力特征
文獻(xiàn)[4]證明用戶(hù)的影響力有利于提升用戶(hù)轉(zhuǎn)發(fā)預(yù)測(cè)準(zhǔn)確率。受此啟發(fā),本文首先分析影響力特征,提取特定用戶(hù)的1-ego網(wǎng)絡(luò)G,即由該特定用戶(hù)、其關(guān)注者和被關(guān)注者組成的完整網(wǎng)絡(luò)。設(shè)網(wǎng)絡(luò)中已對(duì)m進(jìn)行轉(zhuǎn)發(fā)的用戶(hù)為激活用戶(hù),沒(méi)有進(jìn)行轉(zhuǎn)發(fā)的用戶(hù)為未激活用戶(hù)。通過(guò)以上信息,本文提取該網(wǎng)絡(luò)中針對(duì)特定人物的成對(duì)影響力特征和結(jié)構(gòu)影響力特征。
成對(duì)影響力是網(wǎng)絡(luò)中已有的各激活用戶(hù)對(duì)特定用戶(hù)的影響力之和。已有研究證明[4],基于重啟隨機(jī)游走(RWR)計(jì)算得到的成對(duì)影響力與轉(zhuǎn)發(fā)概率之間存在較強(qiáng)的正相關(guān)關(guān)系。因此本文基于重啟隨機(jī)游走來(lái)計(jì)算成對(duì)影響力。
具體算法步驟如下:
(2) 從網(wǎng)絡(luò)中提取鄰接矩陣A;
(1)
f(Sv,t,G)=e-d|C(Sv,t)|
(2)
將成對(duì)影響力和結(jié)構(gòu)影響力結(jié)合,總的影響力計(jì)算式如下:
Q(Sv,t,G)=w×g(Sv,t,G)+(1-w)×f(Sv,t,G)
(3)
其中w為平衡兩項(xiàng)的系數(shù),Q(Sv,t,G)即為影響力特征。
2) 社會(huì)特征
除影響力特征外,還有一些其他類(lèi)型的社會(huì)特征,包括:
用戶(hù)之前轉(zhuǎn)發(fā)v′發(fā)布的微博的次數(shù);
用戶(hù)之前在自己的微博中提到v′的次數(shù)。
3)話題特征
微博m的內(nèi)容是否是用戶(hù)感興趣的話題也是影響用戶(hù)轉(zhuǎn)發(fā)行為的重要因素之一。因此,我們提取以下話題特征:
TF-IDF特征:根據(jù)用戶(hù)以往發(fā)布的微博構(gòu)建詞袋(BOW)模型,得到以TF-IDF為權(quán)重的詞向量,計(jì)算其與微博m的TF-IDF詞向量的余弦相似度;
隱話題特征:用LDA對(duì)用戶(hù)以往發(fā)布的微博進(jìn)行分析得到代表用戶(hù)興趣的話題向量,同樣用LDA對(duì)微博m進(jìn)行分析,計(jì)算兩話題向量之間的KL散度,即:
(4)
其中p、q分別是用戶(hù)以往發(fā)布微博、微博m的LDA話題分布;
彈指一輝間,每次看到《農(nóng)家致富顧問(wèn)》,我就想起與她二十余年的情緣,翻開(kāi)我多年珍藏的《農(nóng)家致富顧問(wèn)》剪貼簿和雜志社編輯、記者寄給我的厚厚一疊泛黃的信和樣刊,禁不住思潮翻涌,思緒萬(wàn)千。我與《農(nóng)家致富顧問(wèn)》感情之深,在這里還要特別感謝《農(nóng)家致富顧問(wèn)》曾經(jīng)刊登了我編寫(xiě)的“農(nóng)家致富顧問(wèn)助我走上致富路”……,豆腐塊小文!使我久久難以忘懷,《農(nóng)家致富顧問(wèn)》真好,平易近人。
實(shí)體特征:從用戶(hù)以往發(fā)布的微博得到其使用過(guò)的實(shí)體的分布,計(jì)算該分布與微博m中的實(shí)體分布的余弦相似度。
4) 微博自身的特征
微博自身的特征包括:URL數(shù)目、Hashtag數(shù)目、@他人的數(shù)目、微博m中的文字?jǐn)?shù)目。
5) 微博作者的特征
微博作者特征包括:該作者的關(guān)注者數(shù)量、關(guān)注該作者的用戶(hù)數(shù)量、作者是否是認(rèn)證用戶(hù)、作者發(fā)布的微博的總量。
4.1 數(shù)據(jù)集描述與評(píng)價(jià)準(zhǔn)則
本文從新浪微博平臺(tái)隨機(jī)抽樣了1522個(gè)用戶(hù),如表2所示,爬取了2014年1月23日到2015年3月26日期間27 094條轉(zhuǎn)發(fā)記錄,涉及原創(chuàng)微博6892條。另外從微博作者的直接粉絲以及間接粉絲(粉絲的粉絲)中隨機(jī)采樣非轉(zhuǎn)發(fā)記錄,為保證類(lèi)平衡性,采樣的負(fù)樣本與正樣本個(gè)數(shù)相同,最終總共得到54 188條數(shù)據(jù)。
表2 新浪微博隨機(jī)采樣數(shù)據(jù)
利用該實(shí)驗(yàn)數(shù)據(jù)集,分別訓(xùn)練樸素貝葉斯、邏輯回歸、支持向量機(jī)、隨機(jī)森林模型,并利用10折交叉驗(yàn)證對(duì)預(yù)測(cè)效果進(jìn)行評(píng)價(jià)。使用的性能指標(biāo)包括:精度、召回率、F1、準(zhǔn)確率。精度Precision、召回率Recall、F1、準(zhǔn)確率Accuracy的計(jì)算式為:
(5)
(6)
(7)
(8)
其中TP表示測(cè)試數(shù)據(jù)中系統(tǒng)預(yù)測(cè)轉(zhuǎn)發(fā)并且實(shí)際數(shù)據(jù)也是轉(zhuǎn)發(fā)的實(shí)例個(gè)數(shù);FP表示系統(tǒng)預(yù)測(cè)轉(zhuǎn)發(fā)并且實(shí)際數(shù)據(jù)沒(méi)有轉(zhuǎn)發(fā)的實(shí)例個(gè)數(shù);TN表示系統(tǒng)預(yù)測(cè)不轉(zhuǎn)發(fā)并且實(shí)際數(shù)據(jù)也不轉(zhuǎn)發(fā)的實(shí)例個(gè)數(shù);FN表示系統(tǒng)預(yù)測(cè)不轉(zhuǎn)發(fā)但實(shí)際數(shù)據(jù)轉(zhuǎn)發(fā)的實(shí)例個(gè)數(shù)。
4.2 實(shí)驗(yàn)結(jié)果
1) 分類(lèi)算法比較
樸素貝葉斯、邏輯回歸、支持向量機(jī)、隨機(jī)森林模型的預(yù)測(cè)效果如表3所示??梢钥闯鲭S機(jī)森林準(zhǔn)確率達(dá)到了83.1%,取得了最好的分類(lèi)效果。
表3 不同分類(lèi)算法預(yù)測(cè)效果
2) 特征重要性比較
為了比較各類(lèi)特征對(duì)于預(yù)測(cè)效果的作用,本文對(duì)比去除某類(lèi)特征后的轉(zhuǎn)發(fā)預(yù)測(cè)準(zhǔn)確率和原模型預(yù)測(cè)準(zhǔn)確率。不同類(lèi)別特征對(duì)于預(yù)測(cè)準(zhǔn)確率的影響如表4所示,可以看出三個(gè)類(lèi)別的特征對(duì)于預(yù)測(cè)準(zhǔn)確率都有較大的影響。其中,微博內(nèi)容特征對(duì)預(yù)測(cè)效果影響最大,不使用微博內(nèi)容特征的模型預(yù)測(cè)準(zhǔn)確率將會(huì)降低至68.5%;未使用局部影響力特征將會(huì)使準(zhǔn)確率降低將近2%??梢?jiàn),綜合考慮微博內(nèi)容特征、用戶(hù)特征及局部影響力特征可以有效提高預(yù)測(cè)準(zhǔn)確率。
表4 不同微博特征預(yù)測(cè)效果
3) 不同事件類(lèi)型的微博影響力預(yù)測(cè)效果對(duì)比
本文基于事件分類(lèi)體系,采用不同關(guān)鍵詞從實(shí)驗(yàn)數(shù)據(jù)集中的微博中選取了自然災(zāi)害、環(huán)境、公共突發(fā)、暴恐、犯罪、審判、公共衛(wèi)生、政治、反腐、維權(quán)、活動(dòng)類(lèi)、周邊國(guó)家、政策出臺(tái)、軍事等14個(gè)類(lèi)別的微博,比較不同類(lèi)別中微博轉(zhuǎn)發(fā)預(yù)測(cè)的準(zhǔn)確率。各個(gè)類(lèi)別的數(shù)據(jù)情況如表5所示。
表5 不同類(lèi)型的微博數(shù)據(jù)情況
不同類(lèi)型中微博轉(zhuǎn)發(fā)預(yù)測(cè)準(zhǔn)確率如表6所示??梢钥闯?,在所有類(lèi)別中隨機(jī)森林都取得了最好的預(yù)測(cè)準(zhǔn)確率。在對(duì)自然災(zāi)害、環(huán)境、審判、維權(quán)等類(lèi)型的微博進(jìn)行轉(zhuǎn)發(fā)預(yù)測(cè)時(shí),效果更加明顯,說(shuō)明這類(lèi)事件轉(zhuǎn)發(fā)的規(guī)律性更強(qiáng)。而對(duì)于公共突發(fā)、暴恐、軍事等類(lèi)型的事件,轉(zhuǎn)發(fā)預(yù)測(cè)的準(zhǔn)確率相對(duì)較低。
表6 不同類(lèi)型微博轉(zhuǎn)發(fā)預(yù)測(cè)效果
續(xù)表6
微博轉(zhuǎn)發(fā)預(yù)測(cè)是研究信息傳播的關(guān)鍵問(wèn)題之一,對(duì)于輿情監(jiān)控、廣告投放、商業(yè)決策有著重要意義。本文綜合局部社會(huì)影響力特征、用戶(hù)特征、微博內(nèi)容特征,提出了基于混合特征學(xué)習(xí)的轉(zhuǎn)發(fā)預(yù)測(cè)方法。利用新浪微博平臺(tái)數(shù)據(jù),本文對(duì)比了樸素貝葉斯、邏輯回歸、支持向量機(jī)、隨機(jī)森林模型的預(yù)測(cè)效果,結(jié)果表明隨機(jī)森林取得了最好的效果,準(zhǔn)確率達(dá)到83.1%。另外,本文還對(duì)比不同特征對(duì)于轉(zhuǎn)發(fā)預(yù)測(cè)的影響,結(jié)果表明局部社會(huì)影響力特征、用戶(hù)特征、微博內(nèi)容特征都對(duì)轉(zhuǎn)發(fā)預(yù)測(cè)有著較大影響,其中微博內(nèi)容特征的影響最大。最后,本文比較了不同類(lèi)型微博的轉(zhuǎn)發(fā)預(yù)測(cè)準(zhǔn)確率,結(jié)果表明,在對(duì)自然災(zāi)害、環(huán)境、審判、維權(quán)等類(lèi)型的微博進(jìn)行轉(zhuǎn)發(fā)預(yù)測(cè)時(shí),效果更加明顯,說(shuō)明這類(lèi)事件轉(zhuǎn)發(fā)的規(guī)律性更強(qiáng)。而對(duì)于公共突發(fā)、暴恐、軍事等類(lèi)型的事件,轉(zhuǎn)發(fā)預(yù)測(cè)的準(zhǔn)確率相對(duì)較低。
[1] 樊博.2015微博用戶(hù)發(fā)展報(bào)告[R/OL].[2015-12-15].http://data.weibo.com/report/reportDetail?id=297.
[2] 李洋,陳毅恒,劉挺.微博信息傳播預(yù)測(cè)研究綜述[J].軟件學(xué)報(bào),2016,27(2):247-263.
[3] 陳江,劉瑋,巢文涵,等.融合熱點(diǎn)話題的微博轉(zhuǎn)發(fā)預(yù)測(cè)研究[J].中文信息學(xué)報(bào),2015,29(6):150-158.
[4] Zhang J,Liu B,Tang J,et al.Social Influence Locality for Modeling Retweeting Behaviors[C]//International Joint Conference on Artificial Intelligence.AAAI Press,2013:2761-2767.
[5] Guan W,Gao H,Yang M,et al.Analyzing user behavior of the micro-blogging website Sina Weibo during hot social events[J].Physica A:Statistical Mechanics and Its Applications,2014,395:340-351.
[6] Rudat A,Buder J,Hesse F W.Audience design in Twitter:Retweeting behavior between informational value and followers’ interests[J].Computers in Human Behavior,2014,35:132-139.
[7] Morchid M,Dufour R,Bousquet P M,et al.Feature selection using Principal Component Analysis for massive retweet detection[J].Pattern Recognition Letters,2014,49:33-39.
[8] 吳凱,季新生,劉彩霞.基于行為預(yù)測(cè)的微博網(wǎng)絡(luò)信息傳播建模[J].計(jì)算機(jī)應(yīng)用研究,2013,30(6):1809-1812.
[9] Sasa Petrovic,Miles Osborne,Victor Lavrenko.RT to Win! Predicting Message Propagation in Twitter[C]//Fifth International AAAI Conference on Weblogs and Social Media(ICWSM),2011.
[10] 張旸,路榮,楊青.微博客中轉(zhuǎn)發(fā)行為的預(yù)測(cè)研究[J].中文信息學(xué)報(bào),2012,26(4):109-114,121.
[11] Bongwon Suh,Lichan Hong,Peter Pirolli,et al.Want to be Retweeted? Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]//2010 IEEE Second International Conference on Social Computing (SocialCom). Minneapolis,USA:IEEE,2010:177-184.
[12] 羅知林,陳挺,蔡皖東.一個(gè)基于隨機(jī)森林的微博轉(zhuǎn)發(fā)預(yù)測(cè)算法[J].計(jì)算機(jī)科學(xué),2014,41(4),62-64,74.
[13] Zaman T R,Herbrich R,Gael J V,et al.Predicting information spreading in Twitter[J].Computational Social Science and the Wisdom of Crowds Workshop,2010.
[14] Stern D H,Herbrich R,Graepel T.Matchbox:Large scale online Bayesian recommendations[C]//Proceedings of the 18th International Conference on World Wide Web,Madrid,Spain,2009:111-120.
[15] Yang Zi,Guo Jingyi,Cai Keke,et al.Understanding retweeting behaviors in social networks[C]//Proceedings of the 19th International Conference on Information and Knowledge Management,Toronto,Canada,2010:1633-1636.
[16] 楊子.社會(huì)網(wǎng)絡(luò)分析中的預(yù)測(cè)模型[D].北京:清華大學(xué),2011.
[17] 李英樂(lè),于洪濤,劉力雄.基于SVM的微博轉(zhuǎn)發(fā)規(guī)模預(yù)測(cè)方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(9):2594-2597.
[18] Roja Bandari,Sitaram Asur,Bernardo A.Huberman.The Pulse of News in Social Media: Forecasting Popularity[C]//6th International AAAI Conference on Weblogs and Social Media(ICWSM),2012.
[19] 鄧青,馬曄風(fēng),劉藝,等.基于BP神經(jīng)網(wǎng)絡(luò)的微博轉(zhuǎn)發(fā)量的預(yù)測(cè)[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2015,55(12):1342-1347.
A MICROBLOGGING RETWEET PREDICTION METHOD BASED ON HYBRID FEATURES LEARNING
Ma Xiaofeng1Wang Lei2Chen Guandan2
1(Shanghai Data Analysis and Processing Technology Research Institute,Shanghai 201112,China)=2(The State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)
Microblogging retweet prediction is one of the key problems in information dissemination, which plays important roles in public opinion monitoring, advertising, and business decision making. The process of information dissemination is influenced by many factors such as user interest, microblogging author’s influence, and content of post, etc. The challenge of improving prediction performance is how to capture the important features for retweet prediction. In this paper, we propose a retweet prediction method based on hybrid features learning. Firstly, the method introduces and analyses the impacts of hybrid features including social influence locality, user features, and microblogging content features. Then, it builds the retweet prediction model based on classification algorithms. Finally, it compares the results of different types of microblog. Experimental results on Sina Weibo datasets show that local social influence features, user features and microblogging content features affect the retweet prediction,and the greatest impact is the micro-blog content features. Random forest method has the best performance, and the accuracy rate can reach 83.1%. Compared to Naive Bayes, logistic regression and SVM, the accuracy rate increased by an average of about 7.4%, the highest increase of about 10.8%. In addition, the method has an advantage on topics about natural disasters, environment, trial, rights, which shows that these kinds of events contain stronger retweet patterns.
Microblogging Hybrid features learning Retweet prediction
2016-08-01。馬曉峰,博士生,主研領(lǐng)域:社會(huì)媒體分析與處理。王磊,高工。陳觀淡,博士生。
TP181
A
10.3969/j.issn.1000-386x.2016.11.058