費(fèi)洪曉 伍澤全 劉一環(huán) 莫天池 李靖
摘 要:隨著信息技術(shù)飛速發(fā)展,社交網(wǎng)絡(luò)逐漸占領(lǐng)了人們?nèi)粘=煌?、娛?lè)和購(gòu)物等主要平臺(tái)。因此,大量圍繞社交網(wǎng)絡(luò)展開(kāi)的研究也變得非常熱門(mén).現(xiàn)有的圍繞社交網(wǎng)絡(luò)用戶行為展開(kāi)的研究熱點(diǎn)主要有:基于社交網(wǎng)絡(luò)用戶行為的用戶影響力研究、基于用戶行為的推薦系統(tǒng)研究、以及社交網(wǎng)絡(luò)用戶隱私方面的研究等。社交網(wǎng)絡(luò)是互聯(lián)網(wǎng)的主要組成模塊之一,同時(shí)也是大數(shù)據(jù)時(shí)代的主要數(shù)據(jù)提供者之一,未來(lái)對(duì)于社交網(wǎng)絡(luò)的研究會(huì)越來(lái)越受到學(xué)術(shù)界以及工業(yè)界的更多投入,本文對(duì)社交網(wǎng)絡(luò)用戶行為挖掘的研究現(xiàn)狀、熱點(diǎn)展開(kāi)論述,并作出展望,提出一些目前尚缺深入研究的方向,以期對(duì)讀者有所幫助。
關(guān)鍵詞:社交網(wǎng)絡(luò);數(shù)據(jù)挖掘;用戶行為
中圖分類號(hào):TP311.5 文獻(xiàn)標(biāo)識(shí)碼:A
1 引 言
建立在英特網(wǎng)基礎(chǔ)之上的社交網(wǎng)絡(luò)自誕生之日發(fā)展至今,已經(jīng)逐漸變成人們情感交流、關(guān)系維護(hù)和信息溝通的主要平臺(tái)和方式?;钴S在各社交網(wǎng)站上的用戶每時(shí)每刻都在產(chǎn)生著大量的數(shù)據(jù),在數(shù)據(jù)就是財(cái)富的今天,社交網(wǎng)絡(luò)已經(jīng)成為學(xué)術(shù)界工業(yè)界的重點(diǎn)研究對(duì)象,目前對(duì)社交網(wǎng)絡(luò)的研究與利用已經(jīng)非?;馃幔热缬脩舴治?,關(guān)系分析,社交搜索,網(wǎng)絡(luò)結(jié)構(gòu)、用戶隱私等等方面,其中對(duì)于用戶的研究是非常重要的一個(gè)方向,探索人類的行為規(guī)律一直是科學(xué)家們執(zhí)著的追求,發(fā)現(xiàn)人的規(guī)律的重要性也是不言而喻,對(duì)于社交網(wǎng)絡(luò)中人的行為的研究當(dāng)然也包括在那當(dāng)中[1]。本文以社交網(wǎng)絡(luò)中的用戶行為基本出發(fā)點(diǎn),對(duì)在此基礎(chǔ)上進(jìn)行的挖掘研究進(jìn)行學(xué)習(xí)及分析,從而對(duì)挖掘研究進(jìn)行綜述和展望。
2 社交網(wǎng)絡(luò)用戶行為挖掘研究現(xiàn)狀和研究熱點(diǎn)
2.1 基于社交網(wǎng)絡(luò)用戶行為的用戶影響力研究
跟現(xiàn)實(shí)生活中一樣,領(lǐng)袖的發(fā)言權(quán)往往比常人大的多,社交網(wǎng)絡(luò)對(duì)于輿論的影響力通常也有意見(jiàn)領(lǐng)袖,其可波及的力量不可輕視。怎樣去挖掘意見(jiàn)領(lǐng)袖、對(duì)社交網(wǎng)絡(luò)的用戶影響強(qiáng)度和單獨(dú)一個(gè)用戶的影響力進(jìn)行分析,使用意見(jiàn)領(lǐng)袖來(lái)積極地將社會(huì)輿論引出,將新形勢(shì)下的那些輿情信息所具有的分析能力進(jìn)行提高,同時(shí),也可以很迅速且準(zhǔn)確地掌握一些社會(huì)的輿情動(dòng)態(tài),成為了社交網(wǎng)絡(luò)正在面臨的一個(gè)嚴(yán)肅課題和嚴(yán)峻的挑戰(zhàn)。在諸如:信息學(xué)、經(jīng)濟(jì)學(xué)、政治學(xué)和社會(huì)學(xué)各領(lǐng)域里面,影響力分析被認(rèn)為是一種廣泛應(yīng)用的研究技術(shù)。例如:推廣產(chǎn)品和選舉政治時(shí)有著重要的作用。影響力的個(gè)體一般包含了以下四個(gè)主要的特性:①容易將在自己的觀點(diǎn)傳達(dá)給其他人;②代表大多數(shù)普通人的觀點(diǎn);③具有新穎的觀點(diǎn);④也被稱為輿論領(lǐng)袖(opinion leaders)、擴(kuò)散創(chuàng)新理論的革新者(innovators)、網(wǎng)絡(luò)中心(hubs)、網(wǎng)絡(luò)橋節(jié)點(diǎn)(connectors)、專家(mavens)等。社會(huì)影響力(social influence)指的是,個(gè)人行為可以直接或者間接地去影響到其他人的行為、思想和情感。在文獻(xiàn)[2]中給出了社交網(wǎng)絡(luò)影響力(influence)的定義,其大概地意義是指的用戶的行為因受到其他用戶的影響而發(fā)生了變化,在社交網(wǎng)絡(luò)中影響力是一種常見(jiàn)的現(xiàn)象。
我們可以把影響力的強(qiáng)度看做是用戶之間一種相互影響的能力大小,以往我們?cè)诙攘坑绊懥?qiáng)度的時(shí)候往往僅將兩個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的共同鄰居個(gè)數(shù)納入考慮,然后,考慮到網(wǎng)絡(luò)中個(gè)體行為與話題的各種特征,主要使用了統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的方法來(lái)計(jì)算個(gè)體的影響強(qiáng)度(各類別話題之間)。統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的方法主要是以用戶之間的互相影響力為基礎(chǔ),假設(shè)用戶之間的影響力是一個(gè)隱形變量,并且通過(guò)一些數(shù)學(xué)迭代方法來(lái)建立學(xué)習(xí)模型求解該隱形變量。但是該方法忽略了個(gè)體之間如果相隔的時(shí)間間隔等特性,如相似性高的不同個(gè)體之間一般是有較高的影響力,個(gè)體之間具有的時(shí)間間隔如果越短,那么影響強(qiáng)度就越大。以下是對(duì)個(gè)體影響力的計(jì)算技術(shù)研究進(jìn)行了一個(gè)比較詳細(xì)的介紹。
目前計(jì)算社交網(wǎng)絡(luò)用戶影響力強(qiáng)度的算法大多都是以PageRank算法思想為核心。PageRank算法是一種基于馬爾科夫的思想模擬用戶怎樣瀏覽網(wǎng)頁(yè)的各種行為,計(jì)算的式子如式2-1所示,其中,M是網(wǎng)絡(luò)轉(zhuǎn)移的矩陣,為網(wǎng)絡(luò)中各節(jié)點(diǎn)影響力的得分向量,e為自重啟的向量,α為跳轉(zhuǎn)的一個(gè)因子 。
ε=αMTε+(1-α)1ne,e=(1,1,…,1)T(2-1)
PageRank算法主要還是考慮到節(jié)點(diǎn)傳播的影響力,須要不斷地進(jìn)行迭代計(jì)算,但是,它卻忽視了各節(jié)點(diǎn)所存在的自身的特征,用戶的各行為在社交網(wǎng)絡(luò)中往往相互交織,尤其是當(dāng)用戶的數(shù)量變得非常巨大的時(shí)候,這個(gè)時(shí)候整體的復(fù)雜度就變的相當(dāng)之高,在對(duì)社交網(wǎng)絡(luò)的各用戶影響力的研究時(shí),考慮到了用戶個(gè)體之間的不同特征,于是便改進(jìn)了公式2-1得到如下公式2-2:
ε=αMTε+(1-α)r(2-2)
經(jīng)過(guò)改進(jìn),個(gè)性化向量r取代了自重啟向量e,r的含義是用戶對(duì)話題類型的各種偏好的程度、信息的敏感程度以及新穎程度等。Hui等人[5]在分析社交網(wǎng)絡(luò)數(shù)據(jù)時(shí)考慮到用戶自身的屬性,認(rèn)為信譽(yù)較高的用戶其影響力相對(duì)而言較高。Cai等人在分析微博數(shù)據(jù)時(shí)將用戶的不同興趣領(lǐng)域納入考慮,表示在不同的興趣領(lǐng)域里面,用戶所具有的影響力的強(qiáng)度也不一樣[3]。Crandal等人通過(guò)分析用戶的行為,研究了用戶屬性里面?zhèn)€體之間影響力的關(guān)系。 Agarwal等人在分析博客數(shù)據(jù)的時(shí)候主要考慮了四種不同的因素:知名度、活躍度、新穎度和表達(dá)能力來(lái)計(jì)算個(gè)體之間的影響力。
有研究者認(rèn)為不同話題類型中的個(gè)體往往有著不同的影響力,他們從該點(diǎn)切入,結(jié)合PageRank算法思想,研究了各話題層面上的個(gè)體影響力,其中的典型代表是Weng[8]等人提出的TwitterRank算法,該算法也以Twitter網(wǎng)站的真實(shí)數(shù)據(jù)集為基礎(chǔ),根據(jù)網(wǎng)絡(luò)關(guān)注情況以及用戶之間的興趣相似度來(lái)算出不同個(gè)體在各個(gè)話題之上所具有的影響力。Li[9]等人通過(guò)使用統(tǒng)計(jì)學(xué)習(xí)方法,將微博上的一些歷史信息以及社交記錄經(jīng)過(guò)分析處理建立歷史意見(jiàn)影響力模型,同時(shí)將話題因素以及社會(huì)影響力相結(jié)合。此外,部分研究者考慮到個(gè)體信息的網(wǎng)絡(luò)結(jié)構(gòu)以及新穎度,給出了基于新穎度發(fā)現(xiàn)個(gè)體影響力的算法,特別是Song[10]等人提出了InfluenceRank算法,該算法在處理微博數(shù)據(jù)集時(shí),非常巧妙地將文章內(nèi)容的新穎度對(duì)社交網(wǎng)絡(luò)的貢獻(xiàn)加入到分析考慮范圍,來(lái)辨別博客中的那些意見(jiàn)領(lǐng)袖。Ding[11]等人就微博多交互的這種特性,提出了基于多重關(guān)系網(wǎng)絡(luò)的一種隨機(jī)模型來(lái)計(jì)算每個(gè)微博用戶的影響力。endprint
個(gè)體特征與網(wǎng)絡(luò)結(jié)構(gòu)相綜合后的計(jì)算技術(shù)提高了個(gè)體影響力度量的精準(zhǔn)度,然而卻忽略了一個(gè)比較重要的特性,那就是網(wǎng)絡(luò)的多重關(guān)系,例如:微博上的用戶之間的交互通常不是單一的,而是多重關(guān)系相互交織,網(wǎng)絡(luò)的多關(guān)系性是個(gè)體影響力度量研究未來(lái)有待攻克的難點(diǎn)。
2.2 基于用戶行為推薦系統(tǒng)研究
在如今的大數(shù)據(jù)時(shí)代,龐大的數(shù)據(jù)量使得數(shù)據(jù)的稀疏性加劇繼而使得傳統(tǒng)推薦系統(tǒng)決策過(guò)程的缺陷愈加明顯,然而基于社交網(wǎng)絡(luò)的推薦決策,其推薦鄰居是社會(huì)信任網(wǎng)絡(luò)的中的好友不再只是從用戶-商品評(píng)分矩陣獲?。簧缃痪W(wǎng)絡(luò)中的信任關(guān)心能夠體現(xiàn)出用戶之間的興趣相似度與影響能力,用戶能夠選擇信任鄰居,使得推薦過(guò)程不較傳統(tǒng)推薦過(guò)程更為透明一些;基于社交網(wǎng)絡(luò)的推薦魯棒性更好,因?yàn)樵谏缃煌扑]中假如用戶的好友中沒(méi)有惡意用戶,那么推薦結(jié)果不會(huì)受惡意用戶的虛假評(píng)價(jià)影響;基于社交網(wǎng)絡(luò)的推薦系統(tǒng)中的用戶好友都是用戶主動(dòng)選擇的,這使得時(shí)間復(fù)雜度與系統(tǒng)用戶數(shù)和項(xiàng)目數(shù)成正比的協(xié)同過(guò)濾算法可伸縮性變的更好。
基于用戶行為的推薦系統(tǒng)大多是以協(xié)同過(guò)濾算法為基礎(chǔ),使用協(xié)同過(guò)濾算法向用戶進(jìn)行推薦的時(shí)候?qū)⒂脩舻男袨闅v史作為分析對(duì)象,得到用戶的行為習(xí)慣,這樣作出的推薦結(jié)果非常迎合用戶的個(gè)性,因此非常受用戶的歡迎。
用戶的歷史行為包括:評(píng)論,轉(zhuǎn)發(fā),瀏覽,收藏等。各行為都在某種程度上反映了用戶對(duì)于不同信息的感興趣度。例如:用戶搜索某個(gè)產(chǎn)品對(duì)比在網(wǎng)站上瀏覽該產(chǎn)品所表現(xiàn)出來(lái)的感興趣度要大的多。協(xié)同過(guò)濾算法正是從用戶的行為歷史中挖掘出所隱含的用戶興趣從而向用戶推送提供個(gè)性化的推薦結(jié)果,到現(xiàn)在為止協(xié)同過(guò)濾算法是應(yīng)用最為廣泛的算法?,F(xiàn)有的基于協(xié)同過(guò)濾的推薦技術(shù)主要有組合推薦技術(shù),全局?jǐn)?shù)值協(xié)同推薦技術(shù)以及基于模型的推薦技術(shù)[10]。
基于模型的推薦算法:該算法的主要通過(guò)建立一些基礎(chǔ)模型來(lái)預(yù)測(cè)用戶的喜好。經(jīng)典的基于模型的推薦算法有:基于奇異值分解的推薦算法,基于聚類的推薦算法以及基于貝葉斯網(wǎng)絡(luò)的推薦算法?;谀P偷耐扑]算法最大的優(yōu)點(diǎn)就是可以通過(guò)訓(xùn)練數(shù)據(jù)集來(lái)解決數(shù)據(jù)稀疏性問(wèn)題。
組合推薦算法:組合推薦算法,顧名思義是組合了多種推薦算法,將各組合的算法的有點(diǎn)集中到一起,提高了推薦精準(zhǔn)度,該算法解決了使用推薦算法單一問(wèn)題。[15]。例如:將協(xié)同過(guò)濾算法跟基于內(nèi)容的推薦算法的兩個(gè)推薦結(jié)果按照一定股則組合,這樣使得協(xié)同過(guò)濾算法中經(jīng)常出弦的冷啟動(dòng)現(xiàn)象得到了很好的解決。
全局?jǐn)?shù)值協(xié)同過(guò)濾推薦算法:該算法主要分為兩大類別:基于項(xiàng)目相似度的item-based推薦算法與基于用戶相似度的user-based推薦算法。在實(shí)際應(yīng)用環(huán)境中,協(xié)同過(guò)濾算法由于推薦精準(zhǔn)度較好,算法實(shí)現(xiàn)難度較小,受到了廣泛應(yīng)用。同所有其他推薦算法一樣,協(xié)同過(guò)濾算法同樣存在一些問(wèn)題,如擴(kuò)展性問(wèn)題,稀疏性問(wèn)題以及冷啟動(dòng)問(wèn)題[10]。
下面對(duì)冷啟動(dòng)問(wèn)題以及擴(kuò)展性問(wèn)題作出解釋。
冷啟動(dòng)問(wèn)題:推薦算法對(duì)于第一次使用系統(tǒng)或者新加到系統(tǒng)中的項(xiàng)目,新項(xiàng)目、新用戶沒(méi)有任何使用痕跡或者行為歷史,推薦系統(tǒng)無(wú)法獲得用戶的興趣從而無(wú)法向其進(jìn)行推薦或者將新項(xiàng)目推薦給用戶。解決此類問(wèn)題最常用的方法是向新用戶推薦top-N集合,對(duì)于新加入的項(xiàng)目則可以計(jì)算項(xiàng)目間的相似度,從而向用戶推薦與其感興趣項(xiàng)目最相似的項(xiàng)目集合[10]。
擴(kuò)展性問(wèn)題:隨著系統(tǒng)中的用戶數(shù)量和服務(wù)數(shù)量的增加,用戶間相似度、服務(wù)間相似度的計(jì)算復(fù)雜度會(huì)變得非常大,以及用戶對(duì)服務(wù)預(yù)測(cè)評(píng)分過(guò)程的計(jì)算復(fù)雜度也會(huì)隨著用戶數(shù)、五服務(wù)數(shù)增大而增大。推薦系統(tǒng)無(wú)法及時(shí)地計(jì)算出推薦結(jié)果。此類問(wèn)題的最常用解決方法是并化改進(jìn)推薦算法,同時(shí)利用服務(wù)器集群的運(yùn)算與存儲(chǔ)能力來(lái)減少算法訓(xùn)練時(shí)間[10]。
對(duì)于現(xiàn)有的推薦算法而言,提高算法的訓(xùn)練效率,降低對(duì)用戶相似度的計(jì)算復(fù)雜度始終是難以攻克的研究點(diǎn),未來(lái)相關(guān)研究可以圍繞這些問(wèn)題展開(kāi)。
2.3 基于用戶位置的社交網(wǎng)絡(luò)研究
基于用戶位置的社交網(wǎng)絡(luò)(LBSN)的定義[13]為:將用戶的位置信息添加到當(dāng)前的社交網(wǎng)絡(luò)中,使社會(huì)結(jié)構(gòu)的所有人員都能夠共享添加的位置信息,位置信息的添加能夠引申出一種新型的社會(huì)結(jié)構(gòu),這種新型結(jié)構(gòu)是建立在物理世界之上的,其能夠從用戶的位置中得到相關(guān)性。物理位置由某時(shí)的即時(shí)位置和某段時(shí)間內(nèi)的歷史位置軌跡組成。社交網(wǎng)絡(luò)中的用戶,其相關(guān)性從如理位置中得出,如用戶同時(shí)共享同一物理位置信息;用戶擁有同一歷史位置;從歷史位置信息或位置標(biāo)識(shí)中挖掘中用戶相同的愛(ài)好、活動(dòng)等。
在基于用戶位置的社交網(wǎng)絡(luò)中有兩個(gè)主要成員:用戶和位置,這兩者之間存在相關(guān)性。在物理世界中,當(dāng)用戶在社交網(wǎng)絡(luò)中共享位置信息時(shí)就會(huì)留下歷史位置和相對(duì)物理位置的標(biāo)識(shí),當(dāng)將這些共享的歷史位置按照時(shí)間的先后順序進(jìn)行一一連接,這樣就能夠得到用戶的歷史軌跡。基于這些軌跡,能夠建立三個(gè)圖:將用戶的所有歷史位置信息進(jìn)行連接得到位置--位置圖;將用戶信息和用戶共享的歷史位置信息進(jìn)行連接能夠得到用戶--位置圖;將社交網(wǎng)絡(luò)中的所有用戶和其位置進(jìn)行連接,通過(guò)用戶和位置間的關(guān)系得到用戶--用戶圖?;谟脩粑恢玫纳缃痪W(wǎng)絡(luò)三種圖形如圖1所示,其是研究的主要依據(jù)[9]。
圖1 LBSN研究原理
目前,LBSN的研究分為:基于LBSN的服務(wù)和基于LBSN的應(yīng)用。
基于LBSN的服務(wù)主要分為三類[11]:
1.由媒體內(nèi)容表示位置信息
在這類網(wǎng)絡(luò)中,通過(guò)從用戶上傳到網(wǎng)絡(luò)服務(wù)上帶有地理位置標(biāo)記的媒體內(nèi)容中直接提取帶位置信息,如從帶有地理標(biāo)記的圖片獲取位置信息。從用戶的上傳的媒體信息中能夠得到用戶的物理位置和時(shí)間信息,根據(jù)這兩種信息可以推出用戶的社會(huì)結(jié)構(gòu),從而為用戶提供幫助,如添加好友。在媒體內(nèi)容表示位置信息的網(wǎng)絡(luò)中,媒體中所包含的位置信息僅僅是其內(nèi)容的組成部分,用戶間的相關(guān)性不能用其中的位置信息代表,而應(yīng)該用媒體本身。endprint
2.由位置點(diǎn)表示位置信息
用戶通過(guò)簽到的方式在網(wǎng)絡(luò)中向系統(tǒng)發(fā)送自己的物理位置。在社交網(wǎng)絡(luò)中,通過(guò)用戶在指定地點(diǎn)簽到的實(shí)時(shí)物理位置信息,得到簽到點(diǎn)周邊的用戶,通過(guò)周邊的用戶來(lái)進(jìn)行一些列的社會(huì)活動(dòng)。與此同時(shí),用戶對(duì)所簽到地點(diǎn)的評(píng)價(jià),一方面能夠給其他訪問(wèn)該位置點(diǎn)的用戶提供參考,另一方面,商家可以通過(guò)用戶的評(píng)論得到市場(chǎng)的反饋情況從而改善自身經(jīng)營(yíng)。在用位置點(diǎn)表示位置信息的網(wǎng)絡(luò)中,用戶間的相關(guān)性的數(shù)據(jù)支持由簽到信息中的位置和時(shí)間數(shù)據(jù)提供。
3.由軌跡表示位置信息。
在這類網(wǎng)絡(luò)中,通過(guò)手機(jī)或其它智能終端獲取用戶的物理位置信息,將物理位置信息中的位置和時(shí)間數(shù)據(jù)進(jìn)行連接來(lái)形成用戶的軌跡,用戶的歷史軌跡能夠很好的記錄其活動(dòng)的路徑,在重視位置點(diǎn)的基礎(chǔ)上,將位置點(diǎn)按時(shí)間進(jìn)行連接得出重要的詳細(xì)路徑信息。用戶的軌跡信息在記錄其活動(dòng)的詳細(xì)路徑的同時(shí)還記錄了其它的重要信息,如活動(dòng)的平均速度、完成時(shí)間、活動(dòng)距離等;再者,通過(guò)用戶的軌跡信息也可以得到用戶的經(jīng)驗(yàn)。在有軌跡表示位置信息的網(wǎng)絡(luò)中,用戶間的相關(guān)性由軌跡中的信息體現(xiàn)。
基于LBSN的應(yīng)用主要分為兩大類:
1.基于用戶的應(yīng)用
從用戶的層面,在綜合考慮用戶的相似性、隱私和行為等因素后,基于用戶的應(yīng)用可以由以下5種組成:
1)好友推薦。通過(guò)對(duì)用戶相似性的比較,相似性較高的用戶間最可能存在共同的愛(ài)好,這樣就能夠給用戶進(jìn)行好友推薦。將用戶的地理位置軌跡進(jìn)行相應(yīng)的整理,用層次結(jié)構(gòu)對(duì)用戶行為進(jìn)行描述,其中,每個(gè)用戶的層次結(jié)構(gòu)都是唯一的。用戶間相似性的高低通過(guò)用戶的唯一層次圖進(jìn)行表示,通過(guò)不同用戶的層次圖來(lái)衡量用戶之間的相似性高低。
2)專家發(fā)現(xiàn)。用戶針對(duì)不同的地理位置擁有不同的熟悉程度,專家是針對(duì)特定的區(qū)域非常熟悉的用戶,專家可根據(jù)其了解的知識(shí)為用戶提供幫助。在HITS(Hypertext Induced Topic Search)模型中,先用特定的結(jié)構(gòu)來(lái)表達(dá)用戶的位置信息,然后將用戶和位置一一對(duì)應(yīng)為hub節(jié)點(diǎn)和authority節(jié)點(diǎn),推算出用戶經(jīng)驗(yàn)值高低,經(jīng)驗(yàn)值高者為專家,系統(tǒng)可向其他用戶進(jìn)行專家推薦[16]。
3)群體挖掘。用戶的相似性通過(guò)其地理位置信進(jìn)行比較,從而可以將相似性高的用戶分為不同的團(tuán)體,這樣就能夠?qū)⒕哂邢嗤d趣愛(ài)好的用戶聚集到一起參加群體活動(dòng),如同一小區(qū)的用戶參加社區(qū)活動(dòng)[15]。
4)隱私保護(hù)。在基于位置的社交網(wǎng)絡(luò)中,用戶的個(gè)人信息和其上傳的位置信息中包潛藏著很大的商機(jī),然而潛在的商機(jī)會(huì)因?yàn)橛脩魧?duì)隱私的保密的流失。商家在用戶提供信息的同時(shí),給出信息共享帶來(lái)的綜合評(píng)估分析,方便用戶根據(jù)分析結(jié)果決定信息是否公開(kāi)。
5)行為分析。用戶行為具有規(guī)律性。生活模式能夠代表用戶日常生活方式和行動(dòng)規(guī)律,用其標(biāo)準(zhǔn)范式定義能夠被挖掘的生活規(guī)律,并根據(jù)用戶的生活規(guī)律提出行為挖掘的工作框架,這個(gè)框架能夠幫助用戶從海量的原始數(shù)據(jù)中挖掘出用戶的生活行為。
2.基于位置的應(yīng)用
從位置的層面,在綜合考慮用戶相似性、位置相關(guān)性和位置的種類后,基于位置的應(yīng)用可以由以下7種組成:
1)路徑發(fā)現(xiàn)??紤]位置采集設(shè)備、環(huán)境等因素,相鄰采集點(diǎn)間的軌跡是不確定的。從所有的可能軌跡的挖掘出相鄰采集點(diǎn)間概率最大軌跡。根據(jù)“不確定性+不確定性=確定性”,根據(jù)用戶的查詢條件,從路由圖中挖掘出最優(yōu)的幾條路徑反饋給用戶[18]。
2)商店位置選擇。在基于位置信息的社交網(wǎng)絡(luò)中,根據(jù)用戶的位置信息能夠得到用戶相似度和位置的流行度。首先,將所有問(wèn)題進(jìn)行形式化的定義,然后,根據(jù)需要從各種角度對(duì)商店的位置進(jìn)行合理的預(yù)測(cè),如密度、競(jìng)爭(zhēng)、區(qū)域及其流行性等。
3)區(qū)域功能發(fā)現(xiàn)。城市的主干道可以將其劃分為不同的區(qū)域,不同的區(qū)域中的用戶具有不同的位置軌跡和興趣愛(ài)好,利用主題模型能夠能夠快速的得出區(qū)域的功能[19]。
4)位置和路徑推薦。在指定的區(qū)域中,利用HITS模型能夠推導(dǎo)出不同位置的流行度,然后將區(qū)域中流行度高的幾個(gè)位置推薦給用戶。在流程路徑的推薦中,將位置流行度分配到相連的不同路徑上,綜合考慮每條路徑上用戶的訪問(wèn)數(shù)量和經(jīng)驗(yàn)值,推導(dǎo)出路徑流行度最高的路徑,然后將其推薦給用戶。
5)行程規(guī)劃。首先,用戶給出行程的起始位置和時(shí)間要求,然后在滿足客戶所有要求的前提下挖掘出有趣的位置路徑,綜合考慮有趣位置數(shù)量、有趣位置所需時(shí)間、整個(gè)行程所需時(shí)間和路徑流行度等因素,最后挖掘出其最優(yōu)的行程推薦給用戶[18]。
6)個(gè)性化位置推薦。利用HITS模型挖掘出每種類型中經(jīng)驗(yàn)值較高的專家。根據(jù)用戶的興趣向其推薦相對(duì)應(yīng)專家評(píng)價(jià)較高的位置。
7)位置活動(dòng)推薦。在用戶的指定位置,為用戶推薦相應(yīng)位置上的流行活動(dòng);同樣,當(dāng)用戶指定活動(dòng)時(shí),為用戶推薦相應(yīng)活動(dòng)的流行位置以及到達(dá)該位置的最優(yōu)路徑[21]。建立在協(xié)同過(guò)濾基礎(chǔ)上的協(xié)同矩陣分解能夠完成此推薦,首先,根據(jù)位置和種類間的關(guān)系形成對(duì)應(yīng)矩陣,根據(jù)活動(dòng)間的關(guān)系形成對(duì)應(yīng)矩陣,然后,根據(jù)通過(guò)完善位置-活動(dòng)矩陣中的缺失項(xiàng)來(lái)完成位置活動(dòng)的推薦。
現(xiàn)如今,市面上已經(jīng)擁有了一部分路徑推薦的應(yīng)用,然而這些應(yīng)用并沒(méi)有考慮不同用戶的個(gè)性化,其對(duì)所有的用戶推薦的結(jié)果都是一致的。怎樣將用戶的個(gè)性化考慮到應(yīng)用的推薦中,是應(yīng)用能夠根據(jù)用戶的個(gè)性化挖掘出匹配用戶個(gè)性化的最優(yōu)路徑,該研究方向必將是LBSN中的研究熱點(diǎn)。
2.4 其他相關(guān)研究
隨著中國(guó)的不斷發(fā)展,人們對(duì)于個(gè)人網(wǎng)絡(luò)隱私保護(hù)意識(shí)也變的越來(lái)越強(qiáng),社交網(wǎng)站通過(guò)分析用戶的行為來(lái)為用戶提供更為貼切個(gè)性化的服務(wù),但與此同時(shí)用戶的一些隱私也不可避免的在無(wú)形之中被泄露了,對(duì)于社交網(wǎng)絡(luò)用戶隱私的研究也是一熱門(mén)研究方向,并且未來(lái)會(huì)越來(lái)越得到人們的關(guān)注?;谏缃痪W(wǎng)絡(luò)的營(yíng)銷自社交網(wǎng)絡(luò)誕生的那天起一直以來(lái)都是研究熱點(diǎn),隨著大數(shù)據(jù)時(shí)代的到來(lái),傳統(tǒng)的網(wǎng)絡(luò)營(yíng)銷模式已經(jīng)跟不上時(shí)代的需求,未來(lái)社交平臺(tái)的營(yíng)銷研究會(huì)一直是主流研究方向。此外,隨著智能終端的快速,如今人們對(duì)于互聯(lián)網(wǎng)的接觸越來(lái)越容易,動(dòng)動(dòng)手指就能上網(wǎng),對(duì)于心智尚未發(fā)育健全的兒童來(lái)說(shuō),社交平臺(tái)上的很多信息是不利的甚至是有害的,未來(lái)如何管理好社交網(wǎng)絡(luò)中的低齡用戶是值得研究的。endprint
3 社交網(wǎng)絡(luò)用戶行為挖掘前景展望
針對(duì)社交網(wǎng)絡(luò)用戶行為挖掘的研究,經(jīng)過(guò)眾多國(guó)內(nèi)外前輩的努力研究,已經(jīng)取得了不菲的成果,但在理論方面,還有很多需要學(xué)習(xí)和突破的地方,可以從以下幾個(gè)方面進(jìn)行進(jìn)一步的學(xué)習(xí)和研究。
1.用戶行為監(jiān)管。行為一致性研究,研究用戶的線上線下行為;群體行為的研究,研究用戶間行為的影響及其發(fā)生的“蝴蝶效應(yīng)”;行為動(dòng)機(jī)研究,以負(fù)面信息為出發(fā)點(diǎn),研究惡意中傷、謠言等行為動(dòng)機(jī);政府監(jiān)管政策的研究,從政府出臺(tái)的法律法規(guī)和各項(xiàng)措施為出發(fā)點(diǎn),研究其效果及其對(duì)社交網(wǎng)絡(luò)的影響。
2.專業(yè)性、移動(dòng)性社交網(wǎng)絡(luò)的研究。目前,社交網(wǎng)絡(luò)的研究以綜合性的社交網(wǎng)絡(luò)為主要研究對(duì)象,而專業(yè)性、移動(dòng)性的社交網(wǎng)絡(luò)研究卻不太成熟,在未來(lái)的研究中應(yīng)該以此為方向進(jìn)行重點(diǎn)研究,如專業(yè)性、移動(dòng)性社交網(wǎng)絡(luò)與傳統(tǒng)社交網(wǎng)絡(luò)的區(qū)別;用戶的使用動(dòng)機(jī);用戶關(guān)注的焦點(diǎn);用戶的行為模式等。在研究的內(nèi)容方面,現(xiàn)今較關(guān)注娛樂(lè)及輿論信息的研究,而對(duì)其服務(wù)和商業(yè)方面的研究缺很少,這也必將是未來(lái)研究的一個(gè)熱點(diǎn)。
3.情感分析。情感分析,顧名思義,就是分析用戶的情感,也常被稱作觀點(diǎn)挖掘??偨Y(jié)社交網(wǎng)絡(luò)的特點(diǎn)是:使用的方便性,實(shí)時(shí)性,用戶低門(mén)檻性,用戶不需要有專門(mén)的寫(xiě)作技能就能發(fā)表博文,并且用戶所發(fā)的內(nèi)容通常都是一些生活的記錄,非常真實(shí)地反應(yīng)了用戶的日常生活,用戶大量的生活記錄就能把社會(huì)狀態(tài)反映出來(lái),從而從海量的用戶數(shù)據(jù)中分析用戶情感挖掘有價(jià)值信息具有非常大的意義。比如,可以通過(guò)分析網(wǎng)名的情感進(jìn)行輿情監(jiān)控,為管理者引導(dǎo)輿論提供了非常有效的方法;通過(guò)分析網(wǎng)民所發(fā)博文預(yù)測(cè)當(dāng)前熱點(diǎn)事件,可以為政府的決策提供支持;對(duì)購(gòu)物網(wǎng)站上的用戶評(píng)論進(jìn)行挖掘分析,能夠?yàn)槠渌脩舻臎Q策提供幫助,為商家收集反饋信息、監(jiān)督市場(chǎng)提供幫助。國(guó)內(nèi)對(duì)于社交網(wǎng)絡(luò)用戶的情感分析研究起步比較晚以及資源的限制,系統(tǒng)的分析效率、精準(zhǔn)度的提高還有待提高,未來(lái)還有許多研究工作要做。
4.社交網(wǎng)絡(luò)事件預(yù)測(cè)。該研究對(duì)于媒體或者黨政有關(guān)部門(mén)非常有幫助,可以加強(qiáng)對(duì)突發(fā)的一些需要得到控制的時(shí)間在第一時(shí)間得到控制、監(jiān)管改變“事后處理”狀態(tài),針對(duì)可能出現(xiàn)的突發(fā)事件制定應(yīng)急預(yù)案,增強(qiáng)事件的處理能力和主動(dòng)性。微博事件預(yù)測(cè)在發(fā)展事件預(yù)測(cè)、管理等方面依然是當(dāng)前的重點(diǎn)研究方向,尤其是預(yù)測(cè)的準(zhǔn)確度以及預(yù)測(cè)結(jié)果的改善方面有待進(jìn)一步提升。
5.社交搜索。搜索引擎的發(fā)展階段大致可以分為三個(gè)大的階段。第一個(gè)階段:圖書(shū)館、站內(nèi)搜索階段,搜索方式為文字匹配,特點(diǎn)是速度慢、精確度低。第二個(gè)階段:網(wǎng)頁(yè)搜索階段,搜索方式為網(wǎng)頁(yè)間的關(guān)系,典型代表有Google、Baidu、Yahoo。如今,第三個(gè)階段:社交搜索階段,搜索方式在考慮網(wǎng)頁(yè)間的關(guān)系的同時(shí)考慮人的因素,特點(diǎn)是搜索具有針對(duì)性、計(jì)算能力強(qiáng)、結(jié)果準(zhǔn)確。對(duì)于以往的搜索,搜索引擎對(duì)于輸入的相同關(guān)鍵字在不同瀏覽器上,不同的時(shí)間,反饋的搜索結(jié)果都是一樣的,然而社交搜索中,搜索引擎能夠根據(jù)搜索者的社交網(wǎng)絡(luò)數(shù)據(jù)給出一個(gè)最合適的結(jié)果,就是說(shuō)不同的人通過(guò)社交搜索引擎輸入相同的關(guān)鍵字能夠得到不一樣的、最適合個(gè)人的搜索結(jié)果。在社交搜索中,用戶的社交數(shù)據(jù)是搜索的數(shù)據(jù)支撐,但是當(dāng)前的社交網(wǎng)絡(luò)中的數(shù)據(jù)是保密的,最終導(dǎo)致搜索引擎和社交網(wǎng)絡(luò)的隔離,信息孤島的出現(xiàn)。在未來(lái)的發(fā)展中,由于技術(shù)的發(fā)展、用戶的需要,社交網(wǎng)絡(luò)的數(shù)據(jù)必將和搜索引擎數(shù)據(jù)必將相互融,量大技術(shù)的融合建立在互聯(lián)網(wǎng)之上必將成為未來(lái)互聯(lián)網(wǎng)的發(fā)展趨勢(shì)?,F(xiàn)階段,基于社交網(wǎng)絡(luò)的搜索引擎理論和技術(shù)都處于不成熟的階段,還需要大量的學(xué)者去學(xué)習(xí)研究 [22]。
6.大數(shù)據(jù)環(huán)境下的用戶行為挖掘:國(guó)內(nèi)外研究單位開(kāi)展了相當(dāng)數(shù)量的大數(shù)據(jù)和社交網(wǎng)絡(luò)應(yīng)用系統(tǒng)的研究,但總體而言,很多算法由于不具有動(dòng)態(tài)性而無(wú)法適應(yīng)較大規(guī)模的數(shù)據(jù)量,怎樣改進(jìn)算法使之適應(yīng)當(dāng)前的大數(shù)據(jù)環(huán)境仍舊是一個(gè)重要任務(wù)。同時(shí),缺少對(duì)社交數(shù)據(jù)進(jìn)行科學(xué)管理和有效管理的使用系統(tǒng)也是我們面臨的一個(gè)巨大問(wèn)題。
5 結(jié)束語(yǔ)
本文從不同的角度對(duì)社交網(wǎng)絡(luò)用戶行為的用戶影響力、推薦系統(tǒng)和不同用戶位置的社交網(wǎng)絡(luò)的研究進(jìn)行學(xué)習(xí)并綜述,提出了未來(lái)社交網(wǎng)絡(luò)用戶行為挖掘的研究方向。
社交網(wǎng)絡(luò)用戶行為的挖掘研究在理論和實(shí)踐上都具有重大的意義,在未來(lái)的發(fā)展中不同學(xué)科、不同領(lǐng)域、不同組織和交叉研究以及應(yīng)用必將是未來(lái)研究的熱點(diǎn)和方向。
參考文獻(xiàn)
[1] 楊善林; 王佳佳; 代寶,等.在線社交網(wǎng)絡(luò)用戶行為研究現(xiàn)狀與展望[J].中國(guó)科學(xué)院,2015,(2):20-26.
[2] AGGARWAL C C.Social Network Data Analytics [M].New York:Springer,2012.
[3] CAI Y,CHEN Y.Minig influential bloggers:From general to domain specific [C]//Proc of the 13th International Conference on KnowledgeBased and Intelligence Information &Engineering Systems.Berlin:Springer,2009:447-454
[4] YAN Q,WU L, ZHENG L. Social network based microblog user behavior analysis[J].Physica A: Statistical Mechanics and Its Applications, 2013, 392(7): 1712-1723.
[5] HUI P,GREGORY M. Quantifying sentiment and influence in blogspaces[C]//Proc og the 1st Workshop on Social Media Analytics New York,NY:ACM,2010:53-61.endprint
[6] ZHOU T,LI H. Understanding mobile SNS continuance usage in China from the perspectives of social influence and privacy concern[J].Computers in Human Behavior, 2014, 37(3): 283-289.
[7] SHRIVER S K, NAIR H S, HOFSTETTER R. Social ties and usergenerated content: evidence from an online social network[J].Management Science, 2013, 59(6): 1425-1443.
[8] WENG J,LIM E P,JIANG JMET al.TitterRank:Finding topicsensitive influential twitters[C]//the 3rd ACM International Conference on Web Search and Data Mining(WSDM10).New York,USA,F(xiàn)ebruary 2010:261-270.
[9] LI D,SHUAI X,SUN G,et al.Mining topiclevel opinion influence in microblog [C]//the 21st ACM International Conference on Information and Knowledge Management(CIKM12).Maui,USA,October 2012:1562-1566.
[10]SONG X,YUN C,et al.Identifying opinion leaders in the blogosphere[C].the 16th ACM International Conference on Information and Knowledge Management(CIKM'07).LIsboa,Portugal,November,2007:971-974.
[11]DING Z Y,JIA Y,et al.An influence strength measurement viatimeaware probabilistic generative model for microblogs[C].the 15th AsiaPacific Web Conference.Sydney,Australia,April,2013.
[12]劉旭東,葛俊杰,陳德人.一種基于聚類和協(xié)同過(guò)濾的組合推薦算法[J].計(jì)算機(jī)科學(xué)與工程.2010.12:23-26.
[13]YU ZHENG.Locationbased social networks:Users[M].Springer press,2011
[14]ZHENG Y,ZHANG L,XIE X,et al. Mining interesting locations and travel sequences from gps trajectories [C]//Proceedings of the 18th International Conference on World wide web,WWW09,ACM,New York,NY,USA,2009,791-800.
[15]LIAO L,JIANG J,DING Y et al.Lifetime lexical variation in social media[C]//proceedings of the 28th AAAI conference on artificial intelligence,F(xiàn), 2014.
[16]BAO J,ZHENG Y,MOKBEL M. Locationbased and preferenceaware recommendation using sparse geosocial networking data[C]// 20th ACM SIGSPATIAL International Conference on Advances in GIS.Redondo Beach,California,2012.
[17]HUNG C C,CHANG C W,PENG W C.Mining trajectory profiles for discovering user communities [C]//Proceedings of the 2009 International Workshop on Location Based Social Networks,LBSN09,ACM,New York,NY,USA,2009:1-8.
[18]LIU H,WEILY,ZHENG Y,et al.Route discovery form mining uncertain trajectories[C]//ICDM,2011.
[19]YUAN J,ZHENG Y,XING X.Discovery regions of different functions in a city using human mobility and pois[C]//KDD,2012.
[20]YOON H,ZHENG Y,XIE ,et al.Social itinerary recommendation from usergenerated digital trails[J]. Personal and Ubiquitous Computing,2011.
[21]ZHENG V W,ZHENG Y,XIE X,et al.Collaborative location and activity recommendations with gps history data [C]//Proceedings of the 19th International Conference on World wide web,WWW10,ACM,New York,NY,USA,2010:1029-1038.
[22]費(fèi)洪曉,莫天池,秦啟飛.社交網(wǎng)絡(luò)相關(guān)機(jī)制應(yīng)用于搜索引擎的研究綜述[J]. 計(jì)算機(jī)技術(shù)與自動(dòng)化.2014(01).endprint