費洪曉 伍澤全 劉一環(huán) 莫天池 李靖
摘要:隨著信息技術(shù)飛速發(fā)展,社交網(wǎng)絡(luò)逐漸占領(lǐng)了人們?nèi)粘=煌?、娛樂和購物等主要平臺。因此,大量圍繞社交網(wǎng)絡(luò)展開的研究也變得非常熱門.現(xiàn)有的圍繞社交網(wǎng)絡(luò)用戶行為展開的研究熱點主要有:基于社交網(wǎng)絡(luò)用戶行為的用戶影響力研究、基于用戶行為的推薦系統(tǒng)研究、以及社交網(wǎng)絡(luò)用戶隱私方面的研究等。社交網(wǎng)絡(luò)是互聯(lián)網(wǎng)的主要組成模塊之一,同時也是大數(shù)據(jù)時代的主要數(shù)據(jù)提供者之一,未來對于社交網(wǎng)絡(luò)的研究會越來越受到學術(shù)界以及工業(yè)界的更多投入,本文對社交網(wǎng)絡(luò)用戶行為挖掘的研究現(xiàn)狀、熱點展開了論述,并作出展望,提出了一些目前尚缺深入研究的方向,以期對讀者有所幫助。
關(guān)鍵詞:社交網(wǎng)絡(luò);數(shù)據(jù)挖掘;用戶行為
中圖分類號:文獻標識碼:A
1引言
建立在英特網(wǎng)基礎(chǔ)之上的社交網(wǎng)絡(luò)自誕生之日發(fā)展至今,已經(jīng)逐漸變成人們情感交流、關(guān)系維護和信息溝通的主要平臺和方式?;钴S在各社交網(wǎng)站上的用戶每時每刻都在產(chǎn)生著大量的數(shù)據(jù),在數(shù)據(jù)就是財富的今天,社交網(wǎng)絡(luò)已經(jīng)成為學術(shù)界工業(yè)界的重點研究對象,目前對社交網(wǎng)絡(luò)的研究與利用已經(jīng)非?;馃?,比如用戶分析,關(guān)系分析,社交搜索,網(wǎng)絡(luò)結(jié)構(gòu)、用戶隱私等等方面,其中對于用戶的研究是非常重要的一個方向,探索人類的行為規(guī)律一直是科學家們執(zhí)著的追求,發(fā)現(xiàn)人的規(guī)律的重要性也是不言而喻,對于社交網(wǎng)絡(luò)中人的行為的研究當然也包括在那當中[1]。本文以社交網(wǎng)絡(luò)中的用戶行為基本出發(fā)點,對在此基礎(chǔ)上進行的挖掘研究進行學習及分析,從而對挖掘研究進行綜述和展望。
2社交網(wǎng)絡(luò)用戶行為挖掘研究現(xiàn)狀和研究熱點
2.1基于社交網(wǎng)絡(luò)用戶行為的用戶影響力研究
跟現(xiàn)實生活中一樣,領(lǐng)袖的發(fā)言權(quán)往往比常人大的多,社交網(wǎng)絡(luò)對于輿論的影響力通常也有意見領(lǐng)袖,其可波及的力量不可輕視。怎樣去挖掘意見領(lǐng)袖、對社交網(wǎng)絡(luò)的用戶影響強度和單獨一個用戶的影響力進行分析,使用意見領(lǐng)袖來積極地將社會輿論引出,將新形勢下的那些輿情信息所具有的分析能力進行提高,同時,也可以很迅速且準確地掌握一些社會的輿情動態(tài),成為了社交網(wǎng)絡(luò)正在面臨的一個嚴肅課題和嚴峻的挑戰(zhàn)。在諸如:信息學、經(jīng)濟學、政治學和社會學各領(lǐng)域里面,影響力分析被認為是一種廣泛應用的研究技術(shù)。例如:推廣產(chǎn)品和選舉政治時有著重要的作用。影響力的個體一般包含了以下四個主要的特性:①容易將在自己的觀點傳達給其他人;②代表大多數(shù)普通人的觀點;③具有新穎的觀點;④也被稱為輿論領(lǐng)袖(opinionleaders)、擴散創(chuàng)新理論的革新者(innovators)、網(wǎng)絡(luò)中心(hubs)、網(wǎng)絡(luò)橋節(jié)點(connectors)、專家(mavens)等。社會影響力(socialinfluence)指的是,個人行為可以直接或者間接地去影響到其他人的行為、思想和情感。在文獻[2]中給出了社交網(wǎng)絡(luò)影響力(influence)的定義,其大概地意義是指的用戶的行為因受到其他用戶的影響而發(fā)生了變化,在社交網(wǎng)絡(luò)中影響力是一種常見的現(xiàn)象。
我們可以把影響力的強度看做是用戶之間一種相互影響的能力大小,以往我們在度量影響力強度的時候往往僅將兩個網(wǎng)絡(luò)節(jié)點的共同鄰居個數(shù)納入考慮,然后,考慮到網(wǎng)絡(luò)中個體行為與話題的各種特征,主要使用了統(tǒng)計學和機器學習的方法來計算個體的影響強度(各類別話題之間)。統(tǒng)計學和機器學習的方法主要是以用戶之間的互相影響力為基礎(chǔ),假設(shè)用戶之間的影響力是一個隱形變量,并且通過一些數(shù)學迭代方法來建立學習模型求解該隱形變量。但是該方法忽略了個體之間如果相隔的時間間隔等特性,如相似性高的不同個體之間一般是有較高的影響力,個體之間具有的時間間隔如果越短,那么影響強度就越大。以下是對個體影響力的計算技術(shù)研究進行了一個比較詳細的介紹。
目前計算社交網(wǎng)絡(luò)用戶影響力強度的算法大多都是以PageRank算法思想為核心。PageRank算法是一種基于馬爾科夫的思想模擬用戶怎樣瀏覽網(wǎng)頁的各種行為,計算的式子如式2-1所示,其中,M是網(wǎng)絡(luò)轉(zhuǎn)移的矩陣,為網(wǎng)絡(luò)中各節(jié)點影響力的得分向量,e為自重啟的向量,α為跳轉(zhuǎn)的一個因子。
ε=αMTε+(1-α)1ne,e=(1,1,…,1)T(2-1)
PageRank算法主要還是考慮到節(jié)點傳播的影響力,須要不斷地進行迭代計算,但是,它卻忽視了各節(jié)點所存在的自身的特征,用戶的各行為在社交網(wǎng)絡(luò)中往往相互交織,尤其是當用戶的數(shù)量變得非常巨大的時候,這個時候整體的復雜度就變的相當之高,在對社交網(wǎng)絡(luò)的各用戶影響力的研究時,考慮到了用戶個體之間的不同特征,于是便改進了公式2-1得到如下公式2-2:
ε=αMTε+(1-α)r(2-2)
經(jīng)過改進,個性化向量r取代了自重啟向量e,r的含義是用戶對話題類型的各種偏好的程度、信息的敏感程度以及新穎程度等。Hui等人[5]在分析社交網(wǎng)絡(luò)數(shù)據(jù)時考慮到用戶自身的屬性,認為信譽較高的用戶其影響力相對而言較高。Cai等人在分析微博數(shù)據(jù)時將用戶的不同興趣領(lǐng)域納入考慮,表示在不同的興趣領(lǐng)域里面,用戶所具有的影響力的強度也不一樣[3]。Crandal等人通過分析用戶的行為,研究了用戶屬性里面?zhèn)€體之間影響力的關(guān)系。Agarwal等人在分析博客數(shù)據(jù)的時候主要考慮了四種不同的因素:知名度、活躍度、新穎度和表達能力來計算個體之間的影響力。
有研究者認為不同話題類型中的個體往往有著不同的影響力,他們從該點切入,結(jié)合PageRank算法思想,研究了各話題層面上的個體影響力,其中的典型代表是Weng[8]等人提出的TwitterRank算法,該算法也以Twitter網(wǎng)站的真實數(shù)據(jù)集為基礎(chǔ),根據(jù)網(wǎng)絡(luò)關(guān)注情況以及用戶之間的興趣相似度來算出不同個體在各個話題之上所具有的影響力。Li[9]等人通過使用統(tǒng)計學習方法,將微博上的一些歷史信息以及社交記錄經(jīng)過分析處理建立歷史意見影響力模型,同時將話題因素以及社會影響力相結(jié)合。此外,部分研究者考慮到個體信息的網(wǎng)絡(luò)結(jié)構(gòu)以及新穎度,給出了基于新穎度發(fā)現(xiàn)個體影響力的算法,特別是Song等人提出了InfluenceRank算法,該算法在處理微博數(shù)據(jù)集時,非常巧妙地將文章內(nèi)容的新穎度對社交網(wǎng)絡(luò)的貢獻加入到分析考慮范圍,來辨別博客中的那些意見領(lǐng)袖。Ding等人就微博多交互的這種特性,提出了基于多重關(guān)系網(wǎng)絡(luò)的一種隨機模型來計算每個微博用戶的影響力。
個體特征與網(wǎng)絡(luò)結(jié)構(gòu)相綜合后的計算技術(shù)提高了個體影響力度量的精準度,然而卻忽略了一個比較重要的特性,那就是網(wǎng)絡(luò)的多重關(guān)系,例如:微博上的用戶之間的交互通常不是單一的,而是多重關(guān)系相互交織,網(wǎng)絡(luò)的多關(guān)系性是個體影響力度量研究未來有待攻克的難點。
2.2基于用戶行為推薦系統(tǒng)研究
在如今的大數(shù)據(jù)時代,龐大的數(shù)據(jù)量使得數(shù)據(jù)的稀疏性加劇繼而使得傳統(tǒng)推薦系統(tǒng)決策過程的缺陷愈加明顯,然而基于社交網(wǎng)絡(luò)的推薦決策,其推薦鄰居是社會信任網(wǎng)絡(luò)的中的好友不再只是從用戶-商品評分矩陣獲??;社交網(wǎng)絡(luò)中的信任關(guān)心能夠體現(xiàn)出用戶之間的興趣相似度與影響能力,用戶能夠選擇信任鄰居,使得推薦過程不較傳統(tǒng)推薦過程更為透明一些;基于社交網(wǎng)絡(luò)的推薦魯棒性更好,因為在社交推薦中假如用戶的好友中沒有惡意用戶,那么推薦結(jié)果不會受惡意用戶的虛假評價影響;基于社交網(wǎng)絡(luò)的推薦系統(tǒng)中的用戶好友都是用戶主動選擇的,這使得時間復雜度與系統(tǒng)用戶數(shù)和項目數(shù)成正比的協(xié)同過濾算法可伸縮性變的更好。
基于用戶行為的推薦系統(tǒng)大多是以協(xié)同過濾算法為基礎(chǔ),使用協(xié)同過濾算法向用戶進行推薦的時候?qū)⒂脩舻男袨闅v史作為分析對象,得到用戶的行為習慣,這樣作出的推薦結(jié)果非常迎合用戶的個性,因此非常受用戶的歡迎。
用戶的歷史行為包括:評論,轉(zhuǎn)發(fā),瀏覽,收藏等。各行為都在某種程度上反映了用戶對于不同信息的感興趣度。例如:用戶搜索某個產(chǎn)品對比在網(wǎng)站上瀏覽該產(chǎn)品所表現(xiàn)出來的感興趣度要大的多。協(xié)同過濾算法正是從用戶的行為歷史中挖掘出所隱含的用戶興趣從而向用戶推送提供個性化的推薦結(jié)果,到現(xiàn)在為止協(xié)同過濾算法是應用最為廣泛的算法。現(xiàn)有的基于協(xié)同過濾的推薦技術(shù)主要有組合推薦技術(shù),全局數(shù)值協(xié)同推薦技術(shù)以及基于模型的推薦技術(shù)[10]。
基于模型的推薦算法:該算法的主要通過建立一些基礎(chǔ)模型來預測用戶的喜好。經(jīng)典的基于模型的推薦算法有:基于奇異值分解的推薦算法,基于聚類的推薦算法以及基于貝葉斯網(wǎng)絡(luò)的推薦算法?;谀P偷耐扑]算法最大的優(yōu)點就是可以通過訓練數(shù)據(jù)集來解決數(shù)據(jù)稀疏性問題。
組合推薦算法:組合推薦算法,顧名思義是組合了多種推薦算法,將各組合的算法的有點集中到一起,提高了推薦精準度,該算法解決了使用推薦算法單一問題。[13]。例如:將協(xié)同過濾算法跟基于內(nèi)容的推薦算法的兩個推薦結(jié)果按照一定股則組合,這樣使得協(xié)同過濾算法中經(jīng)常出弦的冷啟動現(xiàn)象得到了很好的解決。
全局數(shù)值協(xié)同過濾推薦算法:該算法主要分為兩大類別:基于項目相似度的item-based推薦算法與基于用戶相似度的user-based推薦算法。在實際應用環(huán)境中,協(xié)同過濾算法由于推薦精準度較好,算法實現(xiàn)難度較小,受到了廣泛應用。同所有其他推薦算法一樣,協(xié)同過濾算法同樣存在一些問題,如擴展性問題,稀疏性問題以及冷啟動問題[10]。
下面對冷啟動問題以及擴展性問題作出解釋。
冷啟動問題:推薦算法對于第一次使用系統(tǒng)或者新加到系統(tǒng)中的項目,新項目、新用戶沒有任何使用痕跡或者行為歷史,推薦系統(tǒng)無法獲得用戶的興趣從而無法向其進行推薦或者將新項目推薦給用戶。解決此類問題最常用的方法是向新用戶推薦top-N集合,對于新加入的項目則可以計算項目間的相似度,從而向用戶推薦與其感興趣項目最相似的項目集合[10]。
擴展性問題:隨著系統(tǒng)中的用戶數(shù)量和服務(wù)數(shù)量的增加,用戶間相似度、服務(wù)間相似度的計算復雜度會變得非常大,以及用戶對服務(wù)預測評分過程的計算復雜度也會隨著用戶數(shù)、五服務(wù)數(shù)增大而增大。推薦系統(tǒng)無法及時地計算出推薦結(jié)果。此類問題的最常用解決方法是并化改進推薦算法,同時利用服務(wù)器集群的運算與存儲能力來減少算法訓練時間[10]。
對于現(xiàn)有的推薦算法而言,提高算法的訓練效率,降低對用戶相似度的計算復雜度始終是難以攻克的研究點,未來相關(guān)研究可以圍繞這些問題展開。
2.3基于用戶位置的社交網(wǎng)絡(luò)研究
基于用戶位置的社交網(wǎng)絡(luò)(LBSN)的定義[11]為:將用戶的位置信息添加到當前的社交網(wǎng)絡(luò)中,使社會結(jié)構(gòu)的所有人員都能夠共享添加的位置信息,位置信息的添加能夠引申出一種新型的社會結(jié)構(gòu),這種新型結(jié)構(gòu)是建立在物理世界之上的,其能夠從用戶的位置中得到相關(guān)性。物理位置由某時的即時位置和某段時間內(nèi)的歷史位置軌跡組成。社交網(wǎng)絡(luò)中的用戶,其相關(guān)性從如理位置中得出,如用戶同時共享同一物理位置信息;用戶擁有同一歷史位置;從歷史位置信息或位置標識中挖掘中用戶相同的愛好、活動等。
在基于用戶位置的社交網(wǎng)絡(luò)中有兩個主要成員:用戶和位置,這兩者之間存在相關(guān)性。在物理世界中,當用戶在社交網(wǎng)絡(luò)中共享位置信息時就會留下歷史位置和相對物理位置的標識,當將這些共享的歷史位置按照時間的先后順序進行一一連接,這樣就能夠得到用戶的歷史軌跡?;谶@些軌跡,能夠建立三個圖:將用戶的所有歷史位置信息進行連接得到位置--位置圖;將用戶信息和用戶共享的歷史位置信息進行連接能夠得到用戶--位置圖;將社交網(wǎng)絡(luò)中的所有用戶和其位置進行連接,通過用戶和位置間的關(guān)系得到用戶--用戶圖?;谟脩粑恢玫纳缃痪W(wǎng)絡(luò)三種圖形如圖1所示,其是研究的主要依據(jù)[9]。
目前,LBSN的研究分為:基于LBSN的服務(wù)和基于LBSN的應用。
基于LBSN的服務(wù)主要分為三類[11]:
1)由媒體內(nèi)容表示位置信息
在這類網(wǎng)絡(luò)中,通過從用戶上傳到網(wǎng)絡(luò)服務(wù)上帶有地理位置標記的媒體內(nèi)容中直接提取帶位置信息,如從帶有地理標記的圖片獲取位置信息。從用戶的上傳的媒體信息中能夠得到用戶的物理位置和時間信息,根據(jù)這兩種信息可以推出用戶的社會結(jié)構(gòu),從而為用戶提供幫助,如添加好友。在媒體內(nèi)容表示位置信息的網(wǎng)絡(luò)中,媒體中所包含的位置信息僅僅是其內(nèi)容的組成部分,用戶間的相關(guān)性不能用其中的位置信息代表,而應該用媒體本身。
2)由位置點表示位置信息
用戶通過簽到的方式在網(wǎng)絡(luò)中向系統(tǒng)發(fā)送自己的物理位置。在社交網(wǎng)絡(luò)中,通過用戶在指定地點簽到的實時物理位置信息,得到簽到點周邊的用戶,通過周邊的用戶來進行一些列的社會活動。與此同時,用戶對所簽到地點的評價,一方面能夠給其他訪問該位置點的用戶提供參考,另一方面,商家可以通過用戶的評論得到市場的反饋情況從而改善自身經(jīng)營。在用位置點表示位置信息的網(wǎng)絡(luò)中,用戶間的相關(guān)性的數(shù)據(jù)支持由簽到信息中的位置和時間數(shù)據(jù)提供。
3)由軌跡表示位置信息。
在這類網(wǎng)絡(luò)中,通過手機或其它智能終端獲取用戶的物理位置信息,將物理位置信息中的位置和時間數(shù)據(jù)進行連接來形成用戶的軌跡,用戶的歷史軌跡能夠很好的記錄其活動的路徑,在重視位置點的基礎(chǔ)上,將位置點按時間進行連接得出重要的詳細路徑信息。用戶的軌跡信息在記錄其活動的詳細路徑的同時還記錄了其它的重要信息,如活動的平均速度、完成時間、活動距離等;再者,通過用戶的軌跡信息也可以得到用戶的經(jīng)驗。在有軌跡表示位置信息的網(wǎng)絡(luò)中,用戶間的相關(guān)性由軌跡中的信息體現(xiàn)。
基于LBSN的應用主要分為兩大類:
1)基于用戶的應用
從用戶的層面,在綜合考慮用戶的相似性、隱私和行為等因素后,基于用戶的應用可以由以下5種組成:
①好友推薦。通過對用戶相似性的比較,相似性較高的用戶間最可能存在共同的愛好,這樣就能夠給用戶進行好友推薦。將用戶的地理位置軌跡進行相應的整理,用層次結(jié)構(gòu)對用戶行為進行描述,其中,每個用戶的層次結(jié)構(gòu)都是唯一的。用戶間相似性的高低通過用戶的唯一層次圖進行表示,通過不同用戶的層次圖來衡量用戶之間的相似性高低。
②專家發(fā)現(xiàn)。用戶針對不同的地理位置擁有不同的熟悉程度,專家是針對特定的區(qū)域非常熟悉的用戶,專家可根據(jù)其了解的知識為用戶提供幫助。在HITS(HypertextInducedTopicSearch)模型中,先用特定的結(jié)構(gòu)來表達用戶的位置信息,然后將用戶和位置一一對應為hub節(jié)點和authority節(jié)點,推算出用戶經(jīng)驗值高低,經(jīng)驗值高者為專家,系統(tǒng)可向其他用戶進行專家推薦[14]。
③群體挖掘。用戶的相似性通過其地理位置信進行比較,從而可以將相似性高的用戶分為不同的團體,這樣就能夠?qū)⒕哂邢嗤d趣愛好的用戶聚集到一起參加群體活動,如同一小區(qū)的用戶參加社區(qū)活動[15]。
④隱私保護。在基于位置的社交網(wǎng)絡(luò)中,用戶的個人信息和其上傳的位置信息中包潛藏著很大的商機,然而潛在的商機會因為用戶對隱私的保密的流失。商家在用戶提供信息的同時,給出信息共享帶來的綜合評估分析,方便用戶根據(jù)分析結(jié)果決定信息是否公開。
⑤行為分析。用戶行為具有規(guī)律性。生活模式能夠代表用戶日常生活方式和行動規(guī)律,用其標準范式定義能夠被挖掘的生活規(guī)律,并根據(jù)用戶的生活規(guī)律提出行為挖掘的工作框架,這個框架能夠幫助用戶從海量的原始數(shù)據(jù)中挖掘出用戶的生活行為。
2)基于位置的應用
從位置的層面,在綜合考慮用戶相似性、位置相關(guān)性和位置的種類后,基于位置的應用可以由以下7種組成:
①路徑發(fā)現(xiàn)??紤]位置采集設(shè)備、環(huán)境等因素,相鄰采集點間的軌跡是不確定的。從所有的可能軌跡的挖掘出相鄰采集點間概率最大軌跡。根據(jù)“不確定性+不確定性=確定性”,根據(jù)用戶的查詢條件,從路由圖中挖掘出最優(yōu)的幾條路徑反饋給用戶[16]。
②商店位置選擇。在基于位置信息的社交網(wǎng)絡(luò)中,根據(jù)用戶的位置信息能夠得到用戶相似度和位置的流行度。首先,將所有問題進行形式化的定義,然后,根據(jù)需要從各種角度對商店的位置進行合理的預測,如密度、競爭、區(qū)域及其流行性等。
③區(qū)域功能發(fā)現(xiàn)。城市的主干道可以將其劃分為不同的區(qū)域,不同的區(qū)域中的用戶具有不同的位置軌跡和興趣愛好,利用主題模型能夠能夠快速的得出區(qū)域的功能[17]。
④位置和路徑推薦。在指定的區(qū)域中,利用HITS模型能夠推導出不同位置的流行度,然后將區(qū)域中流行度高的幾個位置推薦給用戶。在流程路徑的推薦中,將位置流行度分配到相連的不同路徑上,綜合考慮每條路徑上用戶的訪問數(shù)量和經(jīng)驗值,推導出路徑流行度最高的路徑,然后將其推薦給用戶。
⑤行程規(guī)劃。首先,用戶給出行程的起始位置和時間要求,然后在滿足客戶所有要求的前提下挖掘出有趣的位置路徑,綜合考慮有趣位置數(shù)量、有趣位置所需時間、整個行程所需時間和路徑流行度等因素,最后挖掘出其最優(yōu)的行程推薦給用戶[16]。
⑥個性化位置推薦。利用HITS模型挖掘出每種類型中經(jīng)驗值較高的專家。根據(jù)用戶的興趣向其推薦相對應專家評價較高的位置。
⑦位置活動推薦。在用戶的指定位置,為用戶推薦相應位置上的流行活動;同樣,當用戶指定活動時,為用戶推薦相應活動的流行位置以及到達該位置的最優(yōu)路徑[19]。建立在協(xié)同過濾基礎(chǔ)上的協(xié)同矩陣分解能夠完成此推薦,首先,根據(jù)位置和種類間的關(guān)系形成對應矩陣,根據(jù)活動間的關(guān)系形成對應矩陣,然后,根據(jù)通過完善位置-活動矩陣中的缺失項來完成位置活動的推薦。
現(xiàn)如今,市面上已經(jīng)擁有了一部分路徑推薦的應用,然而這些應用并沒有考慮不同用戶的個性化,其對所有的用戶推薦的結(jié)果都是一致的。怎樣將用戶的個性化考慮到應用的推薦中,是應用能夠根據(jù)用戶的個性化挖掘出匹配用戶個性化的最優(yōu)路徑,該研究方向必將是LBSN中的研究熱點。
2.4其他相關(guān)研究
隨著中國的不斷發(fā)展,人們對于個人網(wǎng)絡(luò)隱私保護意識也變的越來越強,社交網(wǎng)站通過分析用戶的行為來為用戶提供更為貼切個性化的服務(wù),但與此同時用戶的一些隱私也不可避免的在無形之中被泄露了,對于社交網(wǎng)絡(luò)用戶隱私的研究也是一熱門研究方向,并且未來會越來越得到人們的關(guān)注。基于社交網(wǎng)絡(luò)的營銷自社交網(wǎng)絡(luò)誕生的那天起一直以來都是研究熱點,隨著大數(shù)據(jù)時代的到來,傳統(tǒng)的網(wǎng)絡(luò)營銷模式已經(jīng)跟不上時代的需求,未來社交平臺的營銷研究會一直是主流研究方向。此外,隨著智能終端的快速,如今人們對于互聯(lián)網(wǎng)的接觸越來越容易,動動手指就能上網(wǎng),對于心智尚未發(fā)育健全的兒童來說,社交平臺上的很多信息是不利的甚至是有害的,未來如何管理好社交網(wǎng)絡(luò)中的低齡用戶是值得研究的。
3社交網(wǎng)絡(luò)用戶行為挖掘前景展望
針對社交網(wǎng)絡(luò)用戶行為挖掘的研究,經(jīng)過眾多國內(nèi)外前輩的努力研究,已經(jīng)取得了不菲的成果,但在理論方面,還有很多需要學習和突破的地方,可以從以下幾個方面進行進一步的學習和研究。
(1)用戶行為監(jiān)管。行為一致性研究,研究用戶的線上線下行為;群體行為的研究,研究用戶間行為的影響及其發(fā)生的“蝴蝶效應”;行為動機研究,以負面信息為出發(fā)點,研究惡意中傷、謠言等行為動機;政府監(jiān)管政策的研究,從政府出臺的法律法規(guī)和各項措施為出發(fā)點,研究其效果及其對社交網(wǎng)絡(luò)的影響。
(2)專業(yè)性、移動性社交網(wǎng)絡(luò)的研究。目前,社交網(wǎng)絡(luò)的研究以綜合性的社交網(wǎng)絡(luò)為主要研究對象,而專業(yè)性、移動性的社交網(wǎng)絡(luò)研究卻不太成熟,在未來的研究中應該以此為方向進行重點研究,如專業(yè)性、移動性社交網(wǎng)絡(luò)與傳統(tǒng)社交網(wǎng)絡(luò)的區(qū)別;用戶的使用動機;用戶關(guān)注的焦點;用戶的行為模式等。在研究的內(nèi)容方面,現(xiàn)今較關(guān)注娛樂及輿論信息的研究,而對其服務(wù)和商業(yè)方面的研究缺很少,這也必將是未來研究的一個熱點。
(3)情感分析。情感分析,顧名思義,就是分析用戶的情感,也常被稱作觀點挖掘。總結(jié)社交網(wǎng)絡(luò)的特點是:使用的方便性,實時性,用戶低門檻性,用戶不需要有專門的寫作技能就能發(fā)表博文,并且用戶所發(fā)的內(nèi)容通常都是一些生活的記錄,非常真實地反應了用戶的日常生活,用戶大量的生活記錄就能把社會狀態(tài)反映出來,從而從海量的用戶數(shù)據(jù)中分析用戶情感挖掘有價值信息具有非常大的意義。比如,可以通過分析網(wǎng)名的情感進行輿情監(jiān)控,為管理者引導輿論提供了非常有效的方法;通過分析網(wǎng)民所發(fā)博文預測當前熱點事件,可以為政府的決策提供支持;對購物網(wǎng)站上的用戶評論進行挖掘分析,能夠為其他用戶的決策提供幫助,為商家收集反饋信息、監(jiān)督市場提供幫助。國內(nèi)對于社交網(wǎng)絡(luò)用戶的情感分析研究起步比較晚以及資源的限制,系統(tǒng)的分析效率、精準度的提高還有待提高,未來還有許多研究工作要做。
(4)社交網(wǎng)絡(luò)事件預測。該研究對于媒體或者黨政有關(guān)部門非常有幫助,可以加強對突發(fā)的一些需要得到控制的時間在第一時間得到控制、監(jiān)管改變“事后處理”狀態(tài),針對可能出現(xiàn)的突發(fā)事件制定應急預案,增強事件的處理能力和主動性。微博事件預測在發(fā)展事件預測、管理等方面依然是當前的重點研究方向,尤其是預測的準確度以及預測結(jié)果的改善方面有待進一步提升。
(5)社交搜索。搜索引擎的發(fā)展階段大致可以分為三個大的階段。第一個階段:圖書館、站內(nèi)搜索階段,搜索方式為文字匹配,特點是速度慢、精確度低。第二個階段:網(wǎng)頁搜索階段,搜索方式為網(wǎng)頁間的關(guān)系,典型代表有Google、Baidu、Yahoo。如今,第三個階段:社交搜索階段,搜索方式在考慮網(wǎng)頁間的關(guān)系的同時考慮人的因素,特點是搜索具有針對性、計算能力強、結(jié)果準確。對于以往的搜索,搜索引擎對于輸入的相同關(guān)鍵字在不同瀏覽器上,不同的時間,反饋的搜索結(jié)果都是一樣的,然而社交搜索中,搜索引擎能夠根據(jù)搜索者的社交網(wǎng)絡(luò)數(shù)據(jù)給出一個最合適的結(jié)果,就是說不同的人通過社交搜索引擎輸入相同的關(guān)鍵字能夠得到不一樣的、最適合個人的搜索結(jié)果。在社交搜索中,用戶的社交數(shù)據(jù)是搜索的數(shù)據(jù)支撐,但是當前的社交網(wǎng)絡(luò)中的數(shù)據(jù)是保密的,最終導致搜索引擎和社交網(wǎng)絡(luò)的隔離,信息孤島的出現(xiàn)。在未來的發(fā)展中,由于技術(shù)的發(fā)展、用戶的需要,社交網(wǎng)絡(luò)的數(shù)據(jù)必將和搜索引擎數(shù)據(jù)必將相互融,量大技術(shù)的融合建立在互聯(lián)網(wǎng)之上必將成為未來互聯(lián)網(wǎng)的發(fā)展趨勢?,F(xiàn)階段,基于社交網(wǎng)絡(luò)的搜索引擎理論和技術(shù)都處于不成熟的階段,還需要大量的學者去學習研究[20]。
5結(jié)束語
本文從不同的角度對社交網(wǎng)絡(luò)用戶行為的用戶影響力、推薦系統(tǒng)和不同用戶位置的社交網(wǎng)絡(luò)的研究進行學習并綜述,提出了未來社交網(wǎng)絡(luò)用戶行為挖掘的研究方向。
社交網(wǎng)絡(luò)用戶行為的挖掘研究在理論和實踐上都具有重大的意義,在未來的發(fā)展中不同學科、不同領(lǐng)域、不同組織和交叉研究以及應用必將是未來研究的熱點和方向。
參考文獻
[1]楊善林;王佳佳;代寶等.在線社交網(wǎng)絡(luò)用戶行為研究現(xiàn)狀與展望[J].中國科學院,2015,(2)
[2]AggarwalCC.SocialNetworkDataAnalytics[M].NewYork:Springer,2012.
[3]CAIY,CHENY.Miniginfluentialbloggers:Fromgeneraltodomainspecific[C]//Procofthe13thInternationalConferenceonKnowledgeBasedandIntelligenceInformation&EngineeringSystems.Berlin:Springer,2009:447-454
[4]YANQ,WUL,ZHENGL.Socialnetworkbasedmicrobloguserbehavioranalysis.PhysicaA:StatisticalMechanicsandItsApplications,2013,392(7):1712-1723.
[5]HUIP,GREGORYM.Quantifyingsentimentandinfluenceinblogspaces[C]//Procogthe1stWorkshoponSocialMediaAnalyticsNewYork,NY:ACM,2010:53-61.
[6]ZHOUT,LIH.UnderstandingmobileSNScontinuanceusageinChinafromtheperspectivesofsocialinfluenceandprivacyconcern.ComputersinHumanBehavior,2014,37(3):283-289.
[7]SHRIVERSK,NAIRHS,HOFSTETTERR.Socialtiesandusergeneratedcontent:evidencefromanonlinesocialnetwork.ManagementScience,2013,59(6):1425-1443.
[8]WENGJ,LIMEP,JIANGJMETal.TitterRank:Findingtopic-sensitiveinfluentialtwitters[C]//the3rdACMInternationalConferenceonWebSearchandDataMining(WSDM10).NewYork,USA,F(xiàn)ebruary2010:261-270.
[9]LID,SHUAIX,SUNG,etal.Miningtopic-levelopinioninfluenceinmicroblog[C]//the21stACMInternationalConferenceonInformationandKnowledgeManagement(CIKM12).Maui,USA,October2012:1562-1566.
[10]劉旭東,葛俊杰,陳德人.一種基于聚類和協(xié)同過濾的組合推薦算法.計算機科學與工程.2010.12:23-26.
[11]YUZHENG.Locationbasedsocialnetworks:Users[M].Springerpress,2011
[12]ZHENGY,ZHANGL,XIEX,etal.Mininginterestinglocationsandtravelsequencesfromgpstrajectories[C]//Proceedingsofthe18thInternationalConferenceonWorldwideweb,WWW09,ACM,NewYork,NY,USA,2009,791-800.
[13]LIAOL,JIANGJ,DINGYetal.Lifetimelexicalvariationinsocialmedia//proceedingsofthe28thAAAIconferenceonartificialintelligence,F(xiàn),2014.
[14]BAOJ,ZHENGY,MOKBELM.Locationbasedandpreference-awarerecommendationusingsparsegeo-socialnetworkingdata[C]//20thACMSIGSPATIALInternationalConferenceonAdvancesinGIS.RedondoBeach,California,2012.
[15]HUNGCC,CHANGCW,PENGWC.Miningtrajectoryprofilesfordiscoveringusercommunities[C]//Proceedingsofthe2009InternationalWorkshoponLocationBasedSocialNetworks,LBSN09,ACM,NewYork,NY,USA,2009:1-8.
[16]LIUH,WEILY,ZHENGY,etal.Routediscoveryformmininguncertaintrajectories[C]//ICDM,2011.
[17]YUANJ,ZHENGY,XINGX.Discoveryregionsofdifferentfunctionsinacityusinghumanmobilityandpois[C]//KDD,2012.
[18]YOONH,ZHENGY,XIE,etal.Socialitineraryrecommendationfromuser-generateddigitaltrails[J].PersonalandUbiquitousComputing,2011.
[19]ZHENGVW,ZHENGY,XIEX,etal.Collaborativelocationandactivityrecommendationswithgpshistorydata[C]//Proceedingsofthe19thInternationalConferenceonWorldwideweb,WWW10,ACM,NewYork,NY,USA,2010:1029-1038
[20]費洪曉,莫天池,秦啟飛.社交網(wǎng)絡(luò)相關(guān)機制應用于搜索引擎的研究綜述[J].計算機技術(shù)與自動化.2014(01)
第35卷第1期2016年3月計算技術(shù)與自動化ComputingTechnologyandAutomationVol35,No1Mar.2016第35卷第1期2016年3月計算技術(shù)與自動化ComputingTechnologyandAutomationVol35,No1Mar.2016