李超男
摘要:近來社交網(wǎng)絡(luò)的研究主要在社會網(wǎng)絡(luò)分析方面,包括公共關(guān)系、大眾傳播等領(lǐng)域,借鑒并融合了心理學(xué)、傳播學(xué)、社會學(xué)、信息論等多學(xué)科,逐步演變成為完整化、系統(tǒng)化的理論研究策略。這對在線社交網(wǎng)絡(luò)的數(shù)據(jù)分析與數(shù)據(jù)挖掘產(chǎn)生了非常大的挑戰(zhàn)。那么,對于不同的數(shù)據(jù)源,如何用適合的挖掘算法進行挖掘分析是數(shù)據(jù)挖掘研究工作者需考慮的重要問題。
關(guān)鍵詞:網(wǎng)絡(luò)模式;社交平臺;網(wǎng)絡(luò)用戶;數(shù)據(jù)挖掘算法
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)29-0003-03
1 概述
互聯(lián)網(wǎng)高速發(fā)展時期,不同類型的網(wǎng)絡(luò)社交媒體不斷涌現(xiàn),除微信、微博、博客等熱門社交媒體外,其他應(yīng)用型軟件也相繼出現(xiàn)網(wǎng)絡(luò)社交媒體的屬性,如百度網(wǎng)盤、淘寶、京東等。因此如今網(wǎng)絡(luò)模式下,用戶的社交屬性無處不在的,這也相繼產(chǎn)生了許多社交數(shù)據(jù),如何充分的、有效的挖掘利用此類社交數(shù)據(jù)以及熱門話題,這成為了很多學(xué)者和公司市場部門研究的熱點方向。
研究此類數(shù)據(jù)的原因是顯而易見的,利用對社交媒體數(shù)據(jù)的挖掘和分析,可以增加對新話題的理解能力,達(dá)到商業(yè)中的人工智能,這也能對網(wǎng)絡(luò)用戶進行更好的服務(wù),同時發(fā)現(xiàn)新的商機。如:對社會性網(wǎng)絡(luò)中的數(shù)據(jù)進行分析,辨別篩選出在特定的社會網(wǎng)絡(luò)用戶群體中具有意見領(lǐng)袖特征的人;發(fā)現(xiàn)網(wǎng)絡(luò)中一部分隱性興趣群體,歸類不一樣的興趣群組;找到特定用戶,根據(jù)用戶的某段時間內(nèi)的主觀情感進行主動規(guī)劃和推薦信息等。網(wǎng)絡(luò)模式下的社交網(wǎng)絡(luò)數(shù)據(jù)研究,是一個有活力的研究方向,可以為不同交叉學(xué)科領(lǐng)域帶來很大貢獻(xiàn)。
2 網(wǎng)絡(luò)模式用戶數(shù)據(jù)
2.1 社交網(wǎng)絡(luò)的分類
網(wǎng)絡(luò)模式下社交媒體多種多樣,在概述部分已經(jīng)進行了一些舉例,下文進行詳細(xì)的分類,如表1。
2.2 網(wǎng)絡(luò)模式數(shù)據(jù)的特征
傳統(tǒng)的數(shù)據(jù),在分析之前,我們可以預(yù)見到它的趨勢并制定相應(yīng)的算法進行分析,而網(wǎng)絡(luò)社交數(shù)據(jù)卻存在著很大的差異性,網(wǎng)絡(luò)社交數(shù)據(jù)的差異性體現(xiàn)在數(shù)據(jù)量龐大、非結(jié)構(gòu)化、動態(tài)且分散[1],因此,這種數(shù)據(jù)類型的數(shù)據(jù)分析,對高效的數(shù)據(jù)算法的需求很高。
2.3 網(wǎng)絡(luò)模式數(shù)據(jù)的價值
網(wǎng)絡(luò)數(shù)據(jù)從一些層面上看,體現(xiàn)出了用戶在某個時段的特定需求,通過網(wǎng)絡(luò)社交平臺,直接或間接表達(dá)出了自身的需求,這就會給我們?nèi)祟愋袨閷W(xué)的問題的研究帶來很多便利,同時對商業(yè)平臺的運營也會帶來很大的幫助,比如:通過對社交平臺的數(shù)據(jù)分析挖掘出潛在的客戶并加以推銷,對高效、新型的數(shù)據(jù)算法的需求也越來越強烈。
3 網(wǎng)絡(luò)模式下的數(shù)據(jù)研究思路
3.1 社會性網(wǎng)絡(luò)團體檢測
網(wǎng)絡(luò)社交團體與實際生活中社團屬性相似[2] ,同樣是由個體組成的,并且網(wǎng)絡(luò)社交團體中個體與個體之間的交流活動,會比個體與外界的交流活動要多。在真正意義上網(wǎng)絡(luò)社交團體中,又分為顯性的社交網(wǎng)絡(luò)團體和隱性的社交網(wǎng)絡(luò)群體。其中,顯性的社交網(wǎng)絡(luò)團體,就是一些具有相同愛好興趣的用戶主動聚集起來的團體,而隱性社交網(wǎng)絡(luò)團體,則是由一些興趣關(guān)注相同個體組成,個體之間的交流不多,但會在自然的網(wǎng)絡(luò)環(huán)境的交流中逐漸發(fā)展為顯性群體。
由于顯性的社交網(wǎng)絡(luò)團體,特征明顯,數(shù)據(jù)直觀,研究的難度并不大,因此,我們所說的對于社交網(wǎng)絡(luò)的社團的檢測,一般我們是針對隱性群體[3]。這些網(wǎng)絡(luò)社團的檢測充滿了挑戰(zhàn),因為這些團體的評估具有多樣化的特征,通常沒有決定性的正確。比如,在一個社交平臺中,兩個同時喜歡品茶的人,對茶的了解都非常深入,當(dāng)我們把它們檢測為隱性群體時,實際上兩個人確實喜歡的完全不同的茶,一個喜歡喝綠茶,對紅茶很反感,而另外一個人正好相反。
通常在網(wǎng)絡(luò)社團的檢測中,我們使用以下幾種方法:
(1) 使用以層級關(guān)系建立的社團檢測法。其目標(biāo)是創(chuàng)建出來一個社團的層級構(gòu)架??梢圆捎貌幌嗤牟呗詠矸治?,比較常用的有合并時聚類和分裂式聚類。
(2) 使用以節(jié)點為中心的社團檢測。判斷節(jié)點是否符合一些特征,例如相互完整性、內(nèi)外聯(lián)系頻繁性等,數(shù)據(jù)的分析者常用的策略有k-clubs、cliques等。
(3) 使用以網(wǎng)絡(luò)為中心的社團檢測。這一類的檢測中,數(shù)據(jù)分析者一般將網(wǎng)絡(luò)中一些不相交的子集,組織起來進行區(qū)分歸類而實現(xiàn),經(jīng)典的有譜聚類和模塊最大化等策略。
本文以微博的社交數(shù)據(jù)的處理方法為研究對象,選取了基于模塊化的最大值算法。例如:假設(shè)一個社會性網(wǎng)絡(luò)被劃分為N個社團Kn,定義模塊化值為M(Kn) 用做分別社交網(wǎng)絡(luò)中社團質(zhì)量的度量,表示公式為:
在這里,W=()n×n為權(quán)重值矩陣,A(V′,V″)= ,V為用戶節(jié)點集合為全部與社團c中的節(jié)點有聯(lián)系的邊的權(quán)重和,為在社團c中全部邊的權(quán)重和,表示整個社交圖中邊的權(quán)重和。
在社會網(wǎng)絡(luò)團體中,N個社團的構(gòu)造特征越顯著,M(Kn)的值就越大。
3.2 影響力建模
對于社交網(wǎng)絡(luò)的潛在性分析,有兩個驅(qū)動性的要求需要特別注意,即這種潛在性的社交網(wǎng)絡(luò)是由同質(zhì)性驅(qū)動還是影響力驅(qū)動的。比如,在商業(yè)領(lǐng)域,若判定出該網(wǎng)絡(luò)社交團體是同質(zhì)性驅(qū)動,也就是相似性驅(qū)動的話,就可以直接向一些被作為目標(biāo)的用戶發(fā)送推薦的商品信息;如果判定出該社交網(wǎng)絡(luò)是有影響力驅(qū)動的話,那么其中具有影響力的用戶一般被稱做“意見領(lǐng)袖”,辨別出來意見領(lǐng)袖,就能有償?shù)淖屇切┮庖婎I(lǐng)袖向網(wǎng)絡(luò)社交用戶推薦商品和服務(wù)[4]。如今網(wǎng)絡(luò)社交團體比較多且復(fù)雜,大多團體兼顧影響力驅(qū)動和同質(zhì)性驅(qū)動,因此如何準(zhǔn)確的分析社團中哪種驅(qū)動性為核心主導(dǎo)力是重中之重的工作。如何檢測出社交團體中具有影響力的核心節(jié)點,顯得尤為重要,接下來介紹幾種對影響力建模的有效實現(xiàn)途徑。
(1) 社會網(wǎng)絡(luò)平臺中的用戶在網(wǎng)絡(luò)中的度數(shù)越大,則他的影響力就越大,具體表示為:
其中,a為某一個用戶的節(jié)點,A為整個社交網(wǎng)絡(luò)。endprint
(2) 顧及到微博等社交網(wǎng)絡(luò)平臺的交互活動,依據(jù)用戶的消息記錄來計算出每個社交消息的平均轉(zhuǎn)發(fā)率,把每條消息引發(fā)的轉(zhuǎn)發(fā)行為視作用戶影響力的衡量指標(biāo):
(3) 基于谷歌的PageRank算法思想,在某一社交網(wǎng)絡(luò)中,如果發(fā)現(xiàn)某一個用戶的影響力越大,則說明他被較多的優(yōu)質(zhì)用戶所關(guān)注,由此為依據(jù)獲得的社交網(wǎng)絡(luò)中的關(guān)注排名影響力算法如下:
在此算法中,K(n)為社交網(wǎng)絡(luò)中用戶n的影響力,B(n)為所有關(guān)注n的社交網(wǎng)絡(luò)用戶的總和,A(m)是用戶m關(guān)注的用戶的總和。
3.3 情感分析與意見挖掘
情感分析與意見挖掘的主要目的是從用戶發(fā)布的信息中自動抽取出觀點。由于人們的語言具有多義性,這使得情感分析存在一定的難度。
情感分析的主要步驟為:
(1) 檢索出相應(yīng)的文檔
(2) 從文檔中找到相關(guān)的部分
(3) 從相關(guān)的部分找到所有的感情
(4) 進行量化分析每個感情
(5) 聚集全部感情,并形成一個概述判斷
意見挖掘的主要組成部分為:
(1) 哪個用戶是意見表達(dá)的對象
(2) 對這個對象表達(dá)了什么意見
(3) 意見是誰表達(dá)的
4 網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)挖掘算法分析
上文提到幾種對于社交網(wǎng)絡(luò)數(shù)據(jù)分析的重點部分,此章節(jié)主要對數(shù)據(jù)挖掘及處理部分進行對比分析,以求最優(yōu)的方案對數(shù)據(jù)進行有效的分析。
常用的數(shù)據(jù)挖掘算法有數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Databass,KDD)、聚類分析、K-Means聚類算法等,此章節(jié)將對這幾個算法進行一一的分析。
4.1 數(shù)據(jù)庫知識發(fā)現(xiàn)(數(shù)據(jù)挖掘的常規(guī)步驟)
數(shù)據(jù)庫知識發(fā)現(xiàn),一般包括七個階段,分別是數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)選擇、模式發(fā)現(xiàn)、數(shù)據(jù)變換、知識表示和模式評估[5]。其中,數(shù)據(jù)的預(yù)處理階段包括數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)選擇和數(shù)據(jù)變換,這個階段是決定數(shù)據(jù)挖掘質(zhì)量優(yōu)劣的重要步驟。接著,利用數(shù)據(jù)挖掘的算法在數(shù)據(jù)中提取出有用模式的過程就是模式發(fā)現(xiàn)。模式評估與知識表示是接下來的處理步驟,通過采取一定的量規(guī)標(biāo)準(zhǔn),辨別出真正有效的知識,通過可視化等技術(shù)呈現(xiàn)給用戶。
數(shù)據(jù)庫知識發(fā)現(xiàn)的流程如圖1所示。
4.2 聚類分析
聚類分析是最經(jīng)常使用的數(shù)據(jù)挖掘的算法之一,并和機器學(xué)習(xí)的無監(jiān)督學(xué)習(xí)具有一定的關(guān)聯(lián)。另外聚類還在圖像識別、Web檢索、人工智能等領(lǐng)域具有廣泛的應(yīng)用,也成為另外一些數(shù)據(jù)挖掘算法的預(yù)處理步驟。通常而言,聚類就是將數(shù)據(jù)劃分成為不同簇的過程,在不同簇的對象互相不同,而簇中的對象則彼此相似。大部分情況下,同一簇內(nèi)的對象可以被當(dāng)做一個整體來看待。
(1) 聚類的劃分標(biāo)準(zhǔn)
依據(jù)聚類分類的不同標(biāo)準(zhǔn),聚類算法通常可分為劃分方法、層次方法、基于網(wǎng)格的方法和基于密度的方法。
劃分方法:把n個原始的數(shù)據(jù)對象劃分成i個簇(i≤n),每個簇至少包含一個對象。接下來假設(shè)Dm(1≤m≤k)是聚類劃分后的一個簇,N表示原始數(shù)據(jù)集合,便有:
經(jīng)典的劃分算法主要有:k-中心點(K-Medoids)和k-均值(K-Means)算法,它們都是采用啟發(fā)式方法來逐步逼近最優(yōu)聚類結(jié)果,這一類算法適用于發(fā)現(xiàn)中小規(guī)模數(shù)據(jù)庫中的球狀簇。
層次方法:層次方法分為凝聚的層次聚類和分裂的層次聚類兩種。層次聚類方法可以發(fā)現(xiàn)差異層次上的數(shù)據(jù)聚集模式。BIRCH算法便是一種傳統(tǒng)的層次聚類算法,它通常是用做大規(guī)模數(shù)據(jù)集聚類問題的處理;而Chameleon算法則是現(xiàn)階段應(yīng)用良好的動態(tài)聚類算法,它能夠發(fā)現(xiàn)任意形狀的聚類簇。
基于密度的方法:這類聚類方法是為了發(fā)現(xiàn)非球狀簇。他的主要思想是:一旦密度超過某一個限定的密度閩值,就能夠繼續(xù)擴大這個簇的范圍。通常來講,基于密度的聚類算法僅考慮互斥的簇,而不考慮模糊集合。DENCLUE和DBSCAN都是基于密度的聚類算法[6]。
基于網(wǎng)格的方法:這種方法首先要形成一個網(wǎng)格的結(jié)構(gòu),形成網(wǎng)格結(jié)構(gòu)的方法是將數(shù)據(jù)空間分類成特定個數(shù)的數(shù)據(jù)單元,最終在網(wǎng)格結(jié)構(gòu)上進行聚類操作。基于網(wǎng)格的聚類主要有STING,GRIDCLUS 等。
(2) 相似性的度量
主要的相似性度量方法有以下四種:基于概率的度量方法、基于密度的度量、基于連接的度量方法和基于距離的度量方法。
基于距離的相似性度量方法的優(yōu)點是:計算比較簡單,易于理解。但缺點也相對較明顯,對不相關(guān)的數(shù)據(jù)信息比較敏感。主要的距離度量指標(biāo)有角度的余弦值、曼哈頓距離和歐幾里德距離?;诿芏鹊南嗨菩远攘糠椒ㄓ谢诿芏群瘮?shù)的方法、基于網(wǎng)格的方法和最近鄰方法。DBSCAN,OPTICS和CLIQUE都是基于密度的相似度量方法?;谶B接的相似性度量方法是建立在數(shù)據(jù)連接圖的基礎(chǔ)上,根據(jù)圖的邊測信息來進行數(shù)據(jù)聚類,把滿足一定連接數(shù)閩值的數(shù)據(jù)聚合成簇。這種方法的度量標(biāo)準(zhǔn)是數(shù)據(jù)對象的連接數(shù)量。基于概率的度量方法建立在統(tǒng)計學(xué)理論基礎(chǔ)上,主要有COBWEB, AutoClass和混合模型等。
(3) 簇的分離性
通常來說,按照簇的分離性可將聚類結(jié)果分為模糊簇和互斥簇。一般的聚類篩選是一種硬性的篩選,數(shù)據(jù)集中的每個數(shù)據(jù)對象都被硬性地按照某個規(guī)則劃分到某個簇中,這樣劃分會使得簇之間具有明顯的區(qū)別界限。其實模糊聚類簇不是互斥的,多個簇與數(shù)據(jù)對象之間有著不一樣的隸屬關(guān)系,它們之間形成了數(shù)據(jù)對象和類別的不確定性描述。所以模糊簇相對于硬性劃分的聚類簇能夠更真實地反應(yīng)客觀世界。通過計算對應(yīng)目標(biāo)函數(shù)的最小值得到最終的軟化分結(jié)果的模糊C均值(FCM)聚類算法就是一種常見的模糊聚類算法。endprint
4.3 K-Means聚類算法
對網(wǎng)絡(luò)用戶行為的特征相似程度以及分布情況進行分析時,經(jīng)常會應(yīng)用K-Means聚類算法。此算法是由J.B.MacQueen最早發(fā)現(xiàn)并提出的,以及在醫(yī)學(xué)、生物科學(xué)、文本文檔聚類等領(lǐng)域得到了廣泛應(yīng)用[7]。K-Means聚類算法的目標(biāo)是發(fā)現(xiàn)對象簇的相似度和分布狀況,從而獲得研究對象的群體特征。
K-Means算法在網(wǎng)絡(luò)用戶的興趣特征挖掘分析中的應(yīng)用,能夠準(zhǔn)確快速的發(fā)現(xiàn)用戶的興趣,并且,通過對網(wǎng)絡(luò)用戶的數(shù)據(jù)挖掘,進一步對群體用戶的興趣特征進行聚類分析[8]。這樣便于之后對用戶進行內(nèi)容推送以及興趣的預(yù)測。
K-Means聚類算法可以簡單描述為首先任意從數(shù)據(jù)集F中采用k個數(shù)據(jù)點當(dāng)做初始簇的中心點,然后在每個簇的中心以外的數(shù)據(jù)點依次計算到各簇以特定為半徑的區(qū)域距離,將數(shù)據(jù)點分類到最近的簇中心所代表的簇中,再從新計算出每個簇的簇中心。將這個步驟經(jīng)數(shù)次的重復(fù)迭代,一直迭代到符合中止的條件為止[9]。
K-Means算法簇中心的計算公式是:
其中,Cj表示第j個簇,j=1,2,….,k;mj用來呈現(xiàn)簇Cj的簇的中心區(qū)域(抽象理解為簇中全部數(shù)據(jù)的平均值向量);表示簇Cj中包含的數(shù)據(jù)點數(shù)。數(shù)據(jù)點xi到簇中心mj的距離計算公式為:
下面任意一個條件都能夠終止此迭代過程:
(1) 不再有數(shù)據(jù)點被重新分配
(2) 簇中心沒有再發(fā)生變化
(3) 誤差平方和(SSE)局部最小
K-Means算法的特征為首先就要確定預(yù)計將要分類的簇個數(shù)k,并且聚類的最終效果在較為偏重于依賴選取初始簇的中心。學(xué)者常用的判斷簇個數(shù)k的方法是選取多個k的值,實現(xiàn)盡可能多數(shù)次的聚類,將之前多數(shù)次聚類的值進行分析,再依據(jù)分析結(jié)果來最終判斷簇的個數(shù)。選擇初始簇中心的方法有很多種,目前大眾普遍接受的方法是“密度法”[10],密度法是按特定的半徑將所有數(shù)據(jù)點進行分類,選取分布在數(shù)據(jù)點為中央的以特定長度為半徑的區(qū)域內(nèi)的數(shù)據(jù)點數(shù)最多的前k個點為初始簇中心。
5 小結(jié)
對于網(wǎng)絡(luò)模式下的社交團體的數(shù)據(jù)挖掘分析,由于數(shù)據(jù)量龐大、情感因素較多等等原因近年來一直是此類數(shù)據(jù)挖掘研究的難題。本文就幾種最常用的數(shù)據(jù)挖掘分析算法進行了對比分析,并對網(wǎng)絡(luò)模式下社交團體的數(shù)據(jù)挖掘進行詳細(xì)的預(yù)分析。但網(wǎng)絡(luò)社交團體的數(shù)據(jù)挖掘分析,依然存在著很多客觀的難題,這也將是我以后研究工作的重要方向。
參考文獻(xiàn):
[1] 周小平,梁循,趙吉超,李志宇,馬躍峰. 面向社會網(wǎng)絡(luò)融合的關(guān)聯(lián)用戶挖掘方法綜述[J]. 軟件學(xué)報:1-21.
[2] 劉冰,趙君麗. 基于社會網(wǎng)絡(luò)分析的國內(nèi)E-learning數(shù)據(jù)挖掘研究述評[J]. 通化師范學(xué)院學(xué)報,2015(04):127-129.
[3] 宋洋. 基于社會網(wǎng)絡(luò)分析的Web數(shù)據(jù)挖掘研究[D].山東理工大學(xué),2015.
[4] 肖志軍. 一種面向社會網(wǎng)絡(luò)的熱點話題數(shù)據(jù)挖掘算法[J]. 計算機應(yīng)用與軟件,2014(06):24-28.
[5] 于樂. 社會網(wǎng)絡(luò)中社團發(fā)現(xiàn)及網(wǎng)絡(luò)演化分析[D].北京郵電大學(xué),2014.
[6] 劉行軍. 微博用戶及其信息傳播影響因素研究[D].華中師范大學(xué),2013.
[7] 陳康,朱應(yīng)堅,向勇. 面向社交網(wǎng)絡(luò)的用戶數(shù)據(jù)挖掘技術(shù)研究[J]. 電信科學(xué),2013(S1):94-101.
[8] 王千,王成,馮振元,葉金鳳. K-means聚類算法研究綜述[J]. 電子設(shè)計工程,2012(07):21-24.
[9] 周志勇. 聚類分析算法研究[D].河北大學(xué),2007.
[10] 邢留偉. K-Means算法在客戶細(xì)分中的應(yīng)用研究[D].西南財經(jīng)大學(xué),2007.endprint