宋朋 陸丹玥 趙燕萍 邵慶琳
(鹽城師范學(xué)院公共管理學(xué)院 鹽城 224002)
社交網(wǎng)絡(luò)中大數(shù)據(jù)研究新進(jìn)展
宋朋 陸丹玥 趙燕萍 邵慶琳
(鹽城師范學(xué)院公共管理學(xué)院 鹽城 224002)
大數(shù)據(jù)技術(shù)與傳統(tǒng)機(jī)器學(xué)習(xí)算法的融合對數(shù)據(jù)挖掘產(chǎn)生了新挑戰(zhàn),已成為數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、信息融合等領(lǐng)域的重要研究問題。本文綜述近年來社交網(wǎng)絡(luò)中大數(shù)據(jù)的分析方法及算法,大數(shù)據(jù)在市場營銷、犯罪識別、疾病預(yù)警、輿情分析、隱私保護(hù)等方面的應(yīng)用現(xiàn)狀,在此基礎(chǔ)上指出社交網(wǎng)絡(luò)中大數(shù)據(jù)的研究趨勢:深化隱私保護(hù)研究、推廣離線聚類算法及在線分析技術(shù)、社交網(wǎng)絡(luò)中的用戶行為模式研究。
大數(shù)據(jù) 社交網(wǎng)絡(luò) 輿情分析 隱私保護(hù)
隨著數(shù)據(jù)體積、數(shù)量的逐漸龐大,傳統(tǒng)數(shù)據(jù)管理方法越發(fā)難以實(shí)現(xiàn)對龐雜數(shù)據(jù)進(jìn)行及時、高效處理的要求。大數(shù)據(jù)處理技術(shù)是對傳統(tǒng)信息處理方式的更新,通過該方法可以實(shí)現(xiàn)數(shù)據(jù)的高效獲取、存儲,并可使分析更具價值,達(dá)到數(shù)據(jù)挖掘的真正目的。近年來,社交網(wǎng)絡(luò)快速發(fā)展,但其交互性使數(shù)據(jù)越發(fā)無序、多樣[1]15-18。就傳統(tǒng)技術(shù)而言,從非結(jié)構(gòu)化的社交媒體中抽取有價值的知識是較為困難的,面對如此龐大的數(shù)據(jù)體,如何實(shí)現(xiàn)數(shù)據(jù)的高效抽取,對有用知識進(jìn)行有效管理已成為當(dāng)今學(xué)者較為關(guān)心的問題[2]97-107[3]219-237。2016年9月1日,在CNKI數(shù)據(jù)庫以“大數(shù)據(jù)+社交網(wǎng)絡(luò)”為主題詞檢索得到1940篇論文,分別為2011年4篇;2012年95篇;2013年331篇;2014年557篇;2015年582篇;2016年369篇。可見,自2012年以來國內(nèi)學(xué)者對大數(shù)據(jù)社交網(wǎng)絡(luò)領(lǐng)域的關(guān)注度不斷增加,提取1940篇論文的關(guān)鍵詞,然后根據(jù)高頻關(guān)鍵詞反映的文獻(xiàn)主題、2012年以來文獻(xiàn)揭示的重要內(nèi)容以及GoogleScholar中核心文獻(xiàn)關(guān)注的研究內(nèi)容,將近年來大數(shù)據(jù)在社交媒體使用的模型、算法,在市場營銷、犯罪識別、疾病預(yù)警、輿情分析、隱私保護(hù)等方面的應(yīng)用現(xiàn)狀進(jìn)行了綜述,在此 基礎(chǔ)上分析大數(shù)據(jù)的研究趨勢。本文將近年來大數(shù)據(jù)在社交媒體使用的模型、算法,在市場營銷、犯罪識別、疾病預(yù)警、輿情分析、隱私保護(hù)等方面的應(yīng)用現(xiàn)狀進(jìn)行了綜述,在此基礎(chǔ)上分析大數(shù)據(jù)的研究趨勢。
大數(shù)據(jù)的分析方法屬于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、信息檢索以及自然語言處理等領(lǐng)域的內(nèi)容。近年來,社交網(wǎng)絡(luò)中大數(shù)據(jù)的分析方法包括網(wǎng)絡(luò)分析方法、社群識別方法、文本分析方法、信息擴(kuò)散模型和方法、大數(shù)據(jù)信息融合方法等。
1.網(wǎng)絡(luò)分析方法。在社交網(wǎng)絡(luò)中個體間進(jìn)行交流,根據(jù)用戶的偏好和關(guān)系提供信息已經(jīng)成為集體智慧抽取非常重要的信息源,Twitter每天可生成40億條新數(shù)據(jù)。這些關(guān)聯(lián)網(wǎng)絡(luò)可以以圖表、網(wǎng)絡(luò)的方式實(shí)現(xiàn)知識抽取。一般情況,社交網(wǎng)絡(luò)的重要性或影響力通過中心性測度可以進(jìn)行表示,但這些方法在大規(guī)模網(wǎng)絡(luò)中計算的復(fù)雜度較高。為了解決這一問題,研究人員試圖從大規(guī)模圖像分析中尋求解決方案。Apache Giraph采用迭代計算方法,對交互式的圖形圖像進(jìn)行處理[4]1403-1408。該方法適用于密集型一般化的機(jī)器學(xué)習(xí)算法,此外對資源管理提供支持,使眾多計算架構(gòu)在同一個Hadoop簇中計算、存儲,相同的數(shù)據(jù)可以利用MapReduce或Spark進(jìn)行分析。架構(gòu)采用節(jié)點(diǎn)到節(jié)點(diǎn)的映射方式,每個節(jié)點(diǎn)可以獲取到鄰近節(jié)點(diǎn)的狀態(tài)。兩個節(jié)點(diǎn)之間的距離通過節(jié)點(diǎn)與最大相鄰節(jié)點(diǎn)之間的運(yùn)行時間進(jìn)行定義。
2.社群識別方法。社群識別、發(fā)現(xiàn)是社交網(wǎng)絡(luò)分析領(lǐng)域研究較多的內(nèi)容[5]26-32,該領(lǐng)域的研究和識別一般結(jié)合了可視化方法??梢暬袌D像簇的判斷采用了隨機(jī)游動、頻譜聚類、模塊最大化及統(tǒng)計力學(xué)等技術(shù)[6]75-174。Girvan及Newman基于節(jié)點(diǎn)之間最短路徑采用“邊界中介”相似度測度方法,利用邊界識別將社群及子集去掉,實(shí)現(xiàn)不同社群的隔離[7]026113,但該算法對大型網(wǎng)絡(luò)計算的復(fù)雜度較高。目前,有很多算法基于近似模塊化方法實(shí)現(xiàn)在較短時間內(nèi)的社群識別。Newman提出第一模塊最大化技術(shù)[8]1-5,由于缺乏相鄰矩陣,導(dǎo)致執(zhí)行效率的下降。Clauset等人使用模塊變量最大化方法改進(jìn)了這一算法,使算法執(zhí)行效率大大提高。
在非鄰近社群的關(guān)系發(fā)現(xiàn)中,節(jié)點(diǎn)相互重疊是這一網(wǎng)絡(luò)的特征,網(wǎng)絡(luò)中的一個節(jié)點(diǎn)可能從屬于幾個不同的簇,為了解決這一問題引入模糊聚類算法[9]1760-1774。Xie等將重疊社群發(fā)現(xiàn)算法的研究現(xiàn)狀進(jìn)行了綜述,研究發(fā)現(xiàn)在一些低密度重疊網(wǎng)絡(luò)中OSLOM以及COPRA技術(shù)表現(xiàn)較好;在高密度重疊性及高重疊多樣化網(wǎng)絡(luò)中SLPA以及Game技術(shù)表現(xiàn)的相對穩(wěn)定[10]43。
3.文本分析方法。文本在社交網(wǎng)絡(luò)所收集的非結(jié)構(gòu)內(nèi)容中占有很大比重。采用信息抽取技術(shù)從文本中抽取實(shí)體及其關(guān)系,利用向量空間模型對文獻(xiàn)或文本內(nèi)容進(jìn)一步推斷,得出新的、有意義的知識。文本分析的這一方法可以實(shí)現(xiàn)摘要內(nèi)容的自動獲取。在文本分析算法中,將每條文獻(xiàn)中的術(shù)語通過向量頻率表示出來,然后再利用術(shù)語頻率將文本中出現(xiàn)的特殊詞匯進(jìn)行分割。文本分析另一種較為常用的技術(shù)為潛語義索引方法,基于術(shù)語矩陣奇異值分解法,將文本及術(shù)語映射為低維空間的自動化索引方式,通過文本表達(dá)語義概念。潛語義索引方法中另一種技術(shù)基于概率主題模型,通過術(shù)語共現(xiàn)模式識別主題關(guān)聯(lián)。
在文本分析中無監(jiān)督機(jī)器學(xué)習(xí)方法的適用性較為普遍,該方法不需要前期的人工處理,可以應(yīng)用于大多數(shù)文本數(shù)據(jù)之中。通過聚類技術(shù)在文本數(shù)據(jù)中發(fā)現(xiàn)潛在的信息及模式,在未標(biāo)記的數(shù)據(jù)集中自動搜索、組織文本成為類或相似的群。一般情況下,文獻(xiàn)聚類將文本實(shí)體分為特定數(shù)量的非聚合簇,通過對預(yù)先定義的標(biāo)準(zhǔn)功能及層級算法進(jìn)行優(yōu)化[11]51-59。
4.信息擴(kuò)散模型及方法。龐大的數(shù)據(jù)量、復(fù)雜的社交網(wǎng)絡(luò)結(jié)構(gòu)使用戶理解信息本質(zhì)內(nèi)容變得更為困難。為了解決這一問題,相關(guān)學(xué)者提出采用信息擴(kuò)散模型對大量時間序列數(shù)據(jù)進(jìn)行控制,典型的信息擴(kuò)散模型包括解釋模型和預(yù)測模型。Lin等提出了象征性時間序列表達(dá)方式,采用不同的數(shù)據(jù)挖掘機(jī)制進(jìn)行時間數(shù)據(jù)的聚類、分類、查詢及異常檢測[12]376-387。該模型較為典型的應(yīng)用是對網(wǎng)絡(luò)傳播事件及流行話題的識別、發(fā)現(xiàn)。唐思瑜使用METIS工具對微博用戶關(guān)系網(wǎng)絡(luò)進(jìn)行子圖劃分構(gòu)建了微博網(wǎng)絡(luò)中基于隱馬爾科夫理論的信息擴(kuò)散模型和基于條件隨機(jī)場的多信息擴(kuò)散模型,將這兩個模型用于用戶行為預(yù)測和輿論引導(dǎo)[13]。
5.大數(shù)據(jù)信息融合方法。不同來源大數(shù)據(jù)融合后,可以為用戶提供更好的服務(wù)。語義異構(gòu)在基于本體的信息融合中是非常重要的問題,融合體現(xiàn)的形式不同對研究領(lǐng)域便會產(chǎn)生不同影響。社交網(wǎng)絡(luò)與其他語義網(wǎng)絡(luò)有較大差異,語義異構(gòu)不但包括語言差異而且包括不同概念結(jié)構(gòu)之間的匹配問題。為了消除傳統(tǒng)網(wǎng)絡(luò)整合中的數(shù)據(jù)異構(gòu)難題,使用基于RDF模型的鏈接開放數(shù)據(jù)作為統(tǒng)一模型實(shí)現(xiàn)數(shù)據(jù)在不同資源層級中的傳輸,從而實(shí)現(xiàn)構(gòu)建鏈接數(shù)據(jù)的目的[14]37-42。陳琳針對傳統(tǒng)多源信息融合方法現(xiàn)存的難點(diǎn)與不足之處,利用數(shù)據(jù)驅(qū)動的思想,提出了基于數(shù)據(jù)驅(qū)動的多源信息融合方法,結(jié)合基于聲音信息融合的地面車輛聲辨識實(shí)例,闡釋了該方法在實(shí)例中通過聯(lián)合利用基于數(shù)據(jù)的特征集與基于模型的特征集[15]。
將大數(shù)據(jù)應(yīng)用于社交媒體進(jìn)行知識發(fā)現(xiàn),可以提高個人及企業(yè)的決策[16]1165-1188。利用商業(yè)情報提供的數(shù)據(jù)可實(shí)現(xiàn)為企業(yè)更好地了解行業(yè)、市場,進(jìn)行商業(yè)決策[17]。
1.市場營銷。與傳統(tǒng)的模式策略相比,社交網(wǎng)絡(luò)以及云計算為消費(fèi)者獲取資訊提供了機(jī)會。領(lǐng)先的電子商務(wù)企業(yè),如Amazon及eBay采用推薦系統(tǒng),給傳統(tǒng)的營銷模式帶來了重大變革。社交網(wǎng)絡(luò)分析通過抽取用戶觀點(diǎn),為企業(yè)提供更多廣告宣傳及市場營銷的契機(jī)。Ma等提出使用熱擴(kuò)散過程對社交網(wǎng)絡(luò)營銷進(jìn)行建模[18]233-242。Maurer和Wiegmann對社交網(wǎng)絡(luò)中營銷的有效性進(jìn)行了分析,通過Facebook廣告發(fā)布相關(guān)情況了解用戶感知[19]485-498。但調(diào)查發(fā)現(xiàn),大多數(shù)參與人員認(rèn)為Facebook中的廣告對他們的購買決定是沒有幫助的。Trattner和Kappe認(rèn)為,F(xiàn)acebook中不同模塊廣告的投放數(shù)量能對用戶的訪問量產(chǎn)生影響,從而影響網(wǎng)絡(luò)平臺的利潤。此外,他們還提出了對Facebook中用戶識別進(jìn)行實(shí)時監(jiān)控的方法[20]86-103。
2.犯罪預(yù)警。市民與政府機(jī)構(gòu)之間的交流大多通過電話、會議、電子郵件、網(wǎng)絡(luò)平臺等形式。上述大部分交流內(nèi)容以紙質(zhì)或數(shù)字形式進(jìn)行歸檔,利用自然語言處理技術(shù)進(jìn)行文本分析,提高了執(zhí)法的有效性。決策支持系統(tǒng)將自然語言處理技術(shù)、相似性方法以及分類方法進(jìn)行了整合,實(shí)現(xiàn)犯罪案件的自動分析。因?yàn)樽锓感袨橥哂兄貜?fù)性,通過對犯罪數(shù)據(jù)分析識別出這一模式,發(fā)現(xiàn)并揭示犯罪及其與犯罪相關(guān)的關(guān)系。將相同或相似犯罪活動進(jìn)行歸類,為犯罪趨勢預(yù)測提供依據(jù),有助于逮捕嫌疑犯、預(yù)防犯罪。Phillips和lee基于地理知識發(fā)現(xiàn)技術(shù)、整合數(shù)據(jù)集以圖像建模對特定區(qū)域內(nèi)的地理空間分布情況進(jìn)行存儲,這些圖像可用于揭示相似地理空間分布的特征數(shù)據(jù)集[21]11556-11563。實(shí)驗(yàn)結(jié)果表明,該方法可以實(shí)現(xiàn)犯罪事件中社會經(jīng)濟(jì)、社會人口及空間特征的協(xié)同分布揭示。Gerber提出了采用時空標(biāo)記信息進(jìn)行犯罪預(yù)測的方法,采用微博技術(shù),將語言分析及統(tǒng)計主題建模應(yīng)用其中,自動識別美國城市中的主題[22]115-125。實(shí)驗(yàn)結(jié)果表明,該方法相比于基于KDE的標(biāo)準(zhǔn)方法而言提高了犯罪預(yù)測的效果。
3.流行病情報。流行病預(yù)警可作為早期識別、評價和潛在公共健康風(fēng)險適時預(yù)警的依據(jù)。目前,文本挖掘技術(shù)已應(yīng)用于社交網(wǎng)絡(luò)、微博、數(shù)字新聞媒體以及媒體信息內(nèi)容的分析之中,從非結(jié)構(gòu)文本數(shù)據(jù)中實(shí)現(xiàn)實(shí)體識別、文本分類、術(shù)語抽取以及關(guān)系提取。Aramaki提出通過對各種機(jī)器學(xué)習(xí)方法進(jìn)行比較,對微博相關(guān)的流行病進(jìn)行分類的方法,將其分為積極和消極兩類[23]293-314。實(shí)驗(yàn)結(jié)果表明,支持向量機(jī)模型采用多項(xiàng)式核函數(shù)獲得了最高的準(zhǔn)確度以及最短的訓(xùn)練時間。
近年來,使用信息挖掘技術(shù)的許多監(jiān)測系統(tǒng)已應(yīng)用于公共健康組織中,如世界健康組織以及歐洲疾病預(yù)防控制中心。早期的跟蹤和監(jiān)測對于降低流行病影響是非常重要的。2006年BioCaster提出BioCaster系統(tǒng),用于對網(wǎng)絡(luò)媒體數(shù)據(jù)進(jìn)行監(jiān)測。該系統(tǒng)不斷對1700個RSS、Google新聞、世界衛(wèi)生組織、專業(yè)醫(yī)療郵件、歐洲媒體監(jiān)控以及其他數(shù)據(jù)來源的文件進(jìn)行分析[24]45-59。抽取的文本基于主題內(nèi)容進(jìn)行分類,利用地理信息繪制到谷歌地圖中。該系統(tǒng)包括主題分類、命名實(shí)體識別,定位探測以及事件識別四個主要階段。使用樸素貝葉斯分類法將文本分為相關(guān)或非相關(guān),然后將相關(guān)文本與關(guān)于疾病、病毒、細(xì)菌相關(guān)的18個本體概念關(guān)聯(lián)起來進(jìn)行癥狀檢索[25]27-35。
4.輿情分析。大數(shù)據(jù)時代,對海量網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行快速分析并建立輿情監(jiān)控、引導(dǎo)機(jī)制,在此基礎(chǔ)上為決策者提供支持已經(jīng)為當(dāng)今學(xué)者較為關(guān)注的問題。大數(shù)據(jù)時代的社會輿情分析與傳統(tǒng)的社會輿情分析相比,更加注重龐雜、多樣網(wǎng)絡(luò)數(shù)據(jù)的搜集、存儲和清理,進(jìn)而從低價值密度的異構(gòu)數(shù)據(jù)中獲取輿情資訊[26]127-151。一般而言,網(wǎng)絡(luò)輿情的挖掘包括目標(biāo)話題識別、新信息發(fā)現(xiàn)及特定熱點(diǎn)問題關(guān)注等內(nèi)容,通過聚類算法將識別內(nèi)容發(fā)送給用戶然后進(jìn)行新聞事件及其發(fā)展軌跡的自動跟蹤。在網(wǎng)絡(luò)輿情挖掘中,目前較為常用的技術(shù)包括Single-pass聚類算法、K-means、KNN最鄰近法、支持向量機(jī)及神經(jīng)網(wǎng)絡(luò)聚類算法[27]1-6。馬梅等在分析大數(shù)據(jù)及網(wǎng)絡(luò)輿情相關(guān)概念和特征的基礎(chǔ)上,構(gòu)建了基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型。將分布式并行數(shù)據(jù)處理技術(shù)引入到輿情分析的各個關(guān)鍵步驟中,對應(yīng)用大數(shù)據(jù)技術(shù)處理網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行探索[28]25-28。黃微等以新浪網(wǎng)站數(shù)據(jù)為基礎(chǔ),通過復(fù)雜網(wǎng)絡(luò)分析的方法測度衍變話題網(wǎng)絡(luò)中結(jié)點(diǎn)的中介中心性及衍變話題的次第組配網(wǎng)絡(luò)拓?fù)洌R別熱門事件衍變子話題的互信息度構(gòu)建衍變話題網(wǎng)絡(luò),為熱點(diǎn)事件輿情的危機(jī)定性、技術(shù)干預(yù)、輿情跟蹤反饋等工作提供實(shí)踐依據(jù)[29]62-66。
5.隱私問題。保護(hù)個人的隱私從本質(zhì)上而言,是防止數(shù)據(jù)不被泄露。從已有文獻(xiàn)的研究來看,大數(shù)據(jù)環(huán)境下的隱私問題一直是學(xué)者關(guān)注的重點(diǎn)。當(dāng)前,有關(guān)數(shù)據(jù)隱私保護(hù)研究主要集中于隱私數(shù)據(jù)加密、差分隱私保護(hù)、大數(shù)據(jù)應(yīng)用實(shí)踐的隱私保護(hù)等方面[30]945-959。Hu等[31]628-639提出統(tǒng)統(tǒng)加密隱私存儲及索引技術(shù),可實(shí)現(xiàn)數(shù)據(jù)在云平臺環(huán)境下的隱私保護(hù);Zhang等[32]1008-1020為了保證數(shù)據(jù)傳輸過程中的安全性,提出基于貝葉斯的隨機(jī)模型和公鑰加密方案;Daniel等[33]28-44為了避免用戶發(fā)布和共享信息時的隱私泄露風(fēng)險,提出數(shù)據(jù)匿名算法。王艷等[34]138-143提出通過制定數(shù)據(jù)共享的安全管理和讀者隱私保護(hù)策略,保證對采集、存儲和多用戶共享過程的數(shù)據(jù)進(jìn)行監(jiān)控追蹤。翟志剛等[35]951-960提出最小擾動混合角色挖掘方法,首先以自頂向下的方法預(yù)先定義部分角色,然后以自底向上的方法挖掘候選角色集合。張穎君等[36]1252-1260引入了尺度的概念提出基于尺度的時空RBAC訪問控制模型,使得訪問控制策略的表達(dá)能力得到增強(qiáng),也增強(qiáng)了模型的安全性。
本文將近年來大數(shù)據(jù)在社交網(wǎng)絡(luò)中使用的分析方法和算法,在市場營銷、犯罪識別、疾病預(yù)警、輿情分析、隱私保護(hù)等方面的應(yīng)用現(xiàn)狀進(jìn)行了綜述,基于前文的分析,社交網(wǎng)絡(luò)中大數(shù)據(jù)的研究趨勢有以下幾個。
1.深化隱私保護(hù)研究。在大數(shù)據(jù)社交媒體時代,社交網(wǎng)絡(luò)中的隱私保護(hù)是重要問題之一。隱私保護(hù)主要涉及到兩個方面:一是數(shù)據(jù)獲取問題,實(shí)現(xiàn)數(shù)據(jù)交互及可視化圖像與數(shù)據(jù)匹配是本領(lǐng)域今后應(yīng)關(guān)注的重要內(nèi)容;二是評價問題,對真實(shí)數(shù)據(jù)隱私保護(hù)服務(wù)進(jìn)行評價和檢測是一項(xiàng)較為復(fù)雜的工作。目前,大數(shù)據(jù)中的隱私保護(hù)主要通過訪問控制技術(shù),如自主訪問控制、強(qiáng)制訪問控制等封閉環(huán)境下的訪問控制。而在大數(shù)據(jù)時代開放式的環(huán)境下,對訪問控制有更為精細(xì)化的要求,在未來根據(jù)不同角色的授予不同的訪問控制權(quán)限,以及基于用戶屬性、資源屬性、環(huán)境屬性等組合進(jìn)行用戶權(quán)限的訪問,即基于角色的訪問控制以及基于屬性的訪問控制將成為未來開放環(huán)境下大數(shù)據(jù)隱私保護(hù)的研究方向。
2.推廣離線聚類算法及在線分析技術(shù)。大數(shù)據(jù)領(lǐng)域目前面臨的主要挑戰(zhàn)在于采用何種有效手段實(shí)現(xiàn)海量數(shù)據(jù)中的挖掘。傳統(tǒng)挖掘采用標(biāo)簽方法以及非監(jiān)督方法,標(biāo)簽方法需要實(shí)時分析耗時耗力;在非監(jiān)督方法需要對聚類數(shù)據(jù)進(jìn)行前期處理。當(dāng)前研究人員提出采用離線聚類算法進(jìn)行離線分析,以及對實(shí)時更新數(shù)據(jù)進(jìn)行在線分析技術(shù)。隨著數(shù)據(jù)體量的越發(fā)龐雜,相關(guān)學(xué)者正在研究采用新一代在線流媒體算法,將K-mean、EM與MapReduce及基于圖像計算的方法進(jìn)行整合。隨著人工智能、機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展以及各種新方法和新技術(shù)的涌現(xiàn),目前數(shù)據(jù)挖掘中的聚類分析方法主要圍繞樣本的相似性度量、樣本歸屬關(guān)系、樣本數(shù)據(jù)的前期處理、高維樣本聚類、增量樣本聚類等幾個方面展開研究。
3.識別社交媒體中的用戶行為模式。數(shù)據(jù)融合及可視化是大數(shù)據(jù)領(lǐng)域的學(xué)者較為關(guān)注的兩個問題。通過對大量分散、異構(gòu)的流媒體數(shù)據(jù)進(jìn)行整合及可視化分析,可以采用更可靠的方法在社交媒體中實(shí)現(xiàn)數(shù)據(jù)融合;實(shí)現(xiàn)基于社交媒體動態(tài)分析的個體及群體行為模式揭示;通過聚類及相似學(xué)習(xí)方法便于社交媒體中的事件分析。如何實(shí)現(xiàn)社交媒體及其他領(lǐng)域不同時間,空間維度的數(shù)據(jù)可視化,進(jìn)而實(shí)現(xiàn)對人們的行為數(shù)據(jù)進(jìn)行揭示,對大規(guī)模客體記錄能力進(jìn)行反應(yīng)將成為今后數(shù)據(jù)可視化的研究方法。
[1]胡吉明.社會網(wǎng)絡(luò)環(huán)境下的信息傳播機(jī)制[J].情報科學(xué),2015,33(1).
[2]Wu X,Zhu X,Wu G Q,et al.Data m ining w ith big data[J]. Know ledge and Data Engineering,IEEE Transactions on,2014,26 (1).
[3]王莉,程學(xué)旗.在線社會網(wǎng)絡(luò)的動態(tài)社區(qū)發(fā)現(xiàn)及演化[J].計算機(jī)學(xué)報,2015,38(2).
[4]Salihoglu S,Shin J,Khanna V,et al.Graft:A debugging tool for apache girap[C]//Proceedings of the2015ACM SIGMOD International Conference on Managementof Data.ACM,2015.
[5]Clauset A.Finding local community structure in networks[J]. Physical review E,2005,72(2).
[6]Fortunato S.Community detection in graphs[J].Physics reports, 2010,486(3).
[7]Newman M E J,Girvan M.Finding and evaluating community structure in networks[J].Physical Review E,2004,69(2).
[8]Snijders C,Matzat U,Reips U D."Big Data":big gaps of know ledge in the field of internet science[J].International Journal of Internet Science,2012,7(1).
[9]Dong Y,Zhuang Y,Chen K,et al.A hierarchical clustering algorithm based on fuzzy graph connectedness[J].Fuzzy Sets and Systems,2006,157(13).
[10]Xie J,Kelley S,Szymanski B K.Overlapping community detection in networks:The state-of-the-art and comparative study [J].Acm computing surveys(csur),2013,45(4).
[11]Provost F,Faw cett T.Data science and its relationship to big data and data-driven decisionmaking[J].Big Data,2013,1(1).
[12]Hu C,Xu Z,Liu Y,et al.Semantic link network-based model for organizing multimedia big data[J].IEEE Transactions on Emerging Topics in Computing,2014,2(3).
[13]唐思瑜.基于隱馬爾科夫理論及條件隨機(jī)場的微博網(wǎng)絡(luò)信息擴(kuò)散模型[D].廣州:華南理工大學(xué),2014.
[14]張興旺,李晨暉.數(shù)字圖書館與大數(shù)據(jù):研究范式的分析,比較與融合[J].情報理論與實(shí)踐,2015,38(12).
[15]陳琳.基于數(shù)據(jù)驅(qū)動的多源信息融合技術(shù)研究[D].杭州:杭州電子科技大學(xué),2012.
[16]Chen H,Chiang R H L,Storey V C.Business Intelligence and Analytics:From Big Data to Big Impact[J].M IS quarterly,2012,36 (4):.
[17]Davenport T H,Harris JG.Competing on analytics:The new science of w inning[M].Harvard Business Press,2007.
[18]Ma H,Yang H,Lyu M R,et al.M ining social networks using heat diffusion processes for marketing candidates selection[C] //Proceedings of the 17th ACM conference on Information and know ledgemanagement.ACM,2008.
[19]Maurer C,Wiegmann R.Effectiveness of advertising on social network sites:a case study on Facebook[C]//ENTER,2011.
[20]Trattner C,Kappe F.Social stream marketing on Facebook:a case study[J].International Journal of Social and Humanistic Computing,2013,2(1).
[21]Phillips P,Lee I.M ining co-distribution patterns for large crime datasets[J].Expert Systemswith Applications,2012,39(14).
[22]Gerber M S.Predicting crime using Tw itter and kernel density estimation[J].Decision Support Systems,2014,61.
[23]Fan J,Han F,Liu H.Challenges of big data analysis[J].National science review,2014,1(2).
[24]Bello-Orgaz G,Jung J J,Camacho D.Social big data:Recent achievements and new challenges[J].Information Fusion,2016(28).
[25]Liyanage H,de Lusignan S,Liaw S T,et al.Big data usage patterns in the health care domain:A use case driven approach applied to the assessment of vaccination benefits and risks. Contribution of the IM IA Primary Healthcare Working Group[J]. Yearbook ofmedical informatics,2014,9(1).
[26]Tien J M.Big data:Unleashing information[J].Journal of Systems Science and Systems Engineering,2013,22(2).
[27]夏火松,甄化春.大數(shù)據(jù)環(huán)境下輿情分析與決策支持研究文獻(xiàn)綜述[J].情報雜志,2015,34(2).
[28]馬梅,劉東蘇,李慧.基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[J].情報科學(xué),2016,34(3).
[29]黃微,李瑞,高俊峰.網(wǎng)絡(luò)輿情信息的衍變話題細(xì)分及組配規(guī)律研究[J].情報資料工作,37(4).
[30]黃劉生,田苗苗,黃河.大數(shù)據(jù)隱私保護(hù)密碼技術(shù)研究綜述[J].軟件學(xué)報,2015,26(4).
[31]Hu H,Xu J,Xu X,et al.Private search on key-value stores w ith hierarchical indexes[C]//2014 IEEE 30th International Conference on Data Engineering.IEEE,2014:.
[32]Zhang X,Liu C,Nepal S,et al.A hybrid approach for scalable sub-tree anonymization over big data using MapReduce on cloud [J].Journal of Computer and System Sciences,2014,80(5).
[33]Abril D,Navarro-Arribas G,Torra V.Spherical m icroaggregation:Anonym izing sparse vector spaces[J]. Computers&Security,2015(49).
[34]王艷、樂嘉錦、孫捷等.網(wǎng)絡(luò)用戶行為的隱私保護(hù)數(shù)據(jù)挖掘方法[J].計算機(jī)工程與應(yīng)用,2012,48(13).
[35]翟志剛,王建東,曹子寧等.最小擾動混合角色挖掘方法研究[J].計算機(jī)研究與發(fā)展,2015,50(5).
[36]張穎君,馮登國.基于尺度的時空RBAC模型[J].計算機(jī)研究與發(fā)展,2015,47(7).
New Progress of Big Data Research in Social Network
Song Peng,Lu Danyue,Zhao Yanping,Shao Qinglin
(Public Management School of Yancheng Teachers University,Yancheng 224002,China)
The combination of big data technology and traditionalmachine learning algorithms has generated new challenges for data m ining,and has become an important issue for a large number of research areas such as data m ining,machine learning,information fusion and so on.In this paper,the analysismethod and model for big data in social network and the application of big data to marketing,crim inal identification,disease warning,public opinion analysis,privacy protection and etc.are summarized.Based on that,the research trend of big data in social network is pointed out,namely strengthening privacy protection,promoting offline clustering algorithm and online analysis technology,and carrying on user behavior pattern research in social networks.
big data;social network;public opinion analysis;privacy protection
本文系校級青年基金(社科類)“面向社會治理的農(nóng)村留守兒童信息需求計量本體構(gòu)建研究”以及大學(xué)生創(chuàng)新項(xiàng)目“基于電商平臺用戶行為分析的商品推薦優(yōu)化策略”(省級指導(dǎo)項(xiàng)目)。
宋朋,博士,講師,研究方向?yàn)殡娮诱?wù);陸丹玥,2014級歷史學(xué)本科生;趙燕萍,2014級歷史學(xué)本科生;邵慶琳,2014級歷史學(xué)本科生。
10.16565/j.cnki.1006-7744.2017.12.18
G259.2
A
2016-12-31