趙建東+陸奎+李雪萍
摘要:隨著移動終端的普及,手機用戶之間的溝通、傳播與分享正在構建自組織移動社交網(wǎng)絡并逐步滲透到人們?nèi)粘I?、工作、學習和娛樂中,而移動社交網(wǎng)絡也將成為一種全新的連接并融合物理空間和網(wǎng)絡空間的真實社會網(wǎng)絡模式。隨之而來的對日益海量和錯綜復雜信息的移動網(wǎng)絡語義話題的研究也日趨困難。因此,該文以海量的、高階異構的移動社會網(wǎng)絡數(shù)據(jù)為背景,提出了以語義話題發(fā)現(xiàn)、搜索和溯源為目標來探究社交網(wǎng)絡及其語義話題的關鍵技術。
關鍵詞:移動網(wǎng)絡;語義話題;話題溯源;潛在語義;話題搜索
中圖分類號:TP393.092 文獻標識碼:A 章編號:1009-3044(2016)25-0227-03
Abstract: With the popularity of mobile, the communication, spread and sharing between mobile phone users are building self-organization mobile social network and gradually permeating into Peoples Daily life, work, study and entertainment. Mobile social network will also become a new real social network model with connecting and integrating the physical space and cyberspace .Of course the increasing and complex information semantic topic research has become increasingly difficult. Therefore, based on the mass, the high order heterogeneous mobile social network data, This article put forward to found , search, and trace semantic topics to explore social network and the key technologies of semantic topics.
Key words: mobile network; semantic topic; topic roots; latent semantic; topic search
1 背景
隨著智能手機等移動設備的普及,使用移動設備來訪問社交網(wǎng)絡逐漸成為主流,隨之帶來了大量嶄新的研究和應用機會,例如位置服務、傳感器技術與社交網(wǎng)絡的結合以及針對移動社交網(wǎng)絡數(shù)據(jù)的管理與挖掘等。近期,在多個國際學術會議中,如UbiComp和ACM SIGSPATIAL,移動社交網(wǎng)絡都是研究熱點。伴隨著SoLoMo(Social、Local、Mobile三個字母開頭組合而成的,即社交加本地化加移動)概念的風靡,國內(nèi)外創(chuàng)業(yè)公司也開始關注這個領域。
互聯(lián)網(wǎng)的普及使人類以前所未有的廣度和深度及時記錄和存儲信息,且各種形式的Web社會網(wǎng)絡為用戶提供了一個信息傳播與信息共享的平臺。用戶與Web的高互動性極大促進了社會行為向Web行為、現(xiàn)實社會關系向網(wǎng)絡社會關系的轉化過程。然而,目前話題模型是單一同構的純文本或純關系模型,無法體現(xiàn)移動社會網(wǎng)絡中人-社區(qū)-知識三者間的異構關系和動態(tài)性。而且移動社會網(wǎng)絡上社會化標注不規(guī)范性的特點和一些不確定的話題來源會降低算法的效率和性能,使得無法揭示移動社會網(wǎng)絡的結構特性、進而更準確地對話題進行發(fā)現(xiàn)、檢索以及溯源。因此,迫切需要在新的領域出現(xiàn)新的技術的出現(xiàn)對移動社會網(wǎng)絡的特性進行全面準確地把握和利用。
2 移動社交網(wǎng)絡語義話題的研究
2.1 遇到的問題
由于以人、社區(qū)和知識為主體的移動社交網(wǎng)絡呈動態(tài)變化趨勢,如個人社交環(huán)境的變化、社區(qū)成員的增減和語義話題的改變,使得在人-社區(qū)-知識間構建穩(wěn)定的關聯(lián)模型變得十分復雜。目前話題模型是單一同構的純文本或純關系模型,此類模型無法體現(xiàn)移動社會網(wǎng)絡中人-社區(qū)-知識三者間的異構關系,而且當前的模型構建算法均不能表達移動社會網(wǎng)絡中人、社區(qū)和知識三大主體的動態(tài)變化過程,因此如何有效的表達人-社區(qū)-知識間的異構關系以及移動社會網(wǎng)絡的動態(tài)性是移動社會網(wǎng)絡潛在語義話題發(fā)現(xiàn)的基礎問題。
其次,移動社會網(wǎng)絡上社會化標注具有不規(guī)范性。如何對不規(guī)范的社會化標注進行準確、智能的規(guī)范標注是語義話題搜索面臨的新挑戰(zhàn)。另外,傳統(tǒng)的基于關鍵詞的匹配搜索已經(jīng)不能滿足移動社會網(wǎng)絡上實體之間的高階異構關聯(lián)特性。例如:當用戶在社會網(wǎng)絡中搜索一個特定關鍵詞的時候,不僅需要預測用戶搜索目標(如:人、文檔和社區(qū)),還需要在語義話題的層次上進行匹配。這是因為社會網(wǎng)絡生成的信息大多數(shù)是短文檔,很多短文檔在語義上和查詢相關,但很可能不包含查詢的關鍵詞。因此,如何自動預測用戶的查詢動機以及如何在語義話題的層次上進行語義搜索也是移動社會網(wǎng)絡必須解決的難題。
最后,話題的來源具有不確定性。日常生活中話題的傳播范圍較小,而社會網(wǎng)絡的發(fā)展放大了個人的話題傳播范圍。比如,輿情在網(wǎng)絡上具有表達快捷、信息多元、互動性強等傳統(tǒng)媒體無法比擬的優(yōu)勢。但同時也容易出現(xiàn)一些失真的、虛假的言論。各種不良話題開始借助于社區(qū)媒體這種跨地域、跨國界、開放式的通信方式進行傳播。特別是反動、不利于社會安定的言論傳播,需要找到話題的源頭,鎖定謠言的散布者以平息謠言,打擊非法分子,維護社會穩(wěn)定。目前的研究主要關注話題的檢測和跟蹤,而話題的溯源研究還沒有相關報道。因此,迫切需要在這方面開展工作。
2.2 關鍵技術
具體而言,本課題的研究內(nèi)容如圖1所示,主要包括如下幾個方面:
2.2.1 隱含語義空間中潛在語義話題的發(fā)現(xiàn)
LDA模型描述了社區(qū)與知識話題的生成過程,步驟如下:
1)對于每個社區(qū)dS,根據(jù)θd~Dir(α),得到多項式分布參數(shù)θd;
2)對于每個知識話題zK,根據(jù)Φz~Dir(β),得到多項式分布參數(shù)Φz;
3)對于社區(qū)d中的第i個人md,i根據(jù)多項式分布zd,i~Mult(θd),得到話題zd,i;根據(jù)多項式分布md,i~Mult(Φz),得到社區(qū)d的成員md,i。
其中:Dir表示Dirichlet分布,Mult表示多項式分布。這一模型可由下圖2表示,改模型表示法也稱作“盤子表示法”。其中的陰影圓圈代表可觀測變量,隱含變量則由非陰影圓圈表示,箭頭方向代表兩變量間的條件依賴性,方框表示重復取樣并將重復次數(shù)顯示在方框的右下角。 根據(jù)LDA的生成模型,整個基于所有的參數(shù)和變量的聯(lián)合分布概率可以表示為:
使用吉布斯取樣法進行Φ和θ的最大概率估算時,為滿足語義網(wǎng)絡中人-社區(qū)-知識的動態(tài)特性,分別建立人-社區(qū)計數(shù)矩陣C和個人-知識矩陣D,在每一次取樣循環(huán)中,社區(qū)di的潛在語義知識話題可通過對社區(qū)di中的第j個實體的語義知識話題結構的整個條件后分布進行取樣得到。
?ij表示人和社區(qū)對應的知識結構不在計數(shù)中,當人-社區(qū)-知識概率結構發(fā)現(xiàn)改變時,矩陣C?ij和D?ij會被更新。在多次迭代之后社區(qū)-知識話題分布θd和個人-知識分布Φz的值可以用下以公式估算。
2.2.2 MapReduce的優(yōu)化策略研究
針對高階異構對象的同構化,研究統(tǒng)一關系矩陣中線性加權系數(shù)在一定區(qū)間范圍內(nèi)的最優(yōu)參數(shù),采用網(wǎng)格尋優(yōu)方法確定最優(yōu)參數(shù)。考慮到移動社會網(wǎng)絡中數(shù)據(jù)的海量性,基于MapReduce實現(xiàn)高階異構實體對象的同構化算法。首先,在數(shù)據(jù)劃分階段將每個系數(shù)的范圍n等分,這樣n階異構對象最多產(chǎn)生nn個網(wǎng)格區(qū)間,在這些網(wǎng)格區(qū)間上進行MapReduce計算,每個計算的結果都是候選的最優(yōu)解,在Reduce階段將他們輸出到最優(yōu)解集合中。在map階段,如果map處理的數(shù)據(jù)網(wǎng)格所含數(shù)據(jù)較多會影響到map階段數(shù)據(jù)處理的性能。因此為了提高Map階段數(shù)據(jù)處理的性能,引入貪婪算法思想,在Map數(shù)據(jù)處理階段,用近似最優(yōu)解代替最優(yōu)解?;谠撍惴ǎ瑥拇嬎愕臄?shù)據(jù)集中隨機抽取一部分數(shù)據(jù),求出最優(yōu)解放入一個集合A中;然后在隨機抽取一部分數(shù)據(jù)求出最優(yōu)解,加入到集合A中。直到次數(shù)足夠多,那我們可以認為集合A中的最優(yōu)解就是原數(shù)據(jù)集的最優(yōu)解。MapReduce的執(zhí)行流程圖如圖3所示。
在Map階段產(chǎn)生的文件需要在Map端、Reduce端兩端并行的傳輸,而如果當多個Reduce端同時讀取到一個Map端的數(shù)據(jù)時,就會造成數(shù)據(jù)傳輸?shù)淖枞?,降低效率從而使得性能急劇下降。因此,為了提高?shù)據(jù)傳輸?shù)男阅埽疚奶岢鲆环N數(shù)據(jù)主動推送的方式來代替MapReduce編程模型中Reduce節(jié)點讀取Map節(jié)點數(shù)據(jù)的規(guī)約方式。首先用
2.2.3 話題溯源遞推過程的終止條件研究
話題溯源時確定話題的終止條件,必須掌握話題的傳播模型。已有的話題傳播模型假設網(wǎng)絡是靜態(tài)的,而沒有考慮到網(wǎng)絡的動態(tài)變化過程,且假設每個節(jié)點僅僅有兩種狀態(tài)。為解決這些問題,我們提出話題傳播的網(wǎng)絡動力學模型ANR,使用三個狀態(tài),并基于場理論考慮網(wǎng)絡的動態(tài)變化過程,研究話題端到端傳播的臨界點。以N表示未接觸話題狀態(tài)(未激活狀態(tài)),A表示接觸話題并傳播狀態(tài)(激活狀態(tài)),R表示接觸話題而不愿傳播狀態(tài)(即免疫狀態(tài))。設未激活態(tài)到激活態(tài)的概率為,激活態(tài)到免疫態(tài)的概率為μ,則三種狀態(tài)的動力學方程為:
設a(t),n(t),r(t)分別為A,N,R狀態(tài)的密度,當傳播話題人員與不愿傳播話題人員充分混合以后,ANR模型的動力學可以用以下微分方程組描述
隨著時間的增加,話題溯源的范圍越小。經(jīng)過充分的迭代縮小話題范圍,最終話題的源頭就可以找到。話題的傳播密度r(T)與傳播率存在一一對應關系。只有當閾值<時, 才能停止搜索話題的源頭。此處
其中為移動社會網(wǎng)絡圖生成矩陣的最大特征值。
3 結束語
移動互聯(lián)網(wǎng)的普及使人類以前所未有的廣度和深度及時記錄和存儲信息,且各種形式的社交網(wǎng)絡為用戶提供了一個信息傳播與信息共享的平臺。而本文以移動社會網(wǎng)絡數(shù)據(jù)的海量性、高階異構性和語義信息不完整性為應用背景,以語義話題發(fā)現(xiàn)、搜索和溯源為目標,以建立移動社會網(wǎng)絡信息關聯(lián)體系為核心,以移動社會網(wǎng)絡中高階異構的"人-社區(qū)-知識實體"海量信息關聯(lián)挖掘為切入,從潛在語義話題發(fā)現(xiàn)、海量數(shù)據(jù)優(yōu)化策略算法以及話題溯源三個方面對移動社交網(wǎng)絡語義話題進行說明,更好地處理和理解移動社會網(wǎng)絡中的數(shù)據(jù),并在此基礎上實現(xiàn)語義話題的發(fā)現(xiàn)、檢索以及溯源,推進社會網(wǎng)絡的進一步發(fā)展。
參考文獻:
[1] Fox J, Moreland J J. The dark side of social networking sites: An exploration of the relational and psychological stressors associated with Facebook use and affordances[J]. Computers in Human Behavior, 2015, 45(4): 168-176.
[2] Tsiotsou R H. The role of social and parasocial relationships on social networking sites loyalty[J]. Computers in Human Behavior, 2015, 48(5): 401-414.
[3] Van Royen K, Poels K, Daelemans W, et al. Automatic monitoring of cyberbullying on social networking sites: From technological feasibility to desirability[J]. Telematics and Informatics, 2015, 32(1): 89-97.
[4] Park J. The effects of personalization on user continuance in social networking sites[J]. Information Processing & Management, 2014, 50(3): 462-475.
[5] 楊建武. 基于核方法的XML文檔自動分類[J]. 計算機學報, 2011, 34(2): 353-359.
[6] 盧漢清,劉靜. 基于圖學習的自動圖像標注[J]. 計算機學報, 2008, 31(9): 1629-1639.
[7] 王鵬,張磊,任超,等. 云計算系統(tǒng)相空間分析模型及仿真研究[J]. 計算機學報, 2013, 36(2): 286-296.
[8] 史英杰,孟小峰. 云數(shù)據(jù)管理系統(tǒng)中查詢技術研究綜述[J]. 計算機學報, 2013(2): 209-225.