• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于社區(qū)時(shí)空主題模型的微博社區(qū)發(fā)現(xiàn)方法

      2014-02-10 05:46:20朱欣焰
      關(guān)鍵詞:時(shí)空詞匯社區(qū)

      段 煉,朱欣焰

      (1. 廣西師范學(xué)院北部灣環(huán)境演變與資源利用教育部重點(diǎn)實(shí)驗(yàn)室 南寧 530001; 2. 廣西師范學(xué)院資源環(huán)境科學(xué)學(xué)院 南寧 530001;3. 武漢大學(xué)測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室 武漢 430079; 4. 武漢大學(xué)空天信息安全與可信計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室 武漢 430079)

      微博作為目前最具代表性的社交網(wǎng)絡(luò)服務(wù),逐漸成為一種重要的溝通工具和平臺(tái)。由于其實(shí)時(shí)性高、流量大、內(nèi)容覆蓋面廣,近年來(lái),微博已經(jīng)成為社會(huì)輿論、商業(yè)營(yíng)銷(xiāo)和城市功能的“傳感器”。所謂社區(qū),是指用戶根據(jù)小世界特性聚集形成若干群體。發(fā)現(xiàn)微博中的社區(qū),能更好地理解信息傳播模式和用戶交互模式群體演化規(guī)律,具有重大的學(xué)術(shù)和應(yīng)用價(jià)值。微博社區(qū)主題表現(xiàn)為:屬于該社區(qū)的用戶所發(fā)表和轉(zhuǎn)發(fā)微博的內(nèi)容趨向于某(幾)個(gè)特定的主題,如“體育”“科技”等。多個(gè)用戶對(duì)某一主題的頻繁討論形成了針對(duì)該主題的用戶社區(qū)。然而,大部分算法基于用戶社會(huì)關(guān)系(如關(guān)注對(duì)象、好友)和微博消息轉(zhuǎn)接應(yīng)答(轉(zhuǎn)帖,跟帖、評(píng)論)的疏密程度來(lái)發(fā)現(xiàn)社區(qū),或基于聚類(lèi)等模型進(jìn)行網(wǎng)絡(luò)分割以獲取社區(qū),忽略了社區(qū)的潛在主題特征。社區(qū)潛在主題表現(xiàn)為:屬于該社區(qū)的用戶所發(fā)表和轉(zhuǎn)發(fā)微博的內(nèi)容趨向于若干個(gè)特定的信息類(lèi)別,如“體育”“科技”等,反映了用戶在若干方面的興趣傾向。而多個(gè)用戶對(duì)某一主題的頻繁討論形成了針對(duì)該主題的用戶社區(qū)??梢?jiàn),社區(qū)主題與社區(qū)結(jié)構(gòu)相互影響,特定主題的形成反映了某個(gè)社區(qū)的出現(xiàn),而社區(qū)的出現(xiàn)促使了某些主題更加突出。在引入微博主題進(jìn)行社區(qū)發(fā)現(xiàn)的研究中,文獻(xiàn)[1]利用LDA[2]分析Tw itter中的用戶同質(zhì)性,挖掘活躍的微博用戶群組,文獻(xiàn)[3]基于用戶間的互訪類(lèi)型和微博主題相似性進(jìn)行社區(qū)發(fā)現(xiàn),文獻(xiàn)[4]利用主題模型獲取社區(qū)主題,計(jì)算出用戶隸屬于某個(gè)社區(qū)的概率,文獻(xiàn)[5]通過(guò)伯努利分布表達(dá)用戶主題在時(shí)間上的分布。

      此外,用戶發(fā)送的微博主題與周邊地理環(huán)境特征緊密相連[6]。如在東湖周邊人們發(fā)的微博以“游覽”主題為主,在武漢廣場(chǎng)發(fā)的微博則以“購(gòu)物”主題為主。可見(jiàn),局部地理區(qū)域具有特定的經(jīng)濟(jì)文化,環(huán)境對(duì)微博主題具有較大影響。近年來(lái),微博對(duì)地理位置標(biāo)識(shí)的功能為研究時(shí)空環(huán)境與微博內(nèi)容之間的關(guān)系提供了支撐。一般來(lái)說(shuō),兩個(gè)用戶訪問(wèn)相同地理區(qū)域的次數(shù)越多,這些局部地理區(qū)域社會(huì)環(huán)境對(duì)他們的吸引程度就越相似,表明他們社會(huì)生活模式或興趣偏好越相似,則這兩個(gè)用戶越有可能屬于同一社區(qū);另一方面,屬于同一社區(qū)的用戶,由于他們具有相似的生活模式或興趣偏好,則他們?cè)絻A向于訪問(wèn)相同的地理區(qū)域。此外,由于社會(huì)生活的作息規(guī)律、社會(huì)習(xí)俗等原因,不同時(shí)間段內(nèi)用戶關(guān)注的對(duì)象是不同的,造成微博在不同時(shí)間下表達(dá)不同的主題,因此發(fā)現(xiàn)微博主題隨時(shí)間變化的特點(diǎn),同樣能提高對(duì)社區(qū)的識(shí)別能力。

      由于主題模型對(duì)文本的強(qiáng)大建模能力和靈活的擴(kuò)展機(jī)制,本文將擴(kuò)展主題模型引入時(shí)空要素提高微博主題識(shí)別能力。在時(shí)空相關(guān)的主題模型中,已有研究將全局空間區(qū)域劃分為若干地理區(qū)域,再依據(jù)落在地理區(qū)域內(nèi)的微博獲取該區(qū)域的主題。地理區(qū)域的劃分方式主要有如下4種:規(guī)則格網(wǎng)[7]、轄區(qū)(如省界、區(qū)界等)[8-9]、不規(guī)則格網(wǎng)(如泰森多邊形網(wǎng))和自適應(yīng)區(qū)域劃分[6]。前3種方法固化了區(qū)域邊界,不利于描述相似微博主題在空間上的轉(zhuǎn)移;最后一種方式依據(jù)微博主題相似性和空間鄰近性,利用二維高斯分布較好的表達(dá)了相似主題微博的空間覆蓋范圍。然而,已有自適應(yīng)區(qū)域劃分方法沒(méi)有給出潛在地理區(qū)域空間范圍的限制條件,易造成某些潛在地理區(qū)域覆蓋的空間范圍過(guò)大。如文獻(xiàn)[7]采用二維高斯模型表達(dá)相似博客主題的潛在地理區(qū)域中,一些潛在地理區(qū)域跨越大半個(gè)美國(guó),部分潛在地理區(qū)域間還相互重疊。這種情況造成區(qū)域內(nèi)主題分布趨于背景主題分布,無(wú)法突出區(qū)域“特色”主題分布,失去在主題模型中引入空間要素的意義。同時(shí),已有方法還需預(yù)先設(shè)定潛在地理區(qū)域數(shù)量,無(wú)法利用數(shù)據(jù)自身的特征自適應(yīng)調(diào)整潛在地理區(qū)域范圍和數(shù)量。此外,已有方法沒(méi)有顧及用戶對(duì)地理區(qū)域的選擇偏好。

      為克服以上問(wèn)題,本文構(gòu)建社區(qū)時(shí)空主題模型(community spatio-temporal topic model, CS-TM),在主題模型中引入狄利克雷過(guò)程混合模型(dirichlet process m ixture model)[11],以自動(dòng)生成不同覆蓋范圍地理區(qū)域和微博地理位置,并通過(guò)地理區(qū)域和社區(qū)兩者微博主題的相互影響,提高微博社區(qū)的發(fā)現(xiàn)能力。

      1 微博社區(qū)挖掘

      1.1 微博要素構(gòu)成

      每條微博d表示為6個(gè)要素:d=(W,t,l,r,u,c)。其中,W表示該微博“詞袋”模型;t表示微博發(fā)布時(shí)間;l表示微博發(fā)布的地理位置;r表示微博潛在地理區(qū)域;u表示微博用戶;c代表用戶所在社區(qū)。

      1.2 空間和用戶對(duì)微博主題的制約

      微博中常常體現(xiàn)如“娛樂(lè)”“交通”“飲食”等話題,這些話題表達(dá)了大眾用戶的一種基本社會(huì)見(jiàn)識(shí),稱(chēng)為背景主題,其多項(xiàng)式分布參數(shù)用0q表示。將全局空間劃分為多個(gè)潛在地理區(qū)域。由聚集在潛在地理區(qū)域的微博主題共同產(chǎn)生區(qū)域-主題分布參數(shù)為rq。

      1.3 社區(qū)和時(shí)間對(duì)微博主題的制約

      1.4 空間、社區(qū)對(duì)微博詞匯的制約

      相同主題下用戶在不同位置會(huì)使用不同的詞匯。如同樣是“交通”主題,在飛機(jī)場(chǎng)發(fā)出的詞匯和在火車(chē)站發(fā)出的詞匯就不同。因此,微博詞匯受背景環(huán)境、潛在地理區(qū)域和社區(qū)影響,共同控制主題z下的詞匯生成概率,基于稀疏增量式生成模型可得詞匯w的多項(xiàng)式分布:

      1.5 時(shí)空主題模型

      圖1 社區(qū)時(shí)空主題模型

      1.6 時(shí)空主題模型參數(shù)計(jì)算

      基于EM方法和Gibbs采樣[10]估計(jì)時(shí)空主題模型的參數(shù)。

      1) E步驟,對(duì)潛在變量采樣。這里的潛在變量分別是微博d所在的潛在地理區(qū)域r、社區(qū)c和主題z:

      通過(guò)狄利克雷過(guò)程表示微博d位于某個(gè)已存在潛在地理區(qū)域rj或新潛在地理區(qū)域r¢的概率。因此,修改式(9),采用“Chinese restaurant”[11]的方式進(jìn)行rd采樣:

      2) M步驟,固定各潛在因素,對(duì)模型的后驗(yàn)似然值最大化,獲取模型參數(shù)。

      更新代表潛在地理區(qū)域r的二維高斯分布參數(shù):

      式中,#(r,d)表示r中微博總數(shù);ld為微博地理坐標(biāo)。

      以下采用梯度下降法進(jìn)行其他參數(shù)的迭代推理。

      下式用于計(jì)算潛在地理區(qū)域分布參數(shù)的梯度值。其中,du,r表示用戶u在區(qū)域r中所發(fā)微博數(shù)量;du表示用戶u所發(fā)微博總數(shù):

      綜上所述,在E步驟中,結(jié)合狄利克雷過(guò)程和模型中各參數(shù),計(jì)算出微博主題、潛在地理區(qū)域和社區(qū)潛在因子;在M步驟中,通過(guò)梯度下降方法,得到模型中各個(gè)參數(shù)更新值。如此反復(fù),直到模型各參數(shù)收斂。

      最終按照用戶u屬于各社區(qū)的概率ug值的高低,即可將用戶劃分到不同社區(qū)中。社區(qū)間可相互重疊,即一個(gè)用戶可屬于多個(gè)社區(qū),因此,取ug的top-k(一般k=3)個(gè)概率最大gu,c所對(duì)應(yīng)的社區(qū)c作為候選集合,假設(shè)共有個(gè)社區(qū),設(shè)定閾值將的社區(qū)c作為用戶u隸屬的社區(qū)。

      2 實(shí) 驗(yàn)

      2.1 數(shù)據(jù)預(yù)處理和模型參數(shù)設(shè)置

      實(shí)驗(yàn)使用的服務(wù)器配置為Intel(四核,3.1G)酷睿i53450,8 GB內(nèi)存,裝載Windows Server 2008操作系統(tǒng)。利用新浪微博API,基于用戶好友和關(guān)注對(duì)象爬取微博后,經(jīng)過(guò)去噪處理得到80 492條微博和9 264個(gè)用戶。主題模型的超參數(shù)a0、ac、ar統(tǒng)一設(shè)為50/Z,0b、cb、rb統(tǒng)一設(shè)為0.005,Ou、ur均設(shè)定為0.5。

      2.2 社區(qū)主題

      設(shè)微博數(shù)據(jù)集的主題數(shù)量|Z|為60,社區(qū)數(shù)量|C|為20,基于同一社區(qū)內(nèi)各用戶主題和詞匯獲得社區(qū)的主題-詞匯分布。選擇其中5個(gè)社區(qū)及與其相關(guān)度最高的前10個(gè)詞匯,每個(gè)社區(qū)下詞匯出現(xiàn)的概率列在該詞匯右邊,如表1所示,表中可明顯發(fā)現(xiàn),同一社區(qū)的詞匯具有顯著的語(yǔ)義相似性,不同社區(qū)的詞匯含義相差顯著,如社區(qū)1的詞匯主要表達(dá)科技和體育主題,社區(qū)2主要表達(dá)社會(huì)和工作主題,社區(qū)3主要表達(dá)購(gòu)物、飲食主題,社區(qū)4主要表達(dá)生活、娛樂(lè)等主題,社區(qū)5主要表達(dá)工作、學(xué)習(xí)等。

      表1 5個(gè)社區(qū)及與其相關(guān)度最高的10個(gè)詞匯

      2.3 實(shí)驗(yàn)結(jié)果和分析

      本文提出的時(shí)空主題模型(CS-TM)與DCTM[1]和LDA[2]進(jìn)行比較,其中,DCTM與CS-TM的社區(qū)確定方式相同;基于LDA的社區(qū)發(fā)現(xiàn)是通過(guò)主題分布進(jìn)行k-means聚類(lèi)。每個(gè)聚類(lèi)簇即為社區(qū)。

      本文利用社區(qū)內(nèi)外鏈接比[5]反映社區(qū)-內(nèi)用戶交互程度,采用社區(qū)內(nèi)用戶間主題分布的KL距離(kullback-leibler)來(lái)衡量社區(qū)用戶主題的相似性。社區(qū)內(nèi)外鏈接比為:

      式中,Ic為社區(qū)c內(nèi)用戶間的鏈接數(shù)量,鏈接數(shù)量通過(guò)用戶的好友、關(guān)注和跟帖數(shù)量獲??;Oc為社區(qū)c內(nèi)用戶與社區(qū)c外用戶的鏈接數(shù)量。f(c)越大,表明社區(qū)內(nèi)用戶較社區(qū)外用戶的聯(lián)系越密切;反之,表明社區(qū)內(nèi)用戶的聯(lián)系并不緊密。圖2顯示了3種方法在不同社區(qū)數(shù)量情況下的平均社區(qū)內(nèi)外鏈接比。隨著社區(qū)數(shù)量的增加,各模型獲取的平均社區(qū)內(nèi)外鏈接比上升,社區(qū)涉及的微博內(nèi)容范圍逐漸縮小,用戶間的聯(lián)系頻率提高。

      圖2 3種方法的社區(qū)內(nèi)外鏈接比

      然而,在社區(qū)數(shù)量為5~35時(shí),3種方法的平均社區(qū)內(nèi)外鏈接比類(lèi)似,但DCTM稍低;在社區(qū)數(shù)量超過(guò)35后,CS-TM的平均社區(qū)鏈接度較LDA和DCTM都要低。這表明本文方法獲取的社區(qū)內(nèi)用戶的聯(lián)系程度不如LDA方法和DCTM方法所獲取的緊密。分析發(fā)現(xiàn),CS-TM所獲取的社區(qū)中包含的主題分布聚焦性強(qiáng),即社區(qū)中的用戶所發(fā)微博大都集中在若干特定主題,相對(duì)而言,LDA和DCTM劃分出的社區(qū),微博涉及的主題類(lèi)型比較分散。這反映了主題聚焦的用戶間,總體上相互交流較少;反之,一個(gè)人所發(fā)微博的主題類(lèi)型越多,其對(duì)外交流越頻繁。在社區(qū)數(shù)量超過(guò)40后,各方法得到的平均社區(qū)內(nèi)外鏈接比趨于穩(wěn)定。以上實(shí)驗(yàn)體現(xiàn)了微博中專(zhuān)業(yè)人員(或興趣極少的用戶)之間的交流不夠緊密,而具有大眾性和社會(huì)性主題的微博在用戶間傳播廣泛。本文方法能發(fā)現(xiàn)那些興趣類(lèi)型少但興趣類(lèi)似的用戶,如果應(yīng)用于“用戶推薦”,則能精準(zhǔn)提高這一類(lèi)用戶之間的交流程度。

      KL距離用以衡量相同事件空間里的兩個(gè)概率分布的差異情況。KL距離越小,表明社區(qū)內(nèi)用戶主題相似度越高,反之,社區(qū)內(nèi)用戶的興趣差異越大,則社區(qū)形成的可能性越低。由于,KL距離不具有對(duì)稱(chēng)性,因此基于KL距離的對(duì)稱(chēng)平滑版本——Jensen-Shannon(JS)距離表達(dá)社區(qū)c內(nèi)用戶間的平均KL距離:

      式中,u為用戶,每個(gè)用戶的主題由其所發(fā)微博主題表示;|c|表示社區(qū)c內(nèi)的用戶數(shù)量。3種方法得到的平均社區(qū)KL距離如圖3所示。隨著社區(qū)數(shù)量的增加,社區(qū)內(nèi)用戶興趣相似性逐漸增強(qiáng),3種方法的社區(qū)平均KL距離逐漸降低,但同樣由于CS-TM引入的時(shí)空信息增強(qiáng)了微博主題獲取的正確性,提高了社區(qū)內(nèi)主題相似程度。LDA中,每個(gè)用戶僅屬于同一個(gè)社區(qū),但由于LDA對(duì)微博主題獲取準(zhǔn)確率較低,類(lèi)似語(yǔ)義的詞匯被劃分到不同主題中,造成處于同一社區(qū)的主題較為分散,同一社區(qū)內(nèi)的用戶主題差異性較大。DCTM對(duì)微博主題的識(shí)別能力較LDA要高。因此,其構(gòu)建的社區(qū)中,用戶間的主題較LDA更為相似。隨著社區(qū)數(shù)量的增加,3種方法得到的社區(qū)平均KL距離的區(qū)域平穩(wěn)。

      圖3 3種方法的社區(qū)內(nèi)平均KL距離

      可見(jiàn),由CS-TM模型生成的社區(qū),其內(nèi)部用戶主題相似性高,社區(qū)間區(qū)分度良好。

      3 結(jié) 語(yǔ)

      本文將地理區(qū)域、社區(qū)和連續(xù)時(shí)態(tài)要素引入主題模型,綜合考慮了用戶對(duì)社區(qū)及潛在地理區(qū)域的偏好,利用Dirichlet process mixture model自適應(yīng)劃分潛在地理區(qū)域,彌補(bǔ)了以往方法中單個(gè)潛在地理區(qū)域范圍過(guò)大和主題分散的不足;同時(shí),揭示了社區(qū)與具有特定社會(huì)功能地理區(qū)域間的互動(dòng)關(guān)系。最終通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法對(duì)社區(qū)發(fā)現(xiàn)的有效性。今后將引入用戶間的鏈接信息,進(jìn)一步提高微博主題提取和微博社區(qū)發(fā)現(xiàn)的性能。

      [1] WENG Jian-shu, LIM E P, JIANG Jing, et al. Tw itter rank:finding topic-sensitive in fluential tw itterers[C]//Proc of the 3rd ACM International Conference on Web Search and Data M ining. New York: ACM, 2010.

      [2] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003,3(1): 993-1022.

      [3] 閆光輝, 舒昕, 馬志程, 等. 基于主題和鏈接分析的微博社區(qū)發(fā)現(xiàn)算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2013, 30(7): 1953-1957.

      YAN Guang-hui, SHU Xin, MA Zhi-cheng, et al.Community discovery for microblog based on topic and link analysis[J]. Application Research of Computers, 2013, 30(7):1953-1957.

      [4] YIN Zhi-jun, CAO Liang-liang, GU Quan-quan, et al.Latent community topic analysis: integration of community discovery w ith topic modeling[J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3(4): 63-84.

      [5] LI Dai-feng, DING Ying, SHUAI Xin, et al. Adding community and dynamic to topic models[J]. Journal of Informetrics, 2012, 6(2): 237-253.

      [6] YIN Zhi-jun, CAO Liang-liang, HAN Jia-wei, et al.Geographical topic discovery and comparison[C]//The 20th international conference on World Wide Web(WWW). New York, USA: [s.n.], 2011.

      [7] EISENSTEIN J, O’Connor B, SM ITH N A, et al. A latent variable model for geographic lexical variation[C]//The 20th Conference on Empirical Methods in Natural Language Processing. M IT, Massachusetts, USA: Association for Computational Linguistics, 2010.

      [8] SIZOV S. GeoFolk. Latent spatial semantics in web 2.0 social media[C]//The 3rd International Conference on Web Search and Data M ining(WSDM). New York, USA: ACM,2010.

      [9] MEI Qiao-zhu, Liu Chao, SU Hang. A probabilistic approach to spatiotemporal theme pattern m ining on weblogs[C]//The 15th international conference on World Wide Web(WWW). Edinburgh, Scotland: ACM, 2006.

      [10] GRIFFITHS T L, STEYVERS M. Finding scientific topics[C]//Proceedings of the National Academy of Sciences (NAS), USA: [s.n.], 2004.

      [11] BLEI D M, GRIFFITHS T L, JORDAN M I. The nested chinese restaurant process and bayesian nonparametric inference of topic hierarchies[J]. Journal of the ACM, 2010,57(2): 111-142.

      [12] EISENSTEIN J, AHMED A, XING E P. Sparse additive generative models of text[C]//The 28th International Conference on Machine Learning(ICML). New York, USA:ACM, 2011.

      編 輯 葉 芳

      猜你喜歡
      時(shí)空詞匯社區(qū)
      跨越時(shí)空的相遇
      社區(qū)大作戰(zhàn)
      幼兒園(2021年6期)2021-07-28 07:42:08
      本刊可直接用縮寫(xiě)的常用詞匯
      鏡中的時(shí)空穿梭
      一些常用詞匯可直接用縮寫(xiě)
      3D打印社區(qū)
      在社區(qū)推行“互助式”治理
      本刊可直接用縮寫(xiě)的常用詞匯
      玩一次時(shí)空大“穿越”
      時(shí)空之門(mén)
      芜湖县| 九江市| 扶绥县| 黔西县| 临漳县| 大港区| 永顺县| 三门峡市| 辽宁省| 汤原县| 金坛市| 天水市| 凭祥市| 屯门区| 横峰县| 盘锦市| 灯塔市| 荆州市| 祁连县| 合江县| 潮安县| 兴城市| 沂源县| 茶陵县| 永登县| 余江县| 常宁市| 股票| 南漳县| 海盐县| 永福县| 道真| 临泉县| 洛宁县| 德格县| 永兴县| 河源市| 博爱县| 隆尧县| 平江县| 石泉县|