• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于ESU圖的活動社交網絡用戶參加活動推薦

      2019-09-05 12:33:40仲兆滿戴紅偉
      中文信息學報 2019年8期
      關鍵詞:主辦方社交節(jié)點

      仲兆滿,戴紅偉,管 燕

      (1. 淮海工學院 計算機工程學院,江蘇 連云港 222005;2. 江蘇金鴿網絡科技有限公司 大數據事業(yè)部, 江蘇 連云港 222005)

      0 引言

      近幾年,活動社交網絡(Event-based Social Networks,EBSNs)引起了研究者的關注。這主要是因為其通過在線方式為用戶提供組織、參加以及分享社交活動的平臺,且用戶還可以參加真實的線下活動。比如,Meetup,Plancast,Facebook Event以及豆瓣同城等等。面對EBSNs上,在不同時間和地點舉辦的諸多活動,用戶需要花費大量時間才能尋找到自己感興趣的活動。在EBSNs上,實現活動自動向用戶精準推薦,進而讓用戶豐富業(yè)余生活、拓展社交關系和享受團隊娛樂具有重要的現實意義。

      與以往的社交網絡不同的是,EBSNs有其獨有的特點: ①活動多由主辦方舉辦。主要包含活動類型、活動內容、活動時間、活動地點以及對活動感興趣/參加的人等等信息,活動內涵更加豐富;②EBSNs上有大量實體。包含活動、用戶和主辦方等,且這些實體之間構建了特有的復雜社交關系; ③用戶參加活動不僅受活動內容的吸引,而且受社交關系、活動的時間和地點等因素的影響。

      已有的EBSNs用戶參加活動推薦的研究主要是圍繞EBSNs上的活動及用戶的屬性展開。根據研究成果利用EBSNs上的實體及其關系深度的不同,現將已有工作總結如下:

      2012年,Liu等[1]第一次定義了活動社交網絡EBSNs的概念,認為其連接了線上和線下的社交世界,是一種新型的社交媒體。在EBSNs的社群檢測時,側重于用戶和活動之間的關聯分析。

      文獻[2-3]利用了EBSNs上朋友間的關系進行活動參加預測。Chin等[2]調研了用戶參加線下活動的行為習慣,發(fā)現EBSNs上社交影響存在。并且用戶選擇參加活動在一定程度上受朋友的影響,但僅僅使用關注構建社交關系。Xu等[3]驗證了EBSNs上朋友間的相互動態(tài)影響力對活動的參加有較大的作用,考慮到了用戶的偏好和基于朋友的社交關系。

      Jamali等[4]使用社交矩陣分解技術MF(Matrix Factorization),提出了整合用戶—活動參加結果和簡單社交關系的SocialMF方法,社交影響力的計算僅考慮了用戶和活動間的關系。

      Li等[5]討論了社交活動組織(SEO)問題,而不是活動的檢測,但其僅僅考慮了屬性間的相似度及用戶間的朋友關系兩個因素。

      文獻[6-7]以豆瓣同城為例,研究了EBSNs的活動參加預測問題,側重于邀請有影響力的關注者(followers)。Yu等[6]擴展了信任分布模型識別最具影響力的被邀請者,考慮了用戶對活動的偏好及社交影響最大化。Du等[7]提出了奇異值分解方法用于活動參加的預測,考慮到了活動的內容、上下文(時空)及社交影響。

      Zhang等[8]研究EBSNs活動參加預測問題的主要思想是: 如果一個用戶對一個主題的活動感興趣,他可能參加與這個主題相關的新活動。對用戶參加活動的分析包括語義、時間和空間特征。

      Li等[9]提出了混合協(xié)作過濾模型MF-EUN,融合了活動和用戶的鄰居。為了解決社交影響矩陣的稀疏性,提出了基于附加信息的鄰居發(fā)現方法。其對EBSNs的用戶之間、用戶與活動之間、活動與舉辦方之間的建模不夠準確,且未考慮時間要素對活動推薦的影響。

      Qiao等[10]提出了貝葉斯?jié)撛谝蛩啬P陀糜诨顒油扑],該模型融合了異構社交關系、地理特征和潛在排名。Zhang等[11]側重于EBSNs上的冷啟動活動的推薦研究。

      Liu等[12]提出了上下文(靜態(tài)的和動態(tài)的)感知推薦方法SoCo,使用隨機決策樹用于用戶-活動分組,利用朋友關系推導出用戶的興趣偏好,但其構建的社交網絡圖僅僅是用戶之間的。

      Tong等[13]提出了瓶頸感知社交活動安排模型(BSEA)用于EBSNs的全局推薦,使用貪婪、隨機貪婪和基于局部搜索的最優(yōu)化技術解決BSEA的NP問題。

      Müngen等[14]將Meetup社交網絡形式化為二部圖,重點利用用戶和活動的地點進行活動推薦。

      Liu等[15]將豆瓣社交網絡形式化為9元組混合網絡,包括用戶U、活動E、群組G,發(fā)起者H和標簽T。其中,活動E包括活動時間Em、地點El、成本Ec、類型Et。使用帶重啟的隨機游走算法預測用戶參與的活動,并考慮了用戶和活動的相似性。

      已有研究存在的不足及本文的創(chuàng)新點: ①EBSNs的建模不夠準確,多強調用戶與活動之間的關系描述,例如,文獻[1,4,8],而忽略了用戶與主辦方、活動與主辦方之間的關系。本文提出的ESU圖模型,更精準的揭示了EBSNs的實體及其復雜社交關系,對面向EBSNs的后續(xù)研究有重要的參考價值; ②用戶是否參加活動是受多個因素影響的,已有方法對這些因素利用的不夠,比如文獻[2-4,6-7,9]。本文提出的基于ESU圖融合了活動對用戶的社交影響力、活動內容、地點和時間多因素的活動推薦模型,能全面的捕捉EBSNs上活動推薦的本質特征; ③由于對EBSNs建模多側重用戶和活動的關聯,因此活動與用戶之間的影響力計算多基于矩陣分解技術,未能考慮到活動主辦方的作用。例如,文獻[4,6,7,9]。本文根據ESU圖實體獨有的特點,提出了基于雙向重啟隨機游走算法BD-RWR的實體重要度計算方法,能更好的利用ESU圖的整體結構,更合理地計算不同實體的影響力。

      1 ESU圖模型

      在EBSNs中,實體主要包括活動、主辦方和用戶,這三者之間存在復雜的社交關系,每個實體又包含了多種屬性。全面地理清這些實體之間的關系及每個實體包含的屬性,是面向EBSNs開展后續(xù)研究工作的基礎。

      本文在深入調研EBSNs特點的基礎上,提出的活動—主辦方—用戶ESU(Event-Sponsor-User)圖模型,如圖1所示。

      圖1 ESU圖模型

      圖1所示的ESU圖模型中,節(jié)點e代表活動(圖左),s代表活動主辦方(圖中)和u代表用戶(圖右),圖下方是對每個實體的屬性描述。主辦方s會舉辦多個活動,與其舉辦的活動是單向關聯;主辦方s會包含多個用戶,與其包含的用戶是單向關聯;用戶之間通過關注(follow)建立單向關聯,兩者之間如果相互關注,則形成雙向關聯,并且雙向的權重不同;用戶u可以感興趣/參加活動e,用戶與活動是單向關聯。ESU圖具有較高的稀疏性,體現在以下4點: (1)活動之間沒有連接關系; (2)主辦方之間沒有連接關系; (3)用戶之間雙向關系較少; (4)一些用戶可能不屬于任何的舉辦方,不參加任何活動。

      ESU圖模型的相關概念描述如下:

      定義1 ESU圖,描述為一個二元組: ESU=(Entity,Relation)。其中,Entity代表實體,包括活動集E、主辦方集S和用戶集U;Relation代表關系,有主辦方-活動關系集SE、主辦方—用戶關系集SU、用戶-活動關系集UE以及用戶之間關系集UU。

      定義2 ESU圖活動e,描述為一個九元組:e=(id,etype,es,ebd,ec,et,el,p,w)。其中,id為活動唯一標識,etype是活動類型標簽,es為活動發(fā)起人,ebd為活動簡述,類似于活動名稱,ec為活動詳情,et為活動時間,el為活動地點,p為要參加活動的用戶,w為對活動感興趣的用戶。

      定義3 ESU圖主辦方s,描述為一個五元組:s=(id,name,type,e,u)。其中,id為主辦方唯一標識,name為主辦方名稱,type為主辦方的活動類型,e為舉辦的活動,u為關注主辦方的用戶。不同的EBSNs對活動舉辦者的稱謂有所不同,常見的有社區(qū)、社群、組織者、舉辦方、主辦方等等,本文統(tǒng)一稱為主辦方。

      定義4 ESU圖用戶u,描述為一個十元組:u=(id,name,s,l,ct,fu,bfu,fs,d,ph)。其中,id為用戶唯一標識,name為用戶名,s為用戶興趣簽名,l為用戶常居地,ct為賬號創(chuàng)建的時間,fu為他關注的用戶,bfu為關注他的用戶,fs為他關注的主辦方,d為用戶日記,ph為用戶相冊。

      定義5 ESU圖主辦方—活動關系集,描述為SE={se=(si,ej)∧si→ej|si∈S,ej∈E},主辦方si通過“舉辦”的方式與活動ej建立單向關系。

      定義6 ESU圖主辦方—用戶關系集,描述為SU={su=(si,uj)∧si→uj|si∈S,uj∈U},主辦方si通過“包含”的方式與用戶uj建立單向關系。

      定義7 ESU圖用戶—用戶關系集,描述為UU={uu=(ui,uj)∧uiuj|ui∈U,uj∈U},用戶ui和uj通過“關注”的方式建立單向關系,如果相互關注,則建立雙向關系(好友關系)。

      定義8 ESU圖用戶—活動關系集,描述為UE={ue=(ui,ej)∧ui→ej|ui∈U,ej∈E},用戶ui通過“感興趣/參加”的方式與活動ej建立單向關系。

      基于ESU圖,在全面利用實體及其關系的基礎上,可以進行重要活動、主辦方及用戶的挖掘,用戶參加活動傾向性的挖掘,活動社群檢測,信息流分析,活動到用戶的推薦或預測,用戶的活動行為分析及主辦方舉辦活動的行為分析等等系列研究。

      2 基于ESU圖的用戶參加活動推薦

      2.1 活動推薦多因素決策模型

      定義9 用戶參加活動推薦,描述為f(EF(ei),EF(uj))?YN(ei,uj),EF(·)為特征抽取函數,f(·)為根據活動ei和用戶uj的特征決策是否將活動ei推薦給用戶uj,YN(ei,uj)為決策結果,其值為“是(Yes)”和“否(No)”。

      在EBSNs上,用戶uj參加活動受到多種因素的影響,比如用戶uj的好友參加了某個活動ei,則用戶uj可能會參加活動ei;用戶uj經常參加主辦方sk的活動。當主辦方sk再次舉辦活動時,用戶uj可能參加sk舉辦的活動,這都體現為社交影響因素。當一個新活動ei到來時,如果活動ei與用戶uj曾經參加過的活動的相似度非常高,用戶uj可能參加活動ei,這體現為活動的內容因素。但EBSNs上活動的時間和地點與用戶參加活動的時間和地點又有著密切關系。比如,用戶uj習慣周末參加聚會活動,即使活動內容非常接近,但時間不吻合,用戶uj也不一定有時間參加;又如用戶uj經常參加某個地點的活動,即使活動內容非常接近但地點相距較遠,用戶uj也不一定愿意參加遠距離的活動。

      基于EBSNs的ESU圖模型,本文提出活動推薦多因素決策模型,如圖2所示。

      圖2 基于ESU圖的活動推薦多因素決策模型

      圖2所示模型中,活動ei通過ESU圖的活動—主辦方—用戶關系對用戶uj產生的社交影響力記為si(ei,uj),ei的活動內容與用戶uj曾經參加過的活動內容的相關性記為c(ei,uj),ei的活動地點與用戶uj曾經參加過的活動地點的相關性記為l(ei,uj),ei的活動時間與用戶uj曾經參加過的活動時間的相關性記為t(ei,uj),最終在四個因素的基礎上得到活動ei對用戶uj的推薦結果為YN(ei,uj)。

      下面詳細的介紹活動推薦多因素決策模型中的四個因素的計算方法。

      2.2 社交影響力因素

      ESU圖包含活動、主辦方和用戶三類實體,以及實體之間的各種關系,活動對用戶的影響力受三類實體的共同作用。

      對于構建了活動和用戶二者之間的關系模型,使用潛在因子模型可以直接挖掘活動與用戶之間的潛在主題,包括矩陣分析、概率主題模型及LDA等技術。而對于包括了多個實體及其關系的ESU圖模型而言,隨機游走算法具有明顯的優(yōu)勢。隨機游走算法具有可解釋性強、緩解稀疏性、邏輯簡潔、易于實現等優(yōu)點,其在信息檢索和推薦系統(tǒng)中已得到了廣泛的應用。

      為了計算ESU圖上活動對用戶的影響力,需要計算主辦方—活動、主辦方—用戶、用戶—用戶以及用戶—活動的關系權重,進而選取合適的隨機游走算法計算活動ei對不同用戶的影響力。

      2.2.1 主辦方—活動關系權重

      令UN(sj)為主辦方sj包含的用戶數量,UN(ei)為sj中對活動ei感興趣/參加的用戶數量。則主辦方sj-活動ei的關系權重如式(1)所示。

      (1)

      式(1)利用了主辦方sj中參加活動ei的用戶數量,及sj中所有的用戶數量度量主辦方對活動的關系權重。se(sj,ei)值越大,說明主辦方sj中有越多的用戶參與sj舉辦的活動。

      2.2.2 主辦方—用戶關系權重

      令SN(ui)為用戶ui加入的主辦方數量,EN(sj)為主辦方sj曾經舉辦的活動數量,SEN(ui)為用戶ui曾經參加的主辦方sj的活動數量,則主辦方sj-用戶ui的關系權重如式(2)所示。

      (2)

      式(2)前半部分說明用戶ui參加主辦方sj的活動越多,主辦方sj對用戶ui的影響越大;式(2)后半部分考慮到了用戶ui加入的其他主辦方數量,直觀的來講,一個用戶參加的主辦方越多,主辦方sj對該用戶的影響力就越小。

      2.2.3 用戶—用戶關系權重

      令E(u)為用戶u參加的活動集合,E(v)為用戶v參加的活動集合,S(u)為用戶u加入的主辦方集合,S(v)為用戶v加入的主辦方集合,則用戶u-用戶v的關系權重如式(3)所示。

      (3)

      式(3)綜合的考慮了用戶u和用戶v參加的共同活動和加入的共同主辦方的情況,α和β是平衡共同活動和共同主辦方之間權重的參數。

      需要注意的是,反過來,用戶v對用戶u的權重是不同的,因為v和u可能對不同數量的主辦方感興趣,也可能參加不同數量的活動,但計算方法和式(3)類似。

      2.2.4 用戶—活動關系權重

      令E(uj)為用戶uj參加過的活動集合,sj為活動ei所在的主辦方,ES(uj)為用戶uj參加過sj舉辦的活動集合。則用戶uj-活動ei的關系權重如式(4)所示。

      (4)

      式(4)說明用戶uj參加過活動ei所在的主辦方的活動越多,用戶uj對活動ei的影響就越大。

      2.2.5 基于雙向重啟隨機游走算法的節(jié)點影響力計算

      基于隨機游走的PageRank算法通過網頁間的超鏈接分析,計算每個網頁的重要性。計算方法如式(5)所示。

      (5)

      其中,Rk為第k次迭代時頁面的重要度,W表示頁面之間的連接權重,d是一個阻尼系數,取值范圍為0-1,通常取d=0.85,向量I=(1,1,…,1)T,N為網頁的數量。

      重啟型隨機游走算法RWR[15]主要用于計算圖中任意兩個節(jié)點間的結構相關性。計算圖中各個節(jié)點與節(jié)點j的結構相關性方法如式(6)所示。

      Rk=cWRk -1+(1-c)ej

      (6)

      其中,1-c為返回節(jié)點ej的概率,ej為第j維為1的單位向量,初始時R0=ej,Rk和W的含義和式(5)相同。

      ESU圖為有向圖,三類實體的重要性體現方式不同。主辦方si的重要度取決于si舉辦的所有活動及包含的所有用戶對其產生的影響,因此si的計算需要考慮其出度(Hubs),PageRank考慮的是頁面的入度?;顒觘節(jié)點的重要度取決于主辦方以及用戶對其產生的影響。用戶u節(jié)點的重要度取決于主辦方和關注他的用戶對其產生的影響。因此,ESU圖的活動和用戶重要度的計算,應該考慮其入度(Authorities)。

      因此,在計算ESU各類節(jié)點的重要度時,需要從出度和入度兩個角度出發(fā)進行迭代計算。為此,我們提出了ESU圖上基于雙向重啟隨機游走算法(BD -RWR)的節(jié)點重要度計算方法。活動主辦方的重要度、用戶和活動的重要度迭代計算分別如式(7)~式(9)所示。

      其中,sej、uej和eej分別為第j維為1的單位向量。1-c為返回節(jié)點sej、uej和eej的概率。WSE、WSU、WUU和WUE分別為主辦方—活動、主辦方—用戶、用戶—用戶和用戶-活動的關系權重。

      經過若干次迭代后,得到每個用戶ui的節(jié)點重要度。節(jié)點重要度越大,說明活動ei在ESU圖上對用戶產生的社交影響力越大,用戶越有可能參加活動ei。

      為保證隨機游走算法迭代結果的收斂,不同算法采用了不同的策略。經典的PageRank在計算節(jié)點重要度時引入阻尼系數d,確保迭代過程中不會出現節(jié)點重要度為0的情況,即認為圖是強連通的,對應的矩陣是不可約的。對于重啟型隨機游走算法RWR而言,通過添加返回起始節(jié)點的概率,同樣達到了迭代結果收斂的目的。

      定理1雙向重啟隨機游走算法BD-RWR是收斂的。

      證明: 在計算主辦方的重要度時,考慮的是節(jié)點出度,添加了返回到自身節(jié)點概率(1-c)。式(7)的轉移概率矩陣WSE和WSU分別通過2.2.1節(jié)中的主辦方-活動權重、2.2.2節(jié)中主辦方-用戶權重計算方法得到,在迭代過程中保持不變?;顒庸?jié)點初始權重E0=1/|E|,E是活動集合,用戶節(jié)點初始權重U0=1/|U|,U是用戶集合。式(7)的主辦方重要度計算轉化為單向的重啟型隨機游走算法,只是與傳統(tǒng)的隨機游走算法的方向相反而已??梢?,基于出度的主辦方重要度計算的迭代過程是收斂的。

      在計算活動和用戶節(jié)點的重要度時,考慮到節(jié)點入度,添加了返回到自身節(jié)點概率(1-c)。式(8)的轉移概率矩陣WSU和WUU分別通過2.2.2節(jié)中的主辦方-用戶權重、2.2.3節(jié)中的用戶—用戶權重計算方法得到。式(9)的轉移概率矩陣WSE和WUE分別通過2.2.1節(jié)中的主辦方—活動權重、2.2.4節(jié)中的用戶-活動權重計算方法得到。主辦方節(jié)點初始權重S0=1/|S|,S是主辦方集合。式(8)的用戶重要度計算和式(9)的活動重要度計算轉化為單向重啟型隨機游走算法??梢?,基于入度的活動和用戶重要度計算的迭代過程是收斂的。

      由以上分析可見,雙向重啟隨機游走算法BD -RWR是收斂的。

      2.3 活動內容因素

      給定一個特定活動ei后,面向用戶推薦時,需要考慮ei的活動內容與用戶uj曾經參加過活動的相似性。假設用戶uj曾經參加過的活動集合記為E(uj)。

      已有方法在計算活動ei與用戶參加過的活動E(uj)的相似度時,多是使用LDA模型從活動中提取主題,進而使用余弦相似度度量活動的相似性。

      但由于EBSNs活動資料往往比較簡練,這加重了文本資料的稀疏性,不容易從文本中準確的提取出主題。而且把所有的活動混在一起提取主題,容易把用戶參加量小的活動淹沒。

      對從豆瓣同城采集到的17 822個活動(實驗3.1節(jié))進行統(tǒng)計發(fā)現,其中85.7%的活動都帶有標簽,這為活動的相似度計算提供了便利。

      使用活動的類型標簽計算活動的相似性,活動ei與E(uj)的相似度計算方法,如式(10)所示。

      (10)

      其中,CF(ei)表示活動ei的類型標簽集合,CF(E(uj))表示用戶uj參加過活動的類型標簽集合。

      使用活動標簽的方法計算活動間的相似性不僅計算量小,而且效果也較好。實驗3.6節(jié)的結果表明,從活動內容的角度出發(fā),使用LDA模型與使用活動標簽相比,F1-measure僅僅相差0.01。

      2.4 活動地點因素

      活動地點指活動線下舉辦的真實地點。和傳統(tǒng)社交媒體不同的是,線下活動的舉辦是EBSNs獨有的特點。因此,地點因素對決定是否向用戶推薦活動有重要的作用。

      基于位置的社交網絡(Location-based Social Networks,LBSNs)相關的研究[引用]已經表明,隨著活動地點與用戶地點距離的增加,用戶參加活動的可能性會降低。通過對采集的豆瓣同城用戶參加活動地點的統(tǒng)計發(fā)現,用戶所在地點與活動舉辦地點服從冪率分布。即大多數用戶參加的活動,其地點都是離用戶地點是比較近的,在對數坐標下表現為一條直線。

      圖3顯示了北京城市用戶參加活動與用戶地點之間的關系(數據描述詳見實驗3.1節(jié),對數坐標)。

      圖3 用戶參加活動的距離概率分布

      活動ei地點與用戶uj地點的相關性計算如式(11)所示。

      (11)

      式(11)中,lei表示活動ei的地點,luj表示用戶uj的地點,dis(lei,luj)表示lei與luj的距離。地點都有一個經度和維度的數值,容易計算兩個地點的距離。

      有的EBSNs在用戶注冊時,要求通過定位的方式輸入用戶的地點。例如,Meetup;有的EBSNs在用戶注冊時,地點是用戶選取的,而且只是到了地市級別,不夠具體,比如豆瓣同城。而用戶在注冊時通過定位方式輸入的注冊地點,并不一定就是用戶的工作或者居住地點。因此,我們使用用戶曾經參加過的活動地點估算用戶的具體地點。

      EBSNs上舉辦的活動地點一般都比較具體。例如“東城區(qū),東直門南大街14號,保利劇院”,通過地圖定位容易確定活動的經緯度值。假設用戶參加過的活動集合為uj.E={e1,e2,…,em}。每個活動的地點用經緯度表示,記為uj.ek=(lon,lat)(1≤k≤m),用戶參加過活動的中心地點記為luj=(lon,lat)。uj.E包含活動的緯度的最大和最小值計算分別如式(12)、式(13)所示。

      uj.E包含活動經度的最大和最小值計算分別如式(14)、式(15)所示。

      則中心地點luj=(lon,lat)的經度和緯度的計算方法分別如式(16)、式(17)所示。

      2.5 活動時間因素

      人們參加活動受限于時間因素的影響,一般表現為天和周的周期性。例如,習慣每天下班后參加活動,或者每個周末參加活動。因此,時間因素對用戶能否參加活動有重要的影響。

      將用戶曾經參加過的與活動ei同類型的活動集合記為E(uj)(每個活動都有類型標簽),活動ei的舉辦時間記為tei,用戶參加過的同類型活動ek′∈E(uj)的舉辦時間記為tek,則活動ei的時間與同類型活動ek′的時間偏差如式(18)所示。

      (18)

      活動ei與用戶uj的時間偏差計算方法如式(19)所示。

      (19)

      式(19)在計算活動ei與用戶uj的時間偏差時,一方面考慮活動的類型,因為不同的時間,用戶參加的活動是不同的。例如,晚上參加聚會,而周末參加旅游;另一方面,使用用戶uj參加過的活動中與ei舉辦時間最靠近的活動時間偏差作為度量標準,可以避免求平均值帶來的偏差。

      在計算活動時間的偏差時,不考慮年、月和日的差別,只考慮小時的偏差情況。例如,活動ei的舉辦時間tei=“2017年7月1日15點”,活動ek′的舉辦時間tek′=“2017年7月23日14點”,則(tei-tek′)2=(15-14)2=1。

      3 實驗及分析

      3.1 實驗數據及評價指標

      本文選取豆瓣同城的數據作為實驗語料。豆瓣同城擁有超過3千萬用戶,且線下活動的開展活躍度也很高。近期的不少研究成果也都使用豆瓣作為實驗數據的來源,包括文獻[2,6,7,9,12]。

      使用豆瓣提供的開放接口“API V2”獲取采集數據。例如,通過接口“https: //api.douban.com/v2/event/28684165”可以獲取一個活動JSON格式的信息。在采集用于分析的數據的時間段上,Zhang等[8]實驗結果表明,使用60天的數據進行分析效果已經足夠好。因此,我們采集了豆瓣同城北京市2017年3月1日—2017年4月30日,共計61天的數據。為了避免一些不活躍用戶或者活動對總體實驗結果的影響,刪除其中的一些非常不活躍的用戶及活動。感興趣/參加活動少于5個的用戶認為是冷啟動用戶,占所有用戶總數的9%;如果某個活動感興趣/參加的人數少于8個就認為是冷啟動活動,占所有活動總數的6%。經過對2個月的數據進行預處理之后,共得到8 663個用戶,17 822個活動,294個主辦方。

      在EBSNs中,用戶對于某個活動用參加或者不參加來表示,可以將活動參加問題轉換為一個二分類問題。實驗時,隨機選取數據集中的80%用于訓練,其他的20%用于測試。

      實驗方法通過WEKA平臺實現,WEKA是一個基于JAVA公開的數據挖掘工作平臺,集成了大量數據挖掘和機器學習算法,包括數據的預處理、分類、回歸、聚類、關聯規(guī)則和交互式界面上的可視化等等。

      使用F1-measure=(2×P×R)/(P+R)作為評測指標,其中P是推薦用戶參加活動的準確率,R是推薦用戶參加活動的召回率。

      3.2 實驗方法

      本文共選用了6種實驗方法用于實驗的分析和比較,分別介紹如下:

      ? 基本的矩陣分解方法,它只考慮用戶-活動的參加結果,矩陣中元素的權值使用本文式(4)計算,簡記為MF;

      ? 使用了矩陣分解相關的信任傳播,整合了用戶-活動參加結果和簡單社交關系,用戶社交關系的構建使用本文提出的式(3),類似于文獻[4]提出的方法,簡記為SocialMF,參數設置,λu=λv=0.1,λT=5;

      ? 文獻[9]提出的方法,簡記為MF-EUN-ER,影響力的閾值設置為0.5,活動的鄰居k1=50,用戶的鄰居k2=60,區(qū)域聚類個數t=20;

      ? 由于決策樹方法可讀性好,有助于人工分析,所以使用經典的J48決策樹方法檢驗本文所提4個因素的效果。四個因素的計算方法如第2節(jié)所述,其中用戶間關系權重參數α=β=0.5(經過實驗確定),簡記為F4-DT-ER;

      ? 本文所提方法的變形,活動內容主題的提取使用LDA模型,其他因素計算方法不變,參考文獻[9],對LDA涉及的參數分別設置為α=50/k,β=0.01,k為主題的個數,k=70,簡記為F4-C-DT-ER;

      ? 本文所提方法的變形,社交影響力的計算使用經典的PageRank方法,其他因素計算方法不變。類似于文獻[6-7]所提方法,簡記為F4-SI-DT-ER。

      3.3 總體推薦結果

      對于用戶參加活動的推薦總體結果,使用四種方法進行比較,分別是MF、SocialMF、MF-EUN-ER和F4-DT-ER。四種方法獲取的結果如表1所示。

      表1 四種方法獲取的總體推薦結果

      由表1可見,本文提出的方法F4-DT-ER獲取的結果最為理想。F1-measure=0.86,其次是MF-EUN-ER方法,F1-measure=0.80。四種方法中,MF的效果最差,F1-measure=0.67。主要原因是其僅僅從用戶和活動之間的關系出發(fā),忽略了EBSNs上的很多其他關系,類似于傳統(tǒng)用戶—項目之間的推薦方法,這也說明傳統(tǒng)的推薦方法用于EBSNs的用戶參加活動推薦效果是比較差的。方法SocialMF的效果有所提升,F1-measure=0.72,原因是其考慮到了社交關系,考慮到了用戶間的信任傳播,但其僅僅是考慮了用戶之間的社交關系,對其他實體間的關系利用不夠。方法MF-EUN-ER根據EBSNs具有的特點,考慮到了活動內容、活動地點及社交關系,得到的結果有了很大程度的改善,F1-measure值比NMF提高了0.13,比SocialMF提高了0.08。本文所提方法F4-DT-ER深入的分析利用了EBSNs獨有的社交關系特點,提出了ESU圖的用戶影響力計算方法,很好的利用了活動的內容、地點及時間因素,取得了最好的效果。

      這說明,對EBSNs而言,需要抓住其獨有的特點,綜合的考慮多個方面的因素,才能取得更好的用戶參加活動推薦結果。而本文所提的ESU圖表示模型、社交影響力計算方法、活動推薦多因素決策模型都是EBSNs所獨有的特點。

      3.4 不同特征的貢獻

      為了檢驗4類因素對用戶參加活動推薦結果的影響,使用經典J48決策樹,對4類因素進行考察。僅僅使用內容因素C、空間因素L、時間因素T和社交影響因素SI的方法,分別記為C-DT-ER、L-DT-ER、T-DT-ER和SI-DT-ER。不考慮社交影響因素SI,只使用內容因素C、空間因素L和時間因素T,該方法記為CLT-DT-ER。只使用社交影響因素,不考慮內容因素C、空間因素L和時間因素T,該方法記為SI-DT-ER。共計使用6種方法進行實驗的對比和分析。

      對每種方法,進行4次交叉檢驗,最后取平均值。6種方法得到結果如表2所示。

      表2 六種方法獲取的推薦結果

      由表2可見,方法T-DT-ER、L-DT-ER、C-DT-ER和SI-DT-ER都使用單一的因素進行用戶參加活動推薦,效果最好的是SI-DT-ER,F1-measure為0.69。這說明在EBSNs上,有效的利用ESU圖的社交關系,進行合理的影響力計算便可以取得較好的效果。單一的使用時間T效果最差,F1-measure為0.32。因為時間T雖然靠近,但活動的內容用戶不一定感興趣,地點可能離用戶較遠,不方便參加。單一的使用地點L效果也很差,F1-measure為0.33。因為地點L雖然靠近,但活動的內容用戶不一定感興趣,用戶不一定有時間參加。單一的使用內容C效果有所提升,F1-measure為0.55,這說明內容因素發(fā)揮的作用較大。方法CLT-DT-ER使用了內容C、地點L和時間T因素,F1-measure為0.72,效果已經較好。方法F4-DT-ER有效的利用了EBSNs上的四類因素,取得了最好的效果。

      3.5 社交影響力計算的影響

      本文在EBSNs上,根據ESU圖實體獨有的入度和出度的特點,分實體類型使用雙向重啟隨機游走算法迭代計算節(jié)點的重要度。為了檢驗本文所提社交影響力計算方法的有效性,使用兩種方法進行實驗分析和比較,分別是F4-DT-ER和F4-SI-DT-ER。

      對每種方法,進行四次交叉檢驗,最后取平均值。方法F4-DT-ER和F4-SI-DT-ER得到的推薦結果如表3所示。

      表3 方法F4-DT-ER和F4-SI-DT-ER獲取的推薦結果

      由表3可見,方法F4-SI-DT-ER的效果也比較理想,F1-measure為0.75。PageRank方法強調節(jié)點的入度,在ESU圖上,對活動、用戶兩類實體計算是合理的。但對主辦方而言,其實體影響力的計算應該使用其出度。方法F4-DT-ER在計算節(jié)點影響力時,采用分而治之的策略,對不同實體采用不同的計算方法,體現出了ESU圖獨有的社交特性,因此取得的效果最好。

      3.6 內容特征提取的影響

      活動內容主題的提取,對基于內容進行活動推薦有重要的影響。已有的方法多是使用LDA模型提取活動主題,本文根據EBSNs上的活動標簽描述比較豐富(約85.7%的活動有標簽)的特點,使用標簽計算活動之間的相似性。為了檢驗所提方法的有效性,使用兩種方法F4-DT-ER和F4-C-DT-ER進行實驗比較。對采集到的17 822個活動,刪除沒有標簽的活動,還剩下15 273個活動。對這些活動,同樣是隨機選取80%進行訓練,20%進行測試。

      對每種方法,進行四次交叉檢驗,最后取平均值。方法F4-DT-ER和F4-C-DT-ER得到的推薦結果如表4所示。

      表4 方法F4-DT-ER和F4-C-DT-ER獲取的推薦結果

      由表4可見,方法F4-C-DT-ER的效果非常理想,F1-measure為0.85。這說明使用LDA模型提取活動的主題是能夠獲取較好的效果,相比方法F4-DT-ER使用活動的標簽僅相差0.01。但基于LDA模型的活動內容相關度計算的復雜度遠遠高于基于活動標簽的方法。因此,對EBSNs而言,使用活動標簽計算內容相似度,不但計算工作量小,而且能夠獲取較好的效果。

      4 總結及展望

      本文以活動社交網絡EBSNs的用戶參與新活動推薦為出發(fā)點,在總結已有研究方法的優(yōu)點及不足的基礎上,提出了EBSNs的活動—主辦方—用戶(ESU)圖表示模型,揭示了EBSNs上的實體及其復雜的關聯關系。由于用戶參加活動受多方面因素的影響,在ESU圖的基礎上,提出了活動推薦多因素決策模型。進而,根據ESU圖的特點,提出了分實體類型的基于雙向重啟隨機游走算法的節(jié)點重要度計算方法。選取豆瓣同城進行了數據的采集、推薦模型、各個因素計算方法的對比分析。

      雖然本文在EBSNs的用戶參加活動推薦方向取得了一定的進展,但針對如下問題還需要進一步提升: ①本文的活動推薦面向的主要是EBSNs的活躍用戶,冷啟動用戶參與活動的推薦需要借鑒已有的方法并結合EBSNs獨有的特點加以解決; ②EBSNs活動內容的描述體現在活動名稱(活動概述)、活動詳情、活動標簽、活動類型等等方面,如何全面的衡量活動之間的相似度需要進一步研究; ③用戶在EBSNs上,除了有與活動相關的信息外,還有用戶喜歡、用戶日記、用戶相冊、用戶評論等等信息。這些信息對用戶參加活動的推薦作用如何,需要進一步研究; ④面向EBSNs,除了進行用戶參加活動的推薦研究之外,其他內容也需要深入研究。含主辦方和用戶行為分析,社區(qū)檢測(含重疊社區(qū)),社區(qū)及用戶的傾向性分析等等。

      致謝

      感謝江蘇金鴿網絡科技有限公司為本研究提供的實驗數據集。

      猜你喜歡
      主辦方社交節(jié)點
      社交之城
      英語世界(2023年6期)2023-06-30 06:28:28
      主辦方寄語
      生活用紙(2022年10期)2022-10-11 08:06:18
      CM節(jié)點控制在船舶上的應用
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      Analysis of the characteristics of electronic equipment usage distance for common users
      基于AutoCAD的門窗節(jié)點圖快速構建
      UFI:對接會在展會中越來越重要
      出展世界(2020年3期)2020-09-30 06:47:05
      社交距離
      第一財經(2020年4期)2020-04-14 04:38:56
      你回避社交,真不是因為內向
      文苑(2018年17期)2018-11-09 01:29:28
      維權贏回征文獎
      湘西| 平武县| 门源| 峨眉山市| 自治县| 砚山县| 岐山县| 方城县| 沙田区| 玉环县| 繁峙县| 清镇市| 双江| 北京市| 孟连| 普格县| 金乡县| 浦县| 大埔区| 墨竹工卡县| 云龙县| 贵南县| 东阳市| 洱源县| 腾冲县| 甘泉县| 武城县| 航空| 湟源县| 岑溪市| 阳东县| 宁陵县| 原阳县| 黄山市| 安平县| 奎屯市| 平果县| 琼海市| 合川市| 建宁县| 澎湖县|